Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
1. Introduction to Data Mining o o o o o o o What is data mining? Related technologies - Machine Learning, DBMS, OLAP, Statistics Data Mining Goals Stages of the Data Mining Process Data Mining Techniques Knowledge Representation Methods Applications Definície čo je data mining "Netriviálna extrakcia implicitných, predtým neznámych a potenciálne užitočných informácií z dát" William J Frawley, Gregory Piatetsky-Shapiro and Christopher J Matheus Data mining hľadá hodnotné informácie ukryté v obsiahlych množstvách údajov Data mining je analýza údajov a využitie softvérových techník pre nájdenie vzorov a pravidelností v súboroch údajov. Počítač je zodpovedný za nájdenie vzorov pre identifikovanie podstatných pravidiel a znakov v databáze Je možné staviť na zlato , že v neočakávaných oblastiach data miningový softvér objaví vzory predtým zreteľných alebo tak zrejmé, že si ich predtým nikto nevšimol Analógia mining: o Veľké objemy dáat sú presúvané v snahe priblíženia sa zisteniu, ktoré za niečo stojí. o V miningových operáciách je veľké množstvo nízko kvalitných údajov presúvaných s cieľom nájsť niečo hodnotné. Related technologies - Machine Learning, DBMS, OLAP, Statistics Machine Learning Strojové učenie je druh umelej inteligencie (AI), ktorá poskytuje počítaču schopnosť učiť sa, bez toho, aby bol explicitne naprogramovaný. Strojové učenie sa zameriava na vývoj počítačových programov, ktoré môžu učiť ostatných rásť a meniť sa , pokiaľ sú dopĺňané novými dátami. Proces strojového učenia je podobný dolovaniu dát. Oba systémy prehľadávajú cez databázy vzory. Avšak namiesto toho, aby získavali údaje pre ľudské chápanie - ako je tomu v miningových dátových aplikáciách - strojové učenie využíva tieto dáta k detekovaniu vzorov v dátach a podľa toho upravuje programové podujatia. Algoritmy strojového učenia sú často klasifikované ako kontrolovateľné alebo nekontrolovateľné. Kontrolovateľné algoritmy možno aplikovať to, čo sme sa naučili v minulosti z nových dát. Nekontrolovateľné algoritmy- závery možno vyvodiť zo súboru údajov. Machine Learning vs. Data Mining Large Data sets in Data Mining Efficiency of Algorithms is important Scalability of Algorithms is important Real World Data Lots of Missing Values Pre-existing data - not user generated Data not static - prone to updates Efficient methods for data retrieval available for use Domain Knowledge in the form of integrity constraints available. DBMS A database management system (DBMS) Systém pre správu databáz (DBMS) je softvér, ktorý umožňuje počítaču vykonávať databázové funkcie ukladanie, vyhľadávanie, pridávanie, odstraňovanie a úpravy dát. Relačný systém databáz (RDBMS) umožňuje zaviesť relačný model tabuliek a vzťahov. Examples: Microsoft Access, MySQL, Microsoft SQL Server, Oracle and FileMaker Pro are all examples of database management systems. Data Mining vs. DBMS Example DBMS Reports o Last months sales for each service type o Sales per service grouped by customer sex or age bracket o List of customers who lapsed their policy Questions answered using Data Mining o What characteristics do customers that lapse their policy have in common and how do they differ from customers who renew their policy? o Which motor insurance policy holders would be potential customers for my House Content Insurance policy? OLAP On-line Analytical Processing (OLAP) V krátkosti pre Online Analytical Processing, je kategória softvérových nástrojov, ktoré poskytujú analýzu dát uložených v databáze. OLAP nástroje umožňujú používateľom analyzovať rôzne rozmery viacrozmerných dát. Napríklad poskytuje časové rady a výhľad na analýzu trendov. OLAP je často používaný v dolovaní dát. Hlavným prvkom OLAP je OLAP server, ktorý sedí medzi klientom a systémov pre správu databáz (DBMS). OLAP Server vie, ako sú dáta organizované v databáze a má zvláštne funkcie pre analýzu dát. Existujú OLAP servery dostupné pre takmer všetky hlavné databázové systémy. Multi-Dimensional Data Model (Data Cube) Operations: o Roll-up o Drill-down o Slice and dice o Rotate Statistical Analysis Ill-suited for Nominal and Structured Data Types Completely data driven - incorporation of domain knowledge not possible Interpretation of results is difficult and daunting Requires expert user guidance Data mining ciele: Classification - Klasifikácia DM system learns from examples or the data how to partition or classify the data i.e. it formulates classification rules Example - customer database in a bank o Question - Is a new customer applying for a loan a good investment or not? o Typical rule formulated: if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes then INVESTMENT_TYPE = good Association - Asociácia Pravidlá, ktorými sa asociuje jeden atribút vo vzťahu k druhému atribútu. Nastavenia orientovaných prístupov sú najúčinnejším prostriedkom k objaveniu nových pravidiel. Príklad: o 72% všetkých záznamov, ktoré obsahujú položky A a B obsahujú tiež časť C o špecifické percento výskytu, 72 je faktor spoľahlivosti pravidlá Sequence/Temporal – Sekvenčnosť/ Dočasnosť Sekvenčné vzory funkcií analyzujú zbierky súvisiacich záznamov a odhaľujú často sa vyskytujúce vzory v priebehu času Rozdiel medzi pravidlami sekvencií a ďalších pravidiel je časový faktor Príklad – databázy obchodníkov môžu byť použité pre objavenie množiny nákupov, ktoré často predchádzajú nákupu mikrovlnnej rúry Comparison related Database management systems (DBMS), Online Analytical Processing (OLAP) and Data Mining Area DBMS OLAP Data Mining Task Extraction of detailed and summary data Knowledge discovery of Summaries, trends and forecasts hidden patterns and insights Type of result Information Analysis Method Deduction (Ask the question, verify with data) Induction (Build the model, Multidimensional data modeling, apply it to new data, get Aggregation, Statistics the result) Example question Who purchased mutual What is the average income of funds in the last 3 mutual fund buyers by region by years? year? Insight and Prediction Who will buy a mutual fund in the next 6 months and why? Stages of the data mining process Data pre-processing o Rôznorodosť o Čistenie údajov o Transformácia údajov o Redukcia údajov o Diskretizacia a vytváranie koncepcie hierarchie Creating a data model: applying Data Mining tools to extract knowledge from data Testing the model: the performance of the model (e.g. accuracy, completeness) is tested on independent data (not used to create the model) Interpretation and evaluation: the user bias can direct DM tools to areas of interest o Attributes of interest in databases o Goal of discovery o Domain knowledge o Prior knowledge or belief about the domain Zdroj: computmenia.blogspot.com Data mining Techniques Nastavenia orientované na databázové metódy Štatistiky: can be used in several data mining stages o data cleansing: removal of erroneous or irrelevant data o EDA (exploratory data analysis): frequency counts, histograms etc. o data selection and sampling: reduce the scale of computation o attribute re-definition o data analysis - measures of association and relationships between attributes, interestingness of rules, classification etc. Visualization: enhances EDA, makes patterns more visible Clustering (Cluster Analysis) o Clustering a segmentácia je v podstate rozdelenie databázy tak, aby každý oddiel alebo skupina bol podobný podľa niektorých kritérií alebo metriky o Clustering podľa podobnosti je koncept, ktorý sa objavuje v mnohých odboroch, napr. zhlukovaniu molekúl v chémii o Aplikácie data mining využivajú clustering podľa podobnosti napr. Segmentácia klienta / zákaznícká databáza o Poskytuje podskupiny populácie pre ďalšiu analýzu alebo akcie - veľmi dôležité, ak sa jedná o veľmi rozsiahlych databáz Knowledge Representation Methods Neural Networks o Trénované neurónové siete môžu byť chápané ako “expert” v kategórii informácii ktoré boli poskytnut pre analýzu o Poskytujú projekciu sdanú novou situáciou záujmu a odpovede na otázky typu "what if" o Problémy zahŕňajú: Výsledná sieť je videná ako čierna skrinka Žiadne vysvetlenie výsledkov, je veľmi ťažké interpretovať výsledky ťažké začleniť zásah užívateľa spomalené trénovanie v dôsledku ich iteratívnej povahy. Decision trees o Využiva sa k prezentovaniu vedomostí o Je postavený na využívaní tréningových dát a môže byť následne využitý ku klasifikovaniu nových objektov o problemy sú nasledovné: opačná štruktúra – náročné porozumieť chýbajúce údaje môžu zapríčniť problémy s výkonom stanú ťažkopádne pre prenos veľkých dátových súborov Pravidlá o asi najbežnejšie forma reprezentácie o majú tendenciu byť jednoduché a intuitívne o neštruktúrované a menej rigidné O problémy sú: zachovať adekvátne k reprezentovaniu mnohých typov vedomostí Príklad formátu: ak X, potom Y 2. Data Warehouse and OLAP 3. Data Warehouse and OLAP Data Warehouse and DBMS 1. What is Data Warehouse? o A decision support database that is maintained separately from the organization’s operational database. o Support information processing by providing a solid platform of consolidated, historical data for analysis. 2. Data warehousing o Subject-oriented: Organized around major subjects, such as customer, product, sales. Focusing on the modeling and analysis of data for decision making, not on daily operations or transaction processing. Provide a simple and concise view around particular subject by excluding data that are not useful in the decision support process. o Integrated Constructed by integrating multiple, heterogeneous data sources as relational databases, flat files, on-line transaction records. Providing data cleaning and data integration techniques. o Time variant The time horizon for the data warehouse is significantly longer than that of operational systems. Every key structure in the data warehouse contains an element of time (explicitly or implicitly). o Non-volatile A physically separate store of data transformed from the operational environment. Does not require transaction processing, recovery, and concurrency control mechanisms. Requires only two operations in data accessing: initial loading of data and access of data (no data updates). 3. OLTP vs. OLAP. o Users: clerk , IT professional vs. knowledge worker o Function: day to day operation vs. decision support o DB design: application oriented vs. subject-oriented o Data: current vs. historical o o o o Queries: simple vs. complex Number of records accessed: tens vs. millions Number of user: thousands vs. hundreds DB size: 100MB-GB vs. 100 GB - TB Multidimensional data model Let us consider the weather data defined in the introduction. The dependent variable play has just two values - yes and no. As these values are mutually exclusive, we can replace them by 1 and 0 respectively. This will allows us to add up values and thus get the total number of days when tennis was played and at the same time the number of days tennis was not played (the complement of the former to the total number of days). Let us also rename the day attribute into time, which is more general and will allow us to use other time units (e.g. weeks). Thus we get the following relational table. time outlook temperature humidity windy play 1 sunny 85 85 false 0 2 sunny 80 90 true 0 3 overcast 83 86 false 1 4 rainy 70 96 false 1 5 rainy 68 80 false 1 6 rainy 65 70 true 0 7 overcast 64 65 true 1 8 sunny 72 95 false 0 9 sunny 69 70 false 1 10 rainy 75 80 false 1 11 sunny 75 70 true 1 12 overcast 72 90 true 1 13 overcast 81 75 false 1 14 rainy 91 true 0 71 Concept hierarchies Let us assume also that we know some partial ordering among the values of the attributes. These partial ordering define the so called concept hierarchies. For example, for attributes day, temperature andhumidity we can group values in subsets and name these subsets, thus obtaining the following hierarchies (all denotes the set of all values). day: all ______|_________ | | week 1 week 2 _____|_____ _______|_______ | | | | | | | | | | | | | | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 temperature: all ____________|_____________ | | hot mild ____|___ | | | | cool ___|____ | 80 81 83 85 | | | ___|____ | | 70 71 72 75 | | | 64 65 68 69 humidity: all ______|________ | high ______|_______ | | | | | | 85 86 90 91 95 96 | normal ___|____ | | | | 65 70 75 80 We may also extend the sets of numbers or replace them with intervals, which will make the hierarchy complete (covering all possible values). For example, humidity may look like this: all ____|____ | | high normal | [85,96] | [65,84] For the nominal (non numeric) attributes outlook and windy we define one-level hierarchies, as their values cannot be ordered or grouped. outlook: all _______|________ | | sunny | rainy overcast windy: all ___|____ | true | false Data cube To create a data cube we have to: 1. Select dimensions, that is select a subset of attributes. For example, let us select time and temperature. Thus we will create a two-dimensional data cube. 2. Select levels in the concept hierarchies. For example, let us select weeks for time and degrees for temperature. 3. Select a measure to populate the cube. This is the attribute whose values will be aggregated across the dimensions (obviously it has to be numeric). Let us select play. Then placing the time values in the rows and the temperature values in the columns we get the following cube: 64 65 68 69 70 71 72 75 80 81 83 85 week 1 1 0 1 0 1 0 0 0 0 0 1 0 week 2 0 0 0 1 0 0 1 2 0 1 0 0 The numbers in the internal cells are obtained by adding up the values of the play attribute, where the time and the temperature attribute are equal to the values in the corresponding row and column. For example the value 2 (row 2, column 8) means that tennis was played two days during week 2 when the temperature was 75.