Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data. kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ... en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,... 1 Architecture Reporting Source Systems Data Warehouse Query and (Multidimensional) Analysis (OLAP, Mining) ERP CRM Portal Data Marts Legacy Client/ Notification Dashboards Other Data Extract Transform Load (ETL) External Metadata Score cards Performance management 2 Verification driven analysis (Analyst proposes possible patterns, Verification by the analyst) Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques Discovery driven data mining (Automated search for patterns, Verification partly automatic) Classification Segmentation Associations Sequence analysis 3 Data mining versus KDD Knowledge Discovery From Data (KDD): “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996) Data Mining: stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP) 4 Het KDD traject Interpretation and Evaluation Dumps of operational data t Understanding what data is needed for the application Data Transformation (Binning, alpha to numeric, etc) Data Cleaning Data Selection Patterns Transformed Data Source Data Data Mining Data Mining Mart Knowledge Application Preprocessed Data 5 Data preprocessing Het nemen van een steekproef Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference) Types van data Continu (inkomen) categorisch Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het gemiddelde Extreme waarden (outliers) Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = 10000 Euro per maand (correcte observatie) Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant niet aangekocht gedurende vorige 3 maand) 6 Data mining Een systeem waarmee het mogelijk is om op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools). Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse, ...). Data mining is ontdekking-gebaseerd. 7 Data mining taken Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie Descriptieve data mining Associatie analyse Sequentie analyse Clustering ... 8 Predictieve data mining: classificatie Voorspellen van een discrete doelvariabele op basis van andere variabelen Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-detectie, churn voorspelling, … Technieken: Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken 9 Classificatie: beslissingsbomen inkomen > 50.000 € nee ja job > 3 jaar ja weinig risico nee hoog risico hoge schuld ja hoog risico nee weinig risico 10 Training set versus Test set Classification algorithm training data Age 20 18 40 50 35 30 32 40 Car Type Combi Sports Sports Family Minivan Combi Family Combi Risk High High High Low Low High Low Low Classifier (model) if age < 31 or Car Type =Sports then Risk = High 11 Training set versus Test set Classifier (model) test data Age 27 34 66 44 Car Type Sports Family Family Sports Risk High Low High High Risk High Low Low High 12 Prediction Classifier (model) new data Age 27 34 55 34 Car Type Sports Minivan Family Sports Risk Risk High Low Low High 13 Scorecard voor credit scoring Characteristic Name Attribute Scorecard Points AGE 1 Up to 26 100 AGE 2 26 - 35 120 AGE 3 35 - 37 185 AGE 4 37+ 225 GENDER 1 Male 90 GENDER 2 Female 180 SALARY 1 Up to 500 120 SALARY 2 501-1000 140 SALARY 3 1001-1500 160 SALARY 4 1501-2000 200 SALARY 5 2001+ 240 Let cut-off = 500 So, a new customer applies for credit …… AGE GENDER SALARY Total 32 Female £1,150 120 points 180 points 160 points 460 points REFUSE CREDIT 14 Predictieve data mining: regressie Doelvariabele is continu Voorbeelden: Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers Technieken: Lineaire regressie Neurale netwerken 15 Descriptieve data mining: associatieanalyse Detecteren van frequent voorkomende patronen tussen items Voorbeeld: If a customer buys spaghetti, then the customer also buys red wine in 70% of the cases. Toepassingen Market basket analysis Web usage mining Recommender systems … Transaction ID 0001 0002 0003 0004 0005 … 0052 0053 Items Bread, Milk, Apple Bread, Milk, Eggs, Pen Cold Drink, Chocolate, Milk Bread, Orange Fish, Vegetables … Paper, Pencil Meat, Oil, Milk 16 Associatie-regels: voorbeeld Transaction 01 02 03 04 05 06 07 Items Wine Bread Milk Wine Beer Butter Milk Bread Beer Butter Milk Wine Bread Butter Milk Bread Eggs Butter Milk Wine Bread Beer Wine Bread Butter E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has confidence=3/4 + 17 Market basket analyse Detecteren welke producten vaak samen aangekocht worden implicaties voor store layout shelve organisation target marketing product bundling 18 Diapers and Beer example Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights. After moving the beers next to the diapers, the beer sales increased by 15% on Fridays. Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers? 19 Descriptieve data mining: sequentie analyse Detecteren van temporele patronen Voorbeeld Klant koopt eerst product X, daarna, product Y, daarna product Z 60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days. 20 Web usage mining Web usage mining Implicaties voor Minen van web logs voor het ontdekken van navigatie-patronen van een web site Verbeteren van web site ontwerp Identificeren van prime advertisement locaties Voorbeelden: 40% of clients who accessed the Web page with URL /company/products/product1.html, also accessed /company/products/product2.html 30% of clients who accessed /company/announcements/specialoffer.html, placed an online order in /company/products/product1 21 Descriptieve data mining: clustering Identificeren van homogene groepen van subjecten Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit Voorbeeld: marktsegmentatie 22 Post processing Visualiseren van de patronen (bv. met behulp van OLAP) Interpreteren van de patronen Valideren van de patronen: constrasteren van de patronen met domeinkennis Integreren van de patronen in nieuwe systemen 23 Waarschuwing data mining Een bepaald verband wijst niet noodzakelijk op causaliteit (opletten voor transitiviteit!) 24 Data Mining bloopers Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi). Explanation: Correlation does not imply causality ! A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi). Explanation: The field was mandatory in the entry systems and hitting 111111 was the easiest way to get to the next field ! 25 Nieuwe data mining toepassingen: bestrijden van terrorisme “Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004) Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, e-mails websites and housing” “A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004) Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE) 26 Problemen en uitdagingen Civil liberties? Privacy? “They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759) Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs? MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named. How to create a testbed data set? 27 Algemeen voorbeeld organisatie van beslissingsproces Switch operationeel informatiesysteem voor het beheren van de logistiek van een luchthaven. gate allocation flight data bagage handling air traffic control Operationele DB catering Interne informatie Evolutie bagagevolumes Externe informatie Analoge gegevens van andere luchthavens airport security fuel 1 Evolutie vertragingen billing DW DB Evoluties aantal vluchten (land, bestemming, periode, ...) Evoluties aantal passagiers (land, bestemming, maatschappij, transit, ...) 28 OLAP Data mining 2 OLAP Data mining kennis DW DB ter ondersteuning van beslissingen maatschappij-profiel DM DB kennis Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S. Verona – Brussel met snelle transit Brussel -> V.S. 29