Download Bedrijfsaspecten van IS

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Knowledge Discovery from Data
(KDD)
Het niet-triviale proces van het identificeren van
geldige, nieuwe, potentieel bruikbare en
uiteindelijk verstaanbare patronen in data.
kan worden gebruikt voor vele taken:
classificatie, associatieregels opstellen, ...
en voor het uitvoeren van elke taak kunnen
meerdere technieken worden gebruikt:
beslissingsbomen, neurale netwerken, a priori
algoritmen,...
1
Architecture
Reporting
Source
Systems
Data
Warehouse
Query and
(Multidimensional)
Analysis
(OLAP, Mining)
ERP
CRM
Portal
Data Marts
Legacy
Client/
Notification
Dashboards
Other Data
Extract
Transform
Load
(ETL)
External
Metadata
Score
cards
Performance
management
2
Verification driven analysis
(Analyst proposes possible patterns, Verification by the
analyst)




Query and basic reporting
OLAP
Automation of Enterprise Reporting
Statistical techniques
Discovery driven data mining
(Automated search for patterns,
Verification partly automatic)




Classification
Segmentation
Associations
Sequence analysis
3
Data mining versus KDD



Knowledge Discovery From Data (KDD): “...the
non-trivial process of identifying valid, novel, potentially
useful, and ultimately understandable patterns in data.”
(Fayyad, 1996)
Data Mining: stap van het KDD proces waarbij
patronen uit data geëxtraheerd worden door het
uitvoeren van computationele algoritmes
Computer gestuurde ontdekking van (onverwachte)
patronen in plaats van gestuurd door de eindgebruiker (cf.
OLAP)
4
Het KDD traject
Interpretation
and
Evaluation
Dumps of operational data
t
Understanding
what data is
needed for the
application
Data
Transformation
(Binning, alpha to
numeric, etc)
Data Cleaning
Data
Selection
Patterns
Transformed
Data
Source
Data
Data Mining
Data Mining
Mart
Knowledge
Application
Preprocessed
Data
5
Data preprocessing

Het nemen van een steekproef


Credit scoring: enkel informatie omtrent goedgekeurde aanvragen,
met andere woorden de data is vertekend (reject inference)
Types van data


Continu (inkomen)
categorisch




Ontbrekende waarden (missing values)


Hoe opvangen? Bijvoorbeeld door vervangen door het gemiddelde
Extreme waarden (outliers)


Nominaal: huwelijksstatus
Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D)
Binair: geslacht
Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = 10000
Euro per maand (correcte observatie)
Beslissing omtrent doelvariabele


Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen
betalingsachterstand volgens Basel II richtlijn)
Churn management: hoe definieer je klantverloop? (bv. Klant niet
aangekocht gedurende vorige 3 maand)
6
Data mining
Een systeem waarmee het mogelijk is om op
basis van gegevens in het DW onvermoede
patronen (verbanden) op te sporen (data
mining- tools).
Daarbij worden vooral diverse statistische
technieken aangewend (bv. beslissingsbomen
voor classificatie, associatieregels opstellen
voor associatie-analyse, ...).
Data mining is ontdekking-gebaseerd.
7
Data mining taken

Predictieve data mining: voorspellen van
een doelvariabele op basis van andere
variabelen



Classificatie
Regressie
Descriptieve data mining




Associatie analyse
Sequentie analyse
Clustering
...
8
Predictieve data mining:
classificatie


Voorspellen van een discrete doelvariabele op basis
van andere variabelen
Voorbeelden:


Credit scoring, bankroetvoorspelling, OCR, fraude-detectie,
churn voorspelling, …
Technieken:



Statistisch (Logistieke regressie)
Beslissingsbomen
Neurale netwerken
9
Classificatie: beslissingsbomen
inkomen > 50.000 €
nee
ja
job > 3 jaar
ja
weinig
risico
nee
hoog
risico
hoge schuld
ja
hoog
risico
nee
weinig
risico
10
Training set versus Test set
Classification
algorithm
training
data
Age
20
18
40
50
35
30
32
40
Car Type
Combi
Sports
Sports
Family
Minivan
Combi
Family
Combi
Risk
High
High
High
Low
Low
High
Low
Low
Classifier
(model)
if age < 31
or Car Type =Sports
then Risk = High
11
Training set versus Test set
Classifier
(model)
test
data
Age
27
34
66
44
Car Type
Sports
Family
Family
Sports
Risk
High
Low
High
High
Risk
High
Low
Low
High
12
Prediction
Classifier
(model)
new
data
Age
27
34
55
34
Car Type
Sports
Minivan
Family
Sports
Risk
Risk
High
Low
Low
High
13
Scorecard voor credit scoring
Characteristic
Name
Attribute
Scorecard
Points
AGE 1
Up to 26
100
AGE 2
26 - 35
120
AGE 3
35 - 37
185
AGE 4
37+
225
GENDER 1
Male
90
GENDER 2
Female
180
SALARY 1
Up to 500
120
SALARY 2
501-1000
140
SALARY 3
1001-1500
160
SALARY 4
1501-2000
200
SALARY 5
2001+
240
Let cut-off = 500
So, a new customer applies for credit ……
AGE
GENDER
SALARY
Total
32
Female
£1,150
120 points
180 points
160 points
460 points
REFUSE CREDIT
14
Predictieve data mining: regressie


Doelvariabele is continu
Voorbeelden:



Voorspellen van aandelenkoersen
Voorspellen van verkoopscijfers
Technieken:


Lineaire regressie
Neurale netwerken
15
Descriptieve data mining: associatieanalyse


Detecteren van frequent voorkomende patronen tussen items
Voorbeeld:


If a customer buys spaghetti, then the customer also buys red
wine in 70% of the cases.
Toepassingen




Market basket analysis
Web usage mining
Recommender systems
…
Transaction ID
0001
0002
0003
0004
0005
…
0052
0053
Items
Bread, Milk, Apple
Bread, Milk, Eggs, Pen
Cold Drink, Chocolate, Milk
Bread, Orange
Fish, Vegetables
…
Paper, Pencil
Meat, Oil, Milk
16
Associatie-regels: voorbeeld
Transaction
01
02
03
04
05
06
07


Items
Wine Bread Milk
Wine Beer Butter Milk
Bread Beer Butter Milk
Wine Bread Butter Milk
Bread Eggs Butter Milk
Wine Bread Beer
Wine Bread Butter
E.g. itemset {Bread,Butter,Milk} has support= 3/7
The rule Bread,Butter ==> Milk has confidence=3/4
+
17
Market basket analyse


Detecteren welke producten vaak samen
aangekocht worden
implicaties voor




store layout
shelve organisation
target marketing
product bundling
18
Diapers and Beer example



Some years ago Wal-Mart was using data mining
technology to analyse their sales figures. The result
of the analysis showed that diapers were often
purchased along with beers on Friday nights.
After moving the beers next to the diapers, the beer
sales increased by 15% on Fridays.
Possible explanation: Men, on their way home from
work, were asked to buy diapers, and since the
weekend was just about to start anyway, why not
buy some beers?
19
Descriptieve data mining: sequentie
analyse


Detecteren van temporele patronen
Voorbeeld


Klant koopt eerst product X, daarna, product Y,
daarna product Z
60% of clients who placed an online order in
company/products/product1.html, also placed an
online order in /company1/products/product4 within
15 days.
20
Web usage mining

Web usage mining


Implicaties voor



Minen van web logs voor het ontdekken van navigatie-patronen van
een web site
Verbeteren van web site ontwerp
Identificeren van prime advertisement locaties
Voorbeelden:


40% of clients who accessed the Web page with URL
/company/products/product1.html, also accessed
/company/products/product2.html
30% of clients who accessed /company/announcements/specialoffer.html, placed an online order in /company/products/product1
21
Descriptieve data mining: clustering



Identificeren van homogene groepen van
subjecten
Maximaliseren van intra cluster similariteit en
inter cluster dissimilariteit
Voorbeeld:

marktsegmentatie
22
Post processing




Visualiseren van de patronen (bv. met
behulp van OLAP)
Interpreteren van de patronen
Valideren van de patronen:
constrasteren van de patronen met
domeinkennis
Integreren van de patronen in nieuwe
systemen
23
Waarschuwing data mining
Een bepaald verband wijst niet noodzakelijk op
causaliteit
(opletten voor transitiviteit!)
24
Data Mining bloopers

Everyone who ate pickles in the year 1743 is now dead.
Therefore, pickles are fatal ( from Ronny Kohavi).
Explanation: Correlation does not imply causality !

A bank discovered that almost 5% of their customers were
born on 11 november 1911 (from Ronny Kohavi).
Explanation: The field was mandatory in the entry systems and
hitting 111111 was the easiest way to get to the next field !
25
Nieuwe data mining toepassingen:
bestrijden van terrorisme


“Predict terrorist attacks by looking for telltale patterns of activity in passport
applications, visas, work permits, driver's licenses, car rentals, airline ticket
purchases and arrests, as well as credit transactions and education, medical and
housing records” (CBS News, Feb. 2004)
Some US initiatives and systems in development or use:


Total Information Awareness (TIA) program: build a centralized database
containing private transactional data on all Americans, including “records on
credit-card purchases, plane flights, e-mails websites and housing”
“A new government report reveals that federal agencies have undertaken 199
data-mining efforts, 131 of which are already operational. A surprising number
resemble clones of the controversial Total Information Awareness project, which
was intended to peruse exabytes of data on Americans assembled from every
source possible as a means to snare terrorists” (CNet news, June 2004)





Computer Assisted Passenger Prescreening System (CAPPS II)
Multistate Anti-terrorism Information Exchange System (MATRIX)
Student and Exchange Visitor Information System (SEVIS)
U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT)
Secure Collaborative Operational Prototype Environment (SCOPE)
26
Problemen en uitdagingen

Civil liberties? Privacy?
“They that can give up essential liberty to obtain a little temporary
safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759)

Technical challenges





Integrate data from multiple sources
Real-time applications
Multimedia data mining
Skewed distribution
Misclassification costs?


MATRIX system flagged 120,000 people in Florida “who had a statistical
likelihood of being terrorists”, but five of the suspected September 11th
hijackers were claimed to be among the top 80 people named.
How to create a testbed data set?
27
Algemeen voorbeeld organisatie van beslissingsproces
Switch operationeel informatiesysteem voor het beheren van de
logistiek van een luchthaven.
gate allocation
flight data
bagage handling
air traffic control
Operationele
DB
catering
Interne informatie
Evolutie bagagevolumes
Externe informatie
Analoge gegevens van
andere luchthavens
airport security
fuel
1
Evolutie vertragingen
billing
DW
DB
Evoluties aantal vluchten
(land, bestemming,
periode, ...)
Evoluties aantal passagiers
(land, bestemming,
maatschappij, transit, ...)
28
OLAP
Data mining
2
OLAP
Data mining
kennis
DW
DB
ter ondersteuning
van beslissingen
maatschappij-profiel
DM
DB
kennis
Bv. Grote delen van noord-Italië
hebben geen goede verbinding met
vele grootsteden in V.S.
Verona – Brussel met snelle transit
Brussel -> V.S.
29