Download (OLAP) and Data Mining

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts

Cluster analysis wikipedia , lookup

Nonlinear dimensionality reduction wikipedia , lookup

Transcript
1. Introduction to Data Mining
o
o
o
o
o
o
o
What is data mining?
Related technologies - Machine Learning, DBMS, OLAP, Statistics
Data Mining Goals
Stages of the Data Mining Process
Data Mining Techniques
Knowledge Representation Methods
Applications
Definície čo je data mining
"Netriviálna extrakcia implicitných, predtým neznámych a potenciálne užitočných informácií z
dát"
William J Frawley, Gregory Piatetsky-Shapiro and Christopher J Matheus





Data mining hľadá hodnotné informácie ukryté v obsiahlych množstvách údajov
Data mining je analýza údajov a využitie softvérových techník pre nájdenie vzorov a
pravidelností v súboroch údajov.
Počítač je zodpovedný za nájdenie vzorov pre identifikovanie podstatných pravidiel a
znakov v databáze
Je možné staviť na zlato , že v neočakávaných oblastiach data miningový softvér objaví
vzory predtým zreteľných alebo tak zrejmé, že si ich predtým nikto nevšimol
Analógia mining:
o Veľké objemy dáat sú presúvané v snahe priblíženia sa zisteniu, ktoré za niečo
stojí.
o V miningových operáciách je veľké množstvo nízko kvalitných údajov
presúvaných s cieľom nájsť niečo hodnotné.
Related technologies - Machine Learning, DBMS, OLAP, Statistics
Machine Learning
Strojové učenie je druh umelej inteligencie (AI), ktorá poskytuje počítaču schopnosť učiť sa, bez
toho, aby bol explicitne naprogramovaný. Strojové učenie sa zameriava na vývoj počítačových
programov, ktoré môžu učiť ostatných rásť a meniť sa , pokiaľ sú dopĺňané novými dátami.
Proces strojového učenia je podobný dolovaniu dát. Oba systémy prehľadávajú cez databázy
vzory. Avšak namiesto toho, aby získavali údaje pre ľudské chápanie - ako je tomu v
miningových dátových aplikáciách - strojové učenie využíva tieto dáta k detekovaniu vzorov v
dátach a podľa toho upravuje programové podujatia. Algoritmy strojového učenia sú často
klasifikované ako kontrolovateľné alebo nekontrolovateľné. Kontrolovateľné algoritmy možno
aplikovať to, čo sme sa naučili v minulosti z nových dát. Nekontrolovateľné algoritmy- závery
možno vyvodiť zo súboru údajov.
Machine Learning vs. Data Mining









Large Data sets in Data Mining
Efficiency of Algorithms is important
Scalability of Algorithms is important
Real World Data
Lots of Missing Values
Pre-existing data - not user generated
Data not static - prone to updates
Efficient methods for data retrieval available for use
Domain Knowledge in the form of integrity constraints available.
DBMS
A database management system (DBMS) Systém pre správu databáz (DBMS) je softvér, ktorý
umožňuje počítaču vykonávať databázové funkcie ukladanie, vyhľadávanie, pridávanie,
odstraňovanie a úpravy dát. Relačný systém databáz (RDBMS) umožňuje zaviesť relačný model
tabuliek a vzťahov.
Examples: Microsoft Access, MySQL, Microsoft SQL Server, Oracle and FileMaker Pro are all
examples of database management systems.
Data Mining vs. DBMS


Example DBMS Reports
o Last months sales for each service type
o Sales per service grouped by customer sex or age bracket
o List of customers who lapsed their policy
Questions answered using Data Mining
o What characteristics do customers that lapse their policy have in common and how
do they differ from customers who renew their policy?
o Which motor insurance policy holders would be potential customers for my House
Content Insurance policy?
OLAP On-line Analytical Processing (OLAP)
V krátkosti pre Online Analytical Processing, je kategória softvérových nástrojov, ktoré
poskytujú analýzu dát uložených v databáze. OLAP nástroje umožňujú používateľom analyzovať
rôzne rozmery viacrozmerných dát. Napríklad poskytuje časové rady a výhľad na analýzu
trendov. OLAP je často používaný v dolovaní dát.
Hlavným prvkom OLAP je OLAP server, ktorý sedí medzi klientom a systémov pre správu
databáz (DBMS). OLAP Server vie, ako sú dáta organizované v databáze a má zvláštne funkcie
pre analýzu dát. Existujú OLAP servery dostupné pre takmer všetky hlavné databázové systémy.


Multi-Dimensional Data Model (Data Cube)
Operations:
o Roll-up
o Drill-down
o Slice and dice
o Rotate
Statistical Analysis




Ill-suited for Nominal and Structured Data Types
Completely data driven - incorporation of domain knowledge not possible
Interpretation of results is difficult and daunting
Requires expert user guidance
Data mining ciele:
Classification - Klasifikácia


DM system learns from examples or the data how to partition or classify the data i.e. it
formulates classification rules
Example - customer database in a bank
o Question - Is a new customer applying for a loan a good investment or not?
o Typical rule formulated:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
Association - Asociácia



Pravidlá, ktorými sa asociuje jeden atribút vo vzťahu k druhému atribútu.
Nastavenia orientovaných prístupov sú najúčinnejším prostriedkom k objaveniu nových
pravidiel.
Príklad:
o 72% všetkých záznamov, ktoré obsahujú položky A a B obsahujú tiež časť C
o špecifické percento výskytu, 72 je faktor spoľahlivosti pravidlá
Sequence/Temporal – Sekvenčnosť/ Dočasnosť



Sekvenčné vzory funkcií analyzujú zbierky súvisiacich záznamov a odhaľujú často sa
vyskytujúce vzory v priebehu času
Rozdiel medzi pravidlami sekvencií a ďalších pravidiel je časový faktor
Príklad – databázy obchodníkov môžu byť použité pre objavenie množiny nákupov, ktoré
často predchádzajú nákupu mikrovlnnej rúry
Comparison related
Database management systems (DBMS), Online Analytical Processing (OLAP) and Data Mining
Area
DBMS
OLAP
Data Mining
Task
Extraction of detailed
and summary data
Knowledge discovery of
Summaries, trends and forecasts hidden patterns and
insights
Type of
result
Information
Analysis
Method
Deduction (Ask the
question, verify with
data)
Induction (Build the model,
Multidimensional data modeling,
apply it to new data, get
Aggregation, Statistics
the result)
Example
question
Who purchased mutual What is the average income of
funds in the last 3
mutual fund buyers by region by
years?
year?
Insight and Prediction
Who will buy a mutual fund
in the next 6 months and
why?
Stages of the data mining process




Data pre-processing
o Rôznorodosť
o Čistenie údajov
o Transformácia údajov
o Redukcia údajov
o Diskretizacia a vytváranie koncepcie hierarchie
Creating a data model: applying Data Mining tools to extract knowledge from data
Testing the model: the performance of the model (e.g. accuracy, completeness) is tested
on independent data (not used to create the model)
Interpretation and evaluation: the user bias can direct DM tools to areas of interest
o Attributes of interest in databases
o Goal of discovery
o Domain knowledge
o Prior knowledge or belief about the domain
Zdroj: computmenia.blogspot.com
Data mining Techniques




Nastavenia orientované na databázové metódy
Štatistiky: can be used in several data mining stages
o data cleansing: removal of erroneous or irrelevant data
o EDA (exploratory data analysis): frequency counts, histograms etc.
o data selection and sampling: reduce the scale of computation
o attribute re-definition
o data analysis - measures of association and relationships between attributes,
interestingness of rules, classification etc.
Visualization: enhances EDA, makes patterns more visible
Clustering (Cluster Analysis)
o Clustering a segmentácia je v podstate rozdelenie databázy tak, aby každý oddiel
alebo skupina bol podobný podľa niektorých kritérií alebo metriky
o Clustering podľa podobnosti je koncept, ktorý sa objavuje v mnohých odboroch,
napr. zhlukovaniu molekúl v chémii
o Aplikácie data mining využivajú clustering podľa podobnosti napr. Segmentácia
klienta / zákaznícká databáza
o Poskytuje podskupiny populácie pre ďalšiu analýzu alebo akcie - veľmi dôležité,
ak sa jedná o veľmi rozsiahlych databáz
Knowledge Representation Methods


Neural Networks
o Trénované neurónové siete môžu byť chápané ako “expert” v kategórii
informácii ktoré boli poskytnut pre analýzu
o Poskytujú projekciu sdanú novou situáciou záujmu a odpovede na otázky
typu "what if"
o Problémy zahŕňajú:
 Výsledná sieť je videná ako čierna skrinka
 Žiadne vysvetlenie výsledkov, je veľmi ťažké interpretovať
výsledky
 ťažké začleniť zásah užívateľa
 spomalené trénovanie v dôsledku ich iteratívnej povahy.
Decision trees
o Využiva sa k prezentovaniu vedomostí
o Je postavený na využívaní tréningových dát a môže byť následne využitý
ku klasifikovaniu nových objektov
o problemy sú nasledovné:
 opačná štruktúra – náročné porozumieť
 chýbajúce údaje môžu zapríčniť problémy s výkonom
 stanú ťažkopádne pre prenos veľkých dátových súborov
Pravidlá



o asi najbežnejšie forma reprezentácie
o majú tendenciu byť jednoduché a intuitívne
o neštruktúrované a menej rigidné
O problémy sú:
zachovať
adekvátne k reprezentovaniu mnohých typov vedomostí
Príklad formátu: ak X, potom Y
2. Data Warehouse and OLAP
3. Data Warehouse and OLAP
Data Warehouse and DBMS
1. What is Data Warehouse?
o A decision support database that is maintained separately from the
organization’s operational database.
o Support information processing by providing a solid platform of
consolidated, historical data for analysis.
2. Data warehousing
o Subject-oriented:
 Organized around major subjects, such as customer, product,
sales.
 Focusing on the modeling and analysis of data for decision
making, not on daily operations or transaction processing.
 Provide a simple and concise view around particular subject by
excluding data that are not useful in the decision support process.
o Integrated
 Constructed by integrating multiple, heterogeneous data sources
as relational databases, flat files, on-line transaction records.
 Providing data cleaning and data integration techniques.
o Time variant
 The time horizon for the data warehouse is significantly longer
than that of operational systems.
 Every key structure in the data warehouse contains an element of
time (explicitly or implicitly).
o Non-volatile
 A physically separate store of data transformed from the
operational environment.
 Does not require transaction processing, recovery, and
concurrency control mechanisms.
 Requires only two operations in data accessing: initial loading of
data and access of data (no data updates).
3. OLTP vs. OLAP.
o Users: clerk , IT professional vs. knowledge worker
o Function: day to day operation vs. decision support
o DB design: application oriented vs. subject-oriented
o Data: current vs. historical
o
o
o
o
Queries: simple vs. complex
Number of records accessed: tens vs. millions
Number of user: thousands vs. hundreds
DB size: 100MB-GB vs. 100 GB - TB
Multidimensional data model
Let us consider the weather data defined in the introduction. The dependent
variable play has just two values - yes and no. As these values are mutually exclusive,
we can replace them by 1 and 0 respectively. This will allows us to add up values and
thus get the total number of days when tennis was played and at the same time the
number of days tennis was not played (the complement of the former to the total
number of days). Let us also rename the day attribute into time, which is more
general and will allow us to use other time units (e.g. weeks). Thus we get the
following relational table.
time outlook temperature humidity windy play
1
sunny
85
85
false 0
2
sunny
80
90
true 0
3
overcast 83
86
false 1
4
rainy
70
96
false 1
5
rainy
68
80
false 1
6
rainy
65
70
true 0
7
overcast 64
65
true 1
8
sunny
72
95
false 0
9
sunny
69
70
false 1
10
rainy
75
80
false 1
11
sunny
75
70
true 1
12
overcast 72
90
true 1
13
overcast 81
75
false 1
14
rainy
91
true 0
71
Concept hierarchies
Let us assume also that we know some partial ordering among the values of the
attributes. These partial ordering define the so called concept hierarchies. For
example, for attributes day, temperature andhumidity we can group values in
subsets and name these subsets, thus obtaining the following hierarchies (all denotes
the set of all values).
day:
all
______|_________
|
|
week 1
week 2
_____|_____
_______|_______
| | | | | | |
| | |
|
|
|
|
1 2 3 4 5 6 7
8 9 10 11 12 13 14
temperature:
all
____________|_____________
|
|
hot
mild
____|___
|
|
|
|
cool
___|____
|
80 81 83 85
|
|
|
___|____
|
|
70 71 72 75
|
|
|
64 65 68 69
humidity:
all
______|________
|
high
______|_______
| | | | | |
85 86 90 91 95 96
|
normal
___|____
| | | |
65 70 75 80
We may also extend the sets of numbers or replace them with intervals, which will
make the hierarchy complete (covering all possible values). For
example, humidity may look like this:
all
____|____
|
|
high
normal
|
[85,96]
|
[65,84]
For the nominal (non numeric) attributes outlook and windy we define one-level
hierarchies, as their values cannot be ordered or grouped.
outlook:
all
_______|________
|
|
sunny
|
rainy
overcast
windy:
all
___|____
|
true
|
false
Data cube
To create a data cube we have to:
1. Select dimensions, that is select a subset of attributes. For example, let us
select time and temperature. Thus we will create a two-dimensional data
cube.
2. Select levels in the concept hierarchies. For example, let us select weeks for
time and degrees for temperature.
3. Select a measure to populate the cube. This is the attribute whose values will
be aggregated across the dimensions (obviously it has to be numeric). Let us
select play.
Then placing the time values in the rows and the temperature values in the columns
we get the following cube:
64 65 68 69 70 71 72 75 80 81 83 85
week 1
1
0
1
0
1
0
0
0
0
0
1
0
week 2
0
0
0
1
0
0
1
2
0
1
0
0
The numbers in the internal cells are obtained by adding up the values of the play
attribute, where the time and the temperature attribute are equal to the values in
the corresponding row and column. For example the value 2 (row 2, column 8) means
that tennis was played two days during week 2 when the temperature was 75.