Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Uvod u Data Warehousing i OLAP OLTP (On-Line Transaction Processing) sistemi Skladištenje podataka (Data Warehousing) Razvoj skladišta podataka Arhitektura dimenzionog modela OLAP (OnPoslovni Line Analytical Processing) 22.5.2017. informacioni sistemi sistemi 1 Pregled sadržaja • Uvod u Data Warehousing (DW): – razumevanje DW sistema je veoma bitno kada se projektuju i implementiraju sistemi za podršku odlučivanju • Projektovanje Data Warehouse: – pre nego što se kreira OLAP baza podataka, neophodno je razumeti komponente DW koje se koriste pri izgradnji OLAP baze podataka • Definisanje OLAP rešenja: – alternativna tehnologija za relacionu DB – nudi brzi i fleksibilan pregled, analizu i navigaciju podataka • Razumevanje OLAP modela i primena OLAP kocke: – kako primeniti koncepte projektovanja DW da bi se projektovali i kreirali OLAP modeli – opisuju se osnove OLAP kocke za demonstriranje metoda za vizuelizaciju multidimenzionalnih baza podataka 22.5.2017. Poslovni informacioni sistemi 2 Sirovi podaci vs. poslovne informacije • Kompanija svakodnevno prikuplja velike količine sirovih podataka • Primeri sirovih podataka: – lanac prodavnica u Beogradu prodao robu vrednosti 10.000 evra u Junu 2008. – Goran M. podigao 50 evra sa svog računa jutros u Amsterdamu. • Primeri izvedene informacije: – Kako vrednost prodate robe u 2008. godini iznosio 15.000 evra, a postavljen cilj za 2009. godinu je bio 20.000 evra, očigledno lanac prodavnica u Beogradu nije ispunio željeni cilj. Analiza poslovanja treba da odredi posledice pada prodaje.Ključna pitanja su: Koji se proizvodi prodaju, a koji ne?, Koji je efekat promocije proizvoda?. – Goran M. živi u Beogradu, ali je u proteklih pet meseci podizao novac u Londonu, Oslu, Stockolmu, znači da često putuje po Evropi. Verovatno bi bio zainteresovan za specijalnu kreditnu karticu za neograničen pristup svom računu u 16 zemalja EU uz odgovarajuću godišnju članarinu. Ključna pitanja koja se postavljaju nakon ove analize su: Koji je prosečan dnevni bilans njegovog računa?, Za koje proizvode bi bio zainteresovan? 22.5.2017. Poslovni informacioni sistemi 3 DW vs.OLTP sistema • DW (Data Warehous) analitički sistemi: – analitičke baze podataka, skladište baza podataka – dizajnirane za veliki broj podataka – namenjenih samo za čitanje, – obezbeđuju informacije za donošenje odluka • OLTP online operacioni transakcioni sistemi: – prikupljaju poslovne transakcije i snabdevaju podacima DW ili data mart. – preuzimaju podatke, menjaju postojeće podatke, daju izveštaje, održavaju integritet podataka i upravljaju transakcijama što je brže moguće. Primeri OLTP sistema: aplikacije praćenja porudžbina, aplikacije usluga klijenata (npr., otvaranje računa klijentima), bankarske funkcije (npr, depoziti) itd. • Dizajn DB razdvaja transakcione i analitičke sisteme 22.5.2017. Poslovni informacioni sistemi 4 Skladištenje podataka - Data Warehousing (DW)• DWing - proces integracije podataka u jedan repozitorijum iz kojeg krajnji korisnici mogu ad-hock analizirati podatke i praviti izveštaje. Koncept DW: informaciona meta DB za odluke strateškog nivoa skladišti agregirane, ekstrahovane i filtrirane podatke omogućava slojevit, multidimenzionalni pristup podacima podržava nadgledanje i izveštavanje, analizu i dijagnozu, simulaciju i planiranje. • Karakteristike DW: organizacija podataka po predmetu i relevantnih informacije za odlučivanje konzistentnost kodiranja podataka vreme čuvanja podataka više godina radi praćenja trendova, prognoza i poređenja multidimenzionalnost strukture DW je uobičajena Web-zasnovanost dizajna DW obezbeđuje okruženje za web aplikacije 22.5.2017. Poslovni informacioni sistemi 5 Komponente DW sistema • Prenose podatke sa izvornih sistema do korisnika: – Izvori podataka – operacioni sistemi, npr. relacioni OLTP sistemi – Oblast za pripremu podataka: skup procesa koji čiste, transformišu, povezuju i pripremaju izvorne podatke za DW, podaci, na jednom/više računara se transformišu u konzistente formate, ne mora biti zasnovana na relacionoj tehnologiji, ne podržava korisničke izveštaje. – Data Mart: • podskup/kolekcija kocki podataka DW, sadrži specifične podatke za određenu aktivnost (npr., finansije, analiza klijenata), • uključen u DW i izgrađen u relacionim ili OLAP DB • sadrži detaljne/zbirne podatke podeljene ili ne kroz data mart-e – Data Warehouse: • virtuelna unija data mart-ova sa integrisanim informacijama koje su deljive kroz data mart-ove ili • centralizovano, integrisano skladište podataka koje obezbeđuje podatke data mart-ovima. 22.5.2017. Poslovni informacioni sistemi 6 Komponente DW sistema Izvori podataka Oblast za pripremu podataka Data Warehouse Korisnički pristup podacima Data Mart-ovi Ulazni podaci Pristup podacima 22.5.2017. Poslovni informacioni sistemi 7 Proces razvoja skladišta podataka (DW) Za izgradnju transakcionih sistema (OLTP) bitni su poslovni procesi i funkcije. Razvoj skladišta podataka Analiza izvora podataka Prikupljanje zahteva Planiranje skladišta podataka Izgradnja skladišta podataka Pripremanje podataka Izbor tehnike analize podataka Ekstrakcija i čišćenje podataka Transformacija podataka Dimenziono modeliranje Prikupljanje izvornih zahteva Definisanje obima projekta Upiti i izveštaji Razvoj procedura za ekstrakciju podataka Kreiranje plana transformacije podataka Denormalizacija podataka Prikupljanje Korisničkih zahteva Kreiranje projektnog tima Višedimenzionalne analize Razvoj procedura za čišćenje podataka Razvoj procedura za Transformaciju podataka Definisanje hijerarhija Definisanje tehničkih uslova Data mining Razvoj procedura za učitavanje podataka Kreiranje agregacija Testiranje procedura Kreiranje fizičkog modela Generisanje meta podataka Generisanje baze podataka Definisanje resursa, zadataka i vremenskih rokova Za izgradnju DW bitni su sami podaci i potrebno je: izvršiti analizu izvora podataka, pripremiti podatake, izgraditi skladište podataka. 22.5.2017. Poslovni informacioni sistemi Učitavanje podataka 8 Razvoj skladišta podataka Pripremanje podataka Izgradnja DW Analiza izvora podataka 22.5.2017. Poslovni informacioni sistemi 9 1. Analiza izvora podataka • Osnovni izvori podataka su: operativni (transakcioni), tzv. OLTP podaci, spoljne informacije nastale kroz istoriju poslovanja i industrijski i demografski podaci iz velikih javnih DB. • Analiza izvornih podataka: smatra se ključnim elementom izgradnje DW oduzima 80% vremena - potrebno je definisati odgovarajuća pravila za preuzimanje podataka iz izvornih podataka, analitička znanja najčešće su u glavama korisnika DW. • Proces analize izvora podataka obuhvata faze: 1.1. Prikupljanje zahteva, 1.2. Planiranje skladišta podataka, 1.3. Izbor tehnike za analizu podataka. 22.5.2017. Poslovni informacioni sistemi 10 1.1. Prikupljanje zahteva • Razmatra poslovne potrebe i zahteve budućih korisnika sistema 1. Prikupljanje zahteva upravljanih izvorom (source-driven) • Metod prikupljanja: – definisanje zahteva na bazi izvornih podataka u proizvodnooperativnim sistemima i – analiza ER-modela (MOV) izvornih podataka. – Glavna prednost: podržavanje svih podataka PIS, minimizacija vremena korisnika u ranoj fazi projekta. – Nedostaci: smanjivanjem učešća korisnika neispunjenja zahteva korisnika, oduzima dosta vremena. 22.5.2017. povećava Poslovni informacioni sistemi se rizik od 11 1.1. Prikupljanje zahteva (1) Prikupljanje korisnički pokretanih (User-Driven) zahteva • Metod prikupljanja: – definisanje zahteva na bazi funkcija koje korisnik izvršava ili im teži, – postiže se kroz seriju sastanaka i/ili intervjua sa korisnikom. – Glavna prednost: koncentriše se na potrebno, a ne dostupno. – Nedostatak: proizvodi upotrebljive DW za kraći vremenski period. – Postupak prikupljanja zahteva: 2. Intervjuisati ključne ljude u PS:analitičare, menadžere, izvršioce. Utvrditi protok informacija u/iz svakog odeljenja: koji izveštaji i dokumentacija, koliko često pristižu, kako/ko ih koristi itd. Organizovati dobijene podatke u nekoliko sekcija, kao što su: – Podaci o analizi - svim vrstama analiza i – Zahtevi vezani za podatke - opis, novi detalji, izvori. Proslediti organizovane podatke svim učesnicima intervjua radi mišljenja i eventualnih korekcija. 22.5.2017. Poslovni informacioni sistemi 12 1.2. Planiranje skladišta podataka Proces planiranja DW obuhvata faze: 1. Definisanje obima projekta, 2. Kreiranje projektnog plana, 3. Definisanje tehničkih uslova, 4. Definisanje resursa, zadataka i vremenskih rokova. Razvoj arhitekture i infrastrukture DW: Tehnička infrastruktura podrazumeva: razne tehnologije, platforme, DB i ostale komponente koje podržavaju izabranu arhitekturu DW. uključuje izbor instalacije DB, podešavanje mrežnog okruženja i izbor i instalaciju alata za rad sa DB 22.5.2017. Poslovni informacioni sistemi 13 1.3. Izbor tehnike za analizu podataka DW treba da obezbedi lako pristupačan izvor podataka visokog kvaliteta. Tehnike za analizu podataka mogu uticati na tip odabranog modela podataka i njegov sadržaj: a. Upiti i izveštaji, b. Višedimenzionalne analize i c. Data mining. a. Upiti i izveštaji - model podataka koji : struktuira podatke na normalizovani način obezbeđuje najbrži i najlakši pristup podacima, za jednostavne upite i izveštaje primarno obezbeđuje biranje povezanih elemenata podataka, eventualno njihovo sumiranje i grupisanje u neku kategoriju i prezentovanje rezultata. 22.5.2017. Poslovni informacioni sistemi 14 b. Višedimenzionalna analiza • Višedimezionalna analiza: – način da se prošire mogućnosti upita i izveštaja, – umesto izvršavanja višestrukih upita podaci se struktuiraju za brz i lak pristup odgovorima na tipično postavljana pitanja – Primer - treba analizirati koliko je: određeih proizvoda prodato određenog dana, u određenoj prodavnici i u određenom rasponu cena? prodavnica prodalo određeni proizvod, u određenom rasponu cena, određenog dana? oba pitanja zahtevaju slične informacije, ali jedno posmatrano iz ugla proizvoda, a drugo iz ugla prodavnice. • Glavna prednost: obezbeđuje model podataka za lak i brz pogled na podatke iz bilo koje moguće perspektive ili dimenzije. • Nedostatak: – Za višedimenzionalnu analizu, model mora obezbedi brz pristup podacima – Ako se koriste visoko normalizovane strukture podataka, potrebno je mnogo grupisanja između tabela sa različitim dimenzijama podataka, što može značajno uticati na performanse. 22.5.2017. Poslovni informacioni sistemi 15 c. Data mining • Data mining je relativno nova tehnika za analizu podataka. • Tehnika otkrivanja: – Veoma se razlikuju od prve dve pošto koristi tehniku otkrivanja. – Koriste određeni algoritmi koji analiziraju podatke i izveštavaju šta su otkrili. – Korisnik ne mora da kreira i izvršava upite zasnovane na hipotezama • Proces otkrivanja: – klasterovanje određenih elemenata podataka, ili korišćenje određenih skupova elemenata podataka na bazi nekog obrasca, – iz utvrđenih obrazaca algoritmi mogu da izvedu pravila, – pravila se koriste za generisanje modela koji ima željeno ponašanje, identifikuje veze među podacima, otkriva obrasce i grupiše klastere zapisa sa sličnim atributima. 22.5.2017. Poslovni informacioni sistemi 16 2. Priprema podataka • Jedna od najbitnijih aktivnosti u procesu razvoja DW. • Ako se uspešno izvrši, garantuje uspeh izgradnje DW. • Metod pripreme - na osnovu: – ranije određenog izvora podataka, – pravila za preuzimanje tih podataka, – procedure pripreme i – zahteva korisnika. • Proces priprme podataka odvija se kroz dve faze: 2.1. Ekstrakcija i čišćenje podataka i 2.2. Transformacija podataka. • Alati: – ekstrakciono-transformacioni koriste se za pripremu • Rezultat pripreme podataka: – podaci koji omogućavaju generisanje meta podataka, – meta podaci omogućavaju početak dizajna DW. 22.5.2017. Poslovni informacioni sistemi 17 2.1. Ekstrakcija i čišćenje podataka • Sastoji se od sledećih zadataka: a. razvoj procedura za ekstrakciju podataka, b. razvoj procedura za čišćenje podataka. a. Razvoj procedura za ekstrakciju podataka – Podaci se moraju ekstrahovati iz transakcionih sistema (DB u PIS). – Podaci se inicijalno ekstrahuju u procesu kreiranja DW. – Kasnije se određnom procedurom dodaju novi podaci u DW. – Ekstrakcija podataka je vrlo jednostavna iz relacione DB. – Ekstrakcija podataka može biti veoma kompleksna iz višestrukih heterogenih transakcionih sistema. – Cilj procesa ekstrakcije je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za učitavanje u DW. 22.5.2017. Poslovni informacioni sistemi 18 b. Razvoj procedura za čišćenje podataka • Podaci iz faze ekstrakcije moraju “pročistiti“: – otkrivanje logičkih grešaka, – "poboljšanje" podataka i – eliminisanje ostalih grešaka. – Otkrivanje logičkih grešaka uključuje proveru: vrednosti atributa usled različitog označavanja pojmova, atributa u kontekstu ostalih podataka u redu, atributa u kontekstu redova druge tabele koja je povezana, veza između redova iste ili povezanih tabela (provera FK). – "Poboljšanje" podataka: proces čišćenja kojim se teži da podaci dobiju puno značenje, na primer podaci o imenima i adresama. – Eliminisanje ostalih grešaka: odluka o nepotpunim, ili malo značajnim podacima, ovi podaci se mogu odbaciti, privremeno smestiti i popraviti, ili smestiti u skladište podataka sa tim nesavršenostima. 22.5.2017. Poslovni informacioni sistemi 19 2.2. Transformacija podataka • Dizajneri DW definišu fizički model podataka za DW i generišu šeme, pre početka procesa transformacije. • U fazi transformacije podataka potrebno je: – definisati izvore podataka i tipove transformacija nad podacima i – mapirati podatke iz izvorišta u odredište. • Faza mapiranja i transformacije podataka sastoji se od: a.kreiranje plana transformacije podataka, b.razvoj procedura za transformaciju podataka, c. razvoj procedura za učitavanje podataka, d.testiranje procedura, e.generisanje meta podataka. 22.5.2017. Poslovni informacioni sistemi 20 a. Kreiranje plana transformacije podataka Cilj: dokumentovati najbolji put migracije izvornih podataka do DW, sve izvorne platforme, metode pristupa, programski jezik potreban za ekstrakciju podataka i rezultate analize: – raspoloživih resursa, – količine izvornih podataka, – različitih izvornih šema i načina pristupanja podacima, – strukture skladišta podataka i – potrebnog broja agregacija. • Prelazne šeme: – Zajednički interfejs za sve izvorne sisteme. – Obično se izvorni podaci prvo smeštaju u prelazne šeme. – Ne podudaraju se sasvim sa izvornim ni sa odredišnim šemama. – Poboljšavaju procese"čišćenja" i transformacije podataka. • Analiza izvora podataka: – Vrši se nakon izrade plana transformacije podataka. – Određuje koji će se podaci mapirati u odredišni sistem i – Koja je logika potrebna za migraciju podataka. 22.5.2017. Poslovni informacioni sistemi 21 b. Razvoj procedura za transformaciju podataka • Transformacija podataka: – proces kojim se usklađuju različiti načini prikazivanja podataka različitih sistema u jedinstveni oblik. – kritičan je korak u razvoju DW, u kojem se vrši poslednja priprema podataka pre učitavanja Primer: neki sistemi mogu označavati pol ljudi sa 1 – m. i 2 –ž, ako se u skladištu podataka ovo označavanje vrši sa M i Ž, mora postojati proces koji će transformisati 1 u M i 2 u Ž. • Tipična transformacija podataka uključuje: – prevođenje polja sa više imena u jedno polje, – razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, – prevođenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u DA i NE), – kreiranje i dodavanje ključeva za tabele dimenzija. 22.5.2017. Poslovni informacioni sistemi 22 c. Razvoj procedura za učitavanje podataka • Procedure za učitavanje podataka treba da izvršavaju: – Kreiranje formata podataka: za sve podatke iz starijih sistema obezbediti formate pogodne za smeštaj u DW. – Prenošenje podataka iz starijih sistema u DW: raspakivanje, poređenje, kombinovanje i transformacija podataka u oblik pogodan za DW. – Kreiranje agregacija: sortiranje podataka po određenim atributima, a zatim sumiranje i smeštanje u DW. – Kreiranje ključeva za agregacione zapise: u potpunosti su veštački i ne smeju biti identični PK tabele; stručni tim mora dizajnirati aplikaciju koja će generisati takve ključeve. – Obrada neučitanih podataka: najčešće zbog referencijalnog integriteta, pa se takvi podaci moraju obraditi u posebnoj aplikaciji, koja će obezbeđivati referencijalni integritet. – Indeksiranje podataka: po završenom procesu smeštanja podataka u DW, svi indeksi se moraju ažurirati. 22.5.2017. Poslovni informacioni sistemi 23 d. Testiranje procedura • za ekstrakciju i učitavanje proverom kvaliteta podataka podataka, najčešće, • Provera kvaliteta podataka: – zadaju se upiti za DW, – upiti prebrojavaju, ili prikazuju podatke u vidu grafikona sa kojih se može utvrditi da li su podaci u očekivanom rasponu. • Po završenoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka. 22.5.2017. Poslovni informacioni sistemi 24 e. Generisanje meta baze podataka • Meta baza podataka (rečnika podataka): – baza podataka o bazi podataka, – čuva sve podatke o podacima, – mapira izvorni u ciljni sistem, – uspostavlja vezu između podataka sa izvora i cilja, – čuva informacije o transakcionim podacima, – čuva definiciju podataka u ciljnoj bazi i – čuva transformaciono-integracionu logiku. • Posle uspostavljanja meta baze podataka: – mogu se izdvajati, sumirati, sortirati i organizovati podaci iz transakcione DB, pre punjenja DW. 22.5.2017. Poslovni informacioni sistemi 25 3. Izgradnja skladišta podataka (DW) • Izgradnja skladišta podataka obuhvata sledeće zadatake: a) b) c) d) e) f) 22.5.2017. denormalizacija podataka, definisanje hijerarhija, kreiranje agregacija, kreiranje fizičkog modela, generisanje baze podataka, učitavanje podataka. Poslovni informacioni sistemi 26 a) Denormalizacija podataka 1. 2. 3. 4. 5. Dimenziono modeliranje: – identifikacija dimenzija i atributa - slično projektovanju ER modelom – tehnika logičkog dizajna - obezbeđuje visoke performanse sistema za analizu podataka. Strukture podataka opisuju mere i dimenzije: – Mere-numerički podaci smešteni u centralnoj, tzv. tabeli činjenica. – Dimenzije-standardni poslovni parametri (definišu svaku transak.) Osnovu za izradu dimenzionog modela predstavljaju meta podaci na osnovu kojih se definišu: – hijerarhija elemenata i atributa, – normalizacija i denormalizacija i – definisanje agregacija. Svaka dimenziona tabela ima svoj primarni ključ (PK): – svi PK učestvuju u stvaranju PK tabele činjenica – ovakvi modeli se nazivaju šemama zvezde. Tabele činjenica sadrže: – najčešće, numeričke podatke sa velikim brojem zapisa. 22.5.2017. Poslovni informacioni sistemi 27 Primeri 2-D i 3-D modela podataka a) Podaci o prodaji za svaku oblast se nalaze u različitim tabelama b) Svi podaci smešteni su u trodimenzioni niz Mesec Grad P r o i z v o d Mesec P r o i z v o d a) Dvodimenzioni model podataka 22.5.2017. b) Trodimenzioni model podataka Poslovni informacioni sistemi 28 Različiti pogledi na iste podatke P r o i z v o d Mesec Grad Svi gradovi i meseci za jedan proizvod Svi proizvodi i meseci za jedan grad Svi proizvodi i gradovi za jedan mesec 22.5.2017. Poslovni informacioni sistemi 29 Primer normalizovane i denormalizovane reprezentacije podataka • Sve dimenzione tabele su denormalizovane: – isti podaci se čuvaju na više mesta da bi se obezbedila jednostavnost i poboljšale performanse. 22.5.2017. Poslovni informacioni sistemi 30 Arhitektura dimenzionog modela • Denormalizovani model organizuje dimenzije u šemu zvezde: – može zahtevati previše memorije i uticati na pad performansi PIS za vrlo velike dimenzione tabele. • Šema galaksije predstavlja kolekciju više šema zvezda: – koristi se ako se ne može kreirati model sa 1 tabelom činjenica, – potrebno je povezati dve šeme zvezde za potrebe korisnika. • Normalizovani model organizuje dimenzije u šemu snežne pahuljice: – rešava probleme šeme zvezde i prevodi je u šemu pahulje. – Glavni nedostatak: veća složenost od šeme zvezde što otežava održavanje DW, treba normalizovati samo dimenzije sa mnogo redova i atributa, najbolje je izvršiti normalizaciju samo par dimenzija, a ostale ostaviti, na taj način se dolazi do delimične šeme pahulje 22.5.2017. Poslovni informacioni sistemi 31 Šema zvezde, pahulje i galaksije Šema zvezde 22.5.2017. Šema pahulje Poslovni informacioni sistemi Galaksija 32 Šema zvezde • Fizička arhitektura dimenzionog modela šeme zvezde: – definisane sa tabelom činjenica i dimenzionom tabelom: 1. Tabela činjenica sadrži: kvantitativne podatke o poslovima koje korisnici analiziraju (npr., bankarske transakcije, prodaja proizvoda,...) agregirane podatke najčešće numeričke, sastavljene i od nekoliko miliona redova i kolona (npr., mesečna prodaja), 2. Dimenzione tabele: znatno manje i sadrže podatke-atribute koji opisuju posao. Primer: opisuju kako se izračunavaju podaci o prodaji. • Glavne prednosti šeme zvezde: jednostavan model, definiše složene višedimenzione podatke, smanjuje broj fizičkih veza za procesiranje pri zadavanju upita, poboljšava performanse sistema i omogućava proširenje DW uz relativno jednostavno održavanje. • Veliki nedostatak šeme zvezde: povećava redundantnost podataka. 22.5.2017. Poslovni informacioni sistemi 33 Jednostavna šema zvezde • Svaka tabela mora sadržavati primarni ključ. • Primer: – PK tabele činjenica je sastavljen od tri FK. – FK je kolona jedne tabele, čija je vrednost definisana kao PK druge tabele. DIMENZIJA1 IDdimenzije1 Atribut11 Atribut12 Atribut13 CINJENICE DIMENZIJA2 IDdimenzije2 Atribut21 Atribut22 Atribut23 22.5.2017. Poslovni informacioni sistemi IDdimenzije1 (FK) IDdimenzije2 (FK) IDdimenzije3 (FK) Mera1 Mera2 Mera3 DIMENZIJA3 IDdimenzije3 Atribut31 Atribut32 Atribut33 34 Šema zvezde Zaposleni_Dim ZaposleniKljuč ZaposleniID ... Dimenziona tabela Vreme_Dim VremeKljuč Datum ... Tabela činjenica Prodaja_fakti Proizvod_Dim ProizvodKljuč VremeKljuč ZaposleniKljuč ProizvodKljuč KlijentKljuč ŠpediterKljuč ProizvodID ... IznosProdaje JediniceProdaje ... Špediter_Dim Klijent_Dim ŠpediterKljuč KlijentKljuč ŠpediterID 22.5.2017.... Poslovni informacioni sistemi KlijentID ... 35 Komponente tabele činjenica Dimenzione tabele Mere Tabela činjenica Prodaje predstavljaju analizirane vrednosti, kao što je jedinica prodaje ili broj zaposlenih. Mere su numeričke zbog toga da bi se mogla vršiti izračunavanja. Spoljni ključevi klijent_ključ 201 Mere proizvod_ključ vreme_ključ 25 134 Poslovni informacioni sistemi 22.5.2017. količina_prodaje iznos_prodaje 400 10.789 36 Karakteristike dimenzione tabele • Predstavlja poslovne entitete (npr. Prozvod, Klijent) • Sadrži atribute koji obezbeđuju kontekst za numeričke podatke koji su uskladišteni u tabeli činjenica. • Prikazuje podatke organizovane u hijerarhije, koje omogućavaju korisnicima pregledanje detaljnih i zbirnih podataka. • Svaka dimenziona tabela sadrži jednu ili više hijerarhija. 22.5.2017. Poslovni informacioni sistemi 37 Šema zvezde na primeru EDIFACT fakture PredmetPoslovanja Vreme VremeID: Long Integer Dan: Text(15) Mesec: Text(15) Godina: Integer PredmetPoslovanjaID: Long Integer VrstaPak ovanjaID: Long Integer NazivPredmetaPoslovanja: Text(50) StariBoroj: Text(50) KlasifikacioniBroj: Text(20) NacinPlacanja Partner PartnerID: Long Integer NazivPartnera: Text(50) Adresa: Text(50) Mesto: Text(50) Drzava: Text(50) Telefon: Text(50) VrstaPakovanjaID: Long Integer NazivVrstePakovanja: Text(50) Valuta NacinPlacanjaID: Long Integer NazivNacinaPlacanja: Text(50) VrstaPakovanja ValutaID: Long Integer Faktura FakturaID: Long Integer VremeID: Long Integer PartnerID: Long Integer PredmetPoslovanjaID: Long Integer ValutaID: Long Integer NacinPlacanjaID: Long Integer VrstaPrevozaID: Long Integer Kolicina: Double JedinicnaCena: Currency Iznos: Currency NazivValute: Text(50) OznakaValute: Text(20) SifraValute: Text(20) VrstaPrevoza VrstaPrevozaID: Long Integer NazivVrstePrevoza: Text(50) • Dimenzione tabele mogu sadržati i spoljne ključeve, koji referenciraju primarne ključeve drugih dimenzionih tabela. • Takve tabele se nazivaju sekundarne dimenzione tabele (outrigger tables) (npr. VrstaPakovanja). 22.5.2017. Poslovni informacioni sistemi 38 b) Definisanje hijerarhija • Dimenzione tabele memorišu sledeće elemente: – hijerarhijske relacije u svakoj dimenziji, – opisne atribute svake dimenzije. • Dimenzije veoma često mogu biti organizovane u hijerarhiji. Primer: dimenzija Proizvod ima tri dimenziona elementa: prozvod, grupa i vrsta proizvoda, gde je proizvod najniži hijerarhijski nivo, a vrsta najviši nivo. • Analiza podataka moguća je sa različitim nivoima detalja: – Spuštanje u dubinu (drill down): prelazak sa opštijeg na detaljniji nivo na zahtev korisnika. Primer: iz podatka o prodaji u regionu, spušta se naniže do prodaje po opštinama; hijerarhija organizacije geografskih podataka: SVET –> KONTINENT –> DRŽAVA –> OBLAST –> GRAD – Dizanje naviše (drill-up): prelazaka sa detaljnijeg na opštiji nivo, tzv. sumarnih podataka Primer: upit bi mogao prezentovati prodaju u odnosu na neke regione. – Presek (Drill across): za povezivanje dve, ili više činjeničnih tabela na istom nivou hijerarhije. 22.5.2017. Poslovni informacioni sistemi 39 Šema pahulje PROIZVOD FK FK • Definiše hijerarhiju koristeći višedimenzione tabele: – varijacija šeme zvezda gde su hijerarhije dimenzije skladištene u višedimenzione tabele. Primer: dimenzija Proizvod je skladištena u tri tabele: kategorija proizvoda, podkategorija proizvoda i proizvod. – normalizovana je i podržana unutar analitičkih usluga – samo jedna dimenziona tabela se pridružuje tabeli činjenica (Product Category), – ostale dimenzione tabele povezane su sa spoljnim ključem (FK). 22.5.2017. Poslovni informacioni sistemi 40 • Agregacije: • c) Kreiranje agregacija sumiraju detalje podataka, smeštaju u posebne tabele, poboljšavaju performanse upita, tj. smanjuje vreme odziva na upit i broj resursa za izvršenje upita. Primer: moguće je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajući ih iz svake prodavnice, tj. sa najnižeg nivoa detalja. • Agregacije zasnovane na SQL naredbama: – SQL naredbe su jedan od načina na koji se mogu kreirati agregacije – nije najbolji po performansama sistema, ali je najjednostavniji • Agregacije koje nisu zasnovane na SQL naredbama: – zahtevaju razvooj specijalizovanih programa – usložnjavaju se procesi razvoja i održavanja DW – mogu se koristiti prednosti paralelnog procesiranja (podaci su grupni) – na svakom mestu prelaza sa jednog nivoa dimenzije na drugi kreiraju se podzbirovi za taj nivo dimenzije – dobijene podzbirove treba učitati čime je izvršena agregacija Primer: sortiranje redova podataka po dimenziji Vreme, prvo podataka koji se odnose na Dan, pa na Nedelju itd. Prelaz domenzija (npr., sa Dana na Nedelju) 22.5.2017. Poslovni informacioni sistemi 41 d) Kreiranje fizičkog modela DW • Pre kreiranja fizičkog modela DW treba : – izabrati sistem za upravljanje DW. • Za kreiranje fizičkog modela DW: – prevesti logički model u fizički model – koristi se dijagramu MOV koji se fokusira na podatke. • Generisanje fizičkog modela rešava probleme: – Multiplikativnosti: broj instanci jednog entiteta u relaciji sa jednom instancom drugog entiteta. – Referencijalnog integriteta: zahteva da unesena vrednost atributa odgovara PK druge tabele. Definiše se za operacije. – Kreiranja indeksa: vrši se automatski za sve PK u entitetima i za prenesene ključeve, npr. BRI u entitetu Ispit, zato što će se buduća pretraživanja u okviru DW vršiti na osnovu ovih polja. 22.5.2017. Poslovni informacioni sistemi 42 Fizički model šeme zvezde za primer EDIFACT fakture PredmetPoslovanja Vreme VremeID: Long Integer Dan: Text(15) Mesec: Text(15) Godina: Integer PredmetPoslovanjaID: Long Integer VrstaPak ovanjaID: Long Integer NazivPredmetaPoslovanja: Text(50) StariBoroj: Text(50) KlasifikacioniBroj: Text(20) NacinPlacanja Partner PartnerID: Long Integer NazivPartnera: Text(50) Adresa: Text(50) Mesto: Text(50) Drzava: Text(50) Telefon: Text(50) 22.5.2017. VrstaPakovanjaID: Long Integer NazivVrstePakovanja: Text(50) Valuta NacinPlacanjaID: Long Integer NazivNacinaPlacanja: Text(50) VrstaPakovanja ValutaID: Long Integer Faktura FakturaID: Long Integer VremeID: Long Integer PartnerID: Long Integer PredmetPoslovanjaID: Long Integer ValutaID: Long Integer NacinPlacanjaID: Long Integer VrstaPrevozaID: Long Integer Kolicina: Double JedinicnaCena: Currency Iznos: Currency Poslovni informacioni sistemi NazivValute: Text(50) OznakaValute: Text(20) SifraValute: Text(20) VrstaPrevoza VrstaPrevozaID: Long Integer NazivVrstePrevoza: Text(50) 43 e) Generisanje baze podataka • Koristi se SQL jezik: – Alat u kome je kreiran fizički model (npr. ERWin) automatski generiče kôd preko tzv. DDL (Data Definition Language) datoteka, – DDL datoteka se izvršava pomoću alata Query Analyzer-a, dela SQL Servera 2005, – SQL Server 2005 omogućava direktno zadavanje SQL naredbi i njihovo izvršavanje u cilju generisanja DB. – Kada se svi ovi poslovi uspešno izvrše, DW je generisana. f) Učitavanje podataka • U toku učitavanja mogu se eventalno izvršiti još neke transformacije. • Sa transformacijama podataka ipak treba završiti pre učitavanja, zbog problema konzistentnosti baze. • Za učitavanje podataka može se koristiti: • DTS (Data Transformation Services) alat MS SQL Server-a i • Procedura učitavanja podataka pomoću DTS paketa. 22.5.2017. Poslovni informacioni sistemi 44 Izgradnja Data Warehouse-a 22.5.2017. Poslovni informacioni sistemi 11 45 OLAP sistemi • OLAP (On line Analytical Processing) rešenja omogućavaju: – predstavljaju nadgradnju DW – interaktivno analitičko procesiranje za online analize i izveštavanje – brz i fleksibilan pristup podacima • Krajnji korisnik zahteva da: – može da postavi bilo koje poslovno pitanje, – bilo koji podatak iz preduzeća koristi za analizu, – ima mogućnost neograničenog izveštavanja. • Analitičko procesiranje primarno se vrši korišćenjem: – poređenja ili – analiziranjem šablona i trendova. Primer: OLAP analitički sistem bi mogao da prikaže: – kako se određena vrsta štampača prodaje u različitim delovima zemlje, ili – kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se proizvod prvi put pojavio na tržištu 22.5.2017. Poslovni informacioni sistemi 46 OLAP sistemi • Omogućavaju: – jednostavnu sintezu, analizu i konsolidaciju podataka, – agregaciju podataka po zadatom kriterijumu i – intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima. • Podržavaju: – kompleksne analize koje sprovode analitičari i – analizu podataka iz različitih perspektiva (poslovnih dimenzija). • Kao skladišta podataka koriste: – multidimenzionalnost i – denormalizaciju. • Sadrže osnovne elemente: – DB, koja služi kao osnova za analizu, – OLAP server, za upravljanje i manipulaciju podacima, – interfejs sistem, prema korisniku i prema drugim aplikacijama, i – alati za administriranje. 22.5.2017. Poslovni informacioni sistemi 47 OLAP serveri • Konfiguracija: Povezuju relacione BP, eksterne izvore podataka i ostale interne podatke, podržane grafičkim interfejsima, radnim tabelama i ostalim PC alatima. Koriste višedimenzione strukture za čuvanje podataka, veza između njih i vizuelizuju u formi kocke i kocke u kockama podataka, gde: – svaka strana kocke se naziva dimenzijom, – dimenzija - kategorija podataka (tip proizvoda, region, vreme...) – svaka ćelija kocke sadrži agregirane podatke u vezi sa dimenzijama, Npr., jedna ćelija sadrži podatke o ukupnoj prodaji za dati proizvod i region u toku jednog meseca. Podržavaju tipične analitičke operacije: – konsolidacija– agregacija podataka po zadatom kriterijumu, – drill down/up–prikazivanje više ili manje detalja podataka, – isecanje (slice&dice)–prikazuje podataka iz različitih perspektiva, najčešće se vrši po vremenskoj dimenziji da bi se analizirali trendovi Primer: jedan isečak kocke može prikazivati sve podatke o prodaji za zadati tip proizvoda za sve regione, a drugi isečak može prikazivati sve podatke o prodaji po kanalima za svaki tip proizvoda. 22.5.2017. Poslovni informacioni sistemi 48 Zahtevi za OLAP sisteme • Interfejs OLAP sistema treba da omogući korisniku: – komforan rad, – samostalno izvođenje analitičkih operacija, – grafičke preglede poslovanja, bez programerskih znanja i poznavanja strukture DB. • OLAP sistem mora da ispuni sledeće zahteve: – omogući rad sa velikim skupom podataka i korisnika, – ima kratko vreme odziva na upit, – omogući rad sa podacima sa različitim nivoima detalja, – ima sposobnost proračuna složenih matematičkih funkcija, – ima podršku za šta-ako analizu, modelovanje i planiranje, – ima jednostavno uvođenje i održavanje sistema, – ima zaštitu podataka, – omogući rad sa velikim brojema alata za pristup, analizu i prikazivanje podataka. 22.5.2017. Poslovni informacioni sistemi 49 Komponente OLAP baze podataka • OLAP DB je definisana sledećim komponentama: – Numeričke merne jedinice (mere): • vrednosti podataka ili činjenice koje korisnici analiziraju. Primeri: Prodaja, Jedinice mere, Troškovi prodate robe itd. – Dimenzije: • predstavljaju poslovne kategorije koje obezbeđuju kontekst numeričkim merama, • dimenzijama OLAP je lakše navigirati nego dimenzijama šeme zvezde. – Kocke: • kombinuju sve dimenzije i sve mere u jedan konceptualni model. 22.5.2017. Poslovni informacioni sistemi 50 OLAP dimenzije vs. Relacione dimenzije Relaciona OLAP Region Zapad CA OR Istok MA NY 22.5.2017. Region Zapad Istok Država CA OR MA NY Poslovni informacioni sistemi Region Zapad Zapad Istok Istok 51 Osnove dimenzija 1. 2. 3. 22.5.2017. Poslovni informacioni sistemi OLAP dimenzije sadrže sledeće hijerarhijske elemente: Dimenzije – organizovani nivoi i članovi u strukturi drveta. Nivo – grupa članova dimenzije koji imaju isto značenje. Član – Svaka diskretna vrednost u dimenziji. 52 Definisanje kocke • Logička struktura za skladištenje OLAP baze podataka. • Kombinacija dimenzija i mera kako bi korisnici mogli da prave upite. • Dimenzije: – skup povezanih dimenzija koje formiraju jednu n-D mrežu, – svaka ćelija kocke sadrži jednu vrednost, – vrednost svake ćelije je presek dimenzije. • Mere (merne jedinice): – numeričke vrednosti koje korisnici analiziraju: – svaka kocka mora da sadrži barem ≥1, ali ≤1024 mernih jedinica, – odgovaraju činjenicama u tabeli činjenica, – samo 1 tabela činjenica može se koristiti za kreiranje kocke, – mere su preseci svih dimenzija i nivoa ... 22.5.2017. Poslovni informacioni sistemi 53 Definisanje kocke Skladišti vrednosti prodaje za svaki proizvod, tržište i period vremena. Za ukupnu godišnju vrednost, korisnici biraju proizvod i tržište i sumiraju ćelije iz sva četiri kvartala. Milano Bern Pariz Puževi Pečurke Kupine Maline Beograd Q1 22.5.2017. Q2 Q3 Dimenzija Vreme Q4 Poslovni informacioni sistemi 54 Pravljenje upita nad kockom Kocka “Prodaja” sadrži tri dimenzije: Vreme, Proizvodi i Tržišta. Činjenice o prodaji su skladištene u presecima svih dimenzija u kocki. Korisnik koji nadgleda prodaju malina u Milanu želi upit za Q4 prodajne vrednosti. Fakti o prodaji Milano Bern Pariz Puževi Pečurke Kupine Maline Beograd Q1 22.5.2017. Q2 Q3 Dimenzija Vreme Q4 Poslovni informacioni sistemi 55 Definisanje “kriške” (slice) ili podskupa kocke Menadžer distribucije malina želi da pregleda podatke o pečurkama po svim periodima i za sva tržišta. Milano Bern Pariz Puževi Pečurke Kupine Maline Beograd Q1 22.5.2017. Q2 Q3 Dimenzija Vreme Q4 Poslovni informacioni sistemi 56 Rad sa dimenzijama i hijerarhijama • Glavna namena OLAP baza podataka: – obezbediti fleksibilne modele za pronalaženje podataka, – tu fleksibilnost omogućavaju dimenzije i hijerarhije. • Dimenzije omogućavaju slice i dice: – – Slice: izbor jednog člana iz dimenzije, omogućava fokus na samo 1 proizvod i ignoriše sve otalo. Dice: postavlja više članova iz jedne dimenzije na jednu i druge na drugu osu, omogućava sagledavanje međuodnosa članova različitih dimenzija. • Hijerarhija omogućava drill down i drill up: – – Drill Down: sve dimenzije sadrže hijerarhiju, za većinu dimenzija hijerarhija se sastoji od više nivoa, više nivoa hijerarhije omogućava drill down po jednom članu hijerarhije, Drill down se fokusira samo na određene podatke ili oblast problema. Drill Up: vide se samo zbirne informacije članova, omogućava da se sagleda opšta slika. 22.5.2017. Poslovni informacioni sistemi 57 Rad sa dimenzijama i hijerarhijama • Dimenzije dozvoljavaju – Slice Dice Hijerarhije dozvoljavaju 22.5.2017. Drill Down Drill Up Poslovni informacioni sistemi 58 Arhitekture OLAP sistema • Postoje sledeće arhitekture OLAP sistema: a. MOLAP - višedimenzioni OLAP, b. ROLAP - relacioni OLAP, c. HOLAP - hibridni OLAP. • MOLAP ROLAP i HOLAP se razlikuju po načinu fizičkog čuvanja podataka: – MOLAP u višedimenzionoj strukturi – ROLAP u relacionim DB – HOLAP u relacionim i v-D strukturi 22.5.2017. Poslovni informacioni sistemi 59 a. MOLAP - višedimenzioni OLAP • Ograničenja MOLAP DB: – fizičke veličine skupa podataka sa kojima može raditi, – broja dimenzija koje još obezbeđuju dobre performanse, – za svaku analizu, potrebno je prvo učitati podatke u v-D strukture, što zahteva razne, relativno duge proračune za agregaciju i popunu podataka. • Prednost: obezbeđuju odlične performanse sistema kada se radi sa već sračunatim podacima (agregacijama). • Nedostatak: teškoća dodavanja novih dimenzija. 22.5.2017. Poslovni informacioni sistemi 60 Arhitektura MOLAP sistema Podaci iz različitih transakcionih sistema učitavaju se u više-D DB pomoću batch rutina. Posle učitavanja podataka do atomskog nivoa, kreiraju se agregacije i DB je spremna za rad. Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa. Transakcioni sistemi Višedimenziona baza podataka - upiti - heširanje - indeksiranje Sloj baze podataka 22.5.2017. OLAP interfejs - tabele - grafikoni - drill down - isecanje - štampanje - predviđanja - traženje izuzetaka Sloj aplikacije Sloj prezentacije Poslovni informacioni sistemi 61 b. ROLAP - Relacioni OLAP Transakcioni sistemi Skladište podataka (RSUBP) • Pristupaju podacima direktno iz skladišta podataka i rade sa relacionim DB. • Mogu da rade sa velikim skupovima podataka. • Čim se odredi izvor - paralelni upiti podataka, korisnik - paralelno učitavanje može započeti analizu. - paralelno indeksiranje • Rradi direktno nad DB, - bit-map indeksiranje korisniku su uvek na - heširanje - veze zvezde raspolaganju tekući - deljenje podataka podaci. - backup i recovery • Ne postoje ograničenja - optimizacija troškova 1 2 po pitanju broja - SMP i MPP podrška dimenzija kao kod 1 symmetric multiprocessing MOLAP sistema. 2 OLAP interfejs Relacioni OLAP - transformacije - dinamička konsolidacija - složeno filtriranje - predviđanja - obrada izuzetaka - procesiranje u pozadini - podela upita - raspoređivanje - upravljanje tokovima - agregacije - tabele grafikoni mape upozorenja drill down isecanje massively parallel processing Sloj baze podataka 22.5.2017. Poslovni informacioni sistemi Sloj aplikacije Sloj prezentacije 62 Karakteristike ROLAP i MOLAP sistema • ROLAP i MOLAP: – omogućavaju više-D analizu – imaju skoro iste performanse za manje količine podataka • ROLAP sistemi su optimizovani za dinamički pristup, • MOLAP sistemi za prikupljanje podataka • Prednosti ROLAP sistema: – sumarne tabele su kreirane direktno u RSUBP-u, – obezbeđuju kratko vreme odziva i veoma čitljive tabele. • MOLAP sistemi: – nisu pogodni za rad sa velikim skupom podataka – manji su, zahtevaju manje U/I operacija za pribavljanje podataka i brži su od ROLAP sistema 22.5.2017. Poslovni informacioni sistemi 63 c. Hibridni OLAP (HOLAP) • HOLAP : – je ROLAP koji može izvršavati složene SQL naredbe – nije prost zbir MOLAP-a i ROLAP-a. – može pristupati i relacionim i više-D DB • Cilj HOLAP sistema je iskoristiti prednosti: – MOLAP alata - kratko vreme odziva i rad sa više-D DB i – ROLAP alata - dinamički pristup podacima. • HOLAP sistemi za potrebe korisnika omogućavaju: – više-D pogled na podatke–MOLAP i ROLAP alati, – odlične performanse sistema–MOLAP alati, – analitička fleksibilnost (za simulacije)–MOLAP alati, – pristup podacima u realnom vremenu–ROLAP alati, – veliki kapacitet podataka–ROLAP alati 22.5.2017. Poslovni informacioni sistemi 64 Vendori OLAP-a 22.5.2017. Poslovni informacioni sistemi http://www.olapreport.com 65 Evaluacija znanja 1. Koja je svrha oblasti za pripremu podataka kod Data Warehouse-a? Oblast za pripremu podataka je skup procesa koji čisti, transformiše, kombinuje i priprema izvorne podatke za korišćenje u DW. 2. Koja je svrha OLAP-a? Da obezbedi brz, fleksibilan pristup multi-D podacima za analizu i izveštaje. 3. Definišite glavne relacione komponente od kojih se gradi OLAP kocka. Tabela činjenica – Centralna tabela u DW-u koja predstavlja numeričke podatke u kontekstu kojeg opisuju određeni događaj u poslovanju. Mere – kvantitativna, numerička kolona u tabeli činjenica; obično predstavljaju vrednosti koje korisnici analiziraju. Dimenzija tabele – Tabela u DW-u koja predstavlja jedan poslovni objekat ili entitet. 22.5.2017. Poslovni informacioni sistemi 66 Uvod u Data mining Otkrivanje znanja (Knowledge Discovering in Database) Definisanje Data mininga Primene Data mininga Data mining modeli Koraci kod izgradnje DM modela OLAP data mining 22.5.2017. Poslovni informacioni sistemi 67 Data mining - definicija • Uvođenjem PIS korisnici su dobili samo gomilu podataka. • Najbolji analitičari teško identifikuju informacije relevantne za upravljanje poslovanjem. • Data mining je automatski ili poluautomatski proces koji: – izvodi značajna pravila ili obrasce iz ogromne količine podataka, – programski analizira delove podataka i identifikuje veze između naizgled "nepovezanih podataka“, – otkriva znanja u DB – KDD (Knowledge Discovery in Databases), – omogućuje shvatanje sistema i veza između podataka, – otkriva oblike i trendove u sadržaju informacije, – otkriva relacije svakodnevnog komuniciranja sa podacima. 22.5.2017. Poslovni informacioni sistemi 68 Data mining – definicija (1) • Defiicija: – proces podrške odlučivanju u kojem se traže šabloni informacija u podacima • Osnovna namena: – iz ogromne količine operativnih podataka i veza odgovarajuće relacije i obrasce ponašanja i – od otkrivenih podataka obezbediti potrebne informacije. definisati • Osnovni cilj: – otkrivati skrivene veze, predvidive sekvence i tačne klasifikacije. • Pretraživanje KDD može vršiti: – korisnik izvođenjem upita, što je zaista teško, ili – neki "pametni" program koji automatski pretražuje bazu i nalazi značajne obrasce podataka, – informacija se prezentuje na odgovarajući način, sa grafikonima, izveštajima itd. 22.5.2017. Poslovni informacioni sistemi 69 Primene Data mining tehnika • Reklamiranje na Internetu: – klasifikovanje grupa klijenata sa sličnim profilima, za ciljno reklamiranje, Primer: prikazivanje banera sa motivima golfa i sl. za muškarce koji se registruju na web sajtu za prodaju sportske opremu, gde DBMS prikuplja informacije o klijentu (pol, godine, sport i dr), Primer: za kupovinu knjiga putem Interneta, sistem preporučuje “Ukoliko vam se dopada x knjiga, proverite i sledeće ponuđene knjige”. • Upravljanje kreditnim rizikom: – kada korisnik uzima kredit, banka prikuplja informacije prihodi, godine staža, bračni status, kreditna sposobnost itd. – koriščenjem data mining tehnika, banka može da predvidi da li je korisnik dobar ili rizičan klijent za davanje kredita. 22.5.2017. Poslovni informacioni sistemi 70 Data mining modeli • Nekoliko tehnika data mininga omogućava identifikovanje obrazaca u podacima. • Modeli Analysis Services SQL Servera su: Drvo odlučivanja (Decision Trees): popularan metod za klasifikaciju i predviđanje koristi serije pitanja i pravila za kategorizaciju podataka može se predvideti da će izvesni tipovi imati specifične ishode Primer: osoba između 25-35 g. sa zaradom 60.000€/g, najverovatnije će podići kredit za stan pre nego neko od 15-24 g. Na osnovu ovakvih podataka i dr. istorijskih činjenica, algoritam drveta odlučivanja će izračunati izglede da nekoj osobi trebaju neke određene usluge. Pravila asocijacije (Association Rules): algoritam pomaže u identifikovanju relacija između različitih elemenata grupiše po sličnosti, artikale koji se najčešće zajedno događaju u jednoj transakciji. Primer: koristi se kod unakrsne prodaje gde se beleže veze između artikala i predviđa za koji proizvod će biti još zainteresovanih. Algoritam može da radi sa enormno velikim katalozima. Testiran je na pola miliona artikala. 22.5.2017. Poslovni informacioni sistemi 71 Data mining modeli (1) Naive Bayes: algoritam jasno pokazuje različitosti u određenim promenljivim kod različitih elemenata podataka. Primer: dohodak jednog domaćinstva se razlikuje za klijente u DB i može da posluži kao promenljiva, predskazatelj za buduće kupovine. Sequence Clustering: tehnika omogućava grupisanje zapisa podataka, sličnih na osnovu sekvenci prethodnih događaja algoritam grupiše klijente prema redosledu otvaranja web stranica i pomže u analizi profitabilnosti putanja može se koristiti u predviđanju koju će sledeću stranicu korisnik posetiti Primer: mogu se segmentirati grupe klijenata sa sličnim karakteristikama. Vremenske serije (Time Series): algoritam se koristi za analizu i prognozu vremenski zasnovanih podataka (prodaje su najčešće analiziran i prognoziran podatak) traži šablone iz više serija podataka tako da PS može da odredi kako različiti elementi utiču na analiziranu seriju. Data mining modeli (2) Neuronske mreže (Neural Nets): računar kao i čovek može da uči na osnovu iskustva NN modeluju neuronske veze u ljudskom mozgu i na taj način simuliraju učenje. ako su poznate ulazne i izlazne činjenice sastavljenih podataka, računar može da iz tih obrazaca nauči i postavi matematička pravila za izračunavanje ili predviđanje izlazne vrednosti sastavljenih podataka Primer: na prodajnu cenu kola utiču godine, stanje, proizvođač, model itd. Analizirajući cene kola, NN mogu kreirati seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje. Text Mining: algoritam analizira nestruktuirane tekstualne podatke. Primer: kompanije mogu da analiziraju nestruktuirani podatak kao što je deo za komentare gde klijenti unose svoje utiske, zadovoljstvo i dr. Memorijsko zasnovano prosuđivanje-MBR (Memory-based reasoning) : tehnika data mininga koja se koristi za predviđanje i klasifikaciju Primer: ukoliko pacijent ima nekoliko simptoma, doktor će na osnovu iskustva sa sličnim pacijentima dati dijagnozu, koristeći oblik MBR-a. 22.5.2017. Poslovni informacioni sistemi 73 Algoritmi Data Mining-a Decision Clustering Trees Introduced in SQL Server 2000 Sequence Clustering 22.5.2017. Association Time Series Neural Net Poslovni informacioni sistemi Linear Regression Naïve Bayes Logistic Regression 74 Text Mining Uvodni primer • Koji je ključni atribut za predviđanje da li će svršeni srednjoškolci upisati fakultet ili ne? • Postavljana su im sledeća pitanja: – Kog su pola? – Koliki je prihod roditelja? – Koliki im je IQ? – Da li ih roditelji podstiču da nastave studiranje ili ne? – Da li planiraju da upišu fakultet? • Da bi na osnovu prikupljenih podataka utvrdili koliko studenata će nastaviti školovanje, potrebno je postaviti upit koji je broj studenata koji: – žele nastaviti školovanje i koji – ne žele da nastave školovanje. 22.5.2017. Poslovni informacioni sistemi 75 Uvodni primer (1) • Treba odrediti koji atributi/kombinacija atributa imaju najveći uticaj na predviđanje verovatnoće koji student će upisati fakultet. • Ovaj složeniji upit zahteva korišćenje data mining tehnika. • Primenjujući algoritam drveta odlučivanja otkrivene su sledeće relacije: – najuticajniji atribut za upis na fakultet je podsticaj roditelja – od studenata koje roditelji podstiču da upišu fakultet, >60 % planira da upiše fakultet i – od ovih većina je sa visokim IQ. 22.5.2017. Poslovni informacioni sistemi 76 Drvo odlučivanja Svi studenti Upisaće fakultet: 33% Da 67% Ne Podsticaj od strane roditelja ? Podsticaj roditelja = Da Podsticaj roditelja = Ne Upisaće fakultet: Upisaće fakultet: 57% Da 43% Ne 6% Da 94% Ne Visok IQ Upisaće fakultet: IQ Visok IQ Nizak IQ Upisaće fakultet: Upisaće fakultet: 74% Da 26% Ne 22.5.2017. 29% Da 71% Ne IQ 18% Da 82% Ne Nizak IQ Srednji IQ Upisaće fakultet: Poslovni informacioni sistemi 9% Da 91% Ne Upisaće fakultet: 4% Da 96% Ne 77 Proces izgradnje DM modela Koraci: 1. Izbor tehnike data mininga 2. Identifikovanje slučaja (case) 3. Izbor entiteta koji treba da se predvidi 4. Identifikovanje podataka za analizu 5. Opciono kreiranje dimenzije i virtuelne kocke iz rezultujućeg modela 6. Obrada modela i prikupljanje rezultata. 22.5.2017. Poslovni informacioni sistemi 78 Metodologija kreiranja Data Mining modela Za kreiranje modela mora se prikupiti skup podatka, sa unapred poznatim atributima, koji treba da se predvide. Podaci Mining model Podaci za predviđanje Podaci se ubacuju u DM model koji ih analizira i traži pravila i obrasce za predviđanje. Podaci koji se analiziraju su obično: istorijski podaci statistički predstavnik slučajeva za koje se gradi model. DM Engine Mining model 22.5.2017. DM Engine Predviđeni podaci Poslovni informacioni sistemi Slučaj je element koji se koristi za klasifikaciju i grupisanje podataka. DM engine procenjuje slučajeve i kreira model koji se zasniva na izabranom algoritmu. 79 Integracija DM sa DW • Integracija DM i DW savremeni koncept–iz više razloga: 1. DM alati zahtevaju "prečišćene" i integrisane podatke: – Klasični DM alati iz tih razloga prvo izvrše transfer podataka (možda i stotine GB) putem mreže. – Nakon toga često se javlja potreba za novim podacima, što znači da se ceo proces transfera mora ponoviti, a neprestano se mora voditi računa o zaštiti podataka i greškama prenosa. 2. Integracija DM alata sa DW poboljšava korisnički interfejs: – Stariji DM alati su zahtevali više stručnjaka da bi se postigli zadovoljavajući rezultati. – Danas, svaki poznavalac SQL jezika može koristiti mogućnosti data mininga. 3. DW obezbeđuje performanse i proširivanja sistema: – Ovo je potrebno za DM alate. 22.5.2017. Poslovni informacioni sistemi 80 Tradicionalni i integrisani prilaz Integracija se može ostvari kreiranjem modela koji se u DB predstavljaju tabelama. Ovim modelima može se pristupati upotrebom SQL naredbi. Nakon kreiranja tabela, u njih treba smestiti podatke koje će DM alati pretraživati. Obradom podataka, DM alati kreiraju nove tabele u kojie smeštaju rezultate Ove se tabele mogu pregledati kao i sve ostale tabele (korišćenjem SQL naredbi). server strana izvori podataka skladište podataka i data mining alati ODBC mreža SQL ograničeni i specijalizovani alati ODBC data mining alati klijent strana bilo koji alat nestandardni interfejsi b) integrisani prilaz a) tradicionalni prilaz 22.5.2017. Poslovni informacioni sistemi 81 OLAP Data mining • OLAP i data mining treba posmatrati kao potpuno integrisane procese. • Komponente OLAP data mininga su: – relaciona DB koja sadrži granularne podatke (ne mora biti DW), – OLAP koji obezbeđuje brz pristup sumarnim podacima između više dimenzija, – višedimenzioni proces otkrivanja koji će vršiti otkrivanje između dimenzija i spajati rezultate. • Bez upotrebe OLAP data mininga, mogu se izostaviti ključne informacije, ili se mogu dobiti netačni rezultati. 22.5.2017. Poslovni informacioni sistemi 82 Proces izgradnja Data Mining modela sa OLAP podacima • Uvod u scenario Članske kartice • Izbor Data Mining tehnike • Izbor slučaja (case) • Selekcija entiteta za predviđanje • Selekcija podataka za analizu (training data) • Kreiranje dimenzije i virtuelne kocke • Ispitivanje Data Mining modela 22.5.2017. Poslovni informacioni sistemi 83 Uvod u scenario Članske kartice • Direktor marketinga banke želi da oceni trenutni program članskih kartica. • Da bi zadržao postojeće klijente i ispunio njihova očekivanja, treba da identifikuje mogućnosti kako bi povećao nivo usluga kod svih kartica: zlatna, srebrna, bronzana i obična. • Raspoložive informacije od klijenata su pol, bračni status, godišnji prihodi, nivo obrazovanja. • Za predviđanje faktora koji utiču na izbor odgovarajuće kartice koristi se: – DM tehnika drveta odlučivanja za otkrivanje obrazca za izbor članske kartice. – izbor Klijenata kao dimenzija slučaja (case dimension). – izbor Članske karte kao informacije koju će koristiti algoritam DM da bi identifikovao obrasce. – korišćenje raspoloživih informacija o klijentima za otkrivanje obrasca i – ispitivanje drveta odlučivanja. 22.5.2017. Poslovni informacioni sistemi 84 Izbor tehnike Data Mininga 22.5.2017. Poslovni informacioni sistemi 85 Izbor slučaja (case) 22.5.2017. Poslovni informacioni sistemi 86 Selektovanje entiteta za predviđanje 22.5.2017. Poslovni informacioni sistemi 87 Selektovanje podataka za analizu (training data) 22.5.2017. Poslovni informacioni sistemi 88 Kreiranje dimenzije i virtuelne kocke Ukoliko želite na interaktivan ad-hoc način da isptujete drvo odlučivanja onda možete da uključite opciju kreiranja nove dimenzije i uključivanje iste u virtuelnu kocku.. 22.5.2017. Poslovni informacioni sistemi 89 Ispitivanje Data Mining modela Content Navigator – kompletan pogled DM modela; koristi se i za navigaciju kroz drvo odlučivanja i menjanja sadržaja u Content Detail. Content Detail – fokus DM modela Atributi – Predstavlja numeričke ili grafičke prezentacije entiteta za predviđanje za trenutno izabrani čvor. Node Path 22.5.2017. Poslovni informacioni sistemi 90 Ispitivanje zavisnosti mreže 22.5.2017. Poslovni informacioni sistemi 91