Download Extract-Transform-Load

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Proses ETL
(Extract-Transform-Load)
Data Warehousing & Data Mining
Proses ETL
ETL = Extract, transform, and load
 Ekstrak
(Extract)
–Capture
–Scrub atau data cleansing
 Transform
 Load dan Index
© Prentice Hall, 2002
2
Gambar 1. Langkah rekonsiliasi data
STAGING AREA
Capture = mengekstrak, mengambil data
dalam subset / tabel sumber untuk
dimasukkan ke data warehouse
Static extract = mengambil data-data
dari sumber pada waktu tertentu, dan
biasanya hanya dilakukan sekali di awal
proses.
Incremental extract = mengambil
hanya data-data yang mengalami
perubahan akibat static extract
© Prentice Hall, 2002
3
Figure 11-10: Steps in data reconciliation (continued)
STAGING AREA
Scrub = membersihkan kesalahan, bisa
menggunakan pattern recognition dan
metode AI
Fixing errors: salah ejaan, tanggal
juga: decoding, reformatting, time
yang salah, penggunaan kolom yang
salah, alamat yang tidak cocok, data
yang hilang, data ganda, inkonsistensi
stamping, konversi, key generation,
penggabungan, deteksi error,
pencarian data hilang
© Prentice Hall, 2002
4
Figure 11-10: Steps in data reconciliation (continued)
STAGING AREA
Transform = mengubah data dari format
data operasional menuju format data
warehouse
Record-level:
Selection – pemisahan data
Joining – penggabungan data
Aggregation – peringkasan data
Field-level:
single-field – dari one field ke one field
multi-field – dari many fields ke one, atau
one field ke many
© Prentice Hall, 2002
5
Figure 11-10: Steps in data reconciliation (continued)
STAGING AREA
Load/Index= memasukkan data hasil
transformasi ke dalam data warehouse
dan memberikan index
Refresh mode: penulisan berulang
Update mode: hanya perubahan-
data tujuan secara massal dan berkala
dalam jangka waktu yang lama
perubahan pada data sumber yang
dimasukkan ke data warehouse
© Prentice Hall, 2002
6
Proses ETL
(Extract-Transform-Load)
- Lanjutan Data Warehousing & Data Mining
Figure 11-11: Single-field transformation
Secara umum – beberapa fungsi transformasi
memindahkan data dari old form ke new form
Algorithmic transformation menggunakan
sebuah formula atau ekspresi logika
Table lookup –
pendekatan lain
© Prentice Hall, 2002
8
Figure 11-12: Multifield transformation
M:1 – dari banyak fields ke
one target field
1:M – dari one field ke
many target fields
© Prentice Hall, 2002
9
Karakteristik Data setelah Proses ETL

Terperinci


Historical


Perspektif pada Enterprise
Timely


3rd NF atau lebih
Komprehensif


Data secara periodik
Ternormalisasi


Data terperinci, tidak sekedar peringkasan
Up-to-date (tidak harus real-time)
Quality Controlled

Kualitas yang baik
Derived Data

Tujuan






Mempermudah penggunaan aplikasi pendukung
keputusan
Respon yang cepat terhadap permintaan pengguna yang
telah ditetapkan
Data yang telah disesuaikan untuk pihak-pihak tertentu
Dukungan untuk permintaan pelaporan
Kemampuan untuk di Data mining
 Sifat



Terperinci (data periodic)
Ringkas (untuk penyimpulan)
Terdistribusi (untuk layanan bagian-bagian tertentu)
Most common data model = star schema
(also called “dimensional model”)
© Prentice Hall, 2002
11
Components of a star
schema
Fact tables contain
factual or quantitative
data
Dimension tables are
denormalized to
maximize
performance
1:N relationship
between dimension
tables and fact tables
Dimension tables
contain descriptions about
the subjects of the business
Excellent for ad-hoc queries,
but bad for online transaction processing
© Prentice Hall, 2002
12
Contoh Star schema
Fact table provides statistics for sales
broken down by product, period and store
dimensions
© Prentice Hall, 2002
13
Star schema with sample data
© Prentice Hall, 2002
14