Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Proses ETL (Extract-Transform-Load) Data Warehousing & Data Mining Proses ETL ETL = Extract, transform, and load Ekstrak (Extract) –Capture –Scrub atau data cleansing Transform Load dan Index © Prentice Hall, 2002 2 Gambar 1. Langkah rekonsiliasi data STAGING AREA Capture = mengekstrak, mengambil data dalam subset / tabel sumber untuk dimasukkan ke data warehouse Static extract = mengambil data-data dari sumber pada waktu tertentu, dan biasanya hanya dilakukan sekali di awal proses. Incremental extract = mengambil hanya data-data yang mengalami perubahan akibat static extract © Prentice Hall, 2002 3 Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Scrub = membersihkan kesalahan, bisa menggunakan pattern recognition dan metode AI Fixing errors: salah ejaan, tanggal juga: decoding, reformatting, time yang salah, penggunaan kolom yang salah, alamat yang tidak cocok, data yang hilang, data ganda, inkonsistensi stamping, konversi, key generation, penggabungan, deteksi error, pencarian data hilang © Prentice Hall, 2002 4 Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Transform = mengubah data dari format data operasional menuju format data warehouse Record-level: Selection – pemisahan data Joining – penggabungan data Aggregation – peringkasan data Field-level: single-field – dari one field ke one field multi-field – dari many fields ke one, atau one field ke many © Prentice Hall, 2002 5 Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Load/Index= memasukkan data hasil transformasi ke dalam data warehouse dan memberikan index Refresh mode: penulisan berulang Update mode: hanya perubahan- data tujuan secara massal dan berkala dalam jangka waktu yang lama perubahan pada data sumber yang dimasukkan ke data warehouse © Prentice Hall, 2002 6 Proses ETL (Extract-Transform-Load) - Lanjutan Data Warehousing & Data Mining Figure 11-11: Single-field transformation Secara umum – beberapa fungsi transformasi memindahkan data dari old form ke new form Algorithmic transformation menggunakan sebuah formula atau ekspresi logika Table lookup – pendekatan lain © Prentice Hall, 2002 8 Figure 11-12: Multifield transformation M:1 – dari banyak fields ke one target field 1:M – dari one field ke many target fields © Prentice Hall, 2002 9 Karakteristik Data setelah Proses ETL Terperinci Historical Perspektif pada Enterprise Timely 3rd NF atau lebih Komprehensif Data secara periodik Ternormalisasi Data terperinci, tidak sekedar peringkasan Up-to-date (tidak harus real-time) Quality Controlled Kualitas yang baik Derived Data Tujuan Mempermudah penggunaan aplikasi pendukung keputusan Respon yang cepat terhadap permintaan pengguna yang telah ditetapkan Data yang telah disesuaikan untuk pihak-pihak tertentu Dukungan untuk permintaan pelaporan Kemampuan untuk di Data mining Sifat Terperinci (data periodic) Ringkas (untuk penyimpulan) Terdistribusi (untuk layanan bagian-bagian tertentu) Most common data model = star schema (also called “dimensional model”) © Prentice Hall, 2002 11 Components of a star schema Fact tables contain factual or quantitative data Dimension tables are denormalized to maximize performance 1:N relationship between dimension tables and fact tables Dimension tables contain descriptions about the subjects of the business Excellent for ad-hoc queries, but bad for online transaction processing © Prentice Hall, 2002 12 Contoh Star schema Fact table provides statistics for sales broken down by product, period and store dimensions © Prentice Hall, 2002 13 Star schema with sample data © Prentice Hall, 2002 14