Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Muhammad Yusuf Teknik Multimedia dan Jaringan Universitas Trunojoyo Madura Knowledge Discovery adalah teknik yang digunakan untuk mengaplikasikan hasil dari data mining dan memberikan pengertian terhadap hasil tersebut. Beberapa tekniknya antara lain : Ontology construction Clustering Text categorization Subtechniques: - information extraction, text analysis An ontology adalah suatu konsep hierarki yang terstruktur menggambarkan domain yang spesifik dari pengetahuan, yang dapat digunakan untuk membuat basis pengetahuan. Ontology berisi konsep, a subsumption hierarchy, hubungan yang berubah-ubah diantara konsep, dan aksioma. Hal ini berarti berisi batasan dan fungsi lainnya. Clustering adalah metode analisa data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain The Information Extraction (IE) task: dari masingmasing teks dalam sekumpulan teks natural language yang mengekstraksi informasi tentang predefined Classes dari entitas dan hubungan serta tempat dari informasi ini ke dalam template atau database record. Text categorization yaitu proses pengelompokan Dokumen yang bisa berupa konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar kelas, yaitu Setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut single label text categorization . Text categorization bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen. Text analytics menggambarkan tentang kumpulan linguistik, statistikal, dan teknik machine learning yang memodelkan dan menyusun konten informasi dari sumber tekstual untuk business intelligence, exploratory data analysis, research, atau investigasi. Ada 2 yaitu : General Document Preprocessing Query Preprocessing 1. Lexical analysis/Tokenization (memilah kalimat per kata) 2. Parts-of-speech tagging (menemukan bagian-bagian kalimat) 3. Stopwords (menghapus kata yang tidak perlu) 4. Stemming/lemmatization (menghapus variasi kata untuk mendapatkan kata dasar) 5. Index terms. 6. Thesaurus (daftar kesamaan kata) 1. Phrasing (menggabungkan kata yang memiliki arti khusus) 2. Anti-phrasing (menghilangkan kata-kata yang dapat mengganggu proses pencarian) 1. Lexical Analysis / Tokenization Memilah Kata perkata berdasar : Angka Tanda penghubung Tanda baca Othographic variation Saya sedang kuliah di Universitas Trunojoyo Madura. Pemotongan Pertama Saya // Sedang // kuliah // di // Universitas //Trunojoyo // Madura // • • • • Menemukan bagian-bagian kalimat Saya (s) sedang(ket) kuliah(kk) di(ks) Universitas Trunojoyo Madura (o). Pemakaian POS Menghapus perbedaan yang tidak relevan Menghapus Ambiguities Membantu Steamming Membantu Mencari Kata Benda menghapus kata sambung Alasan pemakaian stopword Hampir 80% kata dalam suatu dokumen tidak bisa digunakan dalam IR Mengurangi jumlah index (40%) Kata Kata Kata Kata Kata dll Ganti (kami, kita, mereka, itu) Bilangan (beberapa, banyak, sedikit) Keterangan (sangat, hanya, lebih) Tugas (bagi, dari, dengan, pada) Penghubung (sesudah, selesai,sebelum) menghapus variasi kata untuk mendapatkan kata dasar Contoh Diperdengarkannya = Di per dengar kan nya Memperlakukan = mem per laku kan Succesor Variety N-gram Stemmers Affiks Removal Stemmers - Longest Match - Simple Removal Table Look up Memetakan kata kedalam satu kata yang diterima Contoh - Better => good - Best => good - Writes => write - Written => write All Word Not all words used as index terms - Nouns carry most of the semantics; - Noun group - combination of 2 or 3 nouns (computer science); (Collocations; to be analyzed later) Control vocabulary untuk indexing dan searching Membuat list kata-kata yang penting Mengumpulkan kata lain yang berhubungan dengan kata dalam daftar kata penting Beberapa kata kunci diinterpretasikan sebagai kalimat agar menaikkan keakuratan Contoh • Information Retrieval => 1.000.000 doc • “Information Retrieval” => 6.300 doc • New york art museum • ”New york” +art +museum +”Art Museum” Menghapus kata yang tidak relevan dari sebuah kata kunci Contoh • Where can I find the economist • The economist Where do I find the New York Phrasing ◦ Where do I find the “New York” Anti Phrasing • “New York”