Download TEXT OPERATION

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Muhammad Yusuf
Teknik Multimedia dan Jaringan
Universitas Trunojoyo Madura
Knowledge Discovery adalah teknik yang
digunakan untuk mengaplikasikan hasil dari
data mining dan memberikan pengertian
terhadap hasil tersebut.
Beberapa tekniknya antara lain :
 Ontology construction
 Clustering
 Text categorization
 Subtechniques:
- information extraction, text analysis

An ontology adalah suatu konsep hierarki
yang terstruktur menggambarkan domain
yang spesifik dari pengetahuan, yang dapat
digunakan
untuk
membuat
basis
pengetahuan. Ontology berisi konsep, a
subsumption hierarchy, hubungan yang
berubah-ubah diantara konsep, dan aksioma.
Hal ini berarti berisi batasan dan fungsi
lainnya.

Clustering adalah metode analisa data, yang
sering dimasukkan sebagai salah satu
metode Data Mining, yang tujuannya adalah
untuk
mengelompokkan
data
dengan
karakteristik yang sama ke suatu ‘wilayah’
yang sama dan data dengan karakteristik
yang berbeda ke ‘wilayah’ yang lain
The Information Extraction (IE) task: dari masingmasing teks dalam sekumpulan teks natural
language yang mengekstraksi informasi tentang
predefined Classes dari entitas dan hubungan
serta tempat dari informasi ini ke dalam template
atau database record.
Text categorization yaitu proses pengelompokan
Dokumen yang bisa berupa konten web page, ke
dalam beberapa kelas yang telah ditentukan. Jika
tidak ada overlap antar kelas, yaitu Setiap dokumen
hanya dikelompokan kedalam satu kelas maka text
categorization ini disebut single label text
categorization . Text categorization bertujuan untuk
menemukan model dalam mengkategorisasikan teks
natural language. Model tersebut akan digunakan
untuk menentukan kelas dari suatu dokumen.
Text analytics menggambarkan tentang
kumpulan linguistik, statistikal, dan
teknik machine learning yang memodelkan dan
menyusun konten informasi dari sumber tekstual
untuk business intelligence, exploratory data
analysis, research, atau investigasi.
Ada 2 yaitu :
 General Document Preprocessing
 Query Preprocessing
1. Lexical analysis/Tokenization (memilah
kalimat per kata)
2. Parts-of-speech tagging (menemukan
bagian-bagian kalimat)
3. Stopwords (menghapus kata yang tidak perlu)
4. Stemming/lemmatization (menghapus variasi
kata untuk mendapatkan kata dasar)
5. Index terms.
6. Thesaurus (daftar kesamaan kata)
1. Phrasing (menggabungkan kata yang
memiliki arti khusus)
2. Anti-phrasing (menghilangkan kata-kata
yang dapat mengganggu proses pencarian)
1. Lexical Analysis / Tokenization
Memilah Kata perkata berdasar :
 Angka
 Tanda penghubung
 Tanda baca
 Othographic variation

Saya sedang kuliah di Universitas Trunojoyo
Madura.
Pemotongan Pertama
 Saya // Sedang // kuliah // di // Universitas
//Trunojoyo // Madura //


•
•
•
•
Menemukan bagian-bagian kalimat
Saya (s) sedang(ket) kuliah(kk) di(ks)
Universitas Trunojoyo Madura (o).
Pemakaian POS
Menghapus perbedaan yang tidak relevan
Menghapus Ambiguities
Membantu Steamming
Membantu Mencari Kata Benda

menghapus kata sambung
Alasan pemakaian stopword
 Hampir 80% kata dalam suatu dokumen tidak
bisa digunakan dalam IR
 Mengurangi jumlah index (40%)






Kata
Kata
Kata
Kata
Kata
dll
Ganti (kami, kita, mereka, itu)
Bilangan (beberapa, banyak, sedikit)
Keterangan (sangat, hanya, lebih)
Tugas (bagi, dari, dengan, pada)
Penghubung (sesudah, selesai,sebelum)


menghapus variasi kata untuk mendapatkan
kata dasar
Contoh
Diperdengarkannya = Di per dengar kan nya
Memperlakukan = mem per laku kan




Succesor Variety
N-gram Stemmers
Affiks Removal Stemmers
- Longest Match
- Simple Removal
Table Look up


Memetakan kata kedalam satu kata yang
diterima
Contoh
- Better => good
- Best => good
- Writes => write
- Written => write


All Word
Not all words used as index terms
- Nouns carry most of the semantics;
- Noun group - combination of 2 or 3 nouns
(computer science); (Collocations; to be
analyzed later)



Control vocabulary untuk indexing dan
searching
Membuat list kata-kata yang penting
Mengumpulkan kata lain yang berhubungan
dengan kata dalam daftar kata penting


Beberapa kata kunci diinterpretasikan
sebagai kalimat agar menaikkan keakuratan
Contoh
•
Information Retrieval => 1.000.000 doc
•
“Information Retrieval” => 6.300 doc
•
New york art museum
•
”New york” +art +museum +”Art Museum”


Menghapus kata yang tidak relevan dari
sebuah kata kunci
Contoh
• Where can I find the economist
• The economist


Where do I find the New York
Phrasing
◦ Where do I find the “New York”

Anti Phrasing
• “New York”