Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000 Dagens prat Vad är informationsextraktion? Vad är text mining? • Olika definitioner: • • • • Marti Hearst Yves Kodratoff Ronen Feldman Mark Dixon Vilken relation har IE och TM? Vad är informationsextraktion? Att fylla i fördefinierade mallar Förutsätter att vi vet vad det är vi vill hitta Vad är text mining? (I) Fem huvudsakliga källor: • Mark Dixon. An Overview of Document Mining Technology. 1997. (http://www.geocities.com/ResearchTriangle/T hinktank/1997/mark/writings/main.html) • Ronen Feldman. (Ed.) Text Mining: Foundations, Techniques and Applications. Workshop at IJCAI’99. Forts. källor • Ronen Feldman. Practical Text Mining. Tutorial at EACL’99. • Marti Hearst. Untangling Text Data Mining. ACL’99. • Yves Kodratoff. An Application to Knowledge Discovery in Texts. Lecture at ACAI’99. Vad är text mining? (II) Saknas definition som alla är överens om Alla verkar dock överens om att andra definierar området på ett felaktigt eller bristfälligt sätt! Vad säger Marti? (I) De flesta (andra) anser att TM är data mining gjord på texter Men, DM är att hitta mönster snarare än kunskap Vill ”bokstavligtolka” mining-metaforen Hitta kunskap som ingen tidigare kände till. Vad säger Marti (II) Non-textual data Textual data Patterns Non-Novel Nuggets Novel Nuggets Standard data mining Database queries AI Discovery Systems Computational linguistics Information retrieval Real text data mining ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000 Vad säger Marti? (III) Känner till två (2) projekt som gör ”riktig” data mining • Feldman & Dagan • DARPA Topic Detection and Tracking Initiative Swanson och migrän + magnesium Vad säger Marti om IE? Objection: • Isn’t this just information extraction? Response: • IE is a useful tool that can be used in this endeavor, however • It is currently used to instantiate pre-specified templates • I am advocating coming up with entirely new, unforeseen “templates” ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000 Vad säger Yves? (I) KDT = Knowledge Discovery in Texts Knowledge • ”The knowledge extracted has to be grounded in the real world and will modify the behaviour of a human or mechanical agent” Discovery --> induktion används Understandable and directly usable TextS Vad säger Yves? (II) Ett exempel på KDT • Le Monde använder inte instanser av begreppet katastrof (t.ex. översvämning eller olycka) om man talar om: • • • • Nordamerika Familjer Kvinnor Ekonomi • Däremot c:a 300 andra koncept Vad säger Yves om IE? IE är ett ”problem” som NLP-samfundet sysslar med Det syftar till att ”fylla fördefinierade mönster från texter” Är inte lätt Kan utgöra del av ett generellt KDT-system Vad säger Ronen? (I) Tekniker från: • • • • • • • data mining machine learning information retrieval natural-language understanding case-based reasoning statistics knowledge management Vad säger Ronen? (II) Förbehandling (textkategorisering el. termextraktion) Lagring och indexering Analys (mängd olika tekniker) Visualisering Vad säger Ronen om IE? Inte mycket... Dock, ett föreslaget tema till verkstaden (men inga sådana bidrag) Vad säger Mark? Document mining letar efter mönster och tidigare okänd kunskap i ostrukturerade texter • Hur många terroristattacker under 1995? • Gör ett företag en bättre förtjänst genom att byta chef ofta? Kombinerar tekniker från: IE; IR; NLP; och textsammanfattning Vad säger Mark om IE? Stegvis process: • IR - hitta det dokument som är relevanta för uppgiften • IE - extrahera information från dessa (mha templater) • Mining - hitta mönster i dessa • Tolka - tolka det funna mönstren Vad hände på verkstaden (IJCAI’99)? 22 artiklar eller korta artiklar Svårt att se någon TM i flertalet IE nämns i ett par som ett delsteg i processen Gaizauskas ”ren” IE Vad säger vi om text mining? På vilket sätt skiljer sig definitionerna åt? Har någon mer ”rätt” än någon annan? Vad säger vi om IE? Är IE + text mining = SANT?? Hur förhåller sig ijängklijen IE till text mining? Är det en komponent? Om ja, är den nödvändig?