Download Relationen mellan IE och 'text mining'

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Relationen mellan IE och 'text
mining' av och med Anette Hulth
Läskurs i
Informationsextraktion
1999/2000
Dagens prat


Vad är informationsextraktion?
Vad är text mining?
• Olika definitioner:
•
•
•
•

Marti Hearst
Yves Kodratoff
Ronen Feldman
Mark Dixon
Vilken relation har IE och TM?
Vad är informationsextraktion?


Att fylla i fördefinierade mallar
Förutsätter att vi vet vad det är vi vill hitta
Vad är text mining? (I)

Fem huvudsakliga källor:
• Mark Dixon. An Overview of Document Mining
Technology. 1997.
(http://www.geocities.com/ResearchTriangle/T
hinktank/1997/mark/writings/main.html)
• Ronen Feldman. (Ed.) Text Mining:
Foundations, Techniques and Applications.
Workshop at IJCAI’99.

Forts. källor
• Ronen Feldman. Practical Text Mining. Tutorial
at EACL’99.
• Marti Hearst. Untangling Text Data Mining.
ACL’99.
• Yves Kodratoff. An Application to Knowledge
Discovery in Texts. Lecture at ACAI’99.
Vad är text mining? (II)


Saknas definition som alla är överens om
Alla verkar dock överens om att andra
definierar området på ett felaktigt eller
bristfälligt sätt!
Vad säger Marti? (I)




De flesta (andra) anser att TM är data
mining gjord på texter
Men, DM är att hitta mönster snarare än
kunskap
Vill ”bokstavligtolka” mining-metaforen
Hitta kunskap som ingen tidigare kände till.
Vad säger Marti (II)
Non-textual
data
Textual data
Patterns
Non-Novel
Nuggets
Novel
Nuggets
Standard data
mining
Database
queries
AI Discovery
Systems
Computational
linguistics
Information
retrieval
Real text
data mining
”Lånad” av M. Hearst
Text Mining Tools: Instruments for Scientific
Discovery, IMA Text Mining Workshop,
April 17, 2000
Vad säger Marti? (III)

Känner till två (2) projekt som gör ”riktig”
data mining
• Feldman & Dagan
• DARPA Topic Detection and Tracking Initiative

Swanson och migrän + magnesium
Vad säger Marti om IE?

Objection:
• Isn’t this just information extraction?

Response:
• IE is a useful tool that can be used in this
endeavor, however
• It is currently used to instantiate pre-specified
templates
• I am advocating coming up with entirely new,
unforeseen “templates”
”Lånad” av M. Hearst
Text Mining Tools: Instruments for Scientific
Discovery, IMA Text Mining Workshop,
April 17, 2000
Vad säger Yves? (I)


KDT = Knowledge Discovery in Texts
Knowledge
• ”The knowledge extracted has to be grounded
in the real world and will modify the behaviour
of a human or mechanical agent”



Discovery --> induktion används
Understandable and directly usable
TextS
Vad säger Yves? (II)

Ett exempel på KDT
• Le Monde använder inte instanser av begreppet
katastrof (t.ex. översvämning eller olycka) om
man talar om:
•
•
•
•
Nordamerika
Familjer
Kvinnor
Ekonomi
• Däremot c:a 300 andra koncept
Vad säger Yves om IE?




IE är ett ”problem” som NLP-samfundet
sysslar med
Det syftar till att ”fylla fördefinierade
mönster från texter”
Är inte lätt
Kan utgöra del av ett generellt KDT-system
Vad säger Ronen? (I)

Tekniker från:
•
•
•
•
•
•
•
data mining
machine learning
information retrieval
natural-language understanding
case-based reasoning
statistics
knowledge management
Vad säger Ronen? (II)




Förbehandling (textkategorisering el.
termextraktion)
Lagring och indexering
Analys (mängd olika tekniker)
Visualisering
Vad säger Ronen om IE?


Inte mycket...
Dock, ett föreslaget tema till verkstaden
(men inga sådana bidrag)
Vad säger Mark?

Document mining letar efter mönster och
tidigare okänd kunskap i ostrukturerade
texter
• Hur många terroristattacker under 1995?
• Gör ett företag en bättre förtjänst genom att
byta chef ofta?

Kombinerar tekniker från: IE; IR; NLP; och
textsammanfattning
Vad säger Mark om IE?

Stegvis process:
• IR - hitta det dokument som är relevanta för
uppgiften
• IE - extrahera information från dessa (mha
templater)
• Mining - hitta mönster i dessa
• Tolka - tolka det funna mönstren
Vad hände på verkstaden
(IJCAI’99)?




22 artiklar eller korta artiklar
Svårt att se någon TM i flertalet
IE nämns i ett par som ett delsteg i
processen
Gaizauskas ”ren” IE
Vad säger vi om text mining?


På vilket sätt skiljer sig definitionerna åt?
Har någon mer ”rätt” än någon annan?
Vad säger vi om IE?



Är IE + text mining = SANT??
Hur förhåller sig ijängklijen IE till text
mining?
Är det en komponent? Om ja, är den
nödvändig?