Download Prezentace aplikace PowerPoint

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Natural Language Processing
Motivační přehled problémů,
řešení a aplikací
Prague Arabic Dependency Treebank
Otakar Smrž
koordinátor projektu
… zpracování přirozeného jazyka

Natural Language Processing (NLP)




Computer/Computational Linguistics (CL)



oblast témat a úloh, spojení mnoha vědních oborů
moderní, nutné, mimořádně složité
rozšíření a aplikace dnešní IT, její původní motivace
počítačová/komputační lingvistika
teoretická/formální lingvistika, korpusová lingvistika …
Artificial Intelligence (AI)

umělá inteligence, automatické učení, strojové vnímání
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
2
Proč je jazyk složitý?

Systém a jeho projevy (langue vs. parole)


Nekonečnost, produktivita, Zipfův zákon



omezený počet hodně častých/očekávaných jevů
nekonečně výčtem nepopsatelných řídkých jevů
Homonymie, synonymie, elipsa, aktuální kontext


přístupy pravidlové, korpusové, rozumové, statistické
May I watch TV? – It’s bath time, honey.
Znalost světa, neverbální komunikace, humor

čas, společenské zvyklosti, vlastní jména …
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
3
Hlavní oblasti výzkumu

Speech recognition and synthesis


Information retrieval (IR)


vyhledávání informací, nikoli jen textu
Sémantika, konstrukce ontologií, logika


rozpoznávání/generování mluvené řeči
modelování významu, reprezentace znalostí
Machine translation (MT)

automatický překlad, analýza a syntéza jazyků
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
4
Jazyková data a jejich anotace

Model jazyka podle zvoleného kritéria



Reprezentace jazyka závislá na teorii popisu



psané x mluvené, obecné x oborové, paralelní, historické
popis struktury jazyka x popis informací, binární x fuzzy
(ne)úplnost, různý detail, sledovaný cíl
závislostní syntax vs. složková syntax, morfologie, TFA
Jazykové zdroje jsou přesto široce využitelné pro
všechny zmiňované výzkumné oblasti


Linguistic Data Consortium, University of Pennsylvania
ÚFAL & CKL, ÚJČ, ÚSJ, projekty EU, MALACH
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
5
Prague … Dependency Treebank

Morfologická rovina (r. slovních druhů)


Analytická rovina (r. povrchové syntaxe)


analýza slovních forem v textu, určení základního
slovního tvaru a způsobu jeho odvození z/do formy
popis struktury věty a nalezení funkcí větných členů,
vyjádření vlastní gramatiky jazyka
Tektogramatická rovina (r. jazykového významu)

zachycení významu promluvy (vět v celém kontextu) a
jeho reprezentace tak, že je do jisté míry popisem
myšlenky a lze jej využít k porozumění textu, tj. i k
překladu mezi jazyky
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
6
Když mám treebank, co umím?

Morfologická analýza (a vymezení jednotek řeči)


Tagging, disambiguace (nejen morpho)


automatický výběr správných anotací v daném kontextu,
strojové učení, rozhodovací modely
Syntaktická analýza (i tecto)


slovník aktuálního jazyka, algoritmus odvozování forem,
jejich verifikace a rekonstrukce, lemmatizace slov textu
rozbor textu a jejího členů, redukce vět, interpretace
Jazykový model (různé úrovně)

identifikace jazyků, třídy slov/struktur, rozpoznávání
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
7
Pro skutečný svět …

… existuje zřejmé využití ;)









vysoce organizované slovníky a lexikální sítě, studijní pomůcky
automatické kontroly pravopisu a gramatiky, odhad srozumitelnosti
doplňování textu v průběhu psaní, víceznačné klávesnice (minipřístroje, usnadnění komunikace pro handicapované)
komprese dat (rychlost, kapacita), užitečný signál
interpretace textu, IR, zjišťování informací z internetu i jiných DB
dialogové systémy, obchod, služby, interview (i v lékařství)
hlasová komunikace s počítačem (rozuměj obecně, např. navigace)
úplný automatický překlad, machine-assisted translation, orientační
překlad, interaktivní překlad
Mnoho vedlejších efektů (od modelování živých organizmů
ke čtení DNA, rozpoznávání obrazu, ...)
25. června 2003
Natural Language Processing: Motivační přehled problémů, řešení a aplikací
8
Related documents