Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Natural Language Processing Motivační přehled problémů, řešení a aplikací Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu … zpracování přirozeného jazyka Natural Language Processing (NLP) Computer/Computational Linguistics (CL) oblast témat a úloh, spojení mnoha vědních oborů moderní, nutné, mimořádně složité rozšíření a aplikace dnešní IT, její původní motivace počítačová/komputační lingvistika teoretická/formální lingvistika, korpusová lingvistika … Artificial Intelligence (AI) umělá inteligence, automatické učení, strojové vnímání 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 2 Proč je jazyk složitý? Systém a jeho projevy (langue vs. parole) Nekonečnost, produktivita, Zipfův zákon omezený počet hodně častých/očekávaných jevů nekonečně výčtem nepopsatelných řídkých jevů Homonymie, synonymie, elipsa, aktuální kontext přístupy pravidlové, korpusové, rozumové, statistické May I watch TV? – It’s bath time, honey. Znalost světa, neverbální komunikace, humor čas, společenské zvyklosti, vlastní jména … 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 3 Hlavní oblasti výzkumu Speech recognition and synthesis Information retrieval (IR) vyhledávání informací, nikoli jen textu Sémantika, konstrukce ontologií, logika rozpoznávání/generování mluvené řeči modelování významu, reprezentace znalostí Machine translation (MT) automatický překlad, analýza a syntéza jazyků 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 4 Jazyková data a jejich anotace Model jazyka podle zvoleného kritéria Reprezentace jazyka závislá na teorii popisu psané x mluvené, obecné x oborové, paralelní, historické popis struktury jazyka x popis informací, binární x fuzzy (ne)úplnost, různý detail, sledovaný cíl závislostní syntax vs. složková syntax, morfologie, TFA Jazykové zdroje jsou přesto široce využitelné pro všechny zmiňované výzkumné oblasti Linguistic Data Consortium, University of Pennsylvania ÚFAL & CKL, ÚJČ, ÚSJ, projekty EU, MALACH 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 5 Prague … Dependency Treebank Morfologická rovina (r. slovních druhů) Analytická rovina (r. povrchové syntaxe) analýza slovních forem v textu, určení základního slovního tvaru a způsobu jeho odvození z/do formy popis struktury věty a nalezení funkcí větných členů, vyjádření vlastní gramatiky jazyka Tektogramatická rovina (r. jazykového významu) zachycení významu promluvy (vět v celém kontextu) a jeho reprezentace tak, že je do jisté míry popisem myšlenky a lze jej využít k porozumění textu, tj. i k překladu mezi jazyky 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 6 Když mám treebank, co umím? Morfologická analýza (a vymezení jednotek řeči) Tagging, disambiguace (nejen morpho) automatický výběr správných anotací v daném kontextu, strojové učení, rozhodovací modely Syntaktická analýza (i tecto) slovník aktuálního jazyka, algoritmus odvozování forem, jejich verifikace a rekonstrukce, lemmatizace slov textu rozbor textu a jejího členů, redukce vět, interpretace Jazykový model (různé úrovně) identifikace jazyků, třídy slov/struktur, rozpoznávání 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 7 Pro skutečný svět … … existuje zřejmé využití ;) vysoce organizované slovníky a lexikální sítě, studijní pomůcky automatické kontroly pravopisu a gramatiky, odhad srozumitelnosti doplňování textu v průběhu psaní, víceznačné klávesnice (minipřístroje, usnadnění komunikace pro handicapované) komprese dat (rychlost, kapacita), užitečný signál interpretace textu, IR, zjišťování informací z internetu i jiných DB dialogové systémy, obchod, služby, interview (i v lékařství) hlasová komunikace s počítačem (rozuměj obecně, např. navigace) úplný automatický překlad, machine-assisted translation, orientační překlad, interaktivní překlad Mnoho vedlejších efektů (od modelování živých organizmů ke čtení DNA, rozpoznávání obrazu, ...) 25. června 2003 Natural Language Processing: Motivační přehled problémů, řešení a aplikací 8