36
W1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

[PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Embed Size (px)

Citation preview

Page 1: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

W1: Lingwistyka

Inżynieria JęzykaNina Suszczańska, Politechnika Śląska, 2006

Page 2: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 2 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Plan

W1: LingwistykaW2: GramatykiW3: Gramatyki, Statystyka W4: Zastosowania

Page 3: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 3 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Tematyka wykładów

czego dotyczą terminy: przetwarzanie języka naturalnego, lingwistyka komputerowa, inżynieria lingwistyczna, inżynieria języka

dziedziny NLP: fonetyka/ortografia, fonologia, morfologia, składnia, semantyka, pragmatyka

rodzaje danych lingwistycznych i możliwość ich wykorzystania (słowniki, korpusy)

tradycyjne (formalne) podejście do analizy i syntezy języka, statystyczne metody przetwarzania językazastosowania:

– wyszukiwanie informacji tekstowych,– organizacja danych tekstowych,– automatyczne streszczanie tekstów,– systemy pytań i odpowiedzi,– tłumaczenie, wspomaganie tłumaczenia.

Page 4: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 4 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Literatura

Zygmunt Vetulani, Komunikacja człowieka z maszyną. Komputerowe modelowanie kompetencji językowej. Warszawa 2004, Akademicka oficyna Wydawnicza EXIT

Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall. http://www.cs.colorado.edu/~martin/slp.html

Inne, przykładowe: Hajič, Jan, materiały do wykładu Introduction to Natural Language

Processing CS Dept., Johns Hopkins Univ. http://www.cs.jhu.edu/~hajic Manning Christopher D., Schutze Hinrich. Foundations of Statistical

Natural Language Processing. Cambridge 1999 The MIT Press. Advances in Automatic Text Summarization. Eds. Inderjeet Mani, Mark

T. Maybury. Cambridge 1999 MIT Press. Jelinek Frederick. Statistical Methods for Speech Recognition.

Cambridge 1999 MIT Press.

Page 5: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 5 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Językoznawstwo

Językoznawstwo (lingwistyka) jest nauką o języku. – powstawanie, rozwój i funkcjonowanie języka– zależności między poszczególnymi językami

Trzy przeciwstawne pary kierunków badań językoznawczych : – synchroniczne – zajmuje się formą języka w danym momencie;

diachroniczne odkrywa historię języka (grupy języków) i zmiany jego struktury na przestrzeni czasu

– teoretyczne –modelowanie służące opisywaniu poszczególnych języków oraz teorie dotyczące uniwersalnych aspektów języka; stosowane – usiłuje wdrażać te teorie w praktyce

– Makrolingwistyka lub językoznawstwo kontekstualne bada dopasowanie języka do otaczającego świata,

• funkcje społeczne języka, proces nauki i wzbogacania języka, procesy wytwarzania i odbioru języka.

Mikrolingwistyka lub językoznawstwo niezależne rozważa język jako byt niezależny od otaczającego świata

• lingwistyka ogólna lub lingwistyka bez dodatkowych określeń, • należy rozumieć jako językoznawstwo synchroniczne, teoretyczne

i niezależne jednocześnie. Dziedzina ta jest uważana za jądro językoznawstwa

Page 6: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 6 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Działy językoznawstwa

Językoznawstwo zajmuje się wszelkimi aspektami języka i zawiera w sobie liczne działy. Należą do nich między innymi:

- fonetyka - fonologia - lingwistyka tekstu - morfologia - pragmatyka - semantyka - semiotyka - słowotwórstwo - syntaktyka

itd.

Page 7: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 7 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Interdyscyplinarne kierunki badań

lingwistycznych Na pograniczu lingwistyki i innych nauk wyodrębniły się

kilkadziesiąt dziedzin badań, w tym: – Geolingwistyka (geografia lingwistyczna, geografia języka) – Kryptografia– Krytyczna Analiza Dyskursu ( dyskurs) – Juryslingwistyka (ligwistyka prawnicza) – Lingwistyka matematyczna – Lingwistyka stosowana – Lingwistyka kognitywna – Lingwistyka komputerowa

• identyfikacja rozmówcy• przetwarzanie języka naturalnego• przetwarzanie mowy• rozpoznawanie mowy• synteza mowy

itd.

Page 8: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 8 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KAGdzie jest potrzebna wiedza lingwistyczna?

Dziedziny działalności człowieka, w których wiedza lingwistyczna jest potrzebna to:– translatoryka - teoria i praktyka przekładu, – dydaktyka, obejmująca także nauczanie języka

ojczystego dzieci i młodzieży, – komunikacja masowa, – problematyka grup społecznych posługujących się

własnymi językami, – informatyka, teoria i praktyka sztucznego

intelektu i in.

Page 9: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 9 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Elementy terminologii

NLP (Natural Language Processing) – przetwarzanie języka naturalnego

Kompetencja językowa (kompetencja komunikacyjna)Komputerowe modelowanie (emulowanie) kompetencji

językowej człowiekaSystem z emulowaną kompetencją człowieka = system

z kompetencją językową dorównującą ludzkiejRozumienie języka Inżynieria języka naturalnego (Natural Language

Engineering), technologie języka ludzkiego (Human Language Technologies), inżynieria lingwistyczna (Linguistic Engineering)

Page 10: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 10 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Przetwarzanie języka naturalnego -

różne aspekty lingwistyka formalna i komputerowa (Computational

Linguistics)przetwarzanie języka naturalnego (Natural Language

Processing) inżynieria lingwistyczna (Linguistic Engineering) psycholingwistyka komputerowa (Computational

Psycholinguistics) rozpoznawanie sygnału mowy (Speech Recognition)

Page 11: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 11 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Cele NLP

poznawcze (jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...),

gromadzenie danych lingwistycznych (słowniki ogólne i specjalistyczne, korpusy tekstów, gramatyki, ...)

wykorzystywanie języka naturalnego w systemach komputerowych:– wyszukiwanie informacji, – automatyczne streszczanie tekstów, – systemy pytań i odpowiedzi, – organizacja danych tekstowych, – wspomaganie tłumaczenia– itd.

Page 12: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 12 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KADziedzina lingwistyki komputerowej

Wszystko, co jest powiązano z rozpoznawaniem mowy i przetwarzaniem danych powiązanych z tym zagadnieniem

Zadanie lingwistyki komputerowej polega w tym, żeby rozwijać oprogramowanie, które daje możliwość rozwiązać problemy powstające w związku z opracowaniem językowych danych

Page 13: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 13 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Gdzie jest potrzebna lingwistyka

komputerowa (1)Wspomaganie przy opracowaniu tekstów, w tym

poprawianie typowych błędów oraz błędów ortograficznych, sprawdzanie poprawności zdania, np. składniowej

Podział słów na sylaby w programach automatycznego przenoszenia słów

Pomoc przy napisaniu tekstów, np. poszukiwanie prawidłowej terminologii lub synonimów

Poszukiwanie kontekstów, w tym według reguł związków między poszukiwanymi wyrazami lub według ich znaczenia

Pomoc przy tłumaczeniu tekstów na obce języki

Page 14: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 14 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Gdzie jest potrzebna lingwistyka

komputerowa (2)Dialog z komputerem w języku naturalnym Przetwarzanie języka mówionego czy migowego

w pisany i na odwrót Opracowanie danych tekstowych, np. bibliografii

wykorzystanej przy napisaniu tekstu, automatyczne układanie konspektu lub streszczenia tekstu

Dostarczanie informacji na dużą skale — od poszukiwania odpowiedniej literatury w bazie danych biblioteki do odpowiedzi na zapytanie generowanej przez system ekspertowy bazujący się na dużych bazach wiedzy

Programy nauczania języka, multimedialne słowniki, np. słowniki z dostępem fonicznym („mówiące”), słowniki „migające” oraz inne programy ćwiczeniowe

Page 15: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 15 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Czym zajmuje się inżynieria lingwistyczna

Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego.

NLP to ciąg przekształceń:

wypowiedź

synteza mowy

tekst w języku naturalnym

reprezentacja semantyczna (np. logiczna)

reakcja (wykonanie operacji, sformułowanie odpowiedzi)

Page 16: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 16 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Zadania inżynierii lingwistycznej

rozpoznawanie mowy – rozpoznawanie sygnału mowy w otoczeniu szumu– korekcja błędów wymowy– czytanie z ust(?)

rozumienie językagenerowanie wypowiedzi w języku

naturalnymwyszukiwanie informacji (information

retrieval)selekcja informacji (information extraction)wnioskowanie

Page 17: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 17 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Inżynieria języka

Teoria i praktyka są równie ważne w lingwistyce komputerowej.

Rozwiązania teoretyczne powinny być sprawdzone w eksperymentach komputerowych.

Z tego powodu z lingwistyki komputerowej wyodrębniła się część nazywana inżynierią językową, której zadaniem jest konstruowanie modeli i ich implementacja.

Inżynieria językowa jest szczególną częścią lingwistyki komputerowej, i jej rola jest bardzo ważna.

Page 18: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 18 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA

Zrozumienie polecenia•analiza językowa (identyfikacja słów, ich form, związków między nimi)•odniesienie do rzeczywistości

Wiedza o języku a realizacja wyznaczonego celu

Wybór odpowiedzi

ew. odrzucenie polecenia mimo możliwości wykonania go

Sformułowanie odpowiedzi•wybór słów, ich form, porządku•pragmatyka: uprzejma odmowa, podziękowanie•odniesienie do poprzedniej części dialogu (np. ten, to, on)

Page 19: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 19 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Model lingwistyczny

Punkt wyjścia – teorie utworzone przez lingwistówAktualizacja modelu do konkretnego projektu:

– Uzupełnienie i sprecyzowanie wykorzystywanych teorii języka

– Rozszerzenie wyjściowego modelu o zjawiska do tej pory pomijane

– Ujednolicenie opisu teoretycznego uwzględnionych zjawisk w przypadku kompilacji kilku modeli teoretycznych

Page 20: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 20 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Zadania inżyniera języka (1)

Bardzo skomplikowane W wielu przypadkach inżynier językowy musi sam

zgromadzić dane z interesującej go dziedziny języka ludzkiego.

Zgromadzone dane służą do wyboru odpowiedniej teorii opracowanej przez lingwistów,

ale wymagają opracowania własnej teorii przetwarzania takiej, która pozwoliłaby w miarę łatwą implementację.

Innymi słowy, informatyk występujący w roli inżyniera języka opracowuje opis teoretyczny modelowanego fragmentu języka, czyli tworzy model lingwistyczny, jednocześnie występując w roli twórczej badaczy języka.

Wieloletnie doświadczenie pokazało, że niewiedza szczegółów budowy języka, rozwiązanie problemów ad-hoc nie może doprowadzić do sukcesu

Page 21: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 21 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Zadania inżyniera języka (2)

Użytkownik – uczy się obcować się z komputeremLingwista-teoretyk szlifuje opisy poszczególnych

zjawisk językowychInżynier języka (informatyk!) powinien

skonstruować algorytmy, które doprowadziłyby do pożądanych wyników.

Do też można przytoczyć miarkowania o tym, że zdarza się tak, że inżynierowi czasami także przychodzą do głowy genialne idee

Page 22: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 22 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Cele modelowania

Test Turinga: maszyna naśladuje człowieka w sposób nieodróżnialny dla słuchacza (czytelnika) (poza problemami czysto językowymi także np. psychologiczne, związane z indywidualnymi możliwościami człowieka)– „przepowiednia” Turinga - pod koniec XX w. maszyna

dysponująca pamięcią 10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5-minutowej rozmowy (NIESTETY? NIE, ale np. zaskakująco sprawne są chatterboty służące do konwersacji z człowiekiem, pierwszy - ELIZA,Weizenbaum, 1966)

Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych)

Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania.

Page 23: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 23 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Eliza, wirtualny psychoanalityk

przykład rozmowy – użytkownik: „Mam zły dzień”– Eliza: „Czy przyszedłeś do mnie, bo masz zły dzień?”

przykład rozmowy – użytkownik: „Czuje się świetnie, dziękuję ci.”– Eliza: „Jak długo czujesz się świetnie, dziękuję mi?”

Elizę można obejrzeć pod adresem: http://ecceliza.cjb.net

Page 24: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 24 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Inne popularne boty

A.L.I.C.E Dostępna pod adresem: http://www.alicebot.org

Claude http://www.cs.cmu.edu/.../classics/racter/cld110.zip

Elvis http://www.catcom.net Nicole - wirtualny asystent firmy NativeMinds.

(niedostępna) Ramona - wirtualna artystka Wszystko na stronie

Autora dotyczącej sztucznej inteligencji: http://www.kurzweilai.net

Anna - Polski bot autorstwa Tomasza Kandefera.Julie1 - Wirtulana członkini i reprezentantka GovCon Fido - Pierwszy komercyjny chatterbot w Polsce

Page 25: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 25 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Zakres zastosowania wiedzy

Komputer jest maszyną, język należy do strefy uczuć. Jak daleko posunięte mogą być prowadzone obliczenia w języku?

Czy może komputer zademonstrować pewnego dnia ludzkie uczucie, i czy wtedy jest ten komputer narzędziem do opracowania symboli?

Gdzie są granicy symulacji komputerowej komunikowania się?

Page 26: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 26 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Trochę historii (1)

Podstawy (lata 40-te, 50-te)automaty; ( Turing, 1936; model obliczeń), „neurony”; McCulloch i Pitts, 1943automaty skończone, wyrażenia regularne; Kleene, 1951

i 1956zastosowanie modeli Markova do analizy języka; Shanon,

1948wykorzystanie automatów do opisu gramtyk, Chomsky (1956) formalny opis języka, gramatyki bezkontekstowe, Chomsky

1956 (niezależnie Backus i Naur, 1959 i 1960)zdefiniowanie entropii jako miary pojemności informacyjnej,

wyniki dla języka angielskiego, Shanon, spektrograf dźwiękowy (Koenig, 1946) i pierwszy system

analizy mowy (cyfry), Bell Labs, Davis, (1952)

Page 27: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 27 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Trochę historii (2)

Dwa obozy, 1957-1970 – przetwarzanie symboliczne (formalne),

• gramatyka generatywna, Chomsky – pierwszy system parsujący: TDAP (Transformations and

Discourse Analysis Project, Zelig Harris, 1962• sztuczna inteligencja (AI), McCarthy, Minsky …

– logiki nieklasycznem systemy automatycznego dowodzenia twierdzeń

– metody statystyczne• Bledsoe & Browning (1959) system rozpoznawania tekstu

w oparciu o metodę Bayesa– pierwsze prace korpusowe

• korpus Browna amerykańskiego angielskiego (1 mln słów z 400 tekstów)

Page 28: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 28 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Trochę historii (3)

Cztery podejścia, 1970-1983– metody statystyczne

• IBM Thomas J. Watson Research Center: Jelinek, Bahl, Mercer

• Carnegie Mellon Uniwersity: Baker• AT&T BellLaboratories (rozpoznawanie i analiza mowy)

– metody oparte o logiki formalne• Colmerauer, gramatyki metamorficzne, Prolog• Kay, gramatyki funkcyjne• Bresnan, Kaplan, LFG

– natural-language-understanding field, SHRUDLU, Winograd, 1972, Shank

– modelowanie dyskursu, Grosz, 1977, Allen

Page 29: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 29 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Trochę historii (4)

Ponowne „odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993– wykorzystanie automatów do analizy morfologicznej

(Kaplan, Kay, 1981)– metody analizy statystycznej mowy (IBM Research

Centre)– ...

Połączenie wysiłków, 1994– włączenie metod statystycznych do wszystkich

dziedzin NLP

Page 30: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 30 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Systemy przetwarzania języka (1)

ScanSoft Inc., US: tradycyjna specjalność cyfryzacja obrazu/tekstu pisanego– RealSpeak (Text-To-Speach system, 19 języków, w tym polski)

• http:/www.scansoft.com/realspeak– Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst,

wspomaganie tworzenia dokumentów biurowych)Nuance, USA http:/www.nuance.com

– Nuance: rozpoznawanie mowy (m.in. voice-driven systems)– synteza mowy Nuance Vocalizer (UK and US English; inne języki

w połączeniu z modułami np. ScanSoft)– Voice Authentication (rozpoznanie użytkownika po głosie)

Telisma, France– telco-grade speech modules– philsoft: rozpoznawanie mowy (ASR)

Page 31: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 31 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Systemy przetwarzania języka (2)

Lingtech A/S, Dania– PaTrans (efekt projektu EURORTA): tłumaczenie

w dziedzinie medycyny i farmacji Morphologics, Węgry

– korektory pisowni– analizatory morfologiczne (w tym bardzo dobry polski)

PROject MT Ltd, Rosja - PROMPT; system tłumaczący Temis, France http:/www.temis-group.com/temis/sx.htm

– InsightDiscover Extractor (ekstrakcja informacji ze swobodnego tekstu, 7 języków)

FlexAnswer - system dialogowy Linguamatic, UK; Eleka Linguistic Engeenering, Kraj

Basków; voiceINTERconnect, Niemcy; Systran, Francja....

Page 32: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 32 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Informatyczno-technologiczne

prace w Polsce (1)Nurt logiczny: Gramatyka współczesnego języka

polskiego– Stanisław Karolak– Zuzanna Topolińska i in.

Paradygmat zależnościowy– Zygmunt Saloni– Marek Świdziński– Tomasz Obrębski (parser, 2002)

Gramatyki generatywne– Kazimierz Polański (czasownik) (1980)– Katarzyna Węgrzynek (przymiotniki) (1995)– Grażyna Vetulani (rzeczownik) (2000)

Page 33: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 33 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Informatyczno-technologiczne

prace w Polsce (2)Formalizm HPSG (Head-driven Phrase Structure

Grammar)– Leonard Bolc– Adam Przepiorkowski i in.

Formalizm DRT (Discourse Representation Theory), modelowanie znaczenia polskiej frazy nominalnej– Maciej Piasecki (2003)

Formalizm DCG (Definite Clause Grammar)– Stanisław Szpakowicz (1983)– Janusz Bień i in.

Formalizm SSG (System of Syntactical Groups)– Wiaczysław Gładki (1975)– Nina Suszczańska (gramatyka 1981, parser 1998)

Page 34: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 34 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Lingwistyka a informatyka

Wielowątkowość przetwarzania języka– Różne techniki dla szczegółowych podzadań

• Analiza morfologiczna• Parsing• Analiza semantyczna• Analiza kontekstu i sytuacji itp.

Wzajemne oddziaływanie i inspiracje– Gramatyki formalne – podstawowy formalny informatyki

– bazują na pracach lingwistów• Kazimierz Ajdukiewicz (1890-1963) – gramatyki kategorialne• Noam Chomski – gramatyki generatywne

Formalizacja wymaga od lingwistów opisów szczegółowych, czasem badań dodatkowych

Page 35: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 35 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA Informacje w sieci

HLT Cenral (Human Language Technologies)– htp://www.hltcentral.org– „ HLTCentral web site was established as an online

information resource of human language technologies and related topics of interest to the HLT community at large. It covers news, R&D, technological and business developments in the field of speech, language, multilinguality, automatic translation, localisation and related areas. Its coverage of HLT news and developments is worldwide - with a unique European perspective.”

ELRA European Language Resources Associacion - organizacja zajmująca się zbieraniem i udostęnianiem danych językowych (członkostwo jest płatne) http://www.elra.info

Page 36: [PPT]aplatforma.polsl.pl/rau2/file.php/103/Lingwistyka-wyklady/W1... · Web viewW1: Lingwistyka Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

25.03.2006 36 z 36

INŻY

NIE

RIA

ZYK

AIN

ŻYN

IER

IA J

ĘZY

KA