19
Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki [email protected] Krzysztof Wróbel Akademia Górniczo-Hutnicza, Katedra Informatyki; Uniwersytet Jagielloński, Katedra Lingwistyki Komputerowej [email protected]

Migowego Polskiego Języka Maszynowe tłumaczeniehome.agh.edu.pl/~jgalka/research/publikacje/Witkom raport... · naturalny język osób Głuchych dostępny w poznaniu wzrokowym odrębny

Embed Size (px)

Citation preview

Maszynowe tłumaczenie Polskiego Języka

MigowegoProjekt WiTKoM

Dorota GrądalskaVoicePIN.com Sp. z o.o;

Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki

[email protected]

Krzysztof WróbelAkademia Górniczo-Hutnicza, Katedra Informatyki;

Uniwersytet Jagielloński, Katedra Lingwistyki Komputerowej

[email protected]

Wirtualny Tłumacz Komunikacji Migowej (WiTKoM)

Projekt realizowany przez konsorcjum naukowe Akademii Górniczo-Hutniczej oraz VoicePIN.com sp. z o.o. w latach 2013-2015 w ramach Programu Badań Stosowanych Narodowego Centrum Badań i Rozwoju.

Głównym celem projektu jest zbadanie możliwości zastosowania algorytmów rozpoznawania obrazu, uczenia maszynowego i przetwarzania języka naturalnego w kontekście wypowiedzi w Polskim Języku Migowym (PJM).

Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska

Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska

Cechy Polskiego Języka Migowego (PJM)

● naturalny język osób Głuchych

● dostępny w poznaniu wzrokowym

● odrębny i niezależny od języka polskiego

● wyróżniający się gramatyką wizualno-przestrzenną

● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)

● zróżnicowany regionalnie

● obcy dla słyszących

Szyk zdania w Polskim Języku Migowym - przykłady

1. Na stole obok siebie leżą dwie książki. PJM: [STÓŁ] [KSIĄŻKA] [KSIĄŻKA]

2. Kot pije mleko. PJM: [KOT] [PIĆ MLEKO + klasyfikator ruchu]

3. On lubi jabłka. PJM: [ON] [JABŁKO] [LUBIĆ]

4. Dziewczynka podniosła oczy do góry. PJM: [DZIEWCZYNKA] [PATRZEĆ + klasyfikator ruchu gałek ocznych]

5. Kiedy odbędzie się egzamin? PJM: [EGZAMIN] [KIEDY] + {mimika pytająca}

Cechy Polskiego Języka Migowego (PJM)

● naturalny język osób Głuchych

● dostępny w poznaniu wzrokowym

● odrębny i niezależny od języka polskiego

● wyróżniający się gramatyką wizualno-przestrzenną

● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)

● zróżnicowany regionalnie

● obcy dla słyszących

Stan wiedzy o PJM

● język słabo poznany, Pozostawał w zasadzie poza obszarem zainteresowania polskiego językoznawstwa aż do połowy lat 90-tych XX w. Badania nad PJM prowadzi, powołana w 2010 r. na Wydziale Polonistyki Uniwersytetu Warszawskiego, Pracownia Lingwistyki Migowej. Obecnym kierownikiem Pracowni jest dr Paweł Rutkowski.

● nieustalony korpus leksykalny,

● jedynie cząstkowe opracowania gramatyki,

● niewielka liczba materiałów źródłowych.

Tłumaczenie maszynowe

Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.

Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.

Kupiłem zieloną trawę. - Megvettem a zöld fű.

Tłumaczenie maszynowe

Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.

Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.

Kupiłem zieloną trawę. - Megvettem a zöld fű.

żółte - sárganiebieskie - kékzielone - zöld

słońce - a napniebo - az égtrawa - a fű

Korpus

Przykłady:● Daj mi twoją książkę. - [TWÓJ] [KSIĄŻKA] [DAĆ MI] [.]● Ja nie lubię pisać. - [JA] [PISAĆ] [NIE LUBIĆ] [.]

Ogólne Medyczne Wszystkie

Ilość zdań 48 52 100Średnia ilość słów w zdaniu 6,79 8,88 7,88

Ilość słów 326 462 780

Ilość unikalnych słów 108 203 270

Język polski - narzędzia

● tagger morfosyntaktyczny

forma lemma znaczniki

Daj dać impt:sg:sec:perf

mi ja ppron12:sg:dat:m1:pri:nakc

Twoją twój adj:sg:acc:f:pos

książkę książka subst:sg:acc:f

. . interp

Waszczuk J. (2012). „Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language”. Mumbai: COLING

Język polski - narzędzia

● parser zależnościowy

Wróblewska A., Woliński M. (2012). Preliminary experiments in Polish dependency parsing." Security and Intelligent Information Systems. Springer Berlin Heidelberg, pp. 279-292.

PJM - narzędzia

brak

Reguły tłumaczenia

● operują na drzewie zależnościowym○ struktura○ własności

● definiują akcje:○ usuwania słów○ dodawania zależności○ łączenia wyrazów wielosegmentowych

● nie uwzględniają kolejności wyrazów w zdaniu

Kay, M. (1984). "Functional unification grammar: A formalism for machine translation." Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics.

Przykład

dodaj osobę (“ty”) gdy ujęta w czasowniku

Wyniki

System tłumaczenia dla języka hiszpańskiego osiągnął PER 13,17 na 150 zdaniach z 153 regułami. Statystyczna metoda wytrenowana na 266 zdaniach osiągnęła PER 29,14.

PER (%) Ogólne Medyczne Wszystkie

Brak reguł 42,69 56,04 49,64

30 reguł 19,57 35,45 27,83

San-Segundo R. et al. (2008). "Speech to sign language translation system for Spanish." Speech Communication 50.11, pp. 1009-1020.

Dalsze prace

● dokończenie implementacji zdefiniowanych reguł

● próba statystycznego zamodelowania kolejności znaków w zdaniu na poziomie zależnościowym

● {pred, obj_th, obj, punct, subj} → (subj, pred, objt_th, obj, punct)● {adjunct, obj} → (adjunct,obj)

KontaktProjekt WiTKoM

Kierownik projektu: dr inż. Jakub Gałka [email protected]

Dorota Grądalska: [email protected]

Krzysztof Wróbel: [email protected]

Praca finansowana przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, projekt nr PBS2/B3/21/2013, pt. „Wirtualny Tłumacz Komunikacji Migowej”.