18
Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu Ondřej Cífka, Ondřej Bojar Ústav formální a aplikované lingvistiky, MFF UK Korpusová lingvistika Praha, 17. září 2016 1 / 18

Korpus pro automatické rozpoznání českých slov v anglickém

Embed Size (px)

Citation preview

Page 1: Korpus pro automatické rozpoznání českých slov v anglickém

Korpus pro automatické rozpoznáníčeských slov v anglickém mluveném

projevu

Ondřej Cífka, Ondřej Bojar

Ústav formální a aplikované lingvistiky, MFF UK

Korpusová lingvistika Praha, 17. září 2016

1 / 18

Page 2: Korpus pro automatické rozpoznání českých slov v anglickém

ObsahI Motivace: Alex Translate, tlumočník pro turistyI Překlad mluvené řeči obecněI Problémy v našem kontextu a jejich řešení

I Nedostatek dat v doméněI Rozpoznání českých slov anglickým ASR

I Empirické vyhodnocení

2 / 18

Page 3: Korpus pro automatické rozpoznání českých slov v anglickém

Alex TranslateI systém pro automatický překlad mluvené angličtiny do

češtiny (speech-to-speech translation)I zaměření na cestovní ruch (služba pro anglofonní turisty)I použit ke sběru dat → malý mluvený korpusI ukázka: � 277 278 178

3 / 18

Page 4: Korpus pro automatické rozpoznání českých slov v anglickém

Překlad mluvené řeči

I zvukový signál ve zdrojovém jazyce(angličtina) → text v cílovém jazyce(čeština)

I hlavní podúlohy:I rozpoznání řeči (ASR)I strojový překlad (MT)+ popř. syntéza řeči (TTS)

Speech recognition

(ASR)

where is the nearesttram stop

Machine translation

(MT)

kde je nejbližšízastávka tramvaje

4 / 18

Page 5: Korpus pro automatické rozpoznání českých slov v anglickém

Rozpoznání řeči (ASR)

5 / 18

Page 6: Korpus pro automatické rozpoznání českých slov v anglickém

Statistické rozpoznání řečiI akustický model (AM): zvukový signál ↔ hlásky

I trénovací data: mluvený korpusI výslovnostní lexikon: hlásky ↔ slova

I ručně sestavený nebo generovaný pravidlyI jazykový model (LM): pravděpodobnosti řetězců slov

I trénovací data: textový korpus, ideálně specializovaný prokonkrétní úlohu

6 / 18

Page 7: Korpus pro automatické rozpoznání českých slov v anglickém

ProblémyI potřebujeme korpus specializovaný pro danou doménu

(konverzační věty z oblasti cestovního ruchu)I nasbíraná data zdaleka nestačí k natrénování modelů

I použití českých místních názvů v anglické řeči (druhcode-switchingu)

I Does this tram go to Vítězné náměstí?I ASR toto zpravidla neřešíI chybí data zachycující tento jev

7 / 18

Page 8: Korpus pro automatické rozpoznání českých slov v anglickém

Nahrávky a přepisy hovorů1

I 14 minutI 35 hovorůI 364 promluvI použito pro ladění a testování systému

could you call my hotel and tell them that i’m coming lategood morning what’s the weather in the city of ústí nadlabemare you from pragueis this food gluten free

1http://hdl.handle.net/11234/1-17358 / 18

Page 9: Korpus pro automatické rozpoznání českých slov v anglickém

Trénování ASR

I výběr vět z korpusuCommon Crawl

I výběr hesel z Wikipediesouvisejících s Českem

I část nahraných hovorůpoužita k ladění vahjazykového modelu

referenční text„phrasebooksentences“

referenční LM korpusCommon Crawl

další korpusyčásti CzEngua Wikipedie

ladicí textpřepisy hovorů

vybraný text

interpolovanýLM

ASRmodel

výslovnostnílexikon

akustickýmodel

could you call my hotel andtell them that i'm coming late

good morning what's the weatherin the city of ústí nad labem

is this food gluten free

how do you pronounce thatdo you have any meatless dishes

does this tram go to the prague castlei don’t have a boyfriend

thank you so muchit’s surprising what you don’t know

i love to go out and have a good timehe is that person to me

you have been busy

z Common Crawl

9 / 18

Page 10: Korpus pro automatické rozpoznání českých slov v anglickém

Rozpoznání českých slov v anglické řečiI vybereme množinu českých slov, která chceme umět

rozpoznat (v našem případě názvy ulic a obcí), přidámeje do výslovnostního lexikonu

I problém: akustický model pro angličtinu používá saduhlásek, která není vhodná pro češtinu

I známé přístupy:I rozšířit sadu hlásek o specificky české hlásky, např. kombinací

s českým akustickým modelem (Stemmer et al., 2001;Modipa – Davel, 2010)

I přepsat česká slova pomocí výslovnostních pravidel proangličtinu (Modipa – Davel, 2010)

I přepsat českou výslovnost pomocí anglických hlásek (Wang –Tong, 2014)

10 / 18

Page 11: Korpus pro automatické rozpoznání českých slov v anglickém

Rozpoznání českých slov – přepis hlásekI přepis české výslovnosti pomocí anglických hlásek

I nevýhoda: nelze přesně zachytit specificky české hlásky (alety cizinec stejně nemusí vyslovit správně)

I výhoda: není nutné měnit akustický model

souhlásky samohlásky/dvojhlásky

Czech ex. English ex. Czech ex. English ex.>ts cár t s tsunami o oko O oughtc ťapka

>tS cheese au

“auto aU

“cow

é ďábel>dZ jeans eu

“euro æ u —

ñ ňadra n need ou“

ouško oU“

oatr rád ô readrfi řád Z visionr̊fi křáp S she

11 / 18

Page 12: Korpus pro automatické rozpoznání českých slov v anglickém

Rozpoznání českých slov – trénovací korpusI věty z anglické Wikipedie obsahující jména českých ulic a

obcíI 90 031 vět, 2 360 589 slov (134 625 českých)

The Technical University of Liberec is a medium-sizedinstitution.In 1946, Baron Georg Beess, the last nobleman from theBeess family to own properties in Hnojník, was expelled fromthe country and was deprived of his property according to theBeneš decrees affecting the Germans in Czechoslovakia.In May 1975, the 1968 Constitutional Law of Federation wasfurther amended to allow Gustáv Husák to take over thepresidency from the ailing Ludvík Svoboda.

12 / 18

Page 13: Korpus pro automatické rozpoznání českých slov v anglickém

Testovací mluvený korpus1

I 54 předepsaných vět obsahujících jména míst v Česku,zejména v Praze

How can i get from Malostranské náměstí to Anděl?I need to get to Troja, can you drive me there?What is the weather like in Pardubice?

I přečteno 5 mluvčími studujícími v Praze → 256nahraných vět

I různé národnosti (Rusko, Sýrie, Írán)I různé úrovně znalosti češtiny (žádná až velmi vysoká)I odstraněny nahrávky, které se neshodovaly s předlohou

1http://hdl.handle.net/11234/1-1735,https://drive.google.com/open?id=0B_NnBoXZxx0uOXZyQmlZRENuSTQ

13 / 18

Page 14: Korpus pro automatické rozpoznání českých slov v anglickém

VýsledkyI varianty systému:

I adaptovaný lexikon: přidány výslovnosti českých slovI adaptovaný LM: do jazykového modelu „přimíchán“ výběr z

Wikipedie v poměru 1 : 9I testovací korpusy:

I calls2 : nahrávky uživatelůI cstest: nahrávky připravených vět s českými jmény

Systém%WER % poznaných jmen

calls2 cstest cstest

baseline 22,0 64,8 0,0adaptovaný lexikon 21,9 61,9 6,4adaptovaný lexikon + LM 22,9 58,2 13,5

14 / 18

Page 15: Korpus pro automatické rozpoznání českých slov v anglickém

Další krokyI dokončení adaptace jazykového modeluI prozkoumání výslovnosti českých slov nerodilými mluvčími

15 / 18

Page 16: Korpus pro automatické rozpoznání českých slov v anglickém

ShrnutíI sestaven malý řečový korpus

I (nerodilí mluvčí v anglické promluvě užívají česká slova)

http://hdl.handle.net/11234/1-1679

I sestaven textový korpus anglických vět s českými jményI návrh přepisu českých hlásek pomocí anglických pro ASRI experimenty dokládají zlepšení rozpoznávání českých slov

16 / 18

Page 17: Korpus pro automatické rozpoznání českých slov v anglickém

� 277 278 178

17 / 18

Page 18: Korpus pro automatické rozpoznání českých slov v anglickém

LiteraturaModipa, T. – Davel, M. H. Pronunciation modelling of foreign words for Sepedi ASR. 2010.

Stemmer, G. – Nöth, E. – Niemann, H. Acoustic modeling of foreign words in a German speechrecognition system. In INTERSPEECH, s. 2745–2748, 2001.

Wang, L. – Tong, R. Pronunciation modeling of foreign words for Mandarin ASR by consideringthe effect of language transfer. In INTERSPEECH, s. 1443–1447, 2014.

18 / 18