18
Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Speech@FIT Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke ZRE, 29.4.2009

ZRE, 29.4.2009

  • Upload
    dara

  • View
    43

  • Download
    2

Embed Size (px)

DESCRIPTION

Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Speech@FIT Vysoké učení technické v Brně. - PowerPoint PPT Presentation

Citation preview

Page 1: ZRE, 29.4.2009

Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech

Speech@FITVysoké učení technické v Brně

Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke

ZRE, 29.4.2009

Page 2: ZRE, 29.4.2009

2

Osnova• Použité zkratky• Trénovací / testovací data• Popis systémů

– FastLVCSR: KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu.

– HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním.

– Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu.

– Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě.

• Porovnání systémů - Brno• Závěr a porovnání všech systémů

Page 3: ZRE, 29.4.2009

3

Použité zkratky a termíny• KWS - detektor klíčových slov• Ak. KWS - Akustický KWS• LVCSR - slovní rozpoznávač• Hybrid LVCSR - slovně/podslovní rozpoznávač• Lattice - (svaz/mřížka) dopředný acyklický graf

hypotéz• LM - jazykový model• AM - akustický model• RT - real time faktor (1 jádro v CPU)• Term - klíčové slovo• OOV - slovo mimo rozpoznávací slovník

Page 4: ZRE, 29.4.2009

44

Trénovací / testovací data• Trénování

– Akustický model: 35.75h řeči– Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky

(513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov– Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová

data(0,8G)– Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT)– Slovník HybridLVCSR: 1 mil. slov + 2700 fonémových multigramů, výslovnosti

pomocí transc (ČVUT)

• Testování2h dat, 502 termů, 1712 výskytů

Termy lišící se pouze v jediném fonému: 39 (186 výskytů)Termy, které jsou podslovy jiných termů: 19 (90 výskytů)

Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73

Page 5: ZRE, 29.4.2009

5

FastLVCSR• Rychlý LVCSR s malým slovníkem včetně

hledaných termů. 2-gram LM, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR

• Start systému ~x minut.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x00 MB RAM.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu)

Page 6: ZRE, 29.4.2009

6

FastLVCSR

Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.

Page 7: ZRE, 29.4.2009

7

HybridLVCSR• LVCSR s velkým slovníkem (1 mil.) a schopností

rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR

• Start systému ~x minut.• Nahrávky se zpracovávají jen jednou a ukládají do

indexu.• Při změně seznamu klíčových slov lze rychle

vyhledávat v indexu (~0.00001RT).• Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro

index.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)

Page 8: ZRE, 29.4.2009

8

HybridLVCSRSystém IV OOV AllSlovní 82.73 / 28.56 0.00 / 0.00 81.24 / 29.38Podslovní 19.28 / 80.50 34.29 / 65.71 19.60 / 80.20Kombinace 82.96 / 28.15 34.29 / 65.71 82.16 / 28.62

• Z 502 termů bylo 28 OOV (1 mil. slovník).

• Z 1712 výskytů bylo 35 OOV.• Možnost detekce OOV

zlepšilo úspěšnost o 1%.• Podobně jako u FastLVCSR

má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.

Page 9: ZRE, 29.4.2009

9

Akustický CD-GM• Akustický KWS, 12G x-word, kont. závislé fonémy,

CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR).

• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,3 (příznaky) + dekódování (údaj z grafu)

Page 10: ZRE, 29.4.2009

10

Akustický CD-GM

Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.

Page 11: ZRE, 29.4.2009

11

Akustický CI-NN• Rychlý akustický KWS, kont. nezávislé fonémy,

CMN/CVN. Jako akustický model je použita neuronová síť.

• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,5 (příznaky + dekódování)

Page 12: ZRE, 29.4.2009

1212

Porovnání systémů - přesnost

Termset FastLVCSR HybridLVCSR Ak. CDcut Ak. NNCelý 84.1 / 27.6 82.2 / 28.6 80.5 / 36.7 67.2 / 48.6

Změna 1phn 76.7 / 33.3 77.6 / 33.3 74.3 / 44.1 60.6 / 53.8Podslova 82.7 / 27.8 81.8 / 27.8 56.3 / 56.7 43.6 / 70.0

Page 13: ZRE, 29.4.2009

1313

Porovnání systémů - délka slov

Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá.

Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73

Page 14: ZRE, 29.4.2009

1414

Porovnání systémů - 1fon.Termy lišící se pouze v jediném fonému: 39 (186 výskytů)

Podobná slova snižují úspěšnost akustických systémů.

Page 15: ZRE, 29.4.2009

1515

Porovnání systémů - podslovaTermy, které jsou podslovy jiných termů: 19 (90 výskytů)

Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost.

Page 16: ZRE, 29.4.2009

16

Porovnání systémů - rychlostZávislost úspěšnosti na rychlosti systému.LVCSR: +0.5RT (vtln, cmllr fast)

Ak. CD-GM: +0.3RT (vtln)

Page 17: ZRE, 29.4.2009

17

Porovnání systémů - ak. modelyPříklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).

Page 18: ZRE, 29.4.2009

18

Shrnutí• Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické

– FastLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu.

– HybridLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu.

– Akustický CD-GM je vhodný pro spolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR.

– Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).