ZRE, 29.4.2009

Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech

Speech@FITVysoké učení technické v Brně

Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke

ZRE, 29.4.2009

2

Osnova• Použité zkratky• Trénovací / testovací data• Popis systémů

– FastLVCSR: KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu.

– HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním.

– Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu.

– Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě.

• Porovnání systémů - Brno• Závěr a porovnání všech systémů

3

Použité zkratky a termíny• KWS - detektor klíčových slov• Ak. KWS - Akustický KWS• LVCSR - slovní rozpoznávač• Hybrid LVCSR - slovně/podslovní rozpoznávač• Lattice - (svaz/mřížka) dopředný acyklický graf

hypotéz• LM - jazykový model• AM - akustický model• RT - real time faktor (1 jádro v CPU)• Term - klíčové slovo• OOV - slovo mimo rozpoznávací slovník

44

Trénovací / testovací data• Trénování

– Akustický model: 35.75h řeči– Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky

(513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov– Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová

data(0,8G)– Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT)– Slovník HybridLVCSR: 1 mil. slov + 2700 fonémových multigramů, výslovnosti

pomocí transc (ČVUT)

• Testování2h dat, 502 termů, 1712 výskytů

Termy lišící se pouze v jediném fonému: 39 (186 výskytů)Termy, které jsou podslovy jiných termů: 19 (90 výskytů)

Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73

5

FastLVCSR• Rychlý LVCSR s malým slovníkem včetně

hledaných termů. 2-gram LM, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR

• Start systému ~x minut.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x00 MB RAM.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu)

6

FastLVCSR

Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.

7

HybridLVCSR• LVCSR s velkým slovníkem (1 mil.) a schopností

rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR

• Start systému ~x minut.• Nahrávky se zpracovávají jen jednou a ukládají do

indexu.• Při změně seznamu klíčových slov lze rychle

vyhledávat v indexu (~0.00001RT).• Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro

index.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)

8

HybridLVCSRSystém IV OOV AllSlovní 82.73 / 28.56 0.00 / 0.00 81.24 / 29.38Podslovní 19.28 / 80.50 34.29 / 65.71 19.60 / 80.20Kombinace 82.96 / 28.15 34.29 / 65.71 82.16 / 28.62

• Z 502 termů bylo 28 OOV (1 mil. slovník).

• Z 1712 výskytů bylo 35 OOV.• Možnost detekce OOV

zlepšilo úspěšnost o 1%.• Podobně jako u FastLVCSR

má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.

9

Akustický CD-GM• Akustický KWS, 12G x-word, kont. závislé fonémy,

CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR).

• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,3 (příznaky) + dekódování (údaj z grafu)

10

Akustický CD-GM

Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.

11

Akustický CI-NN• Rychlý akustický KWS, kont. nezávislé fonémy,

CMN/CVN. Jako akustický model je použita neuronová síť.

• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba

zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,5 (příznaky + dekódování)

1212

Porovnání systémů - přesnost

Termset FastLVCSR HybridLVCSR Ak. CDcut Ak. NNCelý 84.1 / 27.6 82.2 / 28.6 80.5 / 36.7 67.2 / 48.6

Změna 1phn 76.7 / 33.3 77.6 / 33.3 74.3 / 44.1 60.6 / 53.8Podslova 82.7 / 27.8 81.8 / 27.8 56.3 / 56.7 43.6 / 70.0

1313

Porovnání systémů - délka slov

Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá.

Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73

1414

Porovnání systémů - 1fon.Termy lišící se pouze v jediném fonému: 39 (186 výskytů)

Podobná slova snižují úspěšnost akustických systémů.

1515

Porovnání systémů - podslovaTermy, které jsou podslovy jiných termů: 19 (90 výskytů)

Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost.

16

Porovnání systémů - rychlostZávislost úspěšnosti na rychlosti systému.LVCSR: +0.5RT (vtln, cmllr fast)

Ak. CD-GM: +0.3RT (vtln)

17

Porovnání systémů - ak. modelyPříklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).

18

Shrnutí• Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické

– FastLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu.

– HybridLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu.

– Akustický CD-GM je vhodný pro spolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR.

– Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).

Documents

ZRE, 29.4.2009