Bes zé dtechnol ó gia, beszédfelismerés

BesBeszézédtechnoldtechnolóógia, gia, beszédfelismerésbeszédfelismerés

Dr. Tóth László Dr. Tóth László

MTA-SZTE Mesterséges Intelligencia MTA-SZTE Mesterséges Intelligencia KutatócsoportKutatócsoport

Beszédtechnológiai témakörökBeszédtechnológiai témakörök BeszédfelismerésBeszédfelismerés

– „„Tiszta” felismerés Tiszta” felismerés == diktálás (beszéd diktálás (beszédírás)írás)

– Más rendszer részeként: beszédinput (beszédMás rendszer részeként: beszédinput (beszédakció)akció)

– Szorosan összefonódik a nyelvtechnológiával (nyelvi szinten is Szorosan összefonódik a nyelvtechnológiával (nyelvi szinten is modellezni, elemezni kell)modellezni, elemezni kell)

BeszélőfelismerésBeszélőfelismerés– Verifikáció (igen/nem) vagy azonosítás (több beszélő közül)Verifikáció (igen/nem) vagy azonosítás (több beszélő közül)

Beszédszintézis (text-to-speech)Beszédszintézis (text-to-speech)– Problémák: hangminőség, prozódia, érzelmi töltetProblémák: hangminőség, prozódia, érzelmi töltet

Beszédtárolás és Beszédtárolás és --továbbítástovábbítás– Beszédtömöríés (speech coding)Beszédtömöríés (speech coding)

– Minőség javítása (pl. telefonos torzítás) (speech enhancement)Minőség javítása (pl. telefonos torzítás) (speech enhancement)

Beszédtechnológiai témakörök 2.Beszédtechnológiai témakörök 2. Beszédadatbázisok készítéseBeszédadatbázisok készítése

– A statisztikai alapú algoritmusok tanítására/teszteléséreA statisztikai alapú algoritmusok tanítására/tesztelésére

– A feldolgozás lehetséges szintjei:A feldolgozás lehetséges szintjei:» Alapos lehallgatás, szószinten pontos átirat (plusz zajok, egyedi Alapos lehallgatás, szószinten pontos átirat (plusz zajok, egyedi

kiejtések feljegyzése)kiejtések feljegyzése)

» Szóhatárok bejelölése a felvételenSzóhatárok bejelölése a felvételen

» Beszédhang-határok bejelölése a felvételenBeszédhang-határok bejelölése a felvételen

FFelismerelismeréshez kapcsolódó nyelvtechnológiai problémákéshez kapcsolódó nyelvtechnológiai problémák– Valószínűségi alapú nyelvi elemzésValószínűségi alapú nyelvi elemzés

– DialógusmodellezésDialógusmodellezés KiértékelésKiértékelés

– A beszédtech. alkalmazások hatásfokának objektív méréseA beszédtech. alkalmazások hatásfokának objektív mérése

Beszédfelismerési alkalmazásokBeszédfelismerési alkalmazások A teljesen általános felismerés nem megy!A teljesen általános felismerés nem megy!

Valamilyen módon „szűkített” feladatokat keresünk, pl.Valamilyen módon „szűkített” feladatokat keresünk, pl.– Szótár v. nyelvtan megszorítható (kicsi-közepes-nagy szótár)Szótár v. nyelvtan megszorítható (kicsi-közepes-nagy szótár)

– A hangminőség jobb az áltagosnálA hangminőség jobb az áltagosnál» Beszédmód: izolált szavas – olvasott – folyó – spontánBeszédmód: izolált szavas – olvasott – folyó – spontán

» Zaj jellege: nincs – modellezhető – változó Zaj jellege: nincs – modellezhető – változó

» Beszélők: egyetlen beszélő sokáig (adaptáció) – változó beszélőkBeszélők: egyetlen beszélő sokáig (adaptáció) – változó beszélők

Klasszikus alkalmazások:Klasszikus alkalmazások:– Parancsvezérlés (kis szótár, izolált szavak Parancsvezérlés (kis szótár, izolált szavak zaj esetén is OK) zaj esetén is OK)

– Diktálórendszerek (nagy szótár, de tiszta jel, beszélőadaptáció)Diktálórendszerek (nagy szótár, de tiszta jel, beszélőadaptáció)

– Dialógusrendszerek (kis szótár, kötött nyelvtan, ált. telefonos)Dialógusrendszerek (kis szótár, kötött nyelvtan, ált. telefonos)

Beszédfelismerési alkalmazások 2.Beszédfelismerési alkalmazások 2. Jelenleg „divatos” alkalmazások:Jelenleg „divatos” alkalmazások:

– Multimodalitás (szájról olvasás, arckifejezés, kézmozdulat Multimodalitás (szájról olvasás, arckifejezés, kézmozdulat felismerése, kombinálása a beszédfelismerővel)felismerése, kombinálása a beszédfelismerővel)

– MultilingvaMultilingvalitlitás: nyelv felismerése, akcentus felismerése, és ás: nyelv felismerése, akcentus felismerése, és kezelése, fordításkezelése, fordítás

– Hang-adatbányászat: audio indexing Hang-adatbányászat: audio indexing && retrieval, diarization, retrieval, diarization, summarizationsummarization

Néhány további érdekes téma:Néhány további érdekes téma:– Egyidejű beszédjelek szétválasztása Egyidejű beszédjelek szétválasztása

– Érzelmek felismeréseÉrzelmek felismerése

– Beszédterápia, olvasástanítás, nyelvtanulás segítéseBeszédterápia, olvasástanítás, nyelvtanulás segítése

– Néma beszéd felismerése EMG-bőlNéma beszéd felismerése EMG-ből

Beszédfelismerő komponenseiBeszédfelismerő komponensei

akusztikai-fonetikaimodell

nyelvimodell

szintaktikai/szemantikai

modell

dialógus-modell

Digitalizálásés jellemző-

kinyerés

Felismerés (osztályozás-kombinálás-

keresés)

Szintaktikai/szemantikai

elemzés

Dialógus-vezérlés

beszéd-jel

spektrálisvektorok

szólistav. -háló

értelme-zett kérés

akció

beszédszöveg

beszédtartalom

beszédakció

JellemzőkinyerésJellemzőkinyerés Cél: a lényegtelen információ kidobása, a lényeges tömör Cél: a lényegtelen információ kidobása, a lényeges tömör

reprezentálásareprezentálása– „„lényeg”: nyelvi tartalom (ld. fonetika)lényeg”: nyelvi tartalom (ld. fonetika)

– Klasszikus módszerek: tisztán matematikai megoldások Klasszikus módszerek: tisztán matematikai megoldások (ld.: digitális jelfeldolgozás, beszédfeldolgozás)(ld.: digitális jelfeldolgozás, beszédfeldolgozás)

– Újabb módszerek: az emberi fül/hallás (durva) modellezése Újabb módszerek: az emberi fül/hallás (durva) modellezése (ld.: pszichoakusztika, neurofiziológia)(ld.: pszichoakusztika, neurofiziológia)

– Mindig valamilyen spektrális vektorsorozat a kimenetMindig valamilyen spektrális vektorsorozat a kimenet, , felbontfelbontás: 100 vektor/sec, 40-50 komponens/vektorás: 100 vektor/sec, 40-50 komponens/vektor

A felismerésA felismerés A beszéd (és nyelv) specialitása, hogy hierarchikus:A beszéd (és nyelv) specialitása, hogy hierarchikus:

– Spektrális vektor („adatkeret”): 25-30 ms-os részletet ír leSpektrális vektor („adatkeret”): 25-30 ms-os részletet ír le

– Beszédhang: a magyarban kb. megfelel a betűknekBeszédhang: a magyarban kb. megfelel a betűknek

– Szó: angolban Szó: angolban ~~felsorolhatók, magyarban toldalékolás is van!felsorolhatók, magyarban toldalékolás is van!

– Mondat: nyelvtani szabályokkal próbáljuk leírni (szintaxis)Mondat: nyelvtani szabályokkal próbáljuk leírni (szintaxis)

– Szöveg ill. dialógus: szemantikai tartalom ill. beszédaktusSzöveg ill. dialógus: szemantikai tartalom ill. beszédaktus A szintezettség kezelése:A szintezettség kezelése:

– Alapvetően bottom-up módonAlapvetően bottom-up módon

– Több megoldási javaslat továbbítása a következő elemzési Több megoldási javaslat továbbítása a következő elemzési szintnek (tkp. a döntés késleltetése)szintnek (tkp. a döntés késleltetése)

– Valószínűségek hozzárendeléseValószínűségek hozzárendelése

A felismerés 2.A felismerés 2. 1. részfeladat: osztályozás1. részfeladat: osztályozás

– Spektrális vektorok, esetleg beszédhangnyi szegmentumok Spektrális vektorok, esetleg beszédhangnyi szegmentumok azonosítása (milyen hangnak felel meg)azonosítása (milyen hangnak felel meg)

– Tudásalapú (fonetikai) megoldások: nem váltak be, kiszorultakTudásalapú (fonetikai) megoldások: nem váltak be, kiszorultak

– Statisztikai gépi tanulási megoldások: jelenleg csak ilyeneket Statisztikai gépi tanulási megoldások: jelenleg csak ilyeneket használnakhasználnak

2. részfeladat: kombinálás2. részfeladat: kombinálás– A vektorokat kombinálni kell beszédhangokká, majd a A vektorokat kombinálni kell beszédhangokká, majd a

beszédhangokat szavakká, a szavakat mondatokkábeszédhangokat szavakká, a szavakat mondatokká

– Valószínűségek kezelése: valszám. szabályai alapjánValószínűségek kezelése: valszám. szabályai alapján

A felismerés 3.A felismerés 3. 3. részfeladat: keresés3. részfeladat: keresés

– Keressük a legnagyobb valószínűségű kombinációtKeressük a legnagyobb valószínűségű kombinációt– Din. prog., heurisztikák, vágás kell a hatékony bejáráshozDin. prog., heurisztikák, vágás kell a hatékony bejáráshoz

A keresési tér szemléltetéseA keresési tér szemléltetése– Input: a beszédjel spektrális reprezentációjaInput: a beszédjel spektrális reprezentációja– Ismeretlen: a hangok helye és címkéjeIsmeretlen: a hangok helye és címkéje

– Output: fonetikai szimbólumok sorozata („milyen hangok”)Output: fonetikai szimbólumok sorozata („milyen hangok”)– „„Rejtett” réRejtett” résszzfeladatfeladat: szegmentálás („hol”): szegmentálás („hol”)

~k é~ - t e ez r

A felismerés 4.A felismerés 4. A felismerést segítő komponensekA felismerést segítő komponensek

– Akusztikus modell: általában az ún. rejtett Markov-modellAkusztikus modell: általában az ún. rejtett Markov-modell» A hangokhoz tartozó adatvektorokat statisztikailag írja leA hangokhoz tartozó adatvektorokat statisztikailag írja le» Valószínűségek kombinálása: naív Bayes-szabályValószínűségek kombinálása: naív Bayes-szabály

– Nyelvi modell: kiejtési szótár és n-gramNyelvi modell: kiejtési szótár és n-gram» Szavak leírása: a hozzájuk tartozó hangsorozat megadásávalSzavak leírása: a hozzájuk tartozó hangsorozat megadásával» Mondatok: a szavak egymásutániságának valószínűségévelMondatok: a szavak egymásutániságának valószínűségével

A felismerés kimeneteA felismerés kimenete– Szósorozat, vagy esetleg csak hangok sorozataSzósorozat, vagy esetleg csak hangok sorozata– További feldolgozás esetén: További feldolgozás esetén: NN legvalószínűbb hipotézis legvalószínűbb hipotézis

A felismerés kiértékeléseA felismerés kiértékelése– A hierarchia minden szintjén van értelme kiértékelniA hierarchia minden szintjén van értelme kiértékelni– Izolált vektorok, hangok szavak: osztályozási pontosságIzolált vektorok, hangok szavak: osztályozási pontosság– Hang- és szósorozatok: edit distanceHang- és szósorozatok: edit distance– Jelentéskinyerés vagy dialógus kiértékelése: bonyolultabbJelentéskinyerés vagy dialógus kiértékelése: bonyolultabb

A felismerés 5.A felismerés 5. N-best list és word lattice szemléltetéseN-best list és word lattice szemléltetése

Magasabb szintű feldolgozásMagasabb szintű feldolgozás Szintaktikai/szemantikai elemzés:Szintaktikai/szemantikai elemzés:

– Ez már nyelvtechnológiai feladat, ld. korábbi két előadás!Ez már nyelvtechnológiai feladat, ld. korábbi két előadás! Dialógusmodellezés:Dialógusmodellezés:

– Speciálisan a dialógusrendszerek készítéséhez kapcsolódó Speciálisan a dialógusrendszerek készítéséhez kapcsolódó beszéd- illetve nyelvtechnológiai területbeszéd- illetve nyelvtechnológiai terület

– Cél: a felhasználó számára kényelmes dialógus, minimalizált Cél: a felhasználó számára kényelmes dialógus, minimalizált tévesztési lehetőségekkeltévesztési lehetőségekkel

– Van némi elméleti háttere, de inkább gyakorlati jellegűVan némi elméleti háttere, de inkább gyakorlati jellegű

S: Welcome to British Airways flight information service. How can I help you?C: Yes, I'd like the departure time of flight BA four one eight from Heathrow Airport.S: Do you know the flight number?C: The flight number is BA four one eight.S: Please tell me the flight number.C: BA four one eight.S: Was that flight number three eight four?C: BA four one eight.S: Please tell me the name of the airline.C: British Airways.S: Did you say British Airways?C: Yes.S: Was that British Airways?C: Yes.S: Sorry, I missed what you said. Did you say British Airways?C: Yes, British Airways.S: I'm sorry. I don't know of any such flight. Do you have another inquiry?C: Yes.S: Thank you for calling. Good bye.

Beszédkutatás a KutatócsoportnálBeszédkutatás a Kutatócsoportnál Adatbázisok készítéseAdatbázisok készítése Új jellemzőkinyerési módszerekÚj jellemzőkinyerési módszerek

– Hosszú távú jellemzők (adatkeretek helyett nagyobb blokkok)Hosszú távú jellemzők (adatkeretek helyett nagyobb blokkok) Jellemzőtér-transzformációs módszerekJellemzőtér-transzformációs módszerek Beszédterápia és olvasásfejlesztés: a „BeszédMester”Beszédterápia és olvasásfejlesztés: a „BeszédMester” BeszédfelismerésBeszédfelismerés

– Rendszereink: neuronhálós (keretalapú ill. szegmentális) és rejtett Rendszereink: neuronhálós (keretalapú ill. szegmentális) és rejtett Markov-mMarkov-moodellesdelles

– Kitartott magánhangzók osztályozása: ld. BeszédMesterKitartott magánhangzók osztályozása: ld. BeszédMester– Beszédhang-szegmentumok osztályozása: szegmentális modellBeszédhang-szegmentumok osztályozása: szegmentális modell– Beszédhang-sorozatok felismerése: neuronhálós módszerekBeszédhang-sorozatok felismerése: neuronhálós módszerek– Szavak, szósorozatok felismerése: Orvosi diktálórendszer (rejtett Szavak, szósorozatok felismerése: Orvosi diktálórendszer (rejtett

Markov-modellel és neuronhálós módszerekkel is)Markov-modellel és neuronhálós módszerekkel is)

AdatbázisokAdatbázisok Magyar Magyar Telefonos Beszédadatbázis (MTBA)Telefonos Beszédadatbázis (MTBA)

– A Műegyetemmel együttműködve készítettükA Műegyetemmel együttműködve készítettük

– 500 telefonálótól származó felvételek, vezetékes és mobilos500 telefonálótól származó felvételek, vezetékes és mobilos

– Hívók az ország minden tájáról, vegyes életkori eloszlásbanHívók az ország minden tájáról, vegyes életkori eloszlásban

– Postán kiküldött szöveget kellett beolvasniukPostán kiküldött szöveget kellett beolvasniuk

– Izolált szavak: vezetéknevek, cégnevek, számok, betűzött Izolált szavak: vezetéknevek, cégnevek, számok, betűzött szavak, dátumok, …szavak, dátumok, …

– Hangkapcsolatokban gazdag mondatok és szavak:Hangkapcsolatokban gazdag mondatok és szavak:» 500 beszélőtől összesen 7 órányi anyag, 8000 fájl, 500 beszélőtől összesen 7 órányi anyag, 8000 fájl, kézi címkézéskézi címkézés

– Többnyire tiszta és szép kiejtésű felvételekTöbbnyire tiszta és szép kiejtésű felvételek» Ellenpéldák: túlartikuláló és alulartikuláló beszélőEllenpéldák: túlartikuláló és alulartikuláló beszélő

A szegmentálás szemléltetéseA szegmentálás szemléltetése

Adatbázisok 2.Adatbázisok 2. Magyar Magyar Referencia Beszédadatbázis (MRBA)Referencia Beszédadatbázis (MRBA)

– A Műegyetemmel együttműködve készítettükA Műegyetemmel együttműködve készítettük

– 300 embertől származó felvételek, számítógépes környezetben300 embertől származó felvételek, számítógépes környezetben

– A legkülönbözőbb féle PC-k, laptopok, valamint mikrofonokA legkülönbözőbb féle PC-k, laptopok, valamint mikrofonok

– Ez is olvasott szöveget tartalmazEz is olvasott szöveget tartalmaz

– Hangkapcsolatokban gazdag mondatok és szavak:Hangkapcsolatokban gazdag mondatok és szavak:» Hasonló jellegű mondatok, mint az MTBA-banHasonló jellegű mondatok, mint az MTBA-ban» 100 ember anyaga kézileg szegmentálva, a többi géppel100 ember anyaga kézileg szegmentálva, a többi géppel

– ÉÉletkletkor vegyes, de túlreprezentált az egyetemista korosztályor vegyes, de túlreprezentált az egyetemista korosztály» Sajnos sok a hadaró, motyogó beszélő Sajnos sok a hadaró, motyogó beszélő

A spektrális reprezentáció adott időpillanatait (adatkereteit) A spektrális reprezentáció adott időpillanatait (adatkereteit) külön-külön dolgozzuk felkülön-külön dolgozzuk fel– Időbeli felbontás: 100 vektor/mp (5-10 vektor/hang)Időbeli felbontás: 100 vektor/mp (5-10 vektor/hang)– Frekvenciabeli: 40-50 komponens/vektor (MFCC, PLP, …)Frekvenciabeli: 40-50 komponens/vektor (MFCC, PLP, …)

– A címkézés ált. esetben rossz hatásfokkal megy (50-70%)A címkézés ált. esetben rossz hatásfokkal megy (50-70%)– Alkalmazása (kitartott hangokra): ld. Alkalmazása (kitartott hangokra): ld. BeszédMesterBeszédMester

Beszéd-adatkeretek osztályozásaBeszéd-adatkeretek osztályozása

é é é é é z z z e e e e ee e

Az egyes hangokhoz tartozó jeldarabokat Az egyes hangokhoz tartozó jeldarabokat (szegmentumokat) egy egységként dolgozzuk fel(szegmentumokat) egy egységként dolgozzuk fel– Hosszabb jelrészlet Hosszabb jelrészlet több információ több információ jobb felismer jobb felismerésés

– Változó hosszúságú darabok, de fix számú jellemzőt akarunk Változó hosszúságú darabok, de fix számú jellemzőt akarunk speciális jellemzőkspeciális jellemzők kellenek (pl. kellenek (pl. átlagos energia…)átlagos energia…)

– Tapasztalat: 80-150 szegmentális jellemzővel jó felismerési Tapasztalat: 80-150 szegmentális jellemzővel jó felismerési eredményekeredmények

Beszédhangok osztályozásaBeszédhangok osztályozása

é z e

Jellemzőtér-transzformációJellemzőtér-transzformáció A szegmentumok osztályozása többféleképpen javíthatóA szegmentumok osztályozása többféleképpen javítható

– „„Modern” gépi tanulási módszerek, pl. SVMModern” gépi tanulási módszerek, pl. SVM

– Jellemzőtér-transzformáció az osztályozás előttJellemzőtér-transzformáció az osztályozás előtt Jellemzőtér-transzformációs módszerekJellemzőtér-transzformációs módszerek

– Transzformálják a teret, hogy az osztályok könnyebben Transzformálják a teret, hogy az osztályok könnyebben szétválaszthatók legyenekszétválaszthatók legyenek

» Lineáris módszerek Lineáris módszerek (pl. LDA):(pl. LDA):csak forgatás, nyújtáscsak forgatás, nyújtás

» Nemlineáris módszerek Nemlineáris módszerek (pl. K-LDA):(pl. K-LDA):egészen durva vetemítésekegészen durva vetemítések(ld. ábra)(ld. ábra)

Beszédhang-osztályozási eredményekBeszédhang-osztályozási eredmények Hibaarányok számbemondásokat tartalmazó Hibaarányok számbemondásokat tartalmazó

adatbázisonadatbázison

Az MTBA adabázison (52 beszédhang, ANN): 32,17%Az MTBA adabázison (52 beszédhang, ANN): 32,17% A TIMIT angol adatbázison (39 beszédhang, ANN)A TIMIT angol adatbázison (39 beszédhang, ANN)

» (A legjobb ismert eredmény: 18% körül)(A legjobb ismert eredmény: 18% körül)

No transf. (77 jell.)

LDA (27 jell.)

K-LDA (27 jell.)

HMM 9.34% — — ANN 7.78% 7.81% 5.79%

28 hang

SVM 5.81% 5.12% 4.59%

trafótrafó Lineáris változatLineáris változat Nemlineáris változatNemlineáris változat

NincsNincs 28,43%28,43% 28,43%28,43%

PCAPCA 28,22%28,22% 26,49%26,49%

ICAICA 29,01%29,01% 27,23%27,23%

LDALDA 27,12%27,12% 25,11%25,11%

SDASDA 27,93%27,93% 25,93%25,93%

Probléma: folyamatos szövegben a hangok helye nem Probléma: folyamatos szövegben a hangok helye nem ismert!ismert!– Megoldás: brute-force Megoldás: brute-force ‘el‘előreőre’’ keresés (hosszkorlát mellett) keresés (hosszkorlát mellett)

– Osztályozó kiegészítése egy újabb osztállyal: „anti-phone”Osztályozó kiegészítése egy újabb osztállyal: „anti-phone”» Tanítása mesterségesen generált példák alapjánTanítása mesterségesen generált példák alapján

– Címkék hozzárendelése helyett csak valószínűségek!Címkék hozzárendelése helyett csak valószínűségek!– P(átirat helyes) P(átirat helyes) ~~ P(címkék helyesek) P(címkék helyesek) ésés P(szegmentálás helyes) P(szegmentálás helyes)

Szegmentum-alapú felismerésSzegmentum-alapú felismerés

é z Ø

A szegmentálás valószínűségének becsléseA szegmentálás valószínűségének becslése– Az anti-fón valószínűségek alapján többféle képlettelAz anti-fón valószínűségek alapján többféle képlettel

Eredmények az MTBA adatbázisonEredmények az MTBA adatbázison (ANN-nel) (ANN-nel)

Gyorsítási lehetőségGyorsítási lehetőség– „„Brute force” helyett a valószínűtlen szegmentálások kizárása, Brute force” helyett a valószínűtlen szegmentálások kizárása,

pl. neuronhálóval tanulva a szegmenshatárokatpl. neuronhálóval tanulva a szegmenshatárokat

Szegmentum-alapú felismerés 2.Szegmentum-alapú felismerés 2.

Mondatszintű hangsorozat-felismerési eredmények (% korrekt)Mondatszintű hangsorozat-felismerési eredmények (% korrekt)

Antifónok nélkülAntifónok nélkül Egyszerű antifón-modellEgyszerű antifón-modell Bonyolult antifón-modellBonyolult antifón-modell HMMHMM

53,44%53,44% 58,74%58,74% 61,34%61,34% 61,60%61,60%

A keretekhez osztályonkénti valószínűségeket rendelünkA keretekhez osztályonkénti valószínűségeket rendelünk Ezután azonosítás és szegmentálás Ezután azonosítás és szegmentálás egyszerreegyszerre történik: történik:

maximumot adó út keresése dinamikus programozássalmaximumot adó út keresése dinamikus programozással (Viterbi alg.)(Viterbi alg.)

Keresési megszorítások a szegmentumokra (hangokra):Keresési megszorítások a szegmentumokra (hangokra):» HosszmodellezésHosszmodellezés» Egymásra következési valószínűségekEgymásra következési valószínűségek» bizonyos sorozatok engedélyezése/kizárása (szótár)bizonyos sorozatok engedélyezése/kizárása (szótár)

Matematikai formalizálás: a rejtett Markov-modellMatematikai formalizálás: a rejtett Markov-modell

Keretalapú felismerésKeretalapú felismerés

abcd

A rejtett Markov-modell (HMM)A rejtett Markov-modell (HMM) A keretenkénti valószínűségek becslése történhetA keretenkénti valószínűségek becslése történhet

– Gauss-görbék lineáris kombinációjával (szokványos HMM)Gauss-görbék lineáris kombinációjával (szokványos HMM)– Neuronhálókkal (HMM/ANN hibridNeuronhálókkal (HMM/ANN hibrid ill. HMM/ANN tandem ill. HMM/ANN tandem))

A valószínűségek kombinálása a HMM-benA valószínűségek kombinálása a HMM-ben– SSzorzással (zorzással (nnaív Bayes-szabály), a tényezők:aív Bayes-szabály), a tényezők:– Keretenkénti val., exponenciális hossz val., átmeneti val.Keretenkénti val., exponenciális hossz val., átmeneti val.

A HMM tanításaA HMM tanítása

– Inicializálás: jó, ha van némi kézileg szegmentált adatInicializálás: jó, ha van némi kézileg szegmentált adat

– További tanítás: csak címkézett adaton is megy!További tanítás: csak címkézett adaton is megy!

– Tanító algoritmus: Baum-WelchTanító algoritmus: Baum-Welch» IteratívIteratív» Maximum likelihood kritériumMaximum likelihood kritérium» Lokális optimumot garantálLokális optimumot garantál

Neuronhálók a modellezésbenNeuronhálók a modellezésben HMM/ANN hibrid:HMM/ANN hibrid:

– Olyan, mint a HMM, de Gauss-görbék helyett neuronhálókkal becsli Olyan, mint a HMM, de Gauss-görbék helyett neuronhálókkal becsli az adatvektorokhoz tartozó valószínűségeketaz adatvektorokhoz tartozó valószínűségeket

– Általában több szomszédos adatvektoron tanítják a hálótÁltalában több szomszédos adatvektoron tanítják a hálót „„Tandem” séma: az ANN felhasználásának másik módjaTandem” séma: az ANN felhasználásának másik módja

– Az ANN-t úgy tekintjük, mint jellemzőtranszformációs algoritmust, Az ANN-t úgy tekintjük, mint jellemzőtranszformációs algoritmust, azaz a kimenetét nem valószínűségi becslésként, hanem új azaz a kimenetét nem valószínűségi becslésként, hanem új jellemzővektorként értelmezzükjellemzővektorként értelmezzük

» Így az ANN kimenetén tanítjuk a hagyományos gaussos HMM-etÍgy az ANN kimenetén tanítjuk a hagyományos gaussos HMM-et

– Miért nem fölösleges bonyolítás?Miért nem fölösleges bonyolítás?» A HMM kódjába, paraméterezésébe nem kell belenyúlniA HMM kódjába, paraméterezésébe nem kell belenyúlni» Könnyebb az összehasonlítás a hagyományos HMM-melKönnyebb az összehasonlítás a hagyományos HMM-mel» Az ANN nem csak osztálycímkékkel, hanem bármely más Az ANN nem csak osztálycímkékkel, hanem bármely más

„értelmesnek” ígérkező célértékekkel tanítható„értelmesnek” ígérkező célértékekkel tanítható

A háromféle keretalapú modellA háromféle keretalapú modell

FelismerFelismeréési eredmsi eredméénnyyekek Keretalapú módszerek, beszédhang-stringek felismeréseKeretalapú módszerek, beszédhang-stringek felismerése

» (bigram: k(bigram: két hang egymásra következésének val. modellje)ét hang egymásra következésének val. modellje)

Keretalapú módszerek, szószintű hibaarányKeretalapú módszerek, szószintű hibaarány– Izolált szavas felismerés, 431 telefonos városnév:Izolált szavas felismerés, 431 telefonos városnév:

– Ld. Még MÁV demo!Ld. Még MÁV demo!

HMMHMM HibridHibrid TandemTandem Tandem+bigramTandem+bigram

korrektkorrekt 61,60%61,60% 61,53%61,53% 65,40%65,40% 70,91%70,91%

pontospontos 52,11%52,11% 52,21%52,21% 60,16%60,16% 68,58%68,58%

HMMHMM HibridHibrid TandemTandem

hibaarányhibaarány 6,73%6,73% 6,27%6,27% 3,02%3,02%

Beszédhang-szintű kimenetBeszédhang-szintű kimenet Példák (a 68,58%-ot tudó rendszerből):Példák (a 68,58%-ot tudó rendszerből):

– havanedadóütykahartárrazatazatetletfállambezznihavanedadóütykahartárrazatazatetletfállambezzni– temészetesentmavahatésírommavamatizsboncolantemészetesentmavahatésírommavamatizsboncolan– egyetlennemvoltakszeméstákozesőinegyetlennemvoltakszeméstákozesőin– szagedemengyótérpistásulatánatunéhaszinűseszagedemengyótérpistásulatánatunéhaszinűse– kikítmorbigyahasaláttdeszényteszellánytázzuktmintecsecsemettkikítmorbigyahasaláttdeszényteszellánytázzuktmintecsecsemett

Hány százalék lenne elég? – teszt emberekkel, „rontott” Hány százalék lenne elég? – teszt emberekkel, „rontott” szövegekkelszövegekkel

Orvosi diktálórendszerOrvosi diktálórendszer Államilag támogatott projektÁllamilag támogatott projekt, BME-vel eg, BME-vel együttműködveyüttműködve Cél: folyamatos beszéd elfogadható szintű felismeréseCél: folyamatos beszéd elfogadható szintű felismerése Feladat: nyelvileg erősen szűkített orvosi szövegekFeladat: nyelvileg erősen szűkített orvosi szövegek

– SZTE: pajzsmirigy-szcintigráfiás leletekSZTE: pajzsmirigy-szcintigráfiás leletek

– BME: gasztroenterológiai leletekBME: gasztroenterológiai leletek Példa:Példa:

Klinikai adatok : St.p.strumectomiam. UH: bal lebeny kp. harmadában 12 mm-es göb.Kérdés : Göb?Elözô vizsgálata: -Jelen vizsgálata : Megnagyobbodott, szimmetrikus pajzsmirigy, amely a nyak középvonalában helyezkedik el. Alsó széle 2 cm-nél távolabb van a jugulumtól. Az isthmus rajzolata szabályos. A jobb lebeny az ellenoldalinál több radiofarmakont tárol. A jobb lebeny egyenletes aktivitás- eloszlással ábrázolódik. A bal lebeny középsô harmadában laterálisan 0.5x1.5 cm-es csökkent aktivitású terület látható, mely megfelel az UH-al leírt göbnek.Összefoglaló vélemény: St.p.strumectomiam. Recidiv struma nodosa. Hideg göb a bal lebenyben.

A felvetődő feladatokA felvetődő feladatok Akusztikai modell:Akusztikai modell:

– Adatbázis összegyűjtése, feldolgozása (ld. MRBA!)Adatbázis összegyűjtése, feldolgozása (ld. MRBA!)

– Akusztikus modellek betanítása, tesztelése az új adatbázisonAkusztikus modellek betanítása, tesztelése az új adatbázison

– Beszélőadaptációs kísérletekBeszélőadaptációs kísérletek Nyelvi modell:Nyelvi modell:

– A tanításhoz kapott leletanyag tisztításaA tanításhoz kapott leletanyag tisztítása

– Statisztikai nyelvi modell építése (Statisztikai nyelvi modell építése (nn-gram)-gram) Felismerő Felismerő ‘‘engineengine’:’:

– Az akusztikus és nyelvi információ kombinálásaAz akusztikus és nyelvi információ kombinálása

– Hatékony keresés különböző vágási módszerekkel (a valós Hatékony keresés különböző vágási módszerekkel (a valós idejű futás érdekében)idejű futás érdekében)

A leletanyagA leletanyag Tartalma, mennyisége:Tartalma, mennyisége:

– Kb. 8500 lelet az SZTE Nukleáris Medicina IntézettőlKb. 8500 lelet az SZTE Nukleáris Medicina Intézettől

– Tkp. az összes pajzsmirigy-lelet 6 évre visszamenőlegTkp. az összes pajzsmirigy-lelet 6 évre visszamenőleg Technikai feladatok:Technikai feladatok:

– DOS-os, régi Word-os, stb. fájlformátumok átkonvertálása DOS-os, régi Word-os, stb. fájlformátumok átkonvertálása

– Karakterkonverzió (kalapos ő, hullámos ő,…)Karakterkonverzió (kalapos ő, hullámos ő,…) Nyelvi jellegű feladatok:Nyelvi jellegű feladatok:

– Rengeteg elgépelésRengeteg elgépelés

– Latin kifejezések nem konzekvens írásaLatin kifejezések nem konzekvens írása

– Rövidítések (főleg latin betegségnevekben)Rövidítések (főleg latin betegségnevekben)

A leletanyagA leletanyag 2. 2. PPélda: az „aspirációs” szó előforduló alakjaiélda: az „aspirációs” szó előforduló alakjai

Egységesítés után megmaradó szavak száma: Egységesítés után megmaradó szavak száma: ~~ 2500 2500– Ezek szóalakok, azaz minden toldalékolt alak külön szó!Ezek szóalakok, azaz minden toldalékolt alak külön szó!

(A morfológia kezelésével nem is próbálkoztunk…)(A morfológia kezelésével nem is próbálkoztunk…)

– Számok és dátumok kezelése külön megoldást igényelneSzámok és dátumok kezelése külön megoldást igényelne(reguláris nyelvtannal: elkészült, de nem teszteltük felismerésben)(reguláris nyelvtannal: elkészült, de nem teszteltük felismerésben)

Nyelvtani kötöttség: nagyon nagyfokúNyelvtani kötöttség: nagyon nagyfokú– 95 000 mondatból mindössze 12 500 különböző95 000 mondatból mindössze 12 500 különböző

– Szerkezetileg hasonló mondatok (csak pl. bal helyett jobb…)Szerkezetileg hasonló mondatok (csak pl. bal helyett jobb…)

AsirációsAspAspirációcAspiráciosaspiráciosAspirációs

AspirátiosAspirátiósAspiráviósAspirciósAspirítiósAsprációs

aspirációsAspirácisAspirácyósAspiratiosAspiratiósaspiratiós

A nyelvi modellA nyelvi modell Az n-gram nyelvi modellAz n-gram nyelvi modell

– Szópárok, szóhármasok, … egymás utáni előfordulásának Szópárok, szóhármasok, … egymás utáni előfordulásának valószínűsége (bigram, trigram,…)valószínűsége (bigram, trigram,…)

– Egyszerűen közelíthető a szövegben előforduló szópárok, Egyszerűen közelíthető a szövegben előforduló szópárok, szóhármasok,… előfordulásainak megszámlálásávalszóhármasok,… előfordulásainak megszámlálásával

A tanításkor nem látott szó n-esek kezeléseA tanításkor nem látott szó n-esek kezelése– Erre valók az ún. simítási technikákErre valók az ún. simítási technikák– Esetünkben: csoport n-gramok szó n-gramok helyettEsetünkben: csoport n-gramok szó n-gramok helyett

» Szavak szófaji csoportba sorolása MSD-kód alapjánSzavak szófaji csoportba sorolása MSD-kód alapján

» A szavak helyett a csoportnevekből képzünk n-gramotA szavak helyett a csoportnevekből képzünk n-gramot

» Jóval kevesebb csoport, mint szó Jóval kevesebb csoport, mint szó kicsi a 0 előfordulás esélye kicsi a 0 előfordulás esélye

» A szó és csoport n-gramok kombinálása A szó és csoport n-gramok kombinálása 30% hibacsökkenés 30% hibacsökkenés

a pajzsmirigy megnagyobbodott névelő főnév ige

A nyelvi modell 2A nyelvi modell 2 Az akusztikai és a nyelvi modell kombinálása:Az akusztikai és a nyelvi modell kombinálása:

– P(össz) P(össz) = = P(akusztikai)*P(akusztikai)*P(nyelvi)P(nyelvi)αα

» αα : állításával szabályozható, hogy az akusztikai vagy a nyelvi : állításával szabályozható, hogy az akusztikai vagy a nyelvi modell befolyása legyen erősebbmodell befolyása legyen erősebb

– A gyakorlatban általában jó erősre van véve a nyelvi A gyakorlatban általában jó erősre van véve a nyelvi modell hatása…modell hatása…

– Esetünkben: erősen megszorított nyelvtan Esetünkben: erősen megszorított nyelvtan nagyon nagyon támaszkodunk a nyelvi modellretámaszkodunk a nyelvi modellre

» Hátrány: „a székrecsegésből is orvosi szöveget csinál”Hátrány: „a székrecsegésből is orvosi szöveget csinál”

A jelet balról jobbra dolgozzuk fel, a szavak illesztésével tkp. egy A jelet balról jobbra dolgozzuk fel, a szavak illesztésével tkp. egy keresési fa képződik:keresési fa képződik:

Feladat: a fa vágásával az exp. robbanás elkerüléseFeladat: a fa vágásával az exp. robbanás elkerülése A szavak hatékony tárolása: prefixum-faA szavak hatékony tárolása: prefixum-fa

Az n-gram modell kiértékelése: előrehozottAz n-gram modell kiértékelése: előrehozott– ne várjuk meg a szó végét, ha nem muszáj! Pl: nagyo(bb)ne várjuk meg a szó végét, ha nem muszáj! Pl: nagyo(bb)

Hatékony keresési technikákHatékony keresési technikák

oldalán

pajzsmirigy

bal

jobb

megnagyobbodott

alsóoldalifelől

…

A keresési tér bejárása lehet:A keresési tér bejárása lehet:– Időszinkron (széltében) keresésIdőszinkron (széltében) keresés

» Vágás: beam pruning (a legjobbnál egy adott küszöbbel Vágás: beam pruning (a legjobbnál egy adott küszöbbel rosszabb utak eldobása)rosszabb utak eldobása)

– ‘‘Best-firstBest-first’’ keresés keresés» Vágás: csak a legjobb Vágás: csak a legjobb KK útkezdeményt tartjuk meg (rendezett útkezdeményt tartjuk meg (rendezett

listában tárolva)listában tárolva)

– A vágással a felismerési pontosság és a futásidő (real time A vágással a felismerési pontosság és a futásidő (real time factor) fordítottan változik:factor) fordítottan változik:

Hatékony keresési technikák 2.Hatékony keresési technikák 2.

A felismerési pontosság és a futási idő a szótár A felismerési pontosság és a futási idő a szótár méretének és a megtartott nyelvi hipotézisek számának méretének és a megtartott nyelvi hipotézisek számának függvényébenfüggvényében

Hatékony keresési technikák 3.Hatékony keresési technikák 3.

BeszélőadaptációBeszélőadaptáció Az akusztikai modelleknek az adott beszélő hangjához Az akusztikai modelleknek az adott beszélő hangjához

való igazításavaló igazítása– Megkérjük a felhasználót, hogy olvassa fel a képernyőre kiírt Megkérjük a felhasználót, hogy olvassa fel a képernyőre kiírt

szöveget (kb. 5 percnyi szöveg)szöveget (kb. 5 percnyi szöveg)

– A beszédhang-modelleket a felvétel alapján módosítjuk A beszédhang-modelleket a felvétel alapján módosítjuk » pl. a várhatóérték-vektorokat arrébb toljuk a spektrális vektorok pl. a várhatóérték-vektorokat arrébb toljuk a spektrális vektorok

átlaga alapjánátlaga alapján

– Eredmények: gyakran 60-70% hibacsökkenés!Eredmények: gyakran 60-70% hibacsökkenés!

BeszélőBeszélő ffi1ffi1 ffi2ffi2 nő1nő1 nő2nő2 nő3nő3

Pontosság Pontosság adaptáció előttadaptáció előtt 97.57%97.57% 98.53%98.53% 83.42%83.42% 95.33%95.33% 82.99%82.99%

Adaptáció utánAdaptáció után 98.43%98.43% 96,70%96,70% 94.52%94.52% 98.39%98.39% 97.67%97.67%

Angol felismerő adaptálása magyarraAngol felismerő adaptálása magyarra Motiváció: Az angol adatbázisok sokkal nagyobbakMotiváció: Az angol adatbázisok sokkal nagyobbak

– Az MTBA ill. MRBA 5-10 órás nagyságrendűekAz MTBA ill. MRBA 5-10 órás nagyságrendűek

– Angolra „normális” a 100 órás nagyságrendű adatbázisAngolra „normális” a 100 órás nagyságrendű adatbázis

– De vannak több ezer órás adatbázisok is!De vannak több ezer órás adatbázisok is! Felhaszált erőforrásokFelhaszált erőforrások

– HTK: publikus rejtett Markovos beszédfelismerőHTK: publikus rejtett Markovos beszédfelismerő

– Quicknet: publikus neuronhálós programcsomagQuicknet: publikus neuronhálós programcsomag

– Publikus, angol adatbázison betanított neuronháló-súlyfájlokPublikus, angol adatbázison betanított neuronháló-súlyfájlok MódszerMódszer

– A tandem sémát fogjuk használni (ld. korábban!)A tandem sémát fogjuk használni (ld. korábban!)

– Az angolra betanított neuronhálón nem változtatunkAz angolra betanított neuronhálón nem változtatunk

– Adaptáció: a rejtett Markov-modell magyar adatbázison való tanítása Adaptáció: a rejtett Markov-modell magyar adatbázison való tanítása révénrévén

Az angol neuronhálókAz angol neuronhálók Készültek: a Johns Hopkins 2006 summer workshopon, Készültek: a Johns Hopkins 2006 summer workshopon,

nemzetközi együttműködésben nemzetközi együttműködésben Tanítóadatok: Kétezer(!) órányi angol „conversational Tanítóadatok: Kétezer(!) órányi angol „conversational

telephone speech”telephone speech” Tanítás kétféle célértékekkel:Tanítás kétféle célértékekkel:

– 1. változat: az angol beszédhangok felismerésére1. változat: az angol beszédhangok felismerésére

– 2. változat: ún. artikulációs jellemzők felismerésére 2. változat: ún. artikulációs jellemzők felismerésére (pl. nyelvállás, zöngésség, nazalitás, …) (pl. nyelvállás, zöngésség, nazalitás, …)

» Ezek elvileg nyelvfüggetlenebbek, mint maguk a hangokEzek elvileg nyelvfüggetlenebbek, mint maguk a hangok

EredményekEredmények Beszédhang-szintű pontosság, MTBABeszédhang-szintű pontosság, MTBA

– Nincs szignifikáns különbség a 3 eredmény közt, azaz:Nincs szignifikáns különbség a 3 eredmény közt, azaz:

– 2000 óra angol adat kb. annyit ér, mint 7 óra magyar adat2000 óra angol adat kb. annyit ér, mint 7 óra magyar adat

– Az artikulációs jellemzők detektálása nem vezetett jobb eredményre, Az artikulációs jellemzők detektálása nem vezetett jobb eredményre, mint a hagyományos beszédhangos megoldásmint a hagyományos beszédhangos megoldás

A beszédhang-tévesztések elemzéseA beszédhang-tévesztések elemzése– Kérdés: azokon a hangokon téveszt-e többet az angol rendszer, Kérdés: azokon a hangokon téveszt-e többet az angol rendszer,

amelyekben a magyar és angol nyelv eltérnek?amelyekben a magyar és angol nyelv eltérnek?

– Az adott hanghoz tartozó pontosságok hányadosát fogjuk nézni Az adott hanghoz tartozó pontosságok hányadosát fogjuk nézni ez ez >1 ha >1 ha magyar modell a jobb, magyar modell a jobb, <1 <1 ha az angolha az angol

Magyar tandemMagyar tandem Angol tandem (PH)Angol tandem (PH) Angol tandem (AF)Angol tandem (AF)

62,62%62,62% 62,22%62,22% 61,83%61,83%

A hangtévesztések elemzése 2.A hangtévesztések elemzése 2.

Mghk: nem egyértelmű (az Mghk: nem egyértelmű (az űű romlik, de csak a hosszú, az romlik, de csak a hosszú, az őő kb. ugyanolyan) kb. ugyanolyan)Felp. zárh: csak a Felp. zárh: csak a tt romlik (hehezet? de az a romlik (hehezet? de az a p-kp-k esetében is lehet) esetében is lehet)Affrikáták: a Affrikáták: a cscs kivételével ésszerű a romlás (c, ty, gy nincs az angolban) kivételével ésszerű a romlás (c, ty, gy nincs az angolban)Frikatívák: a Frikatívák: a zszs ritkasága magyarázat lehet a romlására ( ritkasága magyarázat lehet a romlására (szsz: hosszú-rövid probléma): hosszú-rövid probléma)Nazálisok: kb. ugyanannyi romlás mint javulásNazálisok: kb. ugyanannyi romlás mint javulás

Documents

Bes zé dtechnol ó gia, beszédfelismerés