45
Bes Bes dtechnol dtechnol ó ó gia, gia, beszédfelismerés beszédfelismerés Dr. Tóth László Dr. Tóth László MTA-SZTE Mesterséges Intelligencia MTA-SZTE Mesterséges Intelligencia Kutatócsoport Kutatócsoport

Bes zé dtechnol ó gia, beszédfelismerés

  • Upload
    chiku

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

Bes zé dtechnol ó gia, beszédfelismerés. Dr. Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport. Beszédtechnológiai témakörök. Beszédfelismerés „Tiszta” felismerés = diktálás (beszéd  írás ) Más rendszer részeként: beszédinput (beszéd  akció ) - PowerPoint PPT Presentation

Citation preview

Page 1: Bes zé dtechnol ó gia,  beszédfelismerés

BesBeszézédtechnoldtechnolóógia, gia, beszédfelismerésbeszédfelismerés

Dr. Tóth László Dr. Tóth László

MTA-SZTE Mesterséges Intelligencia MTA-SZTE Mesterséges Intelligencia KutatócsoportKutatócsoport

Page 2: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédtechnológiai témakörökBeszédtechnológiai témakörök BeszédfelismerésBeszédfelismerés

– „„Tiszta” felismerés Tiszta” felismerés == diktálás (beszéd diktálás (beszédírás)írás)

– Más rendszer részeként: beszédinput (beszédMás rendszer részeként: beszédinput (beszédakció)akció)

– Szorosan összefonódik a nyelvtechnológiával (nyelvi szinten is Szorosan összefonódik a nyelvtechnológiával (nyelvi szinten is modellezni, elemezni kell)modellezni, elemezni kell)

BeszélőfelismerésBeszélőfelismerés– Verifikáció (igen/nem) vagy azonosítás (több beszélő közül)Verifikáció (igen/nem) vagy azonosítás (több beszélő közül)

Beszédszintézis (text-to-speech)Beszédszintézis (text-to-speech)– Problémák: hangminőség, prozódia, érzelmi töltetProblémák: hangminőség, prozódia, érzelmi töltet

Beszédtárolás és Beszédtárolás és --továbbítástovábbítás– Beszédtömöríés (speech coding)Beszédtömöríés (speech coding)

– Minőség javítása (pl. telefonos torzítás) (speech enhancement)Minőség javítása (pl. telefonos torzítás) (speech enhancement)

Page 3: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédtechnológiai témakörök 2.Beszédtechnológiai témakörök 2. Beszédadatbázisok készítéseBeszédadatbázisok készítése

– A statisztikai alapú algoritmusok tanítására/teszteléséreA statisztikai alapú algoritmusok tanítására/tesztelésére

– A feldolgozás lehetséges szintjei:A feldolgozás lehetséges szintjei:» Alapos lehallgatás, szószinten pontos átirat (plusz zajok, egyedi Alapos lehallgatás, szószinten pontos átirat (plusz zajok, egyedi

kiejtések feljegyzése)kiejtések feljegyzése)

» Szóhatárok bejelölése a felvételenSzóhatárok bejelölése a felvételen

» Beszédhang-határok bejelölése a felvételenBeszédhang-határok bejelölése a felvételen

FFelismerelismeréshez kapcsolódó nyelvtechnológiai problémákéshez kapcsolódó nyelvtechnológiai problémák– Valószínűségi alapú nyelvi elemzésValószínűségi alapú nyelvi elemzés

– DialógusmodellezésDialógusmodellezés KiértékelésKiértékelés

– A beszédtech. alkalmazások hatásfokának objektív méréseA beszédtech. alkalmazások hatásfokának objektív mérése

Page 4: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédfelismerési alkalmazásokBeszédfelismerési alkalmazások A teljesen általános felismerés nem megy!A teljesen általános felismerés nem megy!

Valamilyen módon „szűkített” feladatokat keresünk, pl.Valamilyen módon „szűkített” feladatokat keresünk, pl.– Szótár v. nyelvtan megszorítható (kicsi-közepes-nagy szótár)Szótár v. nyelvtan megszorítható (kicsi-közepes-nagy szótár)

– A hangminőség jobb az áltagosnálA hangminőség jobb az áltagosnál» Beszédmód: izolált szavas – olvasott – folyó – spontánBeszédmód: izolált szavas – olvasott – folyó – spontán

» Zaj jellege: nincs – modellezhető – változó Zaj jellege: nincs – modellezhető – változó

» Beszélők: egyetlen beszélő sokáig (adaptáció) – változó beszélőkBeszélők: egyetlen beszélő sokáig (adaptáció) – változó beszélők

Klasszikus alkalmazások:Klasszikus alkalmazások:– Parancsvezérlés (kis szótár, izolált szavak Parancsvezérlés (kis szótár, izolált szavak zaj esetén is OK) zaj esetén is OK)

– Diktálórendszerek (nagy szótár, de tiszta jel, beszélőadaptáció)Diktálórendszerek (nagy szótár, de tiszta jel, beszélőadaptáció)

– Dialógusrendszerek (kis szótár, kötött nyelvtan, ált. telefonos)Dialógusrendszerek (kis szótár, kötött nyelvtan, ált. telefonos)

Page 5: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédfelismerési alkalmazások 2.Beszédfelismerési alkalmazások 2. Jelenleg „divatos” alkalmazások:Jelenleg „divatos” alkalmazások:

– Multimodalitás (szájról olvasás, arckifejezés, kézmozdulat Multimodalitás (szájról olvasás, arckifejezés, kézmozdulat felismerése, kombinálása a beszédfelismerővel)felismerése, kombinálása a beszédfelismerővel)

– MultilingvaMultilingvalitlitás: nyelv felismerése, akcentus felismerése, és ás: nyelv felismerése, akcentus felismerése, és kezelése, fordításkezelése, fordítás

– Hang-adatbányászat: audio indexing Hang-adatbányászat: audio indexing && retrieval, diarization, retrieval, diarization, summarizationsummarization

Néhány további érdekes téma:Néhány további érdekes téma:– Egyidejű beszédjelek szétválasztása Egyidejű beszédjelek szétválasztása

– Érzelmek felismeréseÉrzelmek felismerése

– Beszédterápia, olvasástanítás, nyelvtanulás segítéseBeszédterápia, olvasástanítás, nyelvtanulás segítése

– Néma beszéd felismerése EMG-bőlNéma beszéd felismerése EMG-ből

Page 6: Bes zé dtechnol ó gia,  beszédfelismerés
Page 7: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédfelismerő komponenseiBeszédfelismerő komponensei

akusztikai-fonetikaimodell

nyelvimodell

szintaktikai/szemantikai

modell

dialógus-modell

Digitalizálásés jellemző-

kinyerés

Felismerés (osztályozás-kombinálás-

keresés)

Szintaktikai/szemantikai

elemzés

Dialógus-vezérlés

beszéd-jel

spektrálisvektorok

szólistav. -háló

értelme-zett kérés

akció

beszédszöveg

beszédtartalom

beszédakció

Page 8: Bes zé dtechnol ó gia,  beszédfelismerés

JellemzőkinyerésJellemzőkinyerés Cél: a lényegtelen információ kidobása, a lényeges tömör Cél: a lényegtelen információ kidobása, a lényeges tömör

reprezentálásareprezentálása– „„lényeg”: nyelvi tartalom (ld. fonetika)lényeg”: nyelvi tartalom (ld. fonetika)

– Klasszikus módszerek: tisztán matematikai megoldások Klasszikus módszerek: tisztán matematikai megoldások (ld.: digitális jelfeldolgozás, beszédfeldolgozás)(ld.: digitális jelfeldolgozás, beszédfeldolgozás)

– Újabb módszerek: az emberi fül/hallás (durva) modellezése Újabb módszerek: az emberi fül/hallás (durva) modellezése (ld.: pszichoakusztika, neurofiziológia)(ld.: pszichoakusztika, neurofiziológia)

– Mindig valamilyen spektrális vektorsorozat a kimenetMindig valamilyen spektrális vektorsorozat a kimenet, , felbontfelbontás: 100 vektor/sec, 40-50 komponens/vektorás: 100 vektor/sec, 40-50 komponens/vektor

Page 9: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerésA felismerés A beszéd (és nyelv) specialitása, hogy hierarchikus:A beszéd (és nyelv) specialitása, hogy hierarchikus:

– Spektrális vektor („adatkeret”): 25-30 ms-os részletet ír leSpektrális vektor („adatkeret”): 25-30 ms-os részletet ír le

– Beszédhang: a magyarban kb. megfelel a betűknekBeszédhang: a magyarban kb. megfelel a betűknek

– Szó: angolban Szó: angolban ~~felsorolhatók, magyarban toldalékolás is van!felsorolhatók, magyarban toldalékolás is van!

– Mondat: nyelvtani szabályokkal próbáljuk leírni (szintaxis)Mondat: nyelvtani szabályokkal próbáljuk leírni (szintaxis)

– Szöveg ill. dialógus: szemantikai tartalom ill. beszédaktusSzöveg ill. dialógus: szemantikai tartalom ill. beszédaktus A szintezettség kezelése:A szintezettség kezelése:

– Alapvetően bottom-up módonAlapvetően bottom-up módon

– Több megoldási javaslat továbbítása a következő elemzési Több megoldási javaslat továbbítása a következő elemzési szintnek (tkp. a döntés késleltetése)szintnek (tkp. a döntés késleltetése)

– Valószínűségek hozzárendeléseValószínűségek hozzárendelése

Page 10: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerés 2.A felismerés 2. 1. részfeladat: osztályozás1. részfeladat: osztályozás

– Spektrális vektorok, esetleg beszédhangnyi szegmentumok Spektrális vektorok, esetleg beszédhangnyi szegmentumok azonosítása (milyen hangnak felel meg)azonosítása (milyen hangnak felel meg)

– Tudásalapú (fonetikai) megoldások: nem váltak be, kiszorultakTudásalapú (fonetikai) megoldások: nem váltak be, kiszorultak

– Statisztikai gépi tanulási megoldások: jelenleg csak ilyeneket Statisztikai gépi tanulási megoldások: jelenleg csak ilyeneket használnakhasználnak

2. részfeladat: kombinálás2. részfeladat: kombinálás– A vektorokat kombinálni kell beszédhangokká, majd a A vektorokat kombinálni kell beszédhangokká, majd a

beszédhangokat szavakká, a szavakat mondatokkábeszédhangokat szavakká, a szavakat mondatokká

– Valószínűségek kezelése: valszám. szabályai alapjánValószínűségek kezelése: valszám. szabályai alapján

Page 11: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerés 3.A felismerés 3. 3. részfeladat: keresés3. részfeladat: keresés

– Keressük a legnagyobb valószínűségű kombinációtKeressük a legnagyobb valószínűségű kombinációt– Din. prog., heurisztikák, vágás kell a hatékony bejáráshozDin. prog., heurisztikák, vágás kell a hatékony bejáráshoz

A keresési tér szemléltetéseA keresési tér szemléltetése– Input: a beszédjel spektrális reprezentációjaInput: a beszédjel spektrális reprezentációja– Ismeretlen: a hangok helye és címkéjeIsmeretlen: a hangok helye és címkéje

– Output: fonetikai szimbólumok sorozata („milyen hangok”)Output: fonetikai szimbólumok sorozata („milyen hangok”)– „„Rejtett” réRejtett” résszzfeladatfeladat: szegmentálás („hol”): szegmentálás („hol”)

~k é~ - t e ez r

Page 12: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerés 4.A felismerés 4. A felismerést segítő komponensekA felismerést segítő komponensek

– Akusztikus modell: általában az ún. rejtett Markov-modellAkusztikus modell: általában az ún. rejtett Markov-modell» A hangokhoz tartozó adatvektorokat statisztikailag írja leA hangokhoz tartozó adatvektorokat statisztikailag írja le» Valószínűségek kombinálása: naív Bayes-szabályValószínűségek kombinálása: naív Bayes-szabály

– Nyelvi modell: kiejtési szótár és n-gramNyelvi modell: kiejtési szótár és n-gram» Szavak leírása: a hozzájuk tartozó hangsorozat megadásávalSzavak leírása: a hozzájuk tartozó hangsorozat megadásával» Mondatok: a szavak egymásutániságának valószínűségévelMondatok: a szavak egymásutániságának valószínűségével

A felismerés kimeneteA felismerés kimenete– Szósorozat, vagy esetleg csak hangok sorozataSzósorozat, vagy esetleg csak hangok sorozata– További feldolgozás esetén: További feldolgozás esetén: NN legvalószínűbb hipotézis legvalószínűbb hipotézis

A felismerés kiértékeléseA felismerés kiértékelése– A hierarchia minden szintjén van értelme kiértékelniA hierarchia minden szintjén van értelme kiértékelni– Izolált vektorok, hangok szavak: osztályozási pontosságIzolált vektorok, hangok szavak: osztályozási pontosság– Hang- és szósorozatok: edit distanceHang- és szósorozatok: edit distance– Jelentéskinyerés vagy dialógus kiértékelése: bonyolultabbJelentéskinyerés vagy dialógus kiértékelése: bonyolultabb

Page 13: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerés 5.A felismerés 5. N-best list és word lattice szemléltetéseN-best list és word lattice szemléltetése

Page 14: Bes zé dtechnol ó gia,  beszédfelismerés

Magasabb szintű feldolgozásMagasabb szintű feldolgozás Szintaktikai/szemantikai elemzés:Szintaktikai/szemantikai elemzés:

– Ez már nyelvtechnológiai feladat, ld. korábbi két előadás!Ez már nyelvtechnológiai feladat, ld. korábbi két előadás! Dialógusmodellezés:Dialógusmodellezés:

– Speciálisan a dialógusrendszerek készítéséhez kapcsolódó Speciálisan a dialógusrendszerek készítéséhez kapcsolódó beszéd- illetve nyelvtechnológiai területbeszéd- illetve nyelvtechnológiai terület

– Cél: a felhasználó számára kényelmes dialógus, minimalizált Cél: a felhasználó számára kényelmes dialógus, minimalizált tévesztési lehetőségekkeltévesztési lehetőségekkel

– Van némi elméleti háttere, de inkább gyakorlati jellegűVan némi elméleti háttere, de inkább gyakorlati jellegű

Page 15: Bes zé dtechnol ó gia,  beszédfelismerés

S: Welcome to British Airways flight information service. How can I help you?C: Yes, I'd like the departure time of flight BA four one eight from Heathrow Airport.S: Do you know the flight number?C: The flight number is BA four one eight.S: Please tell me the flight number.C: BA four one eight.S: Was that flight number three eight four?C: BA four one eight.S: Please tell me the name of the airline.C: British Airways.S: Did you say British Airways?C: Yes.S: Was that British Airways?C: Yes.S: Sorry, I missed what you said. Did you say British Airways?C: Yes, British Airways.S: I'm sorry. I don't know of any such flight. Do you have another inquiry?C: Yes.S: Thank you for calling. Good bye.

Page 16: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédkutatás a KutatócsoportnálBeszédkutatás a Kutatócsoportnál Adatbázisok készítéseAdatbázisok készítése Új jellemzőkinyerési módszerekÚj jellemzőkinyerési módszerek

– Hosszú távú jellemzők (adatkeretek helyett nagyobb blokkok)Hosszú távú jellemzők (adatkeretek helyett nagyobb blokkok) Jellemzőtér-transzformációs módszerekJellemzőtér-transzformációs módszerek Beszédterápia és olvasásfejlesztés: a „BeszédMester”Beszédterápia és olvasásfejlesztés: a „BeszédMester” BeszédfelismerésBeszédfelismerés

– Rendszereink: neuronhálós (keretalapú ill. szegmentális) és rejtett Rendszereink: neuronhálós (keretalapú ill. szegmentális) és rejtett Markov-mMarkov-moodellesdelles

– Kitartott magánhangzók osztályozása: ld. BeszédMesterKitartott magánhangzók osztályozása: ld. BeszédMester– Beszédhang-szegmentumok osztályozása: szegmentális modellBeszédhang-szegmentumok osztályozása: szegmentális modell– Beszédhang-sorozatok felismerése: neuronhálós módszerekBeszédhang-sorozatok felismerése: neuronhálós módszerek– Szavak, szósorozatok felismerése: Orvosi diktálórendszer (rejtett Szavak, szósorozatok felismerése: Orvosi diktálórendszer (rejtett

Markov-modellel és neuronhálós módszerekkel is)Markov-modellel és neuronhálós módszerekkel is)

Page 17: Bes zé dtechnol ó gia,  beszédfelismerés

AdatbázisokAdatbázisok Magyar Magyar Telefonos Beszédadatbázis (MTBA)Telefonos Beszédadatbázis (MTBA)

– A Műegyetemmel együttműködve készítettükA Műegyetemmel együttműködve készítettük

– 500 telefonálótól származó felvételek, vezetékes és mobilos500 telefonálótól származó felvételek, vezetékes és mobilos

– Hívók az ország minden tájáról, vegyes életkori eloszlásbanHívók az ország minden tájáról, vegyes életkori eloszlásban

– Postán kiküldött szöveget kellett beolvasniukPostán kiküldött szöveget kellett beolvasniuk

– Izolált szavak: vezetéknevek, cégnevek, számok, betűzött Izolált szavak: vezetéknevek, cégnevek, számok, betűzött szavak, dátumok, …szavak, dátumok, …

– Hangkapcsolatokban gazdag mondatok és szavak:Hangkapcsolatokban gazdag mondatok és szavak:» 500 beszélőtől összesen 7 órányi anyag, 8000 fájl, 500 beszélőtől összesen 7 órányi anyag, 8000 fájl, kézi címkézéskézi címkézés

– Többnyire tiszta és szép kiejtésű felvételekTöbbnyire tiszta és szép kiejtésű felvételek» Ellenpéldák: túlartikuláló és alulartikuláló beszélőEllenpéldák: túlartikuláló és alulartikuláló beszélő

Page 18: Bes zé dtechnol ó gia,  beszédfelismerés

A szegmentálás szemléltetéseA szegmentálás szemléltetése

Page 19: Bes zé dtechnol ó gia,  beszédfelismerés

Adatbázisok 2.Adatbázisok 2. Magyar Magyar Referencia Beszédadatbázis (MRBA)Referencia Beszédadatbázis (MRBA)

– A Műegyetemmel együttműködve készítettükA Műegyetemmel együttműködve készítettük

– 300 embertől származó felvételek, számítógépes környezetben300 embertől származó felvételek, számítógépes környezetben

– A legkülönbözőbb féle PC-k, laptopok, valamint mikrofonokA legkülönbözőbb féle PC-k, laptopok, valamint mikrofonok

– Ez is olvasott szöveget tartalmazEz is olvasott szöveget tartalmaz

– Hangkapcsolatokban gazdag mondatok és szavak:Hangkapcsolatokban gazdag mondatok és szavak:» Hasonló jellegű mondatok, mint az MTBA-banHasonló jellegű mondatok, mint az MTBA-ban» 100 ember anyaga kézileg szegmentálva, a többi géppel100 ember anyaga kézileg szegmentálva, a többi géppel

– ÉÉletkletkor vegyes, de túlreprezentált az egyetemista korosztályor vegyes, de túlreprezentált az egyetemista korosztály» Sajnos sok a hadaró, motyogó beszélő Sajnos sok a hadaró, motyogó beszélő

Page 20: Bes zé dtechnol ó gia,  beszédfelismerés

A spektrális reprezentáció adott időpillanatait (adatkereteit) A spektrális reprezentáció adott időpillanatait (adatkereteit) külön-külön dolgozzuk felkülön-külön dolgozzuk fel– Időbeli felbontás: 100 vektor/mp (5-10 vektor/hang)Időbeli felbontás: 100 vektor/mp (5-10 vektor/hang)– Frekvenciabeli: 40-50 komponens/vektor (MFCC, PLP, …)Frekvenciabeli: 40-50 komponens/vektor (MFCC, PLP, …)

– A címkézés ált. esetben rossz hatásfokkal megy (50-70%)A címkézés ált. esetben rossz hatásfokkal megy (50-70%)– Alkalmazása (kitartott hangokra): ld. Alkalmazása (kitartott hangokra): ld. BeszédMesterBeszédMester

Beszéd-adatkeretek osztályozásaBeszéd-adatkeretek osztályozása

é é é é é z z z e e e e ee e

Page 21: Bes zé dtechnol ó gia,  beszédfelismerés

Az egyes hangokhoz tartozó jeldarabokat Az egyes hangokhoz tartozó jeldarabokat (szegmentumokat) egy egységként dolgozzuk fel(szegmentumokat) egy egységként dolgozzuk fel– Hosszabb jelrészlet Hosszabb jelrészlet több információ több információ jobb felismer jobb felismerésés

– Változó hosszúságú darabok, de fix számú jellemzőt akarunk Változó hosszúságú darabok, de fix számú jellemzőt akarunk speciális jellemzőkspeciális jellemzők kellenek (pl. kellenek (pl. átlagos energia…)átlagos energia…)

– Tapasztalat: 80-150 szegmentális jellemzővel jó felismerési Tapasztalat: 80-150 szegmentális jellemzővel jó felismerési eredményekeredmények

Beszédhangok osztályozásaBeszédhangok osztályozása

é z e

Page 22: Bes zé dtechnol ó gia,  beszédfelismerés

Jellemzőtér-transzformációJellemzőtér-transzformáció A szegmentumok osztályozása többféleképpen javíthatóA szegmentumok osztályozása többféleképpen javítható

– „„Modern” gépi tanulási módszerek, pl. SVMModern” gépi tanulási módszerek, pl. SVM

– Jellemzőtér-transzformáció az osztályozás előttJellemzőtér-transzformáció az osztályozás előtt Jellemzőtér-transzformációs módszerekJellemzőtér-transzformációs módszerek

– Transzformálják a teret, hogy az osztályok könnyebben Transzformálják a teret, hogy az osztályok könnyebben szétválaszthatók legyenekszétválaszthatók legyenek

» Lineáris módszerek Lineáris módszerek (pl. LDA):(pl. LDA):csak forgatás, nyújtáscsak forgatás, nyújtás

» Nemlineáris módszerek Nemlineáris módszerek (pl. K-LDA):(pl. K-LDA):egészen durva vetemítésekegészen durva vetemítések(ld. ábra)(ld. ábra)

Page 23: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédhang-osztályozási eredményekBeszédhang-osztályozási eredmények Hibaarányok számbemondásokat tartalmazó Hibaarányok számbemondásokat tartalmazó

adatbázisonadatbázison

Az MTBA adabázison (52 beszédhang, ANN): 32,17%Az MTBA adabázison (52 beszédhang, ANN): 32,17% A TIMIT angol adatbázison (39 beszédhang, ANN)A TIMIT angol adatbázison (39 beszédhang, ANN)

» (A legjobb ismert eredmény: 18% körül)(A legjobb ismert eredmény: 18% körül)

No transf. (77 jell.)

LDA (27 jell.)

K-LDA (27 jell.)

HMM 9.34% — — ANN 7.78% 7.81% 5.79%

28 hang

SVM 5.81% 5.12% 4.59%

trafótrafó Lineáris változatLineáris változat Nemlineáris változatNemlineáris változat

NincsNincs 28,43%28,43% 28,43%28,43%

PCAPCA 28,22%28,22% 26,49%26,49%

ICAICA 29,01%29,01% 27,23%27,23%

LDALDA 27,12%27,12% 25,11%25,11%

SDASDA 27,93%27,93% 25,93%25,93%

Page 24: Bes zé dtechnol ó gia,  beszédfelismerés

Probléma: folyamatos szövegben a hangok helye nem Probléma: folyamatos szövegben a hangok helye nem ismert!ismert!– Megoldás: brute-force Megoldás: brute-force ‘el‘előreőre’’ keresés (hosszkorlát mellett) keresés (hosszkorlát mellett)

– Osztályozó kiegészítése egy újabb osztállyal: „anti-phone”Osztályozó kiegészítése egy újabb osztállyal: „anti-phone”» Tanítása mesterségesen generált példák alapjánTanítása mesterségesen generált példák alapján

– Címkék hozzárendelése helyett csak valószínűségek!Címkék hozzárendelése helyett csak valószínűségek!– P(átirat helyes) P(átirat helyes) ~~ P(címkék helyesek) P(címkék helyesek) ésés P(szegmentálás helyes) P(szegmentálás helyes)

Szegmentum-alapú felismerésSzegmentum-alapú felismerés

é z Ø

Page 25: Bes zé dtechnol ó gia,  beszédfelismerés

A szegmentálás valószínűségének becsléseA szegmentálás valószínűségének becslése– Az anti-fón valószínűségek alapján többféle képlettelAz anti-fón valószínűségek alapján többféle képlettel

Eredmények az MTBA adatbázisonEredmények az MTBA adatbázison (ANN-nel) (ANN-nel)

Gyorsítási lehetőségGyorsítási lehetőség– „„Brute force” helyett a valószínűtlen szegmentálások kizárása, Brute force” helyett a valószínűtlen szegmentálások kizárása,

pl. neuronhálóval tanulva a szegmenshatárokatpl. neuronhálóval tanulva a szegmenshatárokat

Szegmentum-alapú felismerés 2.Szegmentum-alapú felismerés 2.

Mondatszintű hangsorozat-felismerési eredmények (% korrekt)Mondatszintű hangsorozat-felismerési eredmények (% korrekt)

Antifónok nélkülAntifónok nélkül Egyszerű antifón-modellEgyszerű antifón-modell Bonyolult antifón-modellBonyolult antifón-modell HMMHMM

53,44%53,44% 58,74%58,74% 61,34%61,34% 61,60%61,60%

Page 26: Bes zé dtechnol ó gia,  beszédfelismerés

A keretekhez osztályonkénti valószínűségeket rendelünkA keretekhez osztályonkénti valószínűségeket rendelünk Ezután azonosítás és szegmentálás Ezután azonosítás és szegmentálás egyszerreegyszerre történik: történik:

maximumot adó út keresése dinamikus programozássalmaximumot adó út keresése dinamikus programozással (Viterbi alg.)(Viterbi alg.)

Keresési megszorítások a szegmentumokra (hangokra):Keresési megszorítások a szegmentumokra (hangokra):» HosszmodellezésHosszmodellezés» Egymásra következési valószínűségekEgymásra következési valószínűségek» bizonyos sorozatok engedélyezése/kizárása (szótár)bizonyos sorozatok engedélyezése/kizárása (szótár)

Matematikai formalizálás: a rejtett Markov-modellMatematikai formalizálás: a rejtett Markov-modell

Keretalapú felismerésKeretalapú felismerés

abcd

Page 27: Bes zé dtechnol ó gia,  beszédfelismerés

A rejtett Markov-modell (HMM)A rejtett Markov-modell (HMM) A keretenkénti valószínűségek becslése történhetA keretenkénti valószínűségek becslése történhet

– Gauss-görbék lineáris kombinációjával (szokványos HMM)Gauss-görbék lineáris kombinációjával (szokványos HMM)– Neuronhálókkal (HMM/ANN hibridNeuronhálókkal (HMM/ANN hibrid ill. HMM/ANN tandem ill. HMM/ANN tandem))

A valószínűségek kombinálása a HMM-benA valószínűségek kombinálása a HMM-ben– SSzorzással (zorzással (nnaív Bayes-szabály), a tényezők:aív Bayes-szabály), a tényezők:– Keretenkénti val., exponenciális hossz val., átmeneti val.Keretenkénti val., exponenciális hossz val., átmeneti val.

A HMM tanításaA HMM tanítása

– Inicializálás: jó, ha van némi kézileg szegmentált adatInicializálás: jó, ha van némi kézileg szegmentált adat

– További tanítás: csak címkézett adaton is megy!További tanítás: csak címkézett adaton is megy!

– Tanító algoritmus: Baum-WelchTanító algoritmus: Baum-Welch» IteratívIteratív» Maximum likelihood kritériumMaximum likelihood kritérium» Lokális optimumot garantálLokális optimumot garantál

Page 28: Bes zé dtechnol ó gia,  beszédfelismerés

Neuronhálók a modellezésbenNeuronhálók a modellezésben HMM/ANN hibrid:HMM/ANN hibrid:

– Olyan, mint a HMM, de Gauss-görbék helyett neuronhálókkal becsli Olyan, mint a HMM, de Gauss-görbék helyett neuronhálókkal becsli az adatvektorokhoz tartozó valószínűségeketaz adatvektorokhoz tartozó valószínűségeket

– Általában több szomszédos adatvektoron tanítják a hálótÁltalában több szomszédos adatvektoron tanítják a hálót „„Tandem” séma: az ANN felhasználásának másik módjaTandem” séma: az ANN felhasználásának másik módja

– Az ANN-t úgy tekintjük, mint jellemzőtranszformációs algoritmust, Az ANN-t úgy tekintjük, mint jellemzőtranszformációs algoritmust, azaz a kimenetét nem valószínűségi becslésként, hanem új azaz a kimenetét nem valószínűségi becslésként, hanem új jellemzővektorként értelmezzükjellemzővektorként értelmezzük

» Így az ANN kimenetén tanítjuk a hagyományos gaussos HMM-etÍgy az ANN kimenetén tanítjuk a hagyományos gaussos HMM-et

– Miért nem fölösleges bonyolítás?Miért nem fölösleges bonyolítás?» A HMM kódjába, paraméterezésébe nem kell belenyúlniA HMM kódjába, paraméterezésébe nem kell belenyúlni» Könnyebb az összehasonlítás a hagyományos HMM-melKönnyebb az összehasonlítás a hagyományos HMM-mel» Az ANN nem csak osztálycímkékkel, hanem bármely más Az ANN nem csak osztálycímkékkel, hanem bármely más

„értelmesnek” ígérkező célértékekkel tanítható„értelmesnek” ígérkező célértékekkel tanítható

Page 29: Bes zé dtechnol ó gia,  beszédfelismerés

A háromféle keretalapú modellA háromféle keretalapú modell

Page 30: Bes zé dtechnol ó gia,  beszédfelismerés

FelismerFelismeréési eredmsi eredméénnyyekek Keretalapú módszerek, beszédhang-stringek felismeréseKeretalapú módszerek, beszédhang-stringek felismerése

» (bigram: k(bigram: két hang egymásra következésének val. modellje)ét hang egymásra következésének val. modellje)

Keretalapú módszerek, szószintű hibaarányKeretalapú módszerek, szószintű hibaarány– Izolált szavas felismerés, 431 telefonos városnév:Izolált szavas felismerés, 431 telefonos városnév:

– Ld. Még MÁV demo!Ld. Még MÁV demo!

HMMHMM HibridHibrid TandemTandem Tandem+bigramTandem+bigram

korrektkorrekt 61,60%61,60% 61,53%61,53% 65,40%65,40% 70,91%70,91%

pontospontos 52,11%52,11% 52,21%52,21% 60,16%60,16% 68,58%68,58%

HMMHMM HibridHibrid TandemTandem

hibaarányhibaarány 6,73%6,73% 6,27%6,27% 3,02%3,02%

Page 31: Bes zé dtechnol ó gia,  beszédfelismerés

Beszédhang-szintű kimenetBeszédhang-szintű kimenet Példák (a 68,58%-ot tudó rendszerből):Példák (a 68,58%-ot tudó rendszerből):

– havanedadóütykahartárrazatazatetletfállambezznihavanedadóütykahartárrazatazatetletfállambezzni– temészetesentmavahatésírommavamatizsboncolantemészetesentmavahatésírommavamatizsboncolan– egyetlennemvoltakszeméstákozesőinegyetlennemvoltakszeméstákozesőin– szagedemengyótérpistásulatánatunéhaszinűseszagedemengyótérpistásulatánatunéhaszinűse– kikítmorbigyahasaláttdeszényteszellánytázzuktmintecsecsemettkikítmorbigyahasaláttdeszényteszellánytázzuktmintecsecsemett

Hány százalék lenne elég? – teszt emberekkel, „rontott” Hány százalék lenne elég? – teszt emberekkel, „rontott” szövegekkelszövegekkel

Page 32: Bes zé dtechnol ó gia,  beszédfelismerés

Orvosi diktálórendszerOrvosi diktálórendszer Államilag támogatott projektÁllamilag támogatott projekt, BME-vel eg, BME-vel együttműködveyüttműködve Cél: folyamatos beszéd elfogadható szintű felismeréseCél: folyamatos beszéd elfogadható szintű felismerése Feladat: nyelvileg erősen szűkített orvosi szövegekFeladat: nyelvileg erősen szűkített orvosi szövegek

– SZTE: pajzsmirigy-szcintigráfiás leletekSZTE: pajzsmirigy-szcintigráfiás leletek

– BME: gasztroenterológiai leletekBME: gasztroenterológiai leletek Példa:Példa:

Klinikai adatok : St.p.strumectomiam. UH: bal lebeny kp. harmadában 12 mm-es göb.Kérdés : Göb?Elözô vizsgálata: -Jelen vizsgálata : Megnagyobbodott, szimmetrikus pajzsmirigy, amely a nyak középvonalában helyezkedik el. Alsó széle 2 cm-nél távolabb van a jugulumtól. Az isthmus rajzolata szabályos. A jobb lebeny az ellenoldalinál több radiofarmakont tárol. A jobb lebeny egyenletes aktivitás- eloszlással ábrázolódik. A bal lebeny középsô harmadában laterálisan 0.5x1.5 cm-es csökkent aktivitású terület látható, mely megfelel az UH-al leírt göbnek.Összefoglaló vélemény: St.p.strumectomiam. Recidiv struma nodosa. Hideg göb a bal lebenyben.

Page 33: Bes zé dtechnol ó gia,  beszédfelismerés

A felvetődő feladatokA felvetődő feladatok Akusztikai modell:Akusztikai modell:

– Adatbázis összegyűjtése, feldolgozása (ld. MRBA!)Adatbázis összegyűjtése, feldolgozása (ld. MRBA!)

– Akusztikus modellek betanítása, tesztelése az új adatbázisonAkusztikus modellek betanítása, tesztelése az új adatbázison

– Beszélőadaptációs kísérletekBeszélőadaptációs kísérletek Nyelvi modell:Nyelvi modell:

– A tanításhoz kapott leletanyag tisztításaA tanításhoz kapott leletanyag tisztítása

– Statisztikai nyelvi modell építése (Statisztikai nyelvi modell építése (nn-gram)-gram) Felismerő Felismerő ‘‘engineengine’:’:

– Az akusztikus és nyelvi információ kombinálásaAz akusztikus és nyelvi információ kombinálása

– Hatékony keresés különböző vágási módszerekkel (a valós Hatékony keresés különböző vágási módszerekkel (a valós idejű futás érdekében)idejű futás érdekében)

Page 34: Bes zé dtechnol ó gia,  beszédfelismerés

A leletanyagA leletanyag Tartalma, mennyisége:Tartalma, mennyisége:

– Kb. 8500 lelet az SZTE Nukleáris Medicina IntézettőlKb. 8500 lelet az SZTE Nukleáris Medicina Intézettől

– Tkp. az összes pajzsmirigy-lelet 6 évre visszamenőlegTkp. az összes pajzsmirigy-lelet 6 évre visszamenőleg Technikai feladatok:Technikai feladatok:

– DOS-os, régi Word-os, stb. fájlformátumok átkonvertálása DOS-os, régi Word-os, stb. fájlformátumok átkonvertálása

– Karakterkonverzió (kalapos ő, hullámos ő,…)Karakterkonverzió (kalapos ő, hullámos ő,…) Nyelvi jellegű feladatok:Nyelvi jellegű feladatok:

– Rengeteg elgépelésRengeteg elgépelés

– Latin kifejezések nem konzekvens írásaLatin kifejezések nem konzekvens írása

– Rövidítések (főleg latin betegségnevekben)Rövidítések (főleg latin betegségnevekben)

Page 35: Bes zé dtechnol ó gia,  beszédfelismerés

A leletanyagA leletanyag 2. 2. PPélda: az „aspirációs” szó előforduló alakjaiélda: az „aspirációs” szó előforduló alakjai

Egységesítés után megmaradó szavak száma: Egységesítés után megmaradó szavak száma: ~~ 2500 2500– Ezek szóalakok, azaz minden toldalékolt alak külön szó!Ezek szóalakok, azaz minden toldalékolt alak külön szó!

(A morfológia kezelésével nem is próbálkoztunk…)(A morfológia kezelésével nem is próbálkoztunk…)

– Számok és dátumok kezelése külön megoldást igényelneSzámok és dátumok kezelése külön megoldást igényelne(reguláris nyelvtannal: elkészült, de nem teszteltük felismerésben)(reguláris nyelvtannal: elkészült, de nem teszteltük felismerésben)

Nyelvtani kötöttség: nagyon nagyfokúNyelvtani kötöttség: nagyon nagyfokú– 95 000 mondatból mindössze 12 500 különböző95 000 mondatból mindössze 12 500 különböző

– Szerkezetileg hasonló mondatok (csak pl. bal helyett jobb…)Szerkezetileg hasonló mondatok (csak pl. bal helyett jobb…)

AsirációsAspAspirációcAspiráciosaspiráciosAspirációs

AspirátiosAspirátiósAspiráviósAspirciósAspirítiósAsprációs

aspirációsAspirácisAspirácyósAspiratiosAspiratiósaspiratiós

Page 36: Bes zé dtechnol ó gia,  beszédfelismerés

A nyelvi modellA nyelvi modell Az n-gram nyelvi modellAz n-gram nyelvi modell

– Szópárok, szóhármasok, … egymás utáni előfordulásának Szópárok, szóhármasok, … egymás utáni előfordulásának valószínűsége (bigram, trigram,…)valószínűsége (bigram, trigram,…)

– Egyszerűen közelíthető a szövegben előforduló szópárok, Egyszerűen közelíthető a szövegben előforduló szópárok, szóhármasok,… előfordulásainak megszámlálásávalszóhármasok,… előfordulásainak megszámlálásával

A tanításkor nem látott szó n-esek kezeléseA tanításkor nem látott szó n-esek kezelése– Erre valók az ún. simítási technikákErre valók az ún. simítási technikák– Esetünkben: csoport n-gramok szó n-gramok helyettEsetünkben: csoport n-gramok szó n-gramok helyett

» Szavak szófaji csoportba sorolása MSD-kód alapjánSzavak szófaji csoportba sorolása MSD-kód alapján

» A szavak helyett a csoportnevekből képzünk n-gramotA szavak helyett a csoportnevekből képzünk n-gramot

» Jóval kevesebb csoport, mint szó Jóval kevesebb csoport, mint szó kicsi a 0 előfordulás esélye kicsi a 0 előfordulás esélye

» A szó és csoport n-gramok kombinálása A szó és csoport n-gramok kombinálása 30% hibacsökkenés 30% hibacsökkenés

a pajzsmirigy megnagyobbodott névelő főnév ige

Page 37: Bes zé dtechnol ó gia,  beszédfelismerés

A nyelvi modell 2A nyelvi modell 2 Az akusztikai és a nyelvi modell kombinálása:Az akusztikai és a nyelvi modell kombinálása:

– P(össz) P(össz) = = P(akusztikai)*P(akusztikai)*P(nyelvi)P(nyelvi)αα

» αα : állításával szabályozható, hogy az akusztikai vagy a nyelvi : állításával szabályozható, hogy az akusztikai vagy a nyelvi modell befolyása legyen erősebbmodell befolyása legyen erősebb

– A gyakorlatban általában jó erősre van véve a nyelvi A gyakorlatban általában jó erősre van véve a nyelvi modell hatása…modell hatása…

– Esetünkben: erősen megszorított nyelvtan Esetünkben: erősen megszorított nyelvtan nagyon nagyon támaszkodunk a nyelvi modellretámaszkodunk a nyelvi modellre

» Hátrány: „a székrecsegésből is orvosi szöveget csinál”Hátrány: „a székrecsegésből is orvosi szöveget csinál”

Page 38: Bes zé dtechnol ó gia,  beszédfelismerés

A jelet balról jobbra dolgozzuk fel, a szavak illesztésével tkp. egy A jelet balról jobbra dolgozzuk fel, a szavak illesztésével tkp. egy keresési fa képződik:keresési fa képződik:

Feladat: a fa vágásával az exp. robbanás elkerüléseFeladat: a fa vágásával az exp. robbanás elkerülése A szavak hatékony tárolása: prefixum-faA szavak hatékony tárolása: prefixum-fa

Az n-gram modell kiértékelése: előrehozottAz n-gram modell kiértékelése: előrehozott– ne várjuk meg a szó végét, ha nem muszáj! Pl: nagyo(bb)ne várjuk meg a szó végét, ha nem muszáj! Pl: nagyo(bb)

Hatékony keresési technikákHatékony keresési technikák

oldalán

pajzsmirigy

bal

jobb

megnagyobbodott

alsóoldalifelől

Page 39: Bes zé dtechnol ó gia,  beszédfelismerés

A keresési tér bejárása lehet:A keresési tér bejárása lehet:– Időszinkron (széltében) keresésIdőszinkron (széltében) keresés

» Vágás: beam pruning (a legjobbnál egy adott küszöbbel Vágás: beam pruning (a legjobbnál egy adott küszöbbel rosszabb utak eldobása)rosszabb utak eldobása)

– ‘‘Best-firstBest-first’’ keresés keresés» Vágás: csak a legjobb Vágás: csak a legjobb KK útkezdeményt tartjuk meg (rendezett útkezdeményt tartjuk meg (rendezett

listában tárolva)listában tárolva)

– A vágással a felismerési pontosság és a futásidő (real time A vágással a felismerési pontosság és a futásidő (real time factor) fordítottan változik:factor) fordítottan változik:

Hatékony keresési technikák 2.Hatékony keresési technikák 2.

Page 40: Bes zé dtechnol ó gia,  beszédfelismerés

A felismerési pontosság és a futási idő a szótár A felismerési pontosság és a futási idő a szótár méretének és a megtartott nyelvi hipotézisek számának méretének és a megtartott nyelvi hipotézisek számának függvényébenfüggvényében

Hatékony keresési technikák 3.Hatékony keresési technikák 3.

Page 41: Bes zé dtechnol ó gia,  beszédfelismerés

BeszélőadaptációBeszélőadaptáció Az akusztikai modelleknek az adott beszélő hangjához Az akusztikai modelleknek az adott beszélő hangjához

való igazításavaló igazítása– Megkérjük a felhasználót, hogy olvassa fel a képernyőre kiírt Megkérjük a felhasználót, hogy olvassa fel a képernyőre kiírt

szöveget (kb. 5 percnyi szöveg)szöveget (kb. 5 percnyi szöveg)

– A beszédhang-modelleket a felvétel alapján módosítjuk A beszédhang-modelleket a felvétel alapján módosítjuk » pl. a várhatóérték-vektorokat arrébb toljuk a spektrális vektorok pl. a várhatóérték-vektorokat arrébb toljuk a spektrális vektorok

átlaga alapjánátlaga alapján

– Eredmények: gyakran 60-70% hibacsökkenés!Eredmények: gyakran 60-70% hibacsökkenés!

BeszélőBeszélő ffi1ffi1 ffi2ffi2 nő1nő1 nő2nő2 nő3nő3

Pontosság Pontosság adaptáció előttadaptáció előtt 97.57%97.57% 98.53%98.53% 83.42%83.42% 95.33%95.33% 82.99%82.99%

Adaptáció utánAdaptáció után 98.43%98.43% 96,70%96,70% 94.52%94.52% 98.39%98.39% 97.67%97.67%

Page 42: Bes zé dtechnol ó gia,  beszédfelismerés

Angol felismerő adaptálása magyarraAngol felismerő adaptálása magyarra Motiváció: Az angol adatbázisok sokkal nagyobbakMotiváció: Az angol adatbázisok sokkal nagyobbak

– Az MTBA ill. MRBA 5-10 órás nagyságrendűekAz MTBA ill. MRBA 5-10 órás nagyságrendűek

– Angolra „normális” a 100 órás nagyságrendű adatbázisAngolra „normális” a 100 órás nagyságrendű adatbázis

– De vannak több ezer órás adatbázisok is!De vannak több ezer órás adatbázisok is! Felhaszált erőforrásokFelhaszált erőforrások

– HTK: publikus rejtett Markovos beszédfelismerőHTK: publikus rejtett Markovos beszédfelismerő

– Quicknet: publikus neuronhálós programcsomagQuicknet: publikus neuronhálós programcsomag

– Publikus, angol adatbázison betanított neuronháló-súlyfájlokPublikus, angol adatbázison betanított neuronháló-súlyfájlok MódszerMódszer

– A tandem sémát fogjuk használni (ld. korábban!)A tandem sémát fogjuk használni (ld. korábban!)

– Az angolra betanított neuronhálón nem változtatunkAz angolra betanított neuronhálón nem változtatunk

– Adaptáció: a rejtett Markov-modell magyar adatbázison való tanítása Adaptáció: a rejtett Markov-modell magyar adatbázison való tanítása révénrévén

Page 43: Bes zé dtechnol ó gia,  beszédfelismerés

Az angol neuronhálókAz angol neuronhálók Készültek: a Johns Hopkins 2006 summer workshopon, Készültek: a Johns Hopkins 2006 summer workshopon,

nemzetközi együttműködésben nemzetközi együttműködésben Tanítóadatok: Kétezer(!) órányi angol „conversational Tanítóadatok: Kétezer(!) órányi angol „conversational

telephone speech”telephone speech” Tanítás kétféle célértékekkel:Tanítás kétféle célértékekkel:

– 1. változat: az angol beszédhangok felismerésére1. változat: az angol beszédhangok felismerésére

– 2. változat: ún. artikulációs jellemzők felismerésére 2. változat: ún. artikulációs jellemzők felismerésére (pl. nyelvállás, zöngésség, nazalitás, …) (pl. nyelvállás, zöngésség, nazalitás, …)

» Ezek elvileg nyelvfüggetlenebbek, mint maguk a hangokEzek elvileg nyelvfüggetlenebbek, mint maguk a hangok

Page 44: Bes zé dtechnol ó gia,  beszédfelismerés

EredményekEredmények Beszédhang-szintű pontosság, MTBABeszédhang-szintű pontosság, MTBA

– Nincs szignifikáns különbség a 3 eredmény közt, azaz:Nincs szignifikáns különbség a 3 eredmény közt, azaz:

– 2000 óra angol adat kb. annyit ér, mint 7 óra magyar adat2000 óra angol adat kb. annyit ér, mint 7 óra magyar adat

– Az artikulációs jellemzők detektálása nem vezetett jobb eredményre, Az artikulációs jellemzők detektálása nem vezetett jobb eredményre, mint a hagyományos beszédhangos megoldásmint a hagyományos beszédhangos megoldás

A beszédhang-tévesztések elemzéseA beszédhang-tévesztések elemzése– Kérdés: azokon a hangokon téveszt-e többet az angol rendszer, Kérdés: azokon a hangokon téveszt-e többet az angol rendszer,

amelyekben a magyar és angol nyelv eltérnek?amelyekben a magyar és angol nyelv eltérnek?

– Az adott hanghoz tartozó pontosságok hányadosát fogjuk nézni Az adott hanghoz tartozó pontosságok hányadosát fogjuk nézni ez ez >1 ha >1 ha magyar modell a jobb, magyar modell a jobb, <1 <1 ha az angolha az angol

Magyar tandemMagyar tandem Angol tandem (PH)Angol tandem (PH) Angol tandem (AF)Angol tandem (AF)

62,62%62,62% 62,22%62,22% 61,83%61,83%

Page 45: Bes zé dtechnol ó gia,  beszédfelismerés

A hangtévesztések elemzése 2.A hangtévesztések elemzése 2.

Mghk: nem egyértelmű (az Mghk: nem egyértelmű (az űű romlik, de csak a hosszú, az romlik, de csak a hosszú, az őő kb. ugyanolyan) kb. ugyanolyan)Felp. zárh: csak a Felp. zárh: csak a tt romlik (hehezet? de az a romlik (hehezet? de az a p-kp-k esetében is lehet) esetében is lehet)Affrikáták: a Affrikáták: a cscs kivételével ésszerű a romlás (c, ty, gy nincs az angolban) kivételével ésszerű a romlás (c, ty, gy nincs az angolban)Frikatívák: a Frikatívák: a zszs ritkasága magyarázat lehet a romlására ( ritkasága magyarázat lehet a romlására (szsz: hosszú-rövid probléma): hosszú-rövid probléma)Nazálisok: kb. ugyanannyi romlás mint javulásNazálisok: kb. ugyanannyi romlás mint javulás