Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Budapesti Műszaki és Gazdaságtudományi Egyetem
Távközlési és Médiainformatikai Tanszék
A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben
Szaszák György
Tézisfüzet
Tudományos vezető Dr. Vicsi Klára, DSc
Budapest, 2008
1
1 Bevezetés Napjainkban, az információs társadalomban és a mesterséges intelligencia korában alapvető igényként jelentkezik az emberi képességek gép általi minél hűebb megvalósítása. Nincs ez másként a beszédfelismerésben sem, az ember régi vágya, hogy gépeivel saját nyelvén kommunikálhasson. Jóllehet a kezdetek óta jelentős eredményeket értek el a beszédfelismerés történetében, maga a beszédfelismerés problémaköre napjainkban sem tekinthető még megoldott problémának. Sőt, ha arra gondolunk, hogy a valódi beszédfelismerés tulajdonképpen a beszéd gép általi értelmezését, megértését is jelenti, még messzebb érezhetjük magunkat a céltól. Különösen, ha a magyar nyelvre gondolunk, amelynek agglutináló – azaz toldalékoló – jellege miatt az indoeurópai, illetve angol nyelvekre kidolgozott beszédfelismerési módszerek alkalmazása egyáltalán nem egyszerű feladat, nagyszótáras, általános témakörű irodai diktálásra alkalmas beszédfelismerő mind a mai napig nem is létezik a magyar nyelvre. Ezzel együtt a klasszikus beszédfelismerésben lassan bő évtizede egyfajta egyhelyben topogás mutatkozik. A napjainkban leghatékonyabb és leginkább alkalmazott statisztikai eljárásokkal az adott technikai színvonalon elérhető eredmények megszülettek, azokat lényegében már csak továbbragozni lehet. Ennek ellenére a kutatók figyelme csak az utóbbi időben fordult az emberi beszéd más dimenziói felé, és mostanra terjedt el az a szemlélet, amely a beszédet a kommunikáció egy részének, egyik lehetséges csatornájának tekinti, és megpróbálja a beszéddel párhuzamosan megjelenő egyéb információforrásokat is kiaknázni (pl. multimodális beszédfelismerés). Maga a beszéd mint információhordozó sincs még azonban teljesen kihasználva a szűkebben vett beszédfelismerésben sem. A hagyományos, statisztikai alapú folyamatos beszédfelismerés a beszédet fonémaszekvenciának tekinti és így is dolgozza fel [1, 7]: a beszédfelismerésben a szegmentális (beszédhang léptékű) tartományba eső fonetikai szerveződési szintet, majd e felett a szavak, sőt inkább a szókapcsolatok szintjét veszik figyelembe, előbbit a fonéma modellek, utóbbit a nyelvi modell testesítik meg a beszédfelismerőkben. Ebben a feldolgozási láncban a beszéd mint akusztikai produktum csak a legelső szinten, szegmentális tartományban jelenik meg, utána nem veszik figyelembe. Meggyőződésem, hogy a beszéd szupraszegmentális tartományban akusztikailag is alátámasztja a szókapcsolati szintet, és így információforrásként hozzájárulhat a teljesebb beszédfelismeréshez, megnyitva az utat a valódi beszédértés irányába is. Gondoljunk csak arra, hogy a szupraszegmentálisan (prozódiailag) rosszul megformált közlemény – azaz helytelenül hangsúlyozott, nem megfelelő hanglejtésű vagy éppen túl monoton beszéd – az emberi beszédértést megzavarja, sőt, meg is tévesztheti, mégis ritkaságszámba mennek a szupraszegmentális tartománybeli kutatások, a szupraszegmentális tartomány akusztikailag is megjelenő elemeit – a szupraszegmentális beszédjellemzőket – pedig nem használják a
2
beszédfelismerésben. Árnyalja a képet, hogy a fonetikai és fonológiai tudomány sem egységes részletekbe menően már a szupraszegmentális jellemzők pontos meghatározása kérdésében sem, nemhogy az egyes jellemzők mérnöki tudományokban is jól felhasználható egzakt leírásában. Úgy gondolom, a magyar nyelvre a már említett agglutináló sajátosság és az ebből fakadó problémák miatt különösen érdemes a szupraszegmentális tartományt, illetve az általa hordozott információt a beszédfelismerés menetébe integrálni. Amellett, hogy magának a beszédfelismerésnek eredményességét is javíthatja a szupraszegmentális tartomány figyelembe vétele, alapját képezheti a szintaktikai és szemantikai szintű feldolgozásnak is.
A prozódia beszédfelismerésben való alkalmazását viszonylag kevesen vizsgálták, konkrét gyakorlati alkalmazást pedig, amely kihasználná ezt a lehetőséget, még kevesebbet mutattak be a tudományos életben. Természetesen azért akadnak kivételek is: a beszédfelismerés szakirodalmában két összefoglaló jellegű munkát [10, 21] is fellelhetünk a prozódia felhasználási lehetőségeiről, ezzel együtt ezen munkák sokszor egész fejezetei az „elméletileg lehetséges” síkján maradnak, számos vélt alkalmazási lehetőséget azzal indokolnak, hogy az a nyelvészeti kutatások alapján valószínűnek látszik, ám a gyakorlati beszédtechnológiába csak részlegesen ültetik át azokat. A prozódia beszédfelismerésben való felhasználását meg is valósító alkalmazások közül tudomásom szerint a prozódiailag igen gazdag japán nyelvben a szavak alapfrekvencia-mintázatát ismerték már fel Markov modellekkel [5]. Vizsgálataikat sajnos csak két beszélőre végezték, ekkor a félszótag felismerési arány javult a prozódia figyelembe vételével. E módszer speciálisan a japán nyelvre lett kidolgozva, melyben az alapfrekvencia jellegzetes változásokat mutat a szavak szintjén, indoeurópai, illetve a magyar nyelvekre ez a módszer aligha adaptálható. Amerikai angol nyelvre döntési fás osztályozóval olyan rendszert implementáltak [19], amely a beszédben a szünetek és hangsúlyok mintázatát a felismerési hipotézisek szintaktikai és szemantikai elemzővel legenerált referenciamintázatával veti össze, és ennek alapján újrarangsorolja a legvalószínűbb hipotéziseket. A figyelembe vett szupraszegmentális jellemző elsősorban az időtartam, amely az amerikai angol nyelvben a legfontosabb jellemző a hangsúlyozás szempontjából. A módszerrel a hipotézisek között a helyes hipotézis rangsorbeli helyzete közeledett az első helyhez. A hipotézisgráfok prozódiai információn alapuló újrasúlyozását német nyelvre is vizsgálták [10, 11]. Az Indiában beszélt bengáli nyelvre is készítettek szóhatár detektálót [12] – részben munkámmal párhuzamosan –, de azt beszédfelismerőbe nem építették be. A prozódiai frázisok és a mondatok határainak automatikus detektálása viszonylag gyakori alkalmazásnak számít [3, 10, 11, 16, 21].
3
2 Kutatási célkitűzések Dolgozatomban a beszéd szupraszegmentális (prozódiai) jellemzőinek automatikus beszédfelismerésbeli felhasználhatóságát vizsgálom. Munkám célja annak tudományos bemutatása és igazolása, hogy a prozódia által hordozott és ki nem használt információ hozzájárulhat a beszédfelismerés eredményeinek javításához, illetve szintaktikai és szemantikai szinten lényeges többletet is adhat hozzá. Emellett feladatomnak tekintem, hogy a prozódiai jellemzők olyan feldolgozását valósítsam meg, amely akusztikai szinten biztosítja a szupraszegmentális szerkezet követhetőségét és felhasználását a beszédfelismerésben, illetve amely alapvető osztályozási feladatok elvégzésével – szintaktikai tagolással (fonológiai frázisokra való tagolás) és szemantikai feldolgozással (modalitásfelismerés) – plusz információt ad a hagyományos beszédfelismeréssel kapott szöveges kimenethez, illetve ezt kiegészítendő, támpontokat jelenthet a magasabb szintű szintaktikai és a szemantikai feldolgozás robusztusabbá tételéhez. Vizsgálataim középpontjában a magyar nyelv áll, de igyekszem olyan struktúrákban gondolkozni, amely a más nyelvekre történő általánosítást is lehetővé teszi. Éppen ezért a kidolgozott módszerek más nyelvekre történő adaptálhatóságát is vizsgálom. Célkitűzéseim között szerepel annak igazolása, hogy az alapfrekvencia és energia mint prozódiai (szupraszegmentális) beszédjellemzők alapján a magyar nyelvben a hangsúly detektálható, és kötött hangsúlyú nyelvekre ennek alapján megvalósítható a szóhatárok jelentős részének detektálása csúcskereséssel, illetve fonológiai frázisok dallammenetének alakfelismerésére visszavezetett statisztikai osztályozással. Igazolom azt is, hogy az ezzel a módszerrel detektált szóhatárok figyelembe vétele a „hagyományos” statisztikai, fonéma alapú, folyamatos gépi beszédfelismerés eredményét javítja, ha felismerés során előálló hipotézisgráfban az élsúlyokat a szóhatárok helyzetének megfelelően módosítjuk. Az újrasúlyozás [19] a prozódiai információ (szegmentálás, azaz beszédfolyam-tagolás) felismerési folyamatba való becsatolásának eszköze, amely alkalmazkodik a hagyományos gépi beszédfelismerők felépítéséhez és működéséhez, így azokhoz kiegészítő modulként csatlakoztatható. E lehetőséget különösképpen az agglutináló (toldalékoló) nyelvek (ilyen a magyar nyelv is) szempontjából vizsgálom, amelyek esetében a manapság elterjedten használt n-gram szó alapú nyelvi modellezés a szóalakok nagyon magas száma miatt korlátozottan alkalmazható. Célom a tagmondat- és mondathatárok pontos detektálása is, illetve a mondattípusok (modalitás) felismerése automatikusan, az akusztikailag mérhető szupraszegmentális beszédjellemzők alapján statisztikai módszerrel, HMM alapú osztályozót felhasználva. Egy ilyen, szintén a beszédfelismerőkhöz csatlakoztatható modul szemantikai feldolgozásban nagy
4
segítséget jelentene, például a megfelelő írásjelek használatában a szöveges kimeneten, de a szemantikai elemzők működését is támogathatja az akusztikai információ beszédjelből való kinyerése és feldolgozása révén.
3 Módszertan A dolgozatomban bemutatott kutatásokhoz a beszédtechnológiában, ezen belül is a beszédfelismerés területén elterjedt módszereket vettem alapul. A beszédet szupraszegmentális tartományban vizsgálom. A szupraszegmentális jellemzők akusztikai szintű feldolgozását az alapfrekvencia és az intenzitás (illetve jelenergia) alapján végzem. Az időtartamok mérését előzetes tájékozódó vizsgálataim során nem találtam célravezetőnek a megfogalmazott feladatra. Az akusztikailag feldogozott szupraszegmentális tartományra egy-egy adott szupraszegmentális jellemzőre (pl. hangsúly, beszéddallam) osztályozási feladatot fogalmazok meg. Ennek legegyszerűbb formája „igen-nem” típusú döntés (pl. van-e hangsúly egy adott szótagon), de történhet a döntés több osztályra is (pl. milyen az adott beszédszakasz jellemző dallamsémája). A döntést csúcskeresési algoritmussal, illetve az eljárás finomításával a későbbiekben HMM alapú osztályozóval végzem. Az osztályozás eredménye alapján fonológiai frázis-, illetve mondathatár-detekciót is megvalósítok. Az osztályozó révén ekkor beszédfolyam-szegmentálás történik. A megfogalmazott feladathoz elkészült osztályozó- vagy felismerő egység (illetve az ezekből származtatott funkcionális modul) teljesítményét teszteléssel határozom meg az előzetesen rögzített mérőszámokkal, amelyek a rendszer, illetve az implementált algoritmusok teljesítményét (pontosságát, eredményességét, hatékonyságát) mérik. Az algoritmusokat iteratívan optimalizálom a főbb paraméterek külön-külön való változtatásával, ennek során a viszonyítási alap mindig a kiindulási rendszer.
4 Új eredmények
4.1 Szóhatár-detekció hangsúlydetekció alapján A hangsúly a beszédben valamely szó egy szótagjának kiemelése, megkülönböztetése a többi szótagtól [4]. Egy adott nyelvben a hangsúly kötött, ha mindig a hangsúlyos szó azonos szótagján realizálódik, kötetlen, ha a hangsúlyozandó szótag ugyanazon szón belül
5
„vándorolhat”. A magyar nyelv kötött hangsúlyú, első szótagra eső hangsúllyal. Kötött hangsúlyúak még pl. a finn, cseh és lengyel nyelvek. Az angol nyelv kötetlen hangsúlyozású. A hangsúly létrehozásában három tényező együttesen vagy egyedileg játszhat szerepet [4, 8]. E három tényező (i) az alapfrekvencia kiemelkedése a hangsúlyos szótagon, (ii), a hangsúlyos szótag nagyobb intenzitással való kiejtése és (iii) a hangsúlyos szótag magánhangzójának időtartambeli hosszabbodása. Egyes nyelvekben a hangsúly egyértelműen megfeleltethető e három tényező valamelyikének, a magyar nyelvben azonban a hangsúly lehet nyomatéki, azaz eredhet intenzitástöbbletből [4], de a hangsúlyérzetet jelentősen befolyásolja az alapfrekvencia is. Saját tapasztalataim alapján meghatározóbbnak tartom a hangsúlyban az alapfrekvencia szerepét (vö. [8], [14]). Mindezt a BABEL beszédadatbázison [20] végzett vizsgálataim is alátámasztották. Első tézisemben azt állítom, hogy a magyar nyelvben a kötött hangsúlyozást kihasználva az alapfrekvencia- és az intenzitással arányos energiamenet figyelembevételével a szóhatárok jelentős hányada detektálható. Egészen pontosan azok a szóhatárok detektálhatók, amelyeket hangsúlyos szó követ. Tézis I. [J1, C1] A kötött hangsúlyozású magyar nyelvben a szóhatárok jelentős hányada
detektálható a hangsúly, illetve áttételesen a hangsúlyt meghatározó akusztikai-prozódiai
jellemzők, az alapfrekvencia és az energia menete alapján.
A hangsúlydetekciós eljárást az alapfrekvencia és az energia paraméterekre alapoztam, az időtartammérést viszont elhagytam. A BABEL adatbázison [20] végzett előzetes vizsgálataim alapján ugyanis az időtartamok és a hangsúlyozás között nem találtam kiaknázható, megbízható összefüggést. A prozódiai-akusztikai jellemzők a szótagok magánhangzóinak stacioner szakaszán vagy a teljes beszédjelen is mérhetők. Utóbbi esetben szükségessé válik az alapfrekvencia interpolálása a zöngétlen szakaszokon, illetve számolni kell a zömmel mássalhangzó kapcsolatokban megjelenő mikroprozódiai ingadozások megjelenésével is. Az I. tézis bizonyításához azt mutattam meg, hogy az alapfrekvencia és energia alapján lehetséges a hangsúlydetekció, feltételezve, hogy e két jellemző a hangsúlyos szótagon maximumot ad [14]. A hangsúly detektálását csúcskeresési algoritmussal valósítottam meg. Az algoritmus folyamatosan nyomon követi a beszédjel egy tetszőlegesen időablakolt szakaszán a megfigyelni kívánt prozódiai jellemző(ke)t, és ezek értékeit átlagolva meghatározza az ablakba eső beszédjel-szakaszra várható értéküket (M) és szórásukat (σ) (empirikus közép, ill. tapasztalati szórás). Az értékekből egy küszöböt határozok meg:
σ*kMK += , (1)
ahol k tetszőleges konstans, nagyságrendileg 0,5-1,5 közötti értékkel. Ezt követően a
választott prozódiai jellemző(k)re azt vizsgálom, nagyobb(ak)-e a K küszöbnél, ha igen, akkor
6
ezt csúcsnak tekintem, és itt az algoritmus hangsúlyos pozíciót detektál. A hangsúlyos pozíció
az első szótagra való kötöttsége miatt szóhatárra képezhető (például az energiagörbe
minimumára).
Közvetlenül az alapfrekvencia és az energia helyett belőlük származtatott mennyiségeket is
felhasználhatunk, így az egyes szótagok közötti alapfrekvencia- és energiaszintbeli
különbségeket is. Ekkor a csúcskeresést azzal a különbséggel végzem, hogy a várható érték
és a szórás számításakor a kapott értékek abszolút értékeit használom. A csúszóablakos
számítás ekkor is indokolt, hiszen alkalmazkodnunk kell a mért differenciális jellemzők
dinamikatartományának folyamatos változásaihoz.
Az így kapott hangsúly- és a ráépülő szóhatár-detektáló rendszer felépítése az 1. ábrán látható.
1. ábra: A csúcskeresésen alapuló hangsúlydetektálás elvi vázlata
A tézis bizonyítását kísérletileg végeztem a fenti algoritmus alapján, a csúcskeresési
algoritmusra alapozott eljárás teljesítményelemzésére a következő két mérőszámot
használtam:
• A pontossággal (precision) azt jellemzem, hogy az algoritmus mennyire detektálta (azonosította) helyesen a hangsúlyokat, illetve a szóhatárokat:
fptp
tpp
+= , (2)
ahol tp (true positive) a helyesen azonosított hangsúlyos szótagok/szóhatárok száma,
fp (false positive) a téves hangsúly-/szóhatár-azonosítások száma.
• A hatékonysággal (recall vagy sensitivity) mérem, hogy az összes, a mondatokban előfordult szó hány százalékánál detektálta az algoritmus az első szótagot
hangsúlyosnak:
fntp
tpr
+= , (3)
ahol fn (false negative) a nem azonosított hangsúlyos szótagok/szóhatárok száma.
Alapfrekvencia meghatározás
Energia kiszámítása
Csúcskeresés/ Görbejelleg-
meghatározás Hangsúly-detekció
Beszédjel Szóhatárok
Csúcskeresés/ Görbejelleg-
meghatározás
7
A (2) és (3) összefüggésekkel meghatározott mutatók ábrázolhatók PR-térben (Precision-
Recall space), így a két jellemző alapján történő teljesítménykiértékelés áttekinthetőbb1.
A teljesítményelemzéshez a tesztmintákat a BABEL beszédadatbázisból vettem. Az
eredmények – az algoritmus felépítésének megfelelően – azt mutatták, hogy a pontosság
emeléséhez a hatékonyságból fel kell adnunk, az csökkenni fog. A legnagyobb kapott
pontosság 91%, 14% hatékonyság mellett. A folyamatos jelleggörbék alapján kapott
eredmények az 1. táblázatban láthatók.
1. táblázat: Hangsúlyos pozíció detektálása a teljes beszédjelen mért jelleggörbék alapján
Pontosság/Hatékonyság [% / %] F0 E F0&E
70 / 32 69 / 34 91 / 14
4.2 Fonológiai frázisok osztályozása és szóhatár-detektálás alakfelismeréssel
A következő tézis a prozódiai információ a beszédfelismerésben is felhasznált statisztikai
eszközökkel történő kinyerését és feldolgozását, hasznosítását célozza a beszédfelismerés
folyamatában.
Tézis II. A. [J1, J2, B1, C1] A kötött hangsúlyozású magyar nyelvben a fonológiai frázisokra
alakfelismerésen alapuló szegmentálás valósítható meg rejtett Markov-modellekkel. E
szegmentálás alapján a fonológiai frázishatárokra eső szóhatárok is detektálhatók.
Ez a tézis azt állítja, hogy a hangsúlyozási mintázat és a dallammenetek által megadott
prozódiai struktúra elemei diszjunkt osztályokba sorolhatók úgy, hogy a fonológiai
frázishatárra eső szóhatárok detektálhatók a hangsúlyozási minta és a dallammenetek együttes
modellezését megvalósító fonológiai frázisosztályok alakfelismerésével, rejtett Markov
modell alapú osztályozási eljárásban. Dallammenetek alatt a hangmagasság folyamatos
változásai értendők a változás irányától függően [8]. Általában az alábbi dallammeneteket
szokás elkülöníteni [4]: eső, ereszkedő, szökő, emelkedő, lebegő. A fonológiai frázis
rendszerint néhány (vagy akár egyetlen) szóból áll [18], önálló hangsúllyal és dallammenettel
jellemezhető [6]. Pszicholingvisztikai kutatások tanúsága szerint a fonológiai frázisoknak,
illetve azonosításuknak a beszédpercepcióban kulcsszerepe van (vö. [2]).
A II. A tézist kísérletileg igazoltam. A fonológiai frázisosztályokat (FF-osztályok)
dallammenetek alapján különítettem el. A magyar nyelvre 5+1, azaz a szünettel együtt
1 A pontosságot és hatékonyságot PR-térben ábrázolva angol elnevezéseikkel (precision ill. recall) használom, értékkészletük a [0, 1] intervallum. Táblázatokban százalékra átszámítva közlöm értékeiket.
8
összesen 6 osztályt használtam az alábbiak szerint: eső (FA); ereszkedő (DE);
lebegő/változatos (FL); emelkedő-eső (RF); emelkedő/szökő (RI); szünet (SIL). A szünet és a
lebegő dallammenet kivételével minden fonológiai frázis hangsúllyal indít, határaikat pedig
mindig a szóhatároknál rögzítettem, hiszen a fonológiai frázis egy-egy rövidebb szóláncnak
felel meg [18].
A szupraszegmentális tartományban működő osztályozót a statisztikai beszédfelismerésre
kidolgozott eljárás alapján valósítottam meg [7]. A fonológiai frázisok osztályozásához egy
prozódiai-akusztikai, és egy prozódiai-nyelvi modellre van szükség (vö. [5], [19]).
Ha a beszédjelhez illeszkedő FF-osztályok sorozata rejtett Markov modellekkel felismerhető,
akkor a prozódiai mintaillesztés végén visszakereshető a végül maximális súlyúnak adódott
útvonal által fedett rejtett szupraszegmentális állapotsorozat, az állapotok időbeli
elhelyezkedését is beleértve. Mivel a FF-osztályok határai szóhatárokra esnek, a megfelelően
pontos FF-osztályozás révén a fonológiai frázishatárok detektálhatók, így a nekik megfelelő
szavak vagy szóláncok határai is. Innen egyenes út vezet a prozódiai szegmentáló
megalkotásáig (lásd 4.3 szakasz). A FF-osztályozó által használt prozódiai nyelvtan nem
statisztikai, hanem szabály alapú véges állapotú nyelvtan. A HMM alapú FF-osztályozót HTK
keretrendszerben [22] implementáltam. A megvalósított rendszer felépítése a 2. ábrán látható.
2. ábra: Statisztikai alapú FF-osztályozórendszer blokkvázlata
A szupraszegmentális tartományú akusztikai előfeldolgozás során az alapfrekvenciát
AMDF-alapú algoritmussal határozom meg, majd 7 pontos medián szűrést hajtok végre.
Interpolációt nem használok. Az alkalmazott keretidő 25,6 ms. Az energia esetében 100 ms
időablakkal átlagolok, a keretidő szintén 25,6 ms. Mindkét jellemzőhöz kiszámítom első és
másodrendű deriváltjaikat is. A jellemzővektorok tehát hatdimenziósak, és 25,6 ms
keretidőnként képződnek. Az alkalmazott prozódiai nyelvtan (GFF) a következő volt:
GFF = [SIL] < RF | (DE [SIL]) | (RI SIL) > SIL, (4)
ahol a ’< >’ szimbólumok egy vagy több, a ’{ }’ szimbólumok nulla, egy vagy több
Illesztett FF-osztályok
Szupraszegmen-tális akusztikai előfeldolgozás
Fonológiai frázis- osztályok illesztése
FF-osztályok HMM-jei
FF-osztályok kapcsolódási
modelljei
Beszédjel
Szupraszegmentális jellemzővektorok F0 & energia
kinyerése
9
ismétlődést jelölnek, a ’|’ szimbólum kizáró vagy kapcsolatot, a ’[ ]’ opcionálisan elmaradó
eseményeket jelöl. A nyelvtan választásának indokait részletesen bemutattam az értekezésben.
(4) optimalizálását nem elsősorban a FF-osztályozás, hanem a szóhatár-detektálásra való
alkalmasság szempontjából végeztem.
A kísérletekhez ismét a BABEL beszédadatbázisból vett mintákat használtam. Az
FF-osztályok HMM-jeinek betanításához a beszédmintákat az alapfrekvencia és az energia
menete alapján FF-osztályokra szegmentáltam.
A FF-osztályozó teljesítményét a beszédfelismerésben használatos helyes felismerési
(osztályozási) aránnyal mértem. Ha a fonológiai frázishatárra eső szóhatárok detektálásának
eredményességét vizsgáljuk, az a szóhatár-detektálásra bevezetett (2) és (3) mérőszámokkal
végezhető el, így az eredmények az I. tézis kapcsán kidolgozott módszer eredményeivel is
összehasonlíthatók. Ekkor a szóhatárt ismét akkor tekintettem helyesen detektáltnak, ha a
fonémaszintű szegmentálással összevetve az a tényleges szóhatár 100 ms-os környezetébe
esett (vö. [5]). Teszteléssel vizsgáltam mind a FF-osztályozó, mind az erre épülő, fonológiai
frázisok határain szóhatárt detektáló algoritmus teljesítményét. A 3. ábra a FF-osztályozó a
(4) nyelvtanban megadott osztályozási feladatban elért helyes osztályozási arányát mutatja.
A FF-osztályozás alapú szóhatár-detektálás esetén megvizsgáltam, hogy mely prozódiai
jellemzők esetében adódik optimális eredmény a pontosságra és a hatékonyságra. A csak az
alapfrekvencia-, illetve csak az energiajel alapján dolgozó modellek nem adtak olyan jó
teljesítményt, mint a mindkét jellemzőt felhasználók.
A pontosság és a hatékonyság tekintetében a FF-osztályok HMM-jeinek állapotszámát és a
kibocsátás eloszlását leíró Gauss függvények komponenseinek számát is optimalizáltam.
Előbbire 11 állapot, utóbbira 1-2 komponens adódott optimálisnak.
0
10
20
30
40
50
60
70
80
90
RF DE RI SIL
FF-osztály
He
lye
s o
sztá
lyo
zá
si a
rán
y [
%]
3. ábra. A FF-osztályozó (4) prozódiai nyelvtan szerinti osztályozási teljesítménye
10
A kapott eredmények tanúsága szerint a szóhatár-detekció pontossága és hatékonysága
optimális esetben magyar nyelvre 77,4%, illetve 57,1% (lásd 4. ábra).
A szóhatár-detektálás kapcsán vizsgáltam a FF-osztályozó betanító anyagának szempontjából
azt is, hány beszélővel adódik optimális eredmény: 14 fő, 4 fő, majd egyetlen fő férfi beszélő
anyagával tanítva a pontosság kismértékben változott, legmagasabb a 4 fős betanító halmaz
esetében volt. A hatékonyság viszont jelentősebben változott, optimális eredményt a 4 fős
betanító halmazra kaptam. Mindez a 4. ábrán is nyomon követhető. A betanító anyag
szűkítésekor ügyeltem arra, hogy a beválogatott beszélők kiejtése prozódiailag megfelelő
legyen.
0,764
0,765
0,766
0,767
0,768
0,769
0,77
0,771
0,772
0,773
0,774
0,775
0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7
Recall (r)
Pre
cis
ion
(p
)
4. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar nyelvre 1, 4 és 14 férfi beszélő anyagával betanítva, 18 beszélő anyagán tesztelve
A FF-osztályokat a későbbiekben tapasztalataim alapján finomítottam, az új osztályozás
mondatindító (me), erősen hangsúlyos (fe), gyengén hangsúlyos (fs), prozódiai frázisvégi
folytatást jelző (fv), mondatzáró (mv), semleges (s) és szünet (sil) osztályokat különböztet
meg. Fontosabb a szupraszegmentális tartomány akusztikai előfeldolgozásának változása, az
alapfrekvencia-jelben oktávugrás elleni szűrést használok, a medián szűrés helyett átlagoló
szűrővel végzem a simítást. A keretidőt 10 ms-ra csökkentettem. Az újradefiniált FF-
osztályok bevezetésével és a feldolgozás finomításával a szóhatár-detektálásra kapott
pontosság, illetve hatékonyság 79,2%, illetve 58,5%, a szóhatárok időbeli elhelyezésének
pontatlansága (a valós szóhatártól való távolság szórása) pedig jelentősen csökkent.
Tézis II. B. [J1, B1, C2, C3, C4] A magyar nyelvre, a fonológiai frázisosztályok
behatárolására kidolgozott módszer más kötött hangsúlyú nyelvekre is közvetlenül
alkalmazható a fonológiai frázishatárokra eső szóhatárok detektálása céljából.
1 férfi 4 férfi
14 férfi
11
A tézist a magyar nyelvű FF-osztályozó finn nyelvre történő adaptálásával igazoltam. Ennek
során finn nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési,
FF-osztály szegmentálási, HMM-betanítási feladatokat, amelyeket korábban a magyar nyelvű
rendszerre. A betanítás és tesztelés alapjául szolgáló adatbázis a Helsinki University of
Technology által készített Finnish Speech Database [17], amely 250 mondatot tartalmaz
összesen 4 beszélő bemondásában. A teszteredmények kiértékelését a magyar nyelvre
bemutatott eljárással megegyezően végeztem.
A finn nyelv esetében is a 11 állapotú, 1 Gaussos HMM modellek adták a legjobb eredményt
mind az alapfrekvencia, mind az energiaszint, valamint ezek első és második deriváltjai
alapján működő modellekben.
A (2) és a (3) összefüggésekkel definiált (pontosság és hatékonyság) eredményességi
jellemzők finn nyelvű rendszerrel 69,2%, illetve 76,8%. Ez a magyar nyelvű eredményekkel
összevetve alacsonyabb pontosságot, ugyanakkor jóval nagyobb hatékonyságot jelent (lásd 5.
ábra).
Vizsgáltam a kétnyelvű szóhatár-detektáló rendszer teljesítményét is. A mindkét nyelven
betanított rendszer pontossága majdnem eléri az egynyelvű rendszerét, hatékonysága viszont
jelentősen nagyobb az egynyelvű esethez képest. Az eredmények az 5. ábrán láthatók
PR-térben ábrázolva.
0,66
0,68
0,7
0,72
0,74
0,76
0,78
0,4 0,5 0,6 0,7 0,8 0,9
Recall (r)
Pre
cis
ion
(p
)
5. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar és finn nyelvre, illetve kétnyelvű rendszerekkel. A pontok melletti feliratokon az első betű a betanító, a
második a teszthalmazra utal: M=magyar, F=finn, V=vegyes magyar-finn
MM
VM
FM
MF
FF VF
12
4.3 Szóhatár-detektáló rendszer felhasználása a gépi beszédfelismerésben
Megvizsgáltam, hogy a II. A. tézisben bemutatott, FF-osztályozásra visszavezetett szóhatár-
detektálóval javítható-e a beszédfelismerés pontossága. Az eredményeim alapján
bizonyítandó tézis:
Tézis III. [J2, B2, C5] A beszédfelismerésben a helyesen felismert szavak aránya növelhető a
II. A. tézisben bemutatott, az alapfrekvencia- és energiamenet alapján működő HMM alapú
fonológiai frázisosztályozóval a beszédfolyamon végzett prozódiai szegmentálással.
Az állítás bizonyításához a szóhatár-detektálásra használt FF-osztályozót (prozódiai
szegmentálót) beszédfelismerőbe építettem, és kétmenetes beszédfelismerésben a
hipotézisgráfok újrasúlyozásával vettem figyelembe a prozódiai szegmentálást.
A hipotézisgráfok újrasúlyozásának végrehajtásához a szóhatárok időpontbeli helyzetét (tB)
intervallumokba transzformáltam az
[ ]
−∈
∆
egyébként
∆T+t∆T,tthaA,+t)π
(A=(t)L BB
B
0T2
cos , (5)
összefüggés alapján (vö. [10]). Itt ∆T az intervallum hosszát befolyásoló paraméter, értéke
kísérleteimben 100 ms volt. LB(t) ily módon tulajdonképpen a szóhatár adott időpontban
történő elhelyezkedésének valószínűségével arányos pontszámot ad meg.
A beszédfelismerés során előálló hipotézisgráfban azoknak a szavaknak és szóláncoknak
megfelelő utak súlyát, amelyek esetén a szavak határai időben egybecsengenek a prozódiai
szegmentálás által jelzett határokkal megnövelem (6). Hasonlóképp, azokban az esetekben,
amikor a prozódiai szegmentáló által megadott határok szavak belsejébe esnek, az eredetileg
hozzárendelt súlyokat csökkentem (7).
)()( endBbstartBarenum tLwtLwSc += , (6)
ahol tstart a szó gráf szerinti kezdő, tend a szó gráf szerinti végpontjának felel meg (az időben),
wa és wb pedig súlyok.
∑−−
+=
=1
1
)(kN
ki
iBpunish tLSc , (7)
ahol N a kiértékelendő szó(lánc)hoz tartozó összes keret száma, k= ∆T.
A gráf éléhez tartozó új Screscored pontszám értéke:
13
)( punishrenumPorigOrescored ScScwScwSc −+= . (8)
(6)-ban wa=0,5, wb=0,5; (8)-ban wO=1, wP=2,5 volt a kísérleteim során.
A beszédfelismerő, amelybe a prozódiai szegmentálót beépítettem, magyar nyelvű, HTK
rendszerben megvalósított radiológiai leletező alkalmazás (39 MFCC, 10 ms keretidő, 37
beszédhang modell, 32 Gauss, 8 óra anyagon tanítva). A szótár elemszáma mintegy 4000 szó,
a kísérletben a bi-gram nyelvi modellt binarizáltam. Célom annak kipróbálása, hogy képes-e a
prozódiai információ minimális nyelvtani információ mellett a felismerés hatékonyságát
javítani. Ezzel a nagyszótáras alkalmazások felé tekintek, ugyanis nagy szótárméret esetén a
nyelvi modell elkészítéshez rendkívül nagy szövegadatbázis kell, a nyelvi modell használata
pedig rendkívül műveletigényes. Különösen igaz ez az agglutináló nyelvekre – így a magyarra
is – amelyek esetén viszonylag szűk tématerületen is relatíve nagy az előforduló szóalakok
száma a toldalékoló jelleg miatt.
A 6. ábra alapján felépített kísérleti rendszerrel hasi és kismedencei ultrahangos leletek
felismerését vizsgáltam összesen 20 darab leletre (kb. 300 mondaton). A felismerést azonos
körülmények között azonos leletekre az alaprendszerrel, majd a prozódiai szegmentálóval
kibővített rendszerrel elvégezve a helyesen felismert szavak aránya összességében relatív
3,8%-kal javult. A javulás mértéke leletenként változó, egyes esetekben 10% fölötti
eredményt is kaptam, ugyanakkor előfordult, hogy a felismerés a prozódiai szegmentáló
hibázása miatt leromlott a referenciához képest. A hibaanalízis során kiderült, hogy ekkor a
prozódiai szegmentáló tévedett az alapfrekvencia-detektor hibázásának eredményeként. Az
összességében tekintett szignifikáns javulás azonban igazolja a III. tézis állítását.
6. ábra: Prozódiai szegmentálóval kiegészített beszédfelismerő felépítése
Szegmentális akusztikai
előfeldolgozás
Szupraszegmen-tális akusztikai előfeldolgozás
Szegmentális tartományú
mintaillesztés Hipotézis-
gráfok újrasúlyozása
Nyelvi modell
Beszédjel
Felismert szöveg
Prozódiai szegmentálás
Szótár
FF-osztály HMM
FF-osztály kapcsolódási
modell
FF-osztályok
Beszédhang HMM
Útvonal-kiértékelés
14
A relatív 3,8% javulás 4 ezer szavas, igen behatárolt szó- és mondatkészletű beszédfelismerő
alkalmazásban véleményem szerint nagyon jó eredmény, ez ugyanis a szótár méretének
növelésével, illetve a felismerendő szöveganyag kötetlenebbé választásával még nagyobb
teljesítménynövekedést eredményezhet.
4.4 Modalitásfelismerés és tagmondathatár-detektálás
A mondat modalitása alatt kizárólag a mondat típusát értem, amelyet elsősorban az intonáció
határoz meg. Modalitása szerint a mondat lehet kijelentő, kérdő, felszólító, felkiáltó vagy
óhajtó.
A hagyományos beszédfelismerésben a mondat típusának automatikus felismerése
gyakorlatilag nem lehetséges. Ha a mondattípust mégis meg szeretnénk határozni,
próbálkozhatunk a természetes nyelvfeldolgozásban használatos szintaktikai vagy szemantikai
eszközökkel, elemzőkkel (pl. [16]). Ezek egyik nagy hátulütője, hogy a felismerő
szövegkimenetén dolgoznak, így felmerül az esetleges felismerési hibák továbbterjedése a
modalitást meghatározó modulba is. Emellett könnyen elképzelhető olyan eset is, hogy a
prozódián kívül semmilyen más elem nem jelzi a modalitást [10]. Írásban a megfelelő
írásjelből eldönthetjük, hogy a beszélő állításként vagy kérdésként, esetleg felkiáltásként
fogalmaz-e meg egy-egy mondatot. A mondatok tagolásában a vesszők vannak segítségünkre,
bár azok nem mindig esnek egybe a prozódiailag megnyilvánuló tagolással [15].
Tézis IV. A. [B3, C6] A fonológiai frázisok osztályozására magyar nyelvre kidolgozott
folytonos HMM alapú algoritmus a megfelelő módosításokkal alkalmas a tagmondathatárok
detektálására, és a mondat modalitásának meghatározására.
A modalitás felismerése elsősorban szemantikai szintű feladat, és legalább egy, de
gyakrabban több mondatból álló beszédszegmensre végezhető el. Mivel a modalitás mondat
szinten értelmezett, ezért a modalitás felismerésének szintaktikai vonatkozásai is vannak, ez
pedig a robusztus mondathatár-, sőt tagmondathatár-detekció. A tagmondatokat úgy
értelmeztem, mint az írásban vesszővel jelölendő mondatbeli határokat, míg a mondatok az
írásban mondatzáró írásjellel lezárandó nyelvi egységek. Mint említettem, a tagmondatok
prozódiai szempontból nem feltétlenül esnek egybe az írásban vesszővel elválasztott
tagmondatokkal (bár általában igen [15]). Megfelelően feldolgozott beszédadatbázis
hiányában ezt a kérdést nem vizsgáltam.
Előzetes feltevésem szerint a modalitásfelismeréshez a szupraszegmentális akusztikai
előfeldolgozás során nagyobb időablakokkal szükséges átlagolunk, az optimális
15
ablakméreteket, teljesítményelemzéssel határoztam meg. A II.-III. téziscsoportokban
bemutatott esethez képest a HMM alapú rendszer ezúttal a FF-osztályok helyett
tagmondatokra készült, a mondatszintű intonációt leíró prozódiai-akusztikai modellek
használatával. Fontos különbség FF-osztályozó és a modalitásfelismerő rendszer között, hogy
előbbi esetben az illesztett FF-osztály gyakorlatilag közömbös volt, a lényeges információt
csak az egyes osztályok határai adták a szóhatár-detektálásra használt alkalmazásban, míg
most az illesztett tagmondatosztály adja meg a mondat modalitását (ha mondatzáró
tagmondatról van szó), így ez is informatív, hiszen ennek alapján lesz lehetséges az írásjelek
kitétele a felismert szövegben, ha a modalitásfelismerőt beszédfelismerőbe építjük be.
A modalitásfelismerő betanításához a szupraszegmentális tartományban (alapfrekvencia és
energia) feldolgozott beszédet tagmondat szinten szegmentáltam és címkéztem, hasonlóan a
szóhatár-detektálásra bemutatott esethez. Az optimális osztályozáshoz szükséges osztályokra
való felbontást iteratívan szűkítettem a végső összesen 7 osztályra (ebből 1 a szünet):
• Nem mondatzáró tagmondat (T)
• Kijelentő mondat záró tagmondata (S)
• Kiegészítendő kérdés (K)
• Eldöntendő kérdés (E)
• Felszólítás/felkiáltás (X)
• Óhajtó mondat (O)
• Szünet (U)
Eltérő intonációs mintája miatt az eldöntendő (igen/nem válasz) és kiegészítendő (explicit
válasz) kérdéseket a szakirodalmi nyelvészeti osztályozásnak megfelelően különválasztottam
[13]. A felkiáltó és a felszólító mondatok intonációja közötti szerény különbség miatt ezeket
egymástól nem különböztettem meg. Ez egyébként a megfelelő írásjel (felkiáltójel)
kitételében nem okoz majd problémát. Az összeállított tagmondathatár-detektáló és
modalitásfelismerő rendszer blokkvázlata a 7. ábrán látható. Az alapfrekvencia és az energia
kinyerése a 4.3 szakaszban bemutatott eljárással egyezik. Az akusztikai előfeldolgozó
nagyobb átfogású ablakokra átlagol.
Tagmondat osztályok illesztése
Szupraszegmen-tális akusztikai előfeldolgozás
Tagmondat intonációs HMM-ek
Tagmondatok kapcsolódási
modelljei
Beszédjel
Tagmondat és mondathatárok,
modalitás és írásjelek
Szupraszegmentális jellemzővektorok F0 & energia
kinyerése
7. ábra: Statisztikai alapú tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata
16
A tagmondatok kapcsolódási modelljeit megadó nyelvtan (Gtm) a beszédet opcionális szünet,
opcionális nem mondatzáró tagmondatok, és kötelezően megjelenő záró tagmondatok
sorozataként adja meg (jelölések magyarázatát lásd pl. a (4) nyelvtannál):
Gtm = [U] < [T] ( S | E | X | K | O ) [U] > [U] (9)
Az osztályozási (modalitásfelismerési) teljesítményt ezúttal a beszédfelismerésben „szokásos”
helyes felismerési aránnyal (10) mértem, miután az osztályozás maga sem közömbös.
%100⋅=N
HCorr , (10)
ahol H a helyesen felismert, N az összes tagmondatok száma a teszthalmazban. A munkám során folyamatosan optimalizált – mintegy 18 ezer tagmondattal betanított – osztályozóra a helyesen felismert tagmondatok aránya az egyes tagmondattípusokra a 8. ábrán látható.
0
20
40
60
80
100
S T K E X O U
Tagmondat-osztály
Co
rr [
%]
8. ábra: A tagmondattípusokra lebontott felismerési ráta 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett, gyermek adatbázison
Meglepő, ugyanakkor a modalitásfelismerésre is a 11 állapotú rejtett Markov tagmondat-modellek adtak optimális eredményt, az időátlagolás mértéke pedig 100-400 ms átfogású tartományban nem változtatta tendenciózusan az eredményeket. Míg a kötött hangsúlyra épülő szóhatár-detekció viszonylag nyelvspecifikus, hiszen csak kötött hangsúlyú nyelvekre alkalmazható a magyar nyelven kívül, addig a tagmondathatár-detekció és modalitásfelismerés a nyelvek jóval nagyobb körére általánosítható, mivel a prozódiai frázis végének emelkedő intonációval való jelzése, illetve a létező mondattípusok a hangsúlyozásnál univerzálisabb tulajdonságok.
17
Tézis IV. B. [C7] A magyar nyelvre kidolgozott HMM alapú tagmondatszintű szegmentáló és
modalitásfelismerő eljárás más, a modalitást mondatintonációban kifejező nyelvekre
közvetlenül alkalmazható.
A tézist a magyar nyelvű tagmondatszintű szegmentáló és modalitásfelismerő német nyelvre történő adaptálásával igazoltam. Ennek során német nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, tagmondat szegmentálási, HMM-betanítási feladatokat, amelyeket a korábban a magyar nyelvű rendszerre. A betanításhoz használt szöveganyagot a Kiel Corpus-ból [9] vettem. Az összeállított német rendszer felépítése tehát mindenben megfelel a magyar nyelvűének, az alapfrekvencia- és energiamenet feldolgozása is azonosan történt. A német nyelvű adatbázis szűkösebb mérete miatt 5 tagmondatosztályt különítettem el:
• Nem mondatzáró tagmondat (T)
• Kijelentő mondat záró tagmondata (S)
• Kérdés (eldöntendő és kiegészítendő) (K)
• Felszólítás/felkiáltás (X)
• Szünet (U) A kiegészítendő és eldöntendő kérdéseket tehát összevontam, közöttük ugyanis a Kiel Corpus elemzésekor nem találtam meggyőzőnek az intonációbeli különbséget, sőt, a két kérdéstípus meglepően hasonló intonációval realizálódott a legtöbb esetben. Az óhajtó tagmondat adat hiányában nem szerepel az osztályozásban. A német nyelvre a modalitásfelismeréshez használt nyelvtan (GGER):
GGER = [U] < [T] (S | E | FF ) [U] > [U] (11)
Minden egyéb feltétel megegyezik a magyar nyelvű rendszerre bemutatottal. A (10) összefüggéssel definiált felismerési arány szerinti eredmények német nyelvre a 9. ábrán láthatók tagmondat, illetve mondattípus szerinti bontásban. Az egyes mondatvégi írásjeleknek megfelelő tagmondat-osztályok felismerése eléri (kérdő, illetve felkiáltó és felszólító mondatok), illetve meghaladja (kijelentő mondat) a 70%-ot. A nem mondatzáró tagmondatok alacsony felismerési aránya utalhat a vesszővel jelölt, és a prozódiailag ténylegesen realizálódó tagmondatok közötti különbségekre. Mivel a Kiel Corpus meseolvasás és információ-lekérdezés jellegű bemondásokat tartalmaz, így valószínűsítem, hogy a környezetükből kiragadott, a beszédadatbázis bemondóinak szemszögéből konkrét kommunikációs célhoz nehezen társítható, egymással lazán összefüggő mondatokból álló magyar anyaghoz képest lényegesen kisebb a vesszővel jelzett és a ténylegesen realizálódó prozódiai mondattagolás közötti átfedés. Az eredmények alapján a német nyelvű
18
modalitásfelismerő és tagmondathatár-detektáló rendszert mindenképpen a gyakorlatban is használhatónak tartom.
0
10
20
30
40
50
60
70
80
90
100
T E X S U
Tagmondat-osztály
Co
rr [
%]
9. ábra: A tagmondattípusokra lebontott felismerési arány a 11-es állapotszám és a 40 keretnyi
átlagolási intervallum mellett
5. Az eredmények alkalmazhatósága Az I. tézis elvi jelentősége mellett hangsúlydetekció alapú beszédfolyam-szegmentálást tesz lehetővé. A II. téziscsoporttal együtt a hangsúly-, a fonológiai frázis-, illetve a rá visszavezetett szóhatár-detektálás magasabb szintű, szintaktikai és szemantikai feldolgozásnak képezheti alapját, a beszédfelismerést valóban a beszédértés felé elmozdítva. Segítheti a szintaktikai tagolást és elemzést a természetesnyelv-feldolgozásban (pl. beszédalapú tartalmi kivonatolás a fontos, így hangsúlyozott információhordozó elemek kiemelésével; mondatelemzés gépi fordítórendszerekben, stb.). Igen fontos alkalmazás a közvetlenül a beszédfelismerésben való felhasználás, amelyet emiatt a III. tézisben külön vizsgáltam. A műszaki alkalmazásokon kívül az I.-II téziscsoportok eredményei felhasználhatók nyelvészeti kutatásokhoz is, különösen a spontán beszéd vizsgálatára. A III. tézis önmagában egy alkalmazás, nagyszótáras beszédfelismerés esetén azonban jelentős előrelépést hozhat a tézisben lefektetett módszerek alkalmazása a toldalékoló nyelvek esetében. A IV. téziscsoport eredményei a beszédfelismerés során előálló szöveges kimenet írásjelekkel való automatikus ellátását teszik lehetővé, egyben a II. tézishez hasonlóan a természetesnyelv-feldolgozásban a szintaktikai és szemantikai szinteken jelentős információt adhatnak a
19
feldolgozáshoz (pl. topik-komment osztályozás a mondattagolás szempontjából, mondatelemzés, fókuszdetektálás). Lehetővé teszik a beszédfolyam mondatokra tagolását, a prozódiai frázisok határait (levegővétel) igen pontosan detektálhatóvá teszik. A II. és IV. téziscsoport eredményei számítógépes beszédoktató alkalmazásokban a helyes hangsúlyozás és hanglejtés elsajátításához adnak kiindulási alapot. Ez az alkalmazás – francia partnerrel – már fejlesztés alatt áll.
Felhasznált irodalom
[1] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation. Fondazione Ugo-Bordoni, Rome, Italy. 1999.
[2] Cristophe, A., Peperkamp, S., Pallier, C., Block, E., Mehler, J.: Phonological Phrase Boundaries
Constrain Lexical Access I. Adult Data. Journal of Memory and Language, Vol. 51, 2004. Elsevier. pp. 523–547.
[3] Gallwitz, F., Niemann, H., Nöth, E., Warnke, W.: Integrated recognition of words and prosodic
phrase boundaries. Speech Communication, 36(2002): 81-95.
[4] Gósy Mária: Fonetika, a beszéd tudománya. Osiris, Budapest, 2004. pp.182-243.
[5] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of
Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of Fundamental
Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001.
[6] Hunyadi, László: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002.
[7] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998.
[8] Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest, 1998.
[9] KIEL Corpus of read Speech, Volume I. Institut für Phonetik und digitale Sprachverarbeitung der Christian-Albrechts-Universitat zu Kiel, Dec. 1994.
[10] Kompe, Ralf: Prosody in Speech Understanding Systems. LNAI 1307, Springer. 1997.
[11] Kompe, R.; Kießling, A.; Niemann, H.; Nöth, E.; Schukat- Talamazzini, E.G.; Zottmann, A.; Batliner, A.: Prosodic scoring of word hypotheses graphs. In: Proc. European Conf. on Speech Communication and Technology (European Conf. on Speech Communication and Technology, Madrid, September 1995) Vol. 2, pp. 1333-36. 1995.
[12] Mandal, S.; Gupta, B. Datta, K.: Word boundray Detection Based on Suprasegmental Feaures, a
Case Study on Bangla Speech. International Journal of Speech Technology, Vol. 9. Num. 1-2 pp. 17-28. 2007.
[13] Olaszy Gábor: A magyar kérdés dallamformáinak és intenzitásszerkezetének fonetikai vizsgálata. In: Beszédkutatás'2002 Szerk.: Gósy Mária, MTA Nyelvtudományi Intézet, Budapest, 2002. pp. 83-99.
20
[14] Olaszy Gábor: Az alapfrekvencia és a hangsúlyozás kapcsolata a magyarban. In: Kísérleti fonetika - Laboratóriumi fonológia 2002. (szerk.: Hunyadi László) Kossuth Egyetemi Kiadó, Debrecen, 2002.
[15] Olaszy Gábor: Prozódiai szerkezetek jellemzése a hírfelolvasásban, a mesemondásban, a novella-
és a reklámok felolvasásában. In: Gósy Mária (szerk.): Beszédkutatás 2005. MTA Nyelvtudományi Intézet, Budapest 2005.
[16] Shriberg, E., Stolcke, A., Hakkani-Tür, D. and Tür, G.: Prosody-based automatic segmentation of
speech into sentences and topics. Speech Communication, vol. 32, no. 1-2, pp. 127-154, 2000.
[17] Vainio, M., Altosaar, T., Karjalainen, M., Aulanko, R., Werner, S.: Neural network models for
Finnish prosody. Proceedings of ICPhS 1999, San Francisco (1999) 2347-2350.
[18] Varga László: A magyar mellékhangsúly fonológiai státusáról. In: Magyar Nyelvőr, 124. évfolyam 1. szám. 2000. pp. 91-108.
[19] Veilleux, N. M., Ostendorf, M.: Prosody/parse scoring and its application in ATIS. Proc. ARPA Human Language Technology Workshop '93. pp 335-40. 1993.
[20] Vicsi K., Vig, A.: Az első magyar nyelvű beszédadatbázis, Beszédkutatás 98, MTA Nyelvtudományi Intézete, Budapest, pp. 163-177. 1998.
[21] Waibel, Alex: Prosody and Speech Recognition. Pitman, London, UK. 1988.
[22] Young, S. et al.: The HTK Book (for version 3.3). Cambridge University. 2005.
Publikációim [J] Folyóiratok (Journals) [J1] Vicsi, K., Szaszák, Gy.: Automatic Segmentation of Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology, Vol. 8, Num. 4, pp. 363-70. (2005) [J2] Szaszák, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech recognition. Infocommunications Journal (English issue of Híradástechnika). Vol. LXIII. Num 7. pp. 35-40. (2008) [J3] Szaszák György: Ejtésvariáció modellezés a beszédfelismerésben. Akusztikai szemle VI:(1) pp. 3-12. (2005) [J4] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Gordos G.: Development experiences of a Hungarian speaker independent continuous speech recognizer. Híradástechnika – Info-
Communications Technology LXI:(7) pp. 22-27. (2006)
21
[B] Publikációk szerkesztett könyvben (Publications in Edited Books) [B1] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Word Boundary Detection in ASR. In: A. Esposito, M. Bratanic, E. Keller, M. Marinaro (eds.): Fundamentals of Verbal and Nonverbal
Communication and the Biometric Issue. (NATO Security through Science Series; Vol. 18. IOS Press, Amsterdam pp. 161-170. (2007) [B2] Szaszák, Gy; Vicsi, K: Using Prosody in Fixed Stress Languages for Improvement of Speech Recognition. In: A. Esposito et al. (eds): Verbal and Nonverbal Communication Behaviours, Springer, pp. 138-150. (2007) [B3] Vicsi K., Szaszák Gy., Németh Zs: Folyamatos magyar beszéd mondatfajtáinak automatikus felismerése. In: Gósy Mária (szerk): Beszédkutatás 2007. pp. 162-172. (2007)
[B4] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben I. In: Gósy Mária (szerk): Beszédkutatás 2002. szám: pp. 216-234. (2002) [B5] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben II. In: Gósy Mária (szerk): Beszédkutatás 2003. pp. 163-176. (2003)
[C] Konferenciacikkek (Conference Papers) [C1] Szaszák Gy., Vicsi K., Borostyán G.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján. II. Magyar Számítógépes Nyelvészeti Konferencia
(MSZNY-2004). Szeged, Magyarország, 2004. december. pp. 319-325. [C2] Vicsi K., Szaszák Gy.: Automatic Segmentation of continuous speech on word and phrase level based on supra-segmental features. Forum Acusticum. Budapest, Magyarország, 2005. május, pp. 2669-73. [C3] Szaszák Gy., Vicsi K.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján: II. rész: Statisztikai eljárás, finn-magyar nyelvű összehasonlító vizsgálat. III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 360-370. [C4] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in ASR. Text,
Speech and Dialogue: 9th International Conference on Text, Speech and Dialogue TSD 2006. Brno, Csehország 2006. szeptember. pp. 547-554. [C5] Szaszák Gy., Vicsi K.: Speech recognition supported by prosodic information for fixed stress languages. Text, Speech and Dialogue: 10th International Conference on Text, Speech and Dialogue TSD 2007. Plzen, Csehország 2007. szeptember. Springer, 2007. pp. 262-269.
22
[C6] Vicsi, K.; Szaszák Gy.; Németh Zs.: Prozódiai információ használata az automatikus beszédfelismerésben; mondat modalitás felismerése, V. Magyar Számítógépes Nyelvészeti
Konferencia, Szeged, 2007. december. pp. 69-80. [C7] Vicsi, K.; Szaszák, Gy.: Using Prosody for the Imporvement of ASR - Sentence Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember. [C8] Szaszák Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD 2004. Brno, Csehország 2004. szeptember. Springer, 2004. pp. 473-480. [C9] Vicsi K., Kocsor A., Tóth Sz. L., Szaszák Gy., Teleki Cs., Bánhalmi A., Paczolay D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez. III. Számítógépes
Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 435-438. [C10] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L.: Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai: III. Magyar Számítógépes Nyelvészeti
Konferencia. Szeged, Magyarország 2005. december. pp. 348-359.