A szupraszegmentális jellemz ők szerepe és felhasználása a

Budapesti Műszaki és Gazdaságtudományi Egyetem

Távközlési és Médiainformatikai Tanszék

A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben

Szaszák György

Tézisfüzet

Tudományos vezető Dr. Vicsi Klára, DSc

Budapest, 2008

1

1 Bevezetés Napjainkban, az információs társadalomban és a mesterséges intelligencia korában alapvető igényként jelentkezik az emberi képességek gép általi minél hűebb megvalósítása. Nincs ez másként a beszédfelismerésben sem, az ember régi vágya, hogy gépeivel saját nyelvén kommunikálhasson. Jóllehet a kezdetek óta jelentős eredményeket értek el a beszédfelismerés történetében, maga a beszédfelismerés problémaköre napjainkban sem tekinthető még megoldott problémának. Sőt, ha arra gondolunk, hogy a valódi beszédfelismerés tulajdonképpen a beszéd gép általi értelmezését, megértését is jelenti, még messzebb érezhetjük magunkat a céltól. Különösen, ha a magyar nyelvre gondolunk, amelynek agglutináló – azaz toldalékoló – jellege miatt az indoeurópai, illetve angol nyelvekre kidolgozott beszédfelismerési módszerek alkalmazása egyáltalán nem egyszerű feladat, nagyszótáras, általános témakörű irodai diktálásra alkalmas beszédfelismerő mind a mai napig nem is létezik a magyar nyelvre. Ezzel együtt a klasszikus beszédfelismerésben lassan bő évtizede egyfajta egyhelyben topogás mutatkozik. A napjainkban leghatékonyabb és leginkább alkalmazott statisztikai eljárásokkal az adott technikai színvonalon elérhető eredmények megszülettek, azokat lényegében már csak továbbragozni lehet. Ennek ellenére a kutatók figyelme csak az utóbbi időben fordult az emberi beszéd más dimenziói felé, és mostanra terjedt el az a szemlélet, amely a beszédet a kommunikáció egy részének, egyik lehetséges csatornájának tekinti, és megpróbálja a beszéddel párhuzamosan megjelenő egyéb információforrásokat is kiaknázni (pl. multimodális beszédfelismerés). Maga a beszéd mint információhordozó sincs még azonban teljesen kihasználva a szűkebben vett beszédfelismerésben sem. A hagyományos, statisztikai alapú folyamatos beszédfelismerés a beszédet fonémaszekvenciának tekinti és így is dolgozza fel [1, 7]: a beszédfelismerésben a szegmentális (beszédhang léptékű) tartományba eső fonetikai szerveződési szintet, majd e felett a szavak, sőt inkább a szókapcsolatok szintjét veszik figyelembe, előbbit a fonéma modellek, utóbbit a nyelvi modell testesítik meg a beszédfelismerőkben. Ebben a feldolgozási láncban a beszéd mint akusztikai produktum csak a legelső szinten, szegmentális tartományban jelenik meg, utána nem veszik figyelembe. Meggyőződésem, hogy a beszéd szupraszegmentális tartományban akusztikailag is alátámasztja a szókapcsolati szintet, és így információforrásként hozzájárulhat a teljesebb beszédfelismeréshez, megnyitva az utat a valódi beszédértés irányába is. Gondoljunk csak arra, hogy a szupraszegmentálisan (prozódiailag) rosszul megformált közlemény – azaz helytelenül hangsúlyozott, nem megfelelő hanglejtésű vagy éppen túl monoton beszéd – az emberi beszédértést megzavarja, sőt, meg is tévesztheti, mégis ritkaságszámba mennek a szupraszegmentális tartománybeli kutatások, a szupraszegmentális tartomány akusztikailag is megjelenő elemeit – a szupraszegmentális beszédjellemzőket – pedig nem használják a

2

beszédfelismerésben. Árnyalja a képet, hogy a fonetikai és fonológiai tudomány sem egységes részletekbe menően már a szupraszegmentális jellemzők pontos meghatározása kérdésében sem, nemhogy az egyes jellemzők mérnöki tudományokban is jól felhasználható egzakt leírásában. Úgy gondolom, a magyar nyelvre a már említett agglutináló sajátosság és az ebből fakadó problémák miatt különösen érdemes a szupraszegmentális tartományt, illetve az általa hordozott információt a beszédfelismerés menetébe integrálni. Amellett, hogy magának a beszédfelismerésnek eredményességét is javíthatja a szupraszegmentális tartomány figyelembe vétele, alapját képezheti a szintaktikai és szemantikai szintű feldolgozásnak is.

A prozódia beszédfelismerésben való alkalmazását viszonylag kevesen vizsgálták, konkrét gyakorlati alkalmazást pedig, amely kihasználná ezt a lehetőséget, még kevesebbet mutattak be a tudományos életben. Természetesen azért akadnak kivételek is: a beszédfelismerés szakirodalmában két összefoglaló jellegű munkát [10, 21] is fellelhetünk a prozódia felhasználási lehetőségeiről, ezzel együtt ezen munkák sokszor egész fejezetei az „elméletileg lehetséges” síkján maradnak, számos vélt alkalmazási lehetőséget azzal indokolnak, hogy az a nyelvészeti kutatások alapján valószínűnek látszik, ám a gyakorlati beszédtechnológiába csak részlegesen ültetik át azokat. A prozódia beszédfelismerésben való felhasználását meg is valósító alkalmazások közül tudomásom szerint a prozódiailag igen gazdag japán nyelvben a szavak alapfrekvencia-mintázatát ismerték már fel Markov modellekkel [5]. Vizsgálataikat sajnos csak két beszélőre végezték, ekkor a félszótag felismerési arány javult a prozódia figyelembe vételével. E módszer speciálisan a japán nyelvre lett kidolgozva, melyben az alapfrekvencia jellegzetes változásokat mutat a szavak szintjén, indoeurópai, illetve a magyar nyelvekre ez a módszer aligha adaptálható. Amerikai angol nyelvre döntési fás osztályozóval olyan rendszert implementáltak [19], amely a beszédben a szünetek és hangsúlyok mintázatát a felismerési hipotézisek szintaktikai és szemantikai elemzővel legenerált referenciamintázatával veti össze, és ennek alapján újrarangsorolja a legvalószínűbb hipotéziseket. A figyelembe vett szupraszegmentális jellemző elsősorban az időtartam, amely az amerikai angol nyelvben a legfontosabb jellemző a hangsúlyozás szempontjából. A módszerrel a hipotézisek között a helyes hipotézis rangsorbeli helyzete közeledett az első helyhez. A hipotézisgráfok prozódiai információn alapuló újrasúlyozását német nyelvre is vizsgálták [10, 11]. Az Indiában beszélt bengáli nyelvre is készítettek szóhatár detektálót [12] – részben munkámmal párhuzamosan –, de azt beszédfelismerőbe nem építették be. A prozódiai frázisok és a mondatok határainak automatikus detektálása viszonylag gyakori alkalmazásnak számít [3, 10, 11, 16, 21].

3

2 Kutatási célkitűzések Dolgozatomban a beszéd szupraszegmentális (prozódiai) jellemzőinek automatikus beszédfelismerésbeli felhasználhatóságát vizsgálom. Munkám célja annak tudományos bemutatása és igazolása, hogy a prozódia által hordozott és ki nem használt információ hozzájárulhat a beszédfelismerés eredményeinek javításához, illetve szintaktikai és szemantikai szinten lényeges többletet is adhat hozzá. Emellett feladatomnak tekintem, hogy a prozódiai jellemzők olyan feldolgozását valósítsam meg, amely akusztikai szinten biztosítja a szupraszegmentális szerkezet követhetőségét és felhasználását a beszédfelismerésben, illetve amely alapvető osztályozási feladatok elvégzésével – szintaktikai tagolással (fonológiai frázisokra való tagolás) és szemantikai feldolgozással (modalitásfelismerés) – plusz információt ad a hagyományos beszédfelismeréssel kapott szöveges kimenethez, illetve ezt kiegészítendő, támpontokat jelenthet a magasabb szintű szintaktikai és a szemantikai feldolgozás robusztusabbá tételéhez. Vizsgálataim középpontjában a magyar nyelv áll, de igyekszem olyan struktúrákban gondolkozni, amely a más nyelvekre történő általánosítást is lehetővé teszi. Éppen ezért a kidolgozott módszerek más nyelvekre történő adaptálhatóságát is vizsgálom. Célkitűzéseim között szerepel annak igazolása, hogy az alapfrekvencia és energia mint prozódiai (szupraszegmentális) beszédjellemzők alapján a magyar nyelvben a hangsúly detektálható, és kötött hangsúlyú nyelvekre ennek alapján megvalósítható a szóhatárok jelentős részének detektálása csúcskereséssel, illetve fonológiai frázisok dallammenetének alakfelismerésére visszavezetett statisztikai osztályozással. Igazolom azt is, hogy az ezzel a módszerrel detektált szóhatárok figyelembe vétele a „hagyományos” statisztikai, fonéma alapú, folyamatos gépi beszédfelismerés eredményét javítja, ha felismerés során előálló hipotézisgráfban az élsúlyokat a szóhatárok helyzetének megfelelően módosítjuk. Az újrasúlyozás [19] a prozódiai információ (szegmentálás, azaz beszédfolyam-tagolás) felismerési folyamatba való becsatolásának eszköze, amely alkalmazkodik a hagyományos gépi beszédfelismerők felépítéséhez és működéséhez, így azokhoz kiegészítő modulként csatlakoztatható. E lehetőséget különösképpen az agglutináló (toldalékoló) nyelvek (ilyen a magyar nyelv is) szempontjából vizsgálom, amelyek esetében a manapság elterjedten használt n-gram szó alapú nyelvi modellezés a szóalakok nagyon magas száma miatt korlátozottan alkalmazható. Célom a tagmondat- és mondathatárok pontos detektálása is, illetve a mondattípusok (modalitás) felismerése automatikusan, az akusztikailag mérhető szupraszegmentális beszédjellemzők alapján statisztikai módszerrel, HMM alapú osztályozót felhasználva. Egy ilyen, szintén a beszédfelismerőkhöz csatlakoztatható modul szemantikai feldolgozásban nagy

4

segítséget jelentene, például a megfelelő írásjelek használatában a szöveges kimeneten, de a szemantikai elemzők működését is támogathatja az akusztikai információ beszédjelből való kinyerése és feldolgozása révén.

3 Módszertan A dolgozatomban bemutatott kutatásokhoz a beszédtechnológiában, ezen belül is a beszédfelismerés területén elterjedt módszereket vettem alapul. A beszédet szupraszegmentális tartományban vizsgálom. A szupraszegmentális jellemzők akusztikai szintű feldolgozását az alapfrekvencia és az intenzitás (illetve jelenergia) alapján végzem. Az időtartamok mérését előzetes tájékozódó vizsgálataim során nem találtam célravezetőnek a megfogalmazott feladatra. Az akusztikailag feldogozott szupraszegmentális tartományra egy-egy adott szupraszegmentális jellemzőre (pl. hangsúly, beszéddallam) osztályozási feladatot fogalmazok meg. Ennek legegyszerűbb formája „igen-nem” típusú döntés (pl. van-e hangsúly egy adott szótagon), de történhet a döntés több osztályra is (pl. milyen az adott beszédszakasz jellemző dallamsémája). A döntést csúcskeresési algoritmussal, illetve az eljárás finomításával a későbbiekben HMM alapú osztályozóval végzem. Az osztályozás eredménye alapján fonológiai frázis-, illetve mondathatár-detekciót is megvalósítok. Az osztályozó révén ekkor beszédfolyam-szegmentálás történik. A megfogalmazott feladathoz elkészült osztályozó- vagy felismerő egység (illetve az ezekből származtatott funkcionális modul) teljesítményét teszteléssel határozom meg az előzetesen rögzített mérőszámokkal, amelyek a rendszer, illetve az implementált algoritmusok teljesítményét (pontosságát, eredményességét, hatékonyságát) mérik. Az algoritmusokat iteratívan optimalizálom a főbb paraméterek külön-külön való változtatásával, ennek során a viszonyítási alap mindig a kiindulási rendszer.

4 Új eredmények

4.1 Szóhatár-detekció hangsúlydetekció alapján A hangsúly a beszédben valamely szó egy szótagjának kiemelése, megkülönböztetése a többi szótagtól [4]. Egy adott nyelvben a hangsúly kötött, ha mindig a hangsúlyos szó azonos szótagján realizálódik, kötetlen, ha a hangsúlyozandó szótag ugyanazon szón belül

5

„vándorolhat”. A magyar nyelv kötött hangsúlyú, első szótagra eső hangsúllyal. Kötött hangsúlyúak még pl. a finn, cseh és lengyel nyelvek. Az angol nyelv kötetlen hangsúlyozású. A hangsúly létrehozásában három tényező együttesen vagy egyedileg játszhat szerepet [4, 8]. E három tényező (i) az alapfrekvencia kiemelkedése a hangsúlyos szótagon, (ii), a hangsúlyos szótag nagyobb intenzitással való kiejtése és (iii) a hangsúlyos szótag magánhangzójának időtartambeli hosszabbodása. Egyes nyelvekben a hangsúly egyértelműen megfeleltethető e három tényező valamelyikének, a magyar nyelvben azonban a hangsúly lehet nyomatéki, azaz eredhet intenzitástöbbletből [4], de a hangsúlyérzetet jelentősen befolyásolja az alapfrekvencia is. Saját tapasztalataim alapján meghatározóbbnak tartom a hangsúlyban az alapfrekvencia szerepét (vö. [8], [14]). Mindezt a BABEL beszédadatbázison [20] végzett vizsgálataim is alátámasztották. Első tézisemben azt állítom, hogy a magyar nyelvben a kötött hangsúlyozást kihasználva az alapfrekvencia- és az intenzitással arányos energiamenet figyelembevételével a szóhatárok jelentős hányada detektálható. Egészen pontosan azok a szóhatárok detektálhatók, amelyeket hangsúlyos szó követ. Tézis I. [J1, C1] A kötött hangsúlyozású magyar nyelvben a szóhatárok jelentős hányada

detektálható a hangsúly, illetve áttételesen a hangsúlyt meghatározó akusztikai-prozódiai

jellemzők, az alapfrekvencia és az energia menete alapján.

A hangsúlydetekciós eljárást az alapfrekvencia és az energia paraméterekre alapoztam, az időtartammérést viszont elhagytam. A BABEL adatbázison [20] végzett előzetes vizsgálataim alapján ugyanis az időtartamok és a hangsúlyozás között nem találtam kiaknázható, megbízható összefüggést. A prozódiai-akusztikai jellemzők a szótagok magánhangzóinak stacioner szakaszán vagy a teljes beszédjelen is mérhetők. Utóbbi esetben szükségessé válik az alapfrekvencia interpolálása a zöngétlen szakaszokon, illetve számolni kell a zömmel mássalhangzó kapcsolatokban megjelenő mikroprozódiai ingadozások megjelenésével is. Az I. tézis bizonyításához azt mutattam meg, hogy az alapfrekvencia és energia alapján lehetséges a hangsúlydetekció, feltételezve, hogy e két jellemző a hangsúlyos szótagon maximumot ad [14]. A hangsúly detektálását csúcskeresési algoritmussal valósítottam meg. Az algoritmus folyamatosan nyomon követi a beszédjel egy tetszőlegesen időablakolt szakaszán a megfigyelni kívánt prozódiai jellemző(ke)t, és ezek értékeit átlagolva meghatározza az ablakba eső beszédjel-szakaszra várható értéküket (M) és szórásukat (σ) (empirikus közép, ill. tapasztalati szórás). Az értékekből egy küszöböt határozok meg:

σ*kMK += , (1)

ahol k tetszőleges konstans, nagyságrendileg 0,5-1,5 közötti értékkel. Ezt követően a

választott prozódiai jellemző(k)re azt vizsgálom, nagyobb(ak)-e a K küszöbnél, ha igen, akkor

6

ezt csúcsnak tekintem, és itt az algoritmus hangsúlyos pozíciót detektál. A hangsúlyos pozíció

az első szótagra való kötöttsége miatt szóhatárra képezhető (például az energiagörbe

minimumára).

Közvetlenül az alapfrekvencia és az energia helyett belőlük származtatott mennyiségeket is

felhasználhatunk, így az egyes szótagok közötti alapfrekvencia- és energiaszintbeli

különbségeket is. Ekkor a csúcskeresést azzal a különbséggel végzem, hogy a várható érték

és a szórás számításakor a kapott értékek abszolút értékeit használom. A csúszóablakos

számítás ekkor is indokolt, hiszen alkalmazkodnunk kell a mért differenciális jellemzők

dinamikatartományának folyamatos változásaihoz.

Az így kapott hangsúly- és a ráépülő szóhatár-detektáló rendszer felépítése az 1. ábrán látható.

1. ábra: A csúcskeresésen alapuló hangsúlydetektálás elvi vázlata

A tézis bizonyítását kísérletileg végeztem a fenti algoritmus alapján, a csúcskeresési

algoritmusra alapozott eljárás teljesítményelemzésére a következő két mérőszámot

használtam:

• A pontossággal (precision) azt jellemzem, hogy az algoritmus mennyire detektálta (azonosította) helyesen a hangsúlyokat, illetve a szóhatárokat:

fptp

tpp

+= , (2)

ahol tp (true positive) a helyesen azonosított hangsúlyos szótagok/szóhatárok száma,

fp (false positive) a téves hangsúly-/szóhatár-azonosítások száma.

• A hatékonysággal (recall vagy sensitivity) mérem, hogy az összes, a mondatokban előfordult szó hány százalékánál detektálta az algoritmus az első szótagot

hangsúlyosnak:

fntp

tpr

+= , (3)

ahol fn (false negative) a nem azonosított hangsúlyos szótagok/szóhatárok száma.

Alapfrekvencia meghatározás

Energia kiszámítása

Csúcskeresés/ Görbejelleg-

meghatározás Hangsúly-detekció

Beszédjel Szóhatárok

Csúcskeresés/ Görbejelleg-

meghatározás

7

A (2) és (3) összefüggésekkel meghatározott mutatók ábrázolhatók PR-térben (Precision-

Recall space), így a két jellemző alapján történő teljesítménykiértékelés áttekinthetőbb1.

A teljesítményelemzéshez a tesztmintákat a BABEL beszédadatbázisból vettem. Az

eredmények – az algoritmus felépítésének megfelelően – azt mutatták, hogy a pontosság

emeléséhez a hatékonyságból fel kell adnunk, az csökkenni fog. A legnagyobb kapott

pontosság 91%, 14% hatékonyság mellett. A folyamatos jelleggörbék alapján kapott

eredmények az 1. táblázatban láthatók.

1. táblázat: Hangsúlyos pozíció detektálása a teljes beszédjelen mért jelleggörbék alapján

Pontosság/Hatékonyság [% / %] F0 E F0&E

70 / 32 69 / 34 91 / 14

4.2 Fonológiai frázisok osztályozása és szóhatár-detektálás alakfelismeréssel

A következő tézis a prozódiai információ a beszédfelismerésben is felhasznált statisztikai

eszközökkel történő kinyerését és feldolgozását, hasznosítását célozza a beszédfelismerés

folyamatában.

Tézis II. A. [J1, J2, B1, C1] A kötött hangsúlyozású magyar nyelvben a fonológiai frázisokra

alakfelismerésen alapuló szegmentálás valósítható meg rejtett Markov-modellekkel. E

szegmentálás alapján a fonológiai frázishatárokra eső szóhatárok is detektálhatók.

Ez a tézis azt állítja, hogy a hangsúlyozási mintázat és a dallammenetek által megadott

prozódiai struktúra elemei diszjunkt osztályokba sorolhatók úgy, hogy a fonológiai

frázishatárra eső szóhatárok detektálhatók a hangsúlyozási minta és a dallammenetek együttes

modellezését megvalósító fonológiai frázisosztályok alakfelismerésével, rejtett Markov

modell alapú osztályozási eljárásban. Dallammenetek alatt a hangmagasság folyamatos

változásai értendők a változás irányától függően [8]. Általában az alábbi dallammeneteket

szokás elkülöníteni [4]: eső, ereszkedő, szökő, emelkedő, lebegő. A fonológiai frázis

rendszerint néhány (vagy akár egyetlen) szóból áll [18], önálló hangsúllyal és dallammenettel

jellemezhető [6]. Pszicholingvisztikai kutatások tanúsága szerint a fonológiai frázisoknak,

illetve azonosításuknak a beszédpercepcióban kulcsszerepe van (vö. [2]).

A II. A tézist kísérletileg igazoltam. A fonológiai frázisosztályokat (FF-osztályok)

dallammenetek alapján különítettem el. A magyar nyelvre 5+1, azaz a szünettel együtt

1 A pontosságot és hatékonyságot PR-térben ábrázolva angol elnevezéseikkel (precision ill. recall) használom, értékkészletük a [0, 1] intervallum. Táblázatokban százalékra átszámítva közlöm értékeiket.

8

összesen 6 osztályt használtam az alábbiak szerint: eső (FA); ereszkedő (DE);

lebegő/változatos (FL); emelkedő-eső (RF); emelkedő/szökő (RI); szünet (SIL). A szünet és a

lebegő dallammenet kivételével minden fonológiai frázis hangsúllyal indít, határaikat pedig

mindig a szóhatároknál rögzítettem, hiszen a fonológiai frázis egy-egy rövidebb szóláncnak

felel meg [18].

A szupraszegmentális tartományban működő osztályozót a statisztikai beszédfelismerésre

kidolgozott eljárás alapján valósítottam meg [7]. A fonológiai frázisok osztályozásához egy

prozódiai-akusztikai, és egy prozódiai-nyelvi modellre van szükség (vö. [5], [19]).

Ha a beszédjelhez illeszkedő FF-osztályok sorozata rejtett Markov modellekkel felismerhető,

akkor a prozódiai mintaillesztés végén visszakereshető a végül maximális súlyúnak adódott

útvonal által fedett rejtett szupraszegmentális állapotsorozat, az állapotok időbeli

elhelyezkedését is beleértve. Mivel a FF-osztályok határai szóhatárokra esnek, a megfelelően

pontos FF-osztályozás révén a fonológiai frázishatárok detektálhatók, így a nekik megfelelő

szavak vagy szóláncok határai is. Innen egyenes út vezet a prozódiai szegmentáló

megalkotásáig (lásd 4.3 szakasz). A FF-osztályozó által használt prozódiai nyelvtan nem

statisztikai, hanem szabály alapú véges állapotú nyelvtan. A HMM alapú FF-osztályozót HTK

keretrendszerben [22] implementáltam. A megvalósított rendszer felépítése a 2. ábrán látható.

2. ábra: Statisztikai alapú FF-osztályozórendszer blokkvázlata

A szupraszegmentális tartományú akusztikai előfeldolgozás során az alapfrekvenciát

AMDF-alapú algoritmussal határozom meg, majd 7 pontos medián szűrést hajtok végre.

Interpolációt nem használok. Az alkalmazott keretidő 25,6 ms. Az energia esetében 100 ms

időablakkal átlagolok, a keretidő szintén 25,6 ms. Mindkét jellemzőhöz kiszámítom első és

másodrendű deriváltjaikat is. A jellemzővektorok tehát hatdimenziósak, és 25,6 ms

keretidőnként képződnek. Az alkalmazott prozódiai nyelvtan (GFF) a következő volt:

GFF = [SIL] < RF | (DE [SIL]) | (RI SIL) > SIL, (4)

ahol a ’< >’ szimbólumok egy vagy több, a ’{ }’ szimbólumok nulla, egy vagy több

Illesztett FF-osztályok

Szupraszegmen-tális akusztikai előfeldolgozás

Fonológiai frázis- osztályok illesztése

FF-osztályok HMM-jei

FF-osztályok kapcsolódási

modelljei

Beszédjel

Szupraszegmentális jellemzővektorok F0 & energia

kinyerése

9

ismétlődést jelölnek, a ’|’ szimbólum kizáró vagy kapcsolatot, a ’[ ]’ opcionálisan elmaradó

eseményeket jelöl. A nyelvtan választásának indokait részletesen bemutattam az értekezésben.

(4) optimalizálását nem elsősorban a FF-osztályozás, hanem a szóhatár-detektálásra való

alkalmasság szempontjából végeztem.

A kísérletekhez ismét a BABEL beszédadatbázisból vett mintákat használtam. Az

FF-osztályok HMM-jeinek betanításához a beszédmintákat az alapfrekvencia és az energia

menete alapján FF-osztályokra szegmentáltam.

A FF-osztályozó teljesítményét a beszédfelismerésben használatos helyes felismerési

(osztályozási) aránnyal mértem. Ha a fonológiai frázishatárra eső szóhatárok detektálásának

eredményességét vizsgáljuk, az a szóhatár-detektálásra bevezetett (2) és (3) mérőszámokkal

végezhető el, így az eredmények az I. tézis kapcsán kidolgozott módszer eredményeivel is

összehasonlíthatók. Ekkor a szóhatárt ismét akkor tekintettem helyesen detektáltnak, ha a

fonémaszintű szegmentálással összevetve az a tényleges szóhatár 100 ms-os környezetébe

esett (vö. [5]). Teszteléssel vizsgáltam mind a FF-osztályozó, mind az erre épülő, fonológiai

frázisok határain szóhatárt detektáló algoritmus teljesítményét. A 3. ábra a FF-osztályozó a

(4) nyelvtanban megadott osztályozási feladatban elért helyes osztályozási arányát mutatja.

A FF-osztályozás alapú szóhatár-detektálás esetén megvizsgáltam, hogy mely prozódiai

jellemzők esetében adódik optimális eredmény a pontosságra és a hatékonyságra. A csak az

alapfrekvencia-, illetve csak az energiajel alapján dolgozó modellek nem adtak olyan jó

teljesítményt, mint a mindkét jellemzőt felhasználók.

A pontosság és a hatékonyság tekintetében a FF-osztályok HMM-jeinek állapotszámát és a

kibocsátás eloszlását leíró Gauss függvények komponenseinek számát is optimalizáltam.

Előbbire 11 állapot, utóbbira 1-2 komponens adódott optimálisnak.

0

10

20

30

40

50

60

70

80

90

RF DE RI SIL

FF-osztály

He

lye

s o

sztá

lyo

zá

si a

rán

y [

%]

3. ábra. A FF-osztályozó (4) prozódiai nyelvtan szerinti osztályozási teljesítménye

10

A kapott eredmények tanúsága szerint a szóhatár-detekció pontossága és hatékonysága

optimális esetben magyar nyelvre 77,4%, illetve 57,1% (lásd 4. ábra).

A szóhatár-detektálás kapcsán vizsgáltam a FF-osztályozó betanító anyagának szempontjából

azt is, hány beszélővel adódik optimális eredmény: 14 fő, 4 fő, majd egyetlen fő férfi beszélő

anyagával tanítva a pontosság kismértékben változott, legmagasabb a 4 fős betanító halmaz

esetében volt. A hatékonyság viszont jelentősebben változott, optimális eredményt a 4 fős

betanító halmazra kaptam. Mindez a 4. ábrán is nyomon követhető. A betanító anyag

szűkítésekor ügyeltem arra, hogy a beválogatott beszélők kiejtése prozódiailag megfelelő

legyen.

0,764

0,765

0,766

0,767

0,768

0,769

0,77

0,771

0,772

0,773

0,774

0,775

0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7

Recall (r)

Pre

cis

ion

(p

)

4. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar nyelvre 1, 4 és 14 férfi beszélő anyagával betanítva, 18 beszélő anyagán tesztelve

A FF-osztályokat a későbbiekben tapasztalataim alapján finomítottam, az új osztályozás

mondatindító (me), erősen hangsúlyos (fe), gyengén hangsúlyos (fs), prozódiai frázisvégi

folytatást jelző (fv), mondatzáró (mv), semleges (s) és szünet (sil) osztályokat különböztet

meg. Fontosabb a szupraszegmentális tartomány akusztikai előfeldolgozásának változása, az

alapfrekvencia-jelben oktávugrás elleni szűrést használok, a medián szűrés helyett átlagoló

szűrővel végzem a simítást. A keretidőt 10 ms-ra csökkentettem. Az újradefiniált FF-

osztályok bevezetésével és a feldolgozás finomításával a szóhatár-detektálásra kapott

pontosság, illetve hatékonyság 79,2%, illetve 58,5%, a szóhatárok időbeli elhelyezésének

pontatlansága (a valós szóhatártól való távolság szórása) pedig jelentősen csökkent.

Tézis II. B. [J1, B1, C2, C3, C4] A magyar nyelvre, a fonológiai frázisosztályok

behatárolására kidolgozott módszer más kötött hangsúlyú nyelvekre is közvetlenül

alkalmazható a fonológiai frázishatárokra eső szóhatárok detektálása céljából.

1 férfi 4 férfi

14 férfi

11

A tézist a magyar nyelvű FF-osztályozó finn nyelvre történő adaptálásával igazoltam. Ennek

során finn nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési,

FF-osztály szegmentálási, HMM-betanítási feladatokat, amelyeket korábban a magyar nyelvű

rendszerre. A betanítás és tesztelés alapjául szolgáló adatbázis a Helsinki University of

Technology által készített Finnish Speech Database [17], amely 250 mondatot tartalmaz

összesen 4 beszélő bemondásában. A teszteredmények kiértékelését a magyar nyelvre

bemutatott eljárással megegyezően végeztem.

A finn nyelv esetében is a 11 állapotú, 1 Gaussos HMM modellek adták a legjobb eredményt

mind az alapfrekvencia, mind az energiaszint, valamint ezek első és második deriváltjai

alapján működő modellekben.

A (2) és a (3) összefüggésekkel definiált (pontosság és hatékonyság) eredményességi

jellemzők finn nyelvű rendszerrel 69,2%, illetve 76,8%. Ez a magyar nyelvű eredményekkel

összevetve alacsonyabb pontosságot, ugyanakkor jóval nagyobb hatékonyságot jelent (lásd 5.

ábra).

Vizsgáltam a kétnyelvű szóhatár-detektáló rendszer teljesítményét is. A mindkét nyelven

betanított rendszer pontossága majdnem eléri az egynyelvű rendszerét, hatékonysága viszont

jelentősen nagyobb az egynyelvű esethez képest. Az eredmények az 5. ábrán láthatók

PR-térben ábrázolva.

0,66

0,68

0,7

0,72

0,74

0,76

0,78

0,4 0,5 0,6 0,7 0,8 0,9

Recall (r)

Pre

cis

ion

(p

)

5. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar és finn nyelvre, illetve kétnyelvű rendszerekkel. A pontok melletti feliratokon az első betű a betanító, a

második a teszthalmazra utal: M=magyar, F=finn, V=vegyes magyar-finn

MM

VM

FM

MF

FF VF

12

4.3 Szóhatár-detektáló rendszer felhasználása a gépi beszédfelismerésben

Megvizsgáltam, hogy a II. A. tézisben bemutatott, FF-osztályozásra visszavezetett szóhatár-

detektálóval javítható-e a beszédfelismerés pontossága. Az eredményeim alapján

bizonyítandó tézis:

Tézis III. [J2, B2, C5] A beszédfelismerésben a helyesen felismert szavak aránya növelhető a

II. A. tézisben bemutatott, az alapfrekvencia- és energiamenet alapján működő HMM alapú

fonológiai frázisosztályozóval a beszédfolyamon végzett prozódiai szegmentálással.

Az állítás bizonyításához a szóhatár-detektálásra használt FF-osztályozót (prozódiai

szegmentálót) beszédfelismerőbe építettem, és kétmenetes beszédfelismerésben a

hipotézisgráfok újrasúlyozásával vettem figyelembe a prozódiai szegmentálást.

A hipotézisgráfok újrasúlyozásának végrehajtásához a szóhatárok időpontbeli helyzetét (tB)

intervallumokba transzformáltam az

[ ]

−∈

∆

egyébként

∆T+t∆T,tthaA,+t)π

(A=(t)L BB

B

0T2

cos , (5)

összefüggés alapján (vö. [10]). Itt ∆T az intervallum hosszát befolyásoló paraméter, értéke

kísérleteimben 100 ms volt. LB(t) ily módon tulajdonképpen a szóhatár adott időpontban

történő elhelyezkedésének valószínűségével arányos pontszámot ad meg.

A beszédfelismerés során előálló hipotézisgráfban azoknak a szavaknak és szóláncoknak

megfelelő utak súlyát, amelyek esetén a szavak határai időben egybecsengenek a prozódiai

szegmentálás által jelzett határokkal megnövelem (6). Hasonlóképp, azokban az esetekben,

amikor a prozódiai szegmentáló által megadott határok szavak belsejébe esnek, az eredetileg

hozzárendelt súlyokat csökkentem (7).

)()( endBbstartBarenum tLwtLwSc += , (6)

ahol tstart a szó gráf szerinti kezdő, tend a szó gráf szerinti végpontjának felel meg (az időben),

wa és wb pedig súlyok.

∑−−

+=

=1

1

)(kN

ki

iBpunish tLSc , (7)

ahol N a kiértékelendő szó(lánc)hoz tartozó összes keret száma, k= ∆T.

A gráf éléhez tartozó új Screscored pontszám értéke:

13

)( punishrenumPorigOrescored ScScwScwSc −+= . (8)

(6)-ban wa=0,5, wb=0,5; (8)-ban wO=1, wP=2,5 volt a kísérleteim során.

A beszédfelismerő, amelybe a prozódiai szegmentálót beépítettem, magyar nyelvű, HTK

rendszerben megvalósított radiológiai leletező alkalmazás (39 MFCC, 10 ms keretidő, 37

beszédhang modell, 32 Gauss, 8 óra anyagon tanítva). A szótár elemszáma mintegy 4000 szó,

a kísérletben a bi-gram nyelvi modellt binarizáltam. Célom annak kipróbálása, hogy képes-e a

prozódiai információ minimális nyelvtani információ mellett a felismerés hatékonyságát

javítani. Ezzel a nagyszótáras alkalmazások felé tekintek, ugyanis nagy szótárméret esetén a

nyelvi modell elkészítéshez rendkívül nagy szövegadatbázis kell, a nyelvi modell használata

pedig rendkívül műveletigényes. Különösen igaz ez az agglutináló nyelvekre – így a magyarra

is – amelyek esetén viszonylag szűk tématerületen is relatíve nagy az előforduló szóalakok

száma a toldalékoló jelleg miatt.

A 6. ábra alapján felépített kísérleti rendszerrel hasi és kismedencei ultrahangos leletek

felismerését vizsgáltam összesen 20 darab leletre (kb. 300 mondaton). A felismerést azonos

körülmények között azonos leletekre az alaprendszerrel, majd a prozódiai szegmentálóval

kibővített rendszerrel elvégezve a helyesen felismert szavak aránya összességében relatív

3,8%-kal javult. A javulás mértéke leletenként változó, egyes esetekben 10% fölötti

eredményt is kaptam, ugyanakkor előfordult, hogy a felismerés a prozódiai szegmentáló

hibázása miatt leromlott a referenciához képest. A hibaanalízis során kiderült, hogy ekkor a

prozódiai szegmentáló tévedett az alapfrekvencia-detektor hibázásának eredményeként. Az

összességében tekintett szignifikáns javulás azonban igazolja a III. tézis állítását.

6. ábra: Prozódiai szegmentálóval kiegészített beszédfelismerő felépítése

Szegmentális akusztikai

előfeldolgozás


Szegmentális tartományú

mintaillesztés Hipotézis-

gráfok újrasúlyozása

Nyelvi modell

Beszédjel

Felismert szöveg

Prozódiai szegmentálás

Szótár

FF-osztály HMM

FF-osztály kapcsolódási

modell

FF-osztályok

Beszédhang HMM

Útvonal-kiértékelés

14

A relatív 3,8% javulás 4 ezer szavas, igen behatárolt szó- és mondatkészletű beszédfelismerő

alkalmazásban véleményem szerint nagyon jó eredmény, ez ugyanis a szótár méretének

növelésével, illetve a felismerendő szöveganyag kötetlenebbé választásával még nagyobb

teljesítménynövekedést eredményezhet.

4.4 Modalitásfelismerés és tagmondathatár-detektálás

A mondat modalitása alatt kizárólag a mondat típusát értem, amelyet elsősorban az intonáció

határoz meg. Modalitása szerint a mondat lehet kijelentő, kérdő, felszólító, felkiáltó vagy

óhajtó.

A hagyományos beszédfelismerésben a mondat típusának automatikus felismerése

gyakorlatilag nem lehetséges. Ha a mondattípust mégis meg szeretnénk határozni,

próbálkozhatunk a természetes nyelvfeldolgozásban használatos szintaktikai vagy szemantikai

eszközökkel, elemzőkkel (pl. [16]). Ezek egyik nagy hátulütője, hogy a felismerő

szövegkimenetén dolgoznak, így felmerül az esetleges felismerési hibák továbbterjedése a

modalitást meghatározó modulba is. Emellett könnyen elképzelhető olyan eset is, hogy a

prozódián kívül semmilyen más elem nem jelzi a modalitást [10]. Írásban a megfelelő

írásjelből eldönthetjük, hogy a beszélő állításként vagy kérdésként, esetleg felkiáltásként

fogalmaz-e meg egy-egy mondatot. A mondatok tagolásában a vesszők vannak segítségünkre,

bár azok nem mindig esnek egybe a prozódiailag megnyilvánuló tagolással [15].

Tézis IV. A. [B3, C6] A fonológiai frázisok osztályozására magyar nyelvre kidolgozott

folytonos HMM alapú algoritmus a megfelelő módosításokkal alkalmas a tagmondathatárok

detektálására, és a mondat modalitásának meghatározására.

A modalitás felismerése elsősorban szemantikai szintű feladat, és legalább egy, de

gyakrabban több mondatból álló beszédszegmensre végezhető el. Mivel a modalitás mondat

szinten értelmezett, ezért a modalitás felismerésének szintaktikai vonatkozásai is vannak, ez

pedig a robusztus mondathatár-, sőt tagmondathatár-detekció. A tagmondatokat úgy

értelmeztem, mint az írásban vesszővel jelölendő mondatbeli határokat, míg a mondatok az

írásban mondatzáró írásjellel lezárandó nyelvi egységek. Mint említettem, a tagmondatok

prozódiai szempontból nem feltétlenül esnek egybe az írásban vesszővel elválasztott

tagmondatokkal (bár általában igen [15]). Megfelelően feldolgozott beszédadatbázis

hiányában ezt a kérdést nem vizsgáltam.

Előzetes feltevésem szerint a modalitásfelismeréshez a szupraszegmentális akusztikai

előfeldolgozás során nagyobb időablakokkal szükséges átlagolunk, az optimális

15

ablakméreteket, teljesítményelemzéssel határoztam meg. A II.-III. téziscsoportokban

bemutatott esethez képest a HMM alapú rendszer ezúttal a FF-osztályok helyett

tagmondatokra készült, a mondatszintű intonációt leíró prozódiai-akusztikai modellek

használatával. Fontos különbség FF-osztályozó és a modalitásfelismerő rendszer között, hogy

előbbi esetben az illesztett FF-osztály gyakorlatilag közömbös volt, a lényeges információt

csak az egyes osztályok határai adták a szóhatár-detektálásra használt alkalmazásban, míg

most az illesztett tagmondatosztály adja meg a mondat modalitását (ha mondatzáró

tagmondatról van szó), így ez is informatív, hiszen ennek alapján lesz lehetséges az írásjelek

kitétele a felismert szövegben, ha a modalitásfelismerőt beszédfelismerőbe építjük be.

A modalitásfelismerő betanításához a szupraszegmentális tartományban (alapfrekvencia és

energia) feldolgozott beszédet tagmondat szinten szegmentáltam és címkéztem, hasonlóan a

szóhatár-detektálásra bemutatott esethez. Az optimális osztályozáshoz szükséges osztályokra

való felbontást iteratívan szűkítettem a végső összesen 7 osztályra (ebből 1 a szünet):

• Nem mondatzáró tagmondat (T)

• Kijelentő mondat záró tagmondata (S)

• Kiegészítendő kérdés (K)

• Eldöntendő kérdés (E)

• Felszólítás/felkiáltás (X)

• Óhajtó mondat (O)

• Szünet (U)

Eltérő intonációs mintája miatt az eldöntendő (igen/nem válasz) és kiegészítendő (explicit

válasz) kérdéseket a szakirodalmi nyelvészeti osztályozásnak megfelelően különválasztottam

[13]. A felkiáltó és a felszólító mondatok intonációja közötti szerény különbség miatt ezeket

egymástól nem különböztettem meg. Ez egyébként a megfelelő írásjel (felkiáltójel)

kitételében nem okoz majd problémát. Az összeállított tagmondathatár-detektáló és

modalitásfelismerő rendszer blokkvázlata a 7. ábrán látható. Az alapfrekvencia és az energia

kinyerése a 4.3 szakaszban bemutatott eljárással egyezik. Az akusztikai előfeldolgozó

nagyobb átfogású ablakokra átlagol.

Tagmondat osztályok illesztése


Tagmondat intonációs HMM-ek

Tagmondatok kapcsolódási

modelljei

Beszédjel

Tagmondat és mondathatárok,

modalitás és írásjelek

Szupraszegmentális jellemzővektorok F0 & energia

kinyerése

7. ábra: Statisztikai alapú tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata

16

A tagmondatok kapcsolódási modelljeit megadó nyelvtan (Gtm) a beszédet opcionális szünet,

opcionális nem mondatzáró tagmondatok, és kötelezően megjelenő záró tagmondatok

sorozataként adja meg (jelölések magyarázatát lásd pl. a (4) nyelvtannál):

Gtm = [U] < [T] ( S | E | X | K | O ) [U] > [U] (9)

Az osztályozási (modalitásfelismerési) teljesítményt ezúttal a beszédfelismerésben „szokásos”

helyes felismerési aránnyal (10) mértem, miután az osztályozás maga sem közömbös.

%100⋅=N

HCorr , (10)

ahol H a helyesen felismert, N az összes tagmondatok száma a teszthalmazban. A munkám során folyamatosan optimalizált – mintegy 18 ezer tagmondattal betanított – osztályozóra a helyesen felismert tagmondatok aránya az egyes tagmondattípusokra a 8. ábrán látható.

0

20

40

60

80

100

S T K E X O U

Tagmondat-osztály

Co

rr [

%]

8. ábra: A tagmondattípusokra lebontott felismerési ráta 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett, gyermek adatbázison

Meglepő, ugyanakkor a modalitásfelismerésre is a 11 állapotú rejtett Markov tagmondat-modellek adtak optimális eredményt, az időátlagolás mértéke pedig 100-400 ms átfogású tartományban nem változtatta tendenciózusan az eredményeket. Míg a kötött hangsúlyra épülő szóhatár-detekció viszonylag nyelvspecifikus, hiszen csak kötött hangsúlyú nyelvekre alkalmazható a magyar nyelven kívül, addig a tagmondathatár-detekció és modalitásfelismerés a nyelvek jóval nagyobb körére általánosítható, mivel a prozódiai frázis végének emelkedő intonációval való jelzése, illetve a létező mondattípusok a hangsúlyozásnál univerzálisabb tulajdonságok.

17

Tézis IV. B. [C7] A magyar nyelvre kidolgozott HMM alapú tagmondatszintű szegmentáló és

modalitásfelismerő eljárás más, a modalitást mondatintonációban kifejező nyelvekre

közvetlenül alkalmazható.

A tézist a magyar nyelvű tagmondatszintű szegmentáló és modalitásfelismerő német nyelvre történő adaptálásával igazoltam. Ennek során német nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, tagmondat szegmentálási, HMM-betanítási feladatokat, amelyeket a korábban a magyar nyelvű rendszerre. A betanításhoz használt szöveganyagot a Kiel Corpus-ból [9] vettem. Az összeállított német rendszer felépítése tehát mindenben megfelel a magyar nyelvűének, az alapfrekvencia- és energiamenet feldolgozása is azonosan történt. A német nyelvű adatbázis szűkösebb mérete miatt 5 tagmondatosztályt különítettem el:

• Nem mondatzáró tagmondat (T)

• Kijelentő mondat záró tagmondata (S)

• Kérdés (eldöntendő és kiegészítendő) (K)

• Felszólítás/felkiáltás (X)

• Szünet (U) A kiegészítendő és eldöntendő kérdéseket tehát összevontam, közöttük ugyanis a Kiel Corpus elemzésekor nem találtam meggyőzőnek az intonációbeli különbséget, sőt, a két kérdéstípus meglepően hasonló intonációval realizálódott a legtöbb esetben. Az óhajtó tagmondat adat hiányában nem szerepel az osztályozásban. A német nyelvre a modalitásfelismeréshez használt nyelvtan (GGER):

GGER = [U] < [T] (S | E | FF ) [U] > [U] (11)

Minden egyéb feltétel megegyezik a magyar nyelvű rendszerre bemutatottal. A (10) összefüggéssel definiált felismerési arány szerinti eredmények német nyelvre a 9. ábrán láthatók tagmondat, illetve mondattípus szerinti bontásban. Az egyes mondatvégi írásjeleknek megfelelő tagmondat-osztályok felismerése eléri (kérdő, illetve felkiáltó és felszólító mondatok), illetve meghaladja (kijelentő mondat) a 70%-ot. A nem mondatzáró tagmondatok alacsony felismerési aránya utalhat a vesszővel jelölt, és a prozódiailag ténylegesen realizálódó tagmondatok közötti különbségekre. Mivel a Kiel Corpus meseolvasás és információ-lekérdezés jellegű bemondásokat tartalmaz, így valószínűsítem, hogy a környezetükből kiragadott, a beszédadatbázis bemondóinak szemszögéből konkrét kommunikációs célhoz nehezen társítható, egymással lazán összefüggő mondatokból álló magyar anyaghoz képest lényegesen kisebb a vesszővel jelzett és a ténylegesen realizálódó prozódiai mondattagolás közötti átfedés. Az eredmények alapján a német nyelvű

18

modalitásfelismerő és tagmondathatár-detektáló rendszert mindenképpen a gyakorlatban is használhatónak tartom.

0

10

20

30

40

50

60

70

80

90

100

T E X S U

Tagmondat-osztály

Co

rr [

%]

9. ábra: A tagmondattípusokra lebontott felismerési arány a 11-es állapotszám és a 40 keretnyi

átlagolási intervallum mellett

5. Az eredmények alkalmazhatósága Az I. tézis elvi jelentősége mellett hangsúlydetekció alapú beszédfolyam-szegmentálást tesz lehetővé. A II. téziscsoporttal együtt a hangsúly-, a fonológiai frázis-, illetve a rá visszavezetett szóhatár-detektálás magasabb szintű, szintaktikai és szemantikai feldolgozásnak képezheti alapját, a beszédfelismerést valóban a beszédértés felé elmozdítva. Segítheti a szintaktikai tagolást és elemzést a természetesnyelv-feldolgozásban (pl. beszédalapú tartalmi kivonatolás a fontos, így hangsúlyozott információhordozó elemek kiemelésével; mondatelemzés gépi fordítórendszerekben, stb.). Igen fontos alkalmazás a közvetlenül a beszédfelismerésben való felhasználás, amelyet emiatt a III. tézisben külön vizsgáltam. A műszaki alkalmazásokon kívül az I.-II téziscsoportok eredményei felhasználhatók nyelvészeti kutatásokhoz is, különösen a spontán beszéd vizsgálatára. A III. tézis önmagában egy alkalmazás, nagyszótáras beszédfelismerés esetén azonban jelentős előrelépést hozhat a tézisben lefektetett módszerek alkalmazása a toldalékoló nyelvek esetében. A IV. téziscsoport eredményei a beszédfelismerés során előálló szöveges kimenet írásjelekkel való automatikus ellátását teszik lehetővé, egyben a II. tézishez hasonlóan a természetesnyelv-feldolgozásban a szintaktikai és szemantikai szinteken jelentős információt adhatnak a

19

feldolgozáshoz (pl. topik-komment osztályozás a mondattagolás szempontjából, mondatelemzés, fókuszdetektálás). Lehetővé teszik a beszédfolyam mondatokra tagolását, a prozódiai frázisok határait (levegővétel) igen pontosan detektálhatóvá teszik. A II. és IV. téziscsoport eredményei számítógépes beszédoktató alkalmazásokban a helyes hangsúlyozás és hanglejtés elsajátításához adnak kiindulási alapot. Ez az alkalmazás – francia partnerrel – már fejlesztés alatt áll.

Felhasznált irodalom

[1] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation. Fondazione Ugo-Bordoni, Rome, Italy. 1999.

[2] Cristophe, A., Peperkamp, S., Pallier, C., Block, E., Mehler, J.: Phonological Phrase Boundaries

Constrain Lexical Access I. Adult Data. Journal of Memory and Language, Vol. 51, 2004. Elsevier. pp. 523–547.

[3] Gallwitz, F., Niemann, H., Nöth, E., Warnke, W.: Integrated recognition of words and prosodic

phrase boundaries. Speech Communication, 36(2002): 81-95.

[4] Gósy Mária: Fonetika, a beszéd tudománya. Osiris, Budapest, 2004. pp.182-243.

[5] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of

Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of Fundamental

Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001.

[6] Hunyadi, László: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002.

[7] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998.

[8] Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest, 1998.

[9] KIEL Corpus of read Speech, Volume I. Institut für Phonetik und digitale Sprachverarbeitung der Christian-Albrechts-Universitat zu Kiel, Dec. 1994.

[10] Kompe, Ralf: Prosody in Speech Understanding Systems. LNAI 1307, Springer. 1997.

[11] Kompe, R.; Kießling, A.; Niemann, H.; Nöth, E.; Schukat- Talamazzini, E.G.; Zottmann, A.; Batliner, A.: Prosodic scoring of word hypotheses graphs. In: Proc. European Conf. on Speech Communication and Technology (European Conf. on Speech Communication and Technology, Madrid, September 1995) Vol. 2, pp. 1333-36. 1995.

[12] Mandal, S.; Gupta, B. Datta, K.: Word boundray Detection Based on Suprasegmental Feaures, a

Case Study on Bangla Speech. International Journal of Speech Technology, Vol. 9. Num. 1-2 pp. 17-28. 2007.

[13] Olaszy Gábor: A magyar kérdés dallamformáinak és intenzitásszerkezetének fonetikai vizsgálata. In: Beszédkutatás'2002 Szerk.: Gósy Mária, MTA Nyelvtudományi Intézet, Budapest, 2002. pp. 83-99.

20

[14] Olaszy Gábor: Az alapfrekvencia és a hangsúlyozás kapcsolata a magyarban. In: Kísérleti fonetika - Laboratóriumi fonológia 2002. (szerk.: Hunyadi László) Kossuth Egyetemi Kiadó, Debrecen, 2002.

[15] Olaszy Gábor: Prozódiai szerkezetek jellemzése a hírfelolvasásban, a mesemondásban, a novella-

és a reklámok felolvasásában. In: Gósy Mária (szerk.): Beszédkutatás 2005. MTA Nyelvtudományi Intézet, Budapest 2005.

[16] Shriberg, E., Stolcke, A., Hakkani-Tür, D. and Tür, G.: Prosody-based automatic segmentation of

speech into sentences and topics. Speech Communication, vol. 32, no. 1-2, pp. 127-154, 2000.

[17] Vainio, M., Altosaar, T., Karjalainen, M., Aulanko, R., Werner, S.: Neural network models for

Finnish prosody. Proceedings of ICPhS 1999, San Francisco (1999) 2347-2350.

[18] Varga László: A magyar mellékhangsúly fonológiai státusáról. In: Magyar Nyelvőr, 124. évfolyam 1. szám. 2000. pp. 91-108.

[19] Veilleux, N. M., Ostendorf, M.: Prosody/parse scoring and its application in ATIS. Proc. ARPA Human Language Technology Workshop '93. pp 335-40. 1993.

[20] Vicsi K., Vig, A.: Az első magyar nyelvű beszédadatbázis, Beszédkutatás 98, MTA Nyelvtudományi Intézete, Budapest, pp. 163-177. 1998.

[21] Waibel, Alex: Prosody and Speech Recognition. Pitman, London, UK. 1988.

[22] Young, S. et al.: The HTK Book (for version 3.3). Cambridge University. 2005.

Publikációim [J] Folyóiratok (Journals) [J1] Vicsi, K., Szaszák, Gy.: Automatic Segmentation of Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology, Vol. 8, Num. 4, pp. 363-70. (2005) [J2] Szaszák, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech recognition. Infocommunications Journal (English issue of Híradástechnika). Vol. LXIII. Num 7. pp. 35-40. (2008) [J3] Szaszák György: Ejtésvariáció modellezés a beszédfelismerésben. Akusztikai szemle VI:(1) pp. 3-12. (2005) [J4] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Gordos G.: Development experiences of a Hungarian speaker independent continuous speech recognizer. Híradástechnika – Info-

Communications Technology LXI:(7) pp. 22-27. (2006)

21

[B] Publikációk szerkesztett könyvben (Publications in Edited Books) [B1] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Word Boundary Detection in ASR. In: A. Esposito, M. Bratanic, E. Keller, M. Marinaro (eds.): Fundamentals of Verbal and Nonverbal

Communication and the Biometric Issue. (NATO Security through Science Series; Vol. 18. IOS Press, Amsterdam pp. 161-170. (2007) [B2] Szaszák, Gy; Vicsi, K: Using Prosody in Fixed Stress Languages for Improvement of Speech Recognition. In: A. Esposito et al. (eds): Verbal and Nonverbal Communication Behaviours, Springer, pp. 138-150. (2007) [B3] Vicsi K., Szaszák Gy., Németh Zs: Folyamatos magyar beszéd mondatfajtáinak automatikus felismerése. In: Gósy Mária (szerk): Beszédkutatás 2007. pp. 162-172. (2007)

[B4] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben I. In: Gósy Mária (szerk): Beszédkutatás 2002. szám: pp. 216-234. (2002) [B5] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben II. In: Gósy Mária (szerk): Beszédkutatás 2003. pp. 163-176. (2003)

[C] Konferenciacikkek (Conference Papers) [C1] Szaszák Gy., Vicsi K., Borostyán G.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján. II. Magyar Számítógépes Nyelvészeti Konferencia

(MSZNY-2004). Szeged, Magyarország, 2004. december. pp. 319-325. [C2] Vicsi K., Szaszák Gy.: Automatic Segmentation of continuous speech on word and phrase level based on supra-segmental features. Forum Acusticum. Budapest, Magyarország, 2005. május, pp. 2669-73. [C3] Szaszák Gy., Vicsi K.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján: II. rész: Statisztikai eljárás, finn-magyar nyelvű összehasonlító vizsgálat. III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 360-370. [C4] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in ASR. Text,

Speech and Dialogue: 9th International Conference on Text, Speech and Dialogue TSD 2006. Brno, Csehország 2006. szeptember. pp. 547-554. [C5] Szaszák Gy., Vicsi K.: Speech recognition supported by prosodic information for fixed stress languages. Text, Speech and Dialogue: 10th International Conference on Text, Speech and Dialogue TSD 2007. Plzen, Csehország 2007. szeptember. Springer, 2007. pp. 262-269.

22

[C6] Vicsi, K.; Szaszák Gy.; Németh Zs.: Prozódiai információ használata az automatikus beszédfelismerésben; mondat modalitás felismerése, V. Magyar Számítógépes Nyelvészeti

Konferencia, Szeged, 2007. december. pp. 69-80. [C7] Vicsi, K.; Szaszák, Gy.: Using Prosody for the Imporvement of ASR - Sentence Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember. [C8] Szaszák Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD 2004. Brno, Csehország 2004. szeptember. Springer, 2004. pp. 473-480. [C9] Vicsi K., Kocsor A., Tóth Sz. L., Szaszák Gy., Teleki Cs., Bánhalmi A., Paczolay D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez. III. Számítógépes

Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 435-438. [C10] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L.: Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai: III. Magyar Számítógépes Nyelvészeti

Konferencia. Szeged, Magyarország 2005. december. pp. 348-359.

Documents

A szupraszegmentális jellemz ők szerepe és felhasználása a