235
Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása Emberi és gépi beszédfelismerés Vicsi Klára

Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

  • Upload
    latika

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása Emberi és gépi beszédfelismerés Vicsi Klára. A beszéd --- akusztikus gondolatátvitel, ami a beszédkommunikáció körfolyamatában (természetes beszédláncban) működik. A beszédtudomány célja: - PowerPoint PPT Presentation

Citation preview

Page 1: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédkommunikáció

Beszédinformáció adás-vétel folyamatának tárgyalása

Emberi és gépi beszédfelismerés

Vicsi Klára

Page 2: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszéd --- akusztikus gondolatátvitel,

ami a beszédkommunikáció körfolyamatában (természetes beszédláncban) működik.

Page 3: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszédtudomány célja:A folyamatos beszéd komplex leírása a teljes kommunikációs körfolyamatban, a beszédfelismerő, szintetizáló, kódoló, stb. rendszerek tökéletesítése, az ember gép közötti Párbeszéd megteremtése

Alterületek: Fonetika – nyelvészet egy részterülete, a beszédhangok,

hangcsoportok mint nyelvi elemek kiejtés tudománya

beszédakusztika – a természetes beszédlánc

fizikai –akusztikai leírásával foglalkozik

beszédtechnológia – a természetes beszédlánc elemeinek

modellezése

beszédinformációs rendszerek –beszédtechnológiai elemek

felhasználásával készült információs rendszerek

Page 4: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az emberi kommunikáció különböző érzékszervi csatornákon keresztül valósul meg:

Hallás --- beszédLátás --- írás, gesztikulálás, arcmimika, artikulációTapintás Szaglás

Page 5: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 6: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 7: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 8: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 9: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 10: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hallási csatorna Beszéd

Page 11: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az emberi nyelv elemei: a szinbólumok + a nyelvtan

A nyelvi formában megjelenő gondolat 2 szimbólumrendszerben jelenik meg.

Beszélt nyelv Írott nyelv

fonéma legkisebb nyelvi egység betük

további szimbólumok közösek:

szótag szavak mondatok ?frázis?

Page 12: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A nyelv elemei: Szimbólumok + nyelvtan

Szimbólumok a beszélt nyelvben:fonéma: legkisebb nyelvi egység, melynek cseréjével a szavak értelme megváltozikláp, lap, lop, lep; tér, tét, tév, lét;

14 magánhangzó 50 mássalhangzó

szótag: érzékelés egysége

szavak: néhány száz szó több százezerig

mondat: szerkezetének leírása nyelvtan

frázis: két levegővétel közötti szövegrész értelem megkülönböztető szerepű, és a közlemény, grammatikai tagolási egységeiben érvényesül

A királynőt megölni nem kell félnetek jó lesz ha mind beleegyeztek én nem ellenzem.

Page 13: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Nyelvtan:

fonetika: fonémák biológiai, akusztikai, nyelvi leírása

phonológia: fonémák, kapcsolódásuk egymásra hatásuk leírása

morphológia: morfémák (legkisebb jelentéssel bíró egység) szavakká formálódásának leírása

szintatika:mondattan, szemantika foglalkozik a jelentéssel

szementika: szavak jelentéstana nagy szerep a szupraszegmentális elemeknek: hangsúly, hanglejtés, nyomaték, ritmus stb.

Page 14: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A nyelv elemei

Szimbólumok+ nyelvtanSzimbólumok:

fonéma: legkisebb nyelvi egység, melynek cseréjével a szavak értelme megváltozikláp, lap, lop, lep; tér, tét, tév, lét;

szótag: érzékelés egysége

szavak: néhány száz szó több százezerig

mondat: szerkezetének leírása nyelvtan

frázis: két levegővétel közötti szövegrész értelem megkülönböztető szerepű, és a közlemény grammatikai tagolási egységeiben érvényesül

A királynőt megölni nem kell félnetek jó lesz ha mind beleegyeztek én nem ellenzem.

Page 15: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 16: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszélt és írott nyelv közötti különbségek

Írott : betük beszélt: fonémák(beszédhangok)

Fonetikus átírás, beszédhangok egyetemes jelölésrendszere

Page 17: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 18: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 19: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 20: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Példák1. Arany János : Walesi Bárdokból az alábbi részlet: “S a nép az istenadta népOly boldog rajta Sire Kunyhói mind hallgatva mintMegannyi puszta sír”sire [saI∂*]Vizsgálja meg a 2. és 4. sor záró szavát. Tudott e Arany angolul?

Page 21: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

2.Irja le az adott szavak hangsorát SAMPA szimbólumkészlettel.Adja meg a magyarázatot.

lyukbannapbandobtaszedtehonpolgarbánja metszet balra fiúé mennybe

Page 22: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

2.Irja le az adott szavak hangsorát SAMPA szimbólumkészlettel.Adja meg a magyarázatot.

lyukban /jugbOn/napban /nOb:On/

dobta /doptO/szedte /sEt: E/honpolgar /hompolga:r/bánja (ba:J:O)metszet (mEts:Et). balra (bOr:O).

fiúé (fiju:e:) mennybe (mEJbE).

Page 23: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédlánc fonetikai jellegzetességei:Zöngés asszimilációA zárhangok (vagy a /h/) csoportjaiban a követő hang fogja meghatározni a hangkapcsolat zöngés, vagy zöngétlen jellegét, pl. regresszív zöngeaaszimilációban. A szabály egyformán érvényes a morfémák és a szóhatárok esetében és nem betartott a helyesírásban. Például a -ban/ben b-je zöngétlen obsztruenspéldákat eredményez:/k/ /g/ lyuk lyukban /jugbOn//p/ /b/ nap napban /nOb:On/Példák az ellenkezőjére:/b/ /p/ dob dobta /doptO//d/ /t/ szed szedte /sEt: E/Csak a /v/ viselkedik kivételként, minthogy soha nem okoz változást, mint pl. hatvan (hOtvOn), nem pedig */-dv-/; öszehasonlítva a golfbajnokságot (golvbO-) és a golfvilágbajnokságot (golfvi-). Regresszív zöngeasszimilációA befolyásoló hangok: Befolyás a következők szerint:I. b d ċ g v z J dz dJ zöngétlen hang (obsz. vagy /h/)II. p t c k f s S ts tS zöngés obsztruens, kivéve /v/A zöngeasszimiláció még a magyar nyelvben használt idegen nyelvű szavakra is hatással van, pl. Macbeth /mOgbεt/.

Page 24: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Nazális asszimilációAz /n/ a következő obsztruens szerint asszimilálódik: a labiálisok előtt /n/ (m), az ínyhangok előtt /n/ (M), a velárisok előtt: /n/ (N). Az egyéb nazális hangok, az /m/ és az /∫/ stabilok, de /f, v/ előtt az /m/ (M). Palatális asszimilációA hosszú palatális hangok akkor jönnek létre, amikor a /j/ /t/-t, /d/-t, /n/-t és /l/-t követ, pl. bánja (ba:J:O).Frikatív asszimilációA hosszú affrikáták akkor jönnek létre, amikor a /t/, /d/, /c/, / ċ/-t /s/, /S/, /ts/, /tS/ és /z/, /J/, /dz/, /dJ/ követi, pl. metszet (mEts:Et)A /j/, vagy /r/ által követett /l/ hosszú (j:)-t, vagy hosszú (r:)-t eredményez, pl. balra (bAr:O).Több magánhangzó között a (j) kapcsolódó mássalhangzóként jelenik meg, pl. fiúé (fiju:e:)g) Mássalhangzó degeminációAmikor egy hosszú mássalhangzót mássalhangzó követ, a hosszú mássalhangzók megrövidülnek, pl. mennybe (mEJbE).h).A /j/ hang zöngétlenné válik a szó végén zöngétlen zárhangok, affrikáták és réshangok után, pl. lépj (le:px’).

Page 25: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédlánc kapcsolódási szabályaiStatisztikai leírásmód beszédfolyamat alapelemeinek,

a szimbólumoknak a szerveződéséről

Szimbólumok (Xi), előfordulási valószínűségei P(Xi).

A hozzájuk tartozó entrópia

H= -P(Xi) ld P(Xi).

és információ

I (Xi)= ld 1/P(Xi).

Page 26: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

hhhhh

Page 27: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 28: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 29: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 30: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 31: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 32: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 33: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 34: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

3. Akusztikai leírás

Rezgés

Azokat a fizikai folyamatokat nevezzük rezgéseknek, amelyek meghatározott időközönként újra meg újra ugyanazt az állapotot érik el, vagy ugyanazon állapoton haladnak át.Ez az oszcillálás lehet periodikus vagy rendezetlen, véletlenszerű.

Hang

Rezgő test által a levegőben történő sűrűsödéseknek és ritkulásoknak hatására a környező levegőben folytonos nyomásingadozások alakulnak ki, amelyek a levegő molekuláinak a segítségével, a molekulák egymás közötti rezgési energiájuk átadásával, hanghullámok formájában a levegőben tovább terjednek és a dobhártyát rezgésbe hozzák.

Page 35: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Rezgés --AlapokHarmonikus rezgőmozgásszinuszos görbével leírható rezgés tisztahang érzetét kelti a fülünkben

A = amplitúdó,

, körfrekvencia;

kitérés arányos a kitérési erővel, csak ellenkező irányú:

P = visszatérítési erős = a pillanatnyi kitérésA = max kitérésk = rugóállandó

tAy sin

f2

ksP

Page 36: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az egyenletes körmozgást végző test vetülete harmonikus rezgést végez

t

tT

2

tAs sin kitérés:

sebesség: v

gyorsulás:

Tekintve, hogy frekvencia (f) periodikus folyamat másodpercenkénti változásainak a száma Hz, kHz.

sinrs

tA cos

tAa sin2

Tnf

11

Page 37: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Összetett rezgésTermészetben előforduló rezgések összetett rezgések! Több egymástól különböző Rezgőmozgást az anyagi részecskék nem végezhetnek egyidőben.Lineáris szuperpozíció elve: egyazon pontra ható rezgések egyszerűen összeadódnak.

Párhuzamos rezgések összetételeA tiszta szinuszos rezgések párhuzamos összetételéből egyszerű és összetett, azaz nem tiszta szinuszos periódusos rezgések, vagy ezeknek különleges esetei származhatnak.

Ekkor az összetétel elve szerint

)sin(

);sin(

22022

11011

tSS

tSS

21 SSS

Page 38: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A).Ha a résztvevő rezgésszámok azonosak, a rezgések a kezdőfázistól és az amplitúdótól függően erősítik, gyengítik vagy teljesen kioltják egymást. Legyen az egyik kezdőfázis zérus, ekkor az összeg

Tehát a különböző fázistalálkozások alkalmával

Ha az amplitúdók azonosak, első esetben kétszeres amplitúdójú rezgést, Utolsó esetben pedig teljes a kioltást kapunk.

.cossinsin)cos( 020201 tStSSS

,0 ,sin)( 0201 tSSS

,2/ .cossin 0201 tStSS

, .sin)( 0201 tSSS

Page 39: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

B).Kevéssel különböző rezgésszámú rezgések összetétele lebegést eredményez. A matematikai tárgyalás egyszerűsítésére indítsuk a rezgéseket zérus kezdőfázissal. A két alaprezgés összeadása egyszerű fogással valósítható meg:

hozzáadásával és kivonásával.

Rendezés után amiből egyszerű trigonometrikus átalakítással

Ha a két alaprezgés azonos amplitúdójú, tisztább képet kapunk. Ekkor

vagyis az eredeti rezgések frekvencia-középértékével rezgő frekvenciával 0-tól -ig változó amplitúdójú rezgés keletkezik. Ha különböző fázissal tesszük össze a rezgéseket, az eredő rezgés fázisa és frekvenciája az időben változni fog, a lebegések száma ugyanaz lesz, mint előbb. Az ilyenfajta rezgést azért hívjuk lebegésnek, mert az amplitúdóváltozás az időben lebegésszerűen történik meg.

tS 102 sin

,sin)()sin(sin 102012102 tSSttSS

.sin)(2

cos2

sin2 102012121

02 tSSttSS

2/)( 21

02S

Page 40: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

C).Legyen most az összetevő rezgések frekvenciájának hányadosa egész szám.

Az összetétel ismét periódusos rezgést eredményez, melynek frekvenciája megegyezik az összetételben szereplő legkisebb frekvenciával,

alakja azonban nem szinuszos, hanem erősen függ az összetevődő rezgések kezdőfázisától. Az összetett periódusos rezgéseket FOURIER-féle rezgéseknek is hívják, mert ezek a későbbiek szerint FOURIER-sorba fejthetők.

Szélsőséges esetben az összetételt úgy választhatjuk meg, hogy az eredő rezgésalak egészen impulzusjellegűvé válik.

Ha a részrezgések rezgésszámának hányadosa nem egész szám, hanem tört, az összetett rezgés periódusa meghosszabbodik, míg ha a hányados alakja igen bonyolult,a periodicitás teljesen elveszhet. Ha azonban a rezgésszámok aránya igen nagy, az alaprezgés periódusa ismét kitűnik, mert a nagy szaporaságú összetevő alig észrevehetően módosítja a periódushatárt .

Page 41: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 42: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Egymásra merőleges rezgésekegyenlő frekvencia elliptikus görbék, különböző frekvenciájú alak a frekvencia, és A, függvénye

Page 43: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 44: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Rezgések csillapodása

Rezgő rendszer 3 eleme:

Tömeg – mozgási energia tárolása

Em 1/f

rugalmasság – helyzeti energia f

Súrlódás vagy ellenállás

T lecsengési időcsillapítás: súrlódás és sugárzás okozza az energia

veszteséget

fm

1

1

SR

Page 45: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 46: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Kényszerrezgés, rezonancia

Rezgésre képes rendszer erő hatására saját vagy szabad rezgést végez. Rezgés külső energiatáplálás nélkül lecseng.

Rezgés folyamatossá tétele: öngerjesztett rezgéspl. hangszalag rezgése öngerjesztésű visszaszabályozással megy végbe

kényszerrezgés Külső kényszererő a gerjesztő erő, kényszerfrekvencia a kényszerrezgés frekvenciája.

Kényszerfrekvenciát a gerjesztő periodikus erő frekvenciája szabja megAmplitúdót kényszerítő erő amplitúdója befolyásolja.

Ha a gerjesztő frekvencia = önfrekvencia REZONANCIA jön létre. Ekkor maximálisan együtt rezeg a gerjesztő rendszer a gerjesztettel.A gerjesztett rendszer a rezonátor. A frekvencia függvényében felvett rezgés

amplitúdó görbét rezonátor görbének nevezzük.Kényszerrezgés amplitúdója a kényszerítő rezgés amplitúdójának sokszorosa lehet.A rezonanciagörbe alakja függ a csillapítási tényezőktől és a súrlódási erőtől.

Page 47: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

HANGFORRÁS:korlátozott kiterjedésű rezgő tömeg

korlátozott geometria meghatározza a hangforrás hangmagasságáthangforrások állandó nyomásingadozást biztosítanak

Hangforrás átadja a rezgést az azt közvetítő közegnek: a részecskék kényszerrezgést végeznek

HANGHULLÁM: Mechanikai hullám

Energiaterjedés, ahol a közeg közvetít, de önmaga haladó mozgást nem végez.hangforrás rezgéseinek mechanikai hullám formájában történő tovaterjedése a közeg részecskéinek rezgésállapotának továbbításával

légnemű testekben csak longitudinálisszilárd testekben főleg transzverzális

Page 48: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 49: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

HANGTÉRVívő közeg, amely valamilyen mechanikai rezgés hatását közvetíti.

légnemű, cseppfolyós, szilárd

Levegőben a hanghullámok:0 C, 1 atm (100 000 Pa) nyomáson c = 331,5m/s visszaverődés, elhajlás általános, mint minden hullámformánál

jellemző paraméterek: ∆s, ∆v, ∆p

Hangnyomás: 1Pa = 1 N/m2 = 0,10 cm vizoszl.Hangnyomás( ):A hang terjedésekor a részecskék sűrűsödése és ritkulása egy adott pontban nyomásváltozást eredményez. Ez a nyomásingadozás igen kicsi és a légköri (sztatikus) nyomás értékére szuperponálódik. A nyomás időbeli változása tehát

)(tphang

)(tphang

)(tpp hanglégköri

2

1

)(1

)( 2

12

2t

t

eff dttptt

tpp [N/m2]

Page 50: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

sztatikus nyomás 1 atm 100 000 Pa

beszéd nyomásingadozás 0,01-0,1 Pa

Hallásköszöb 0,000020 Pa

fájdalomküszöb 20 Pa

Karakterisztikus impedancia akusztikai hullámellenállás:

valós része az akusztikai keménység:

közeg sűrűsége: [kg/m3],

v

pz

cz 0

Page 51: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hangenergia (E) hangrezgések mechanikai energiája

egy adott térrészre igaz [Ws/m3],

hangteljesítménye (P): A hangforrás elsődleges adata a hangforrás körüli képzett gömbfelületen időegység alatt átáramlott összes energiamennyiség [Watt].

ahol S a felület [ ].

A hangteljesítmény „mennyiségi”, tehát összegező adat: az elemi értéknek, a felületegységre eső teljesítménynek, vagyis az intenzitásnak a sugárzó körüli teljes gömbfelületen vett integrálja.

hangnyugössz EEE

Sc

pP .

2

2m

Page 52: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

hangenergia továbbítása hangsugárzás

hangintenzitás (I): egységnyi felületen merőlegesen időegység alatt átáramlott energia [W/m2]

c

pI

2

c = akusztikai keménység, c [m/s], [kg/m3].

Page 53: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szintérték – dB fogalma hallásküszöb hangintenzitás-értéke

egy nagyteljesítményű repülőgép zaja 10 m távolságban kb. I= 1 ,

vagyis a repülőgép zajának a hangintenzitása az éppen meghallható hang intenzitásának

1 000 000 000 000 szorosa.

deciBel[dB]:

Az akusztikában és vele kapcsolódó tudományágakban, mint a fonetika, pszicholingvisztika, digitális beszédfeldolgozás stb. a hangintenzitás és a hangnyomás kezelésére dB szintértéket használunk, és a viszonyítási alap a hallásküszöb-intenzitás ill. hangnyomás értéke.

A hangintenzitás szintértéke:

[dB],

ahol a viszonyítási alap a hallásküszöb intenzitásértéke vagyis .

2120 /10 mWI

2/ mW

00

log10log10log10 XXX

XX dB

00

lg10lg10lg10 III

ILdB 212

0 /10 mWI

Page 54: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A hangintenzitás a hangnyomás négyzetével arányos. Szintben kifejezve:

A hangnyomás szintértéke:

[dB],

ahol a viszonyítási alap a hallásküszöb hangnyomásértéke, vagyis .

Ha tehát hangnyomás arányokkal számolunk dB-ben, akkor a hangnyomásarányok logaritmusának húszszorosát kell vennünk

Igy akár hangnyomás, akár intenzitásszint értékekkel számolhatunk, a szintértékek nagysága egyenlő.

002

2

0

lg20lg210log10log10p

p

p

p

po

p

I

ILdb

00

lg20lg20lg20 ppp

pLdB

Page 55: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 56: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 57: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Ezt a frekvenciafüggvényt (frekvencia, amplitúdó és fázis adatok összességét) nevezzük spektrumnak vagy színképnek. A gyakorlatban hang spektruma lehet nyomásamplitúdó-, teljesítmény-, vagy energiaspektrum, attól függően, hogy az adott időpontban a frekvenciaösszetevők nyomásamplitúdó, teljesítmény, vagy energia eloszlását adja meg.

Page 58: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A periodikus rezgéseknél az összetett rezgésnek van egy alap ismétlési periódusa, amely az összetett hangot felépítő összes összetevő közül a legmélyebb frekvenciaösszetevö, és amely meghatározza a komplex hang frekvencia komponenseit.

Ezt a legmélyebb hangot alaphangnak (fo) nevezzük.

A komplex hang többi összetevőjét felhangoknak (f1 f2 … fn) nevezzük.

A felhangok a legalacsonyabb frekvenciájú alaphang (f) egész számú többszörösei.

Példénkban:

Page 59: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 60: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 61: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az ablakszélesség: DFT összetevők ∆ω távolsága:

Finom frekvenciafelbontáshoz hosszú időablakra van szükség, a pontosabb időbeli követéshez viszont az ablakszélességet rövidre kell választanunk.

A TF · Δω = állandó érték.

A beszédelemzési technikában szokásos TF:

TF = 25 ms ablak 40 Hz felbontásTF = 100 ms ablak 10 Hz felbontás

A TF időablak formája is befolyásolja a létrejövő spektrumot. A derékszögű időablak spektruma lényegesen zajosabb, mint a Haun ablak alkalmazásával kapott színkép.

Page 62: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 63: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszédjel szintén összetett rezgés, amely időben folyamatosan változó, különböző rezgésmódok kombinációja.

1. A beszéd egy biológiai produktum, ahol a beszédjel időfüggvényének egyes megvalósulásai, pl. még ugyanazon személy kitartott ’á’ hangja időfüggvénye is esetről esetre más és más (nem determinisztikus). de időben állandó (stacioner) - hosszabb időre vett átlaguk hasonló, így egyetlen realizáció időátlagából vonjuk le következtetéseket.

Teljesítményszint vagy intenzitásszint sűrűség spektrum (Fourier-transzformált négyzete)

egy meghatározott sávszélességre eső,

meghatározott időintervallumban átlagolt

teljesítmény vagy intenzitásszint [dB/Hz]

Page 64: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Spektrum: a jel meghatározott időintervallumban mért színképi teljesítmény eloszlásfüggvény.

Page 65: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

2. A hangképzés folytonos és időben változó jelet állít elő, amelyben tranziens, közelállandó, és impulzusszerű jelek váltakozva követik egymást.

Közelítés:A beszéd kvázistacioner részek sorozatának tekinthető, és spektrum elemzés a kvázistacioner részeken elvégezhető úgy, hogy az egymás után kijelölt pontokban(pl. 10-20ms-ként), mindig egy meghatározott időtartományban (pl. 25ms-ban) meghatározzuk a teljesítményspektrumot.

Page 66: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Így kapjuk meg a gördülő teljesítményspektrumot, a teljesítményspektrogramot.

Tehát a spektrogram a teljesítményspektrum időbeli változása, vagyis mutatja, a frekvencia-összetevők, teljesítményszint eloszlásának időbeli változását.

Page 67: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A l m a v a n a l á d á b a n

Page 68: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 69: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 70: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 71: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 72: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 73: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

9.10.11.12. Bark szűrők átviteli jelleggörbéje

Page 74: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A hallási sávszélességű szűrősor adatai

A szűrő sorszáma

Középfrekvencia Alsó vágási frekvencia

Felső vágási frekvencia

Sávszélesség

Bark Hz Hz Hz Hz

1 150 100 200 100

2 250 200 300 100

3 350 300 400 100

4 450 400 510 110

5 570 510 630 120

6 700 630 770 140

7 840 770 920 150

8 1000 920 1080 160

9 1170 1080 1270 190

10 1370 1270 1480 210

11 1600 1480 1720 240

12 1850 1720 2000 280

13 2150 2000 2320 320

14 2500 2320 2700 380

15 2900 2700 3150 450

16 3400 3150 3700 550

17 4000 3700 4400 700

18 4800 4400 5300 900

19 5800 5300 6400 1100

20 7000 6400 7700 1300

[Zwicker, 1982.]

Page 75: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Férfi O beszédhang

FFT elemzéssel

Bark szűrősorralFs 16000 HzBits 16Window HammingWindowSize 2048 sample (128ms)Bark FilterNum 128 (20/octave)

Fs 16000 HzBits 16Window HammingWindowSize 2048 sample (128ms)

Page 76: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Férfi E hang

Page 77: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Napjainkban sok, a hangelemzés egyszerű elvégzésére alkalmas, szabadon használható program van:

Cooledit - általános akusztikai elemző http://www.softpedia.com/get/Multimedia/Audio/Audio-Editors-Recorders/Cool-Edit-Pro.shtml

Wavesurfer - beszédelemző, szegmentálóhttp://www.speech.kth.se/wavesurfer/

Wasp- beszédelemző, szegmentálóhttp://www.phon.ucl.ac.uk/resource/sfs/wasp.htm

Praat - fonetikai elemző, szerkesztő programhttp://www.fon.hum.uva.nl/praat/

Page 78: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszéd akusztikai leirása

Nyelvi jelentéssel bíró akusztikai produktum,

Számos nem nyelvi jelentést hordozó információval

Beszéd igen erősen redundansAkusztikai szerkezete a beszélőtől és a beszédhelyzettől (átviteli körülmények) függőenváltozik, de még egy beszélő esetében is. Az emberi beszédfeldolgozás folyamatai azonban biztosítják, hogy az akusztikai különbségek ellenére a fonológiai döntések állandóak maradjanak

Informació több síkon:

Beszedhang szintű leírás - szegmentális szerk.

Szó, mondat szintű leirás - szupraszegmentális szerkezet

Page 79: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszédfolyamat akusztikai jellemzői: 1. A beszédhang nyomás, beszédintenzitás, beszédteljesítmény (dB) Peff, Ieff, Weff

sztatikus nyomás 1 atm 105 Pa beszéd nyomásingadozás 10-2 10-1 Pa visz.alap Pa 10 2 -5

Suttogás 30-40dB, kiabálás 80-90dBBeszéd hangintenzitásváltozása ~50-60 dB halk, hangosBeszéden belüli hangintenzitás változás ~30-35dB beszédhangok intenzitása

különböző az energia nagyobb része a magánhangzókhoz (lásd később) kapcsolódik. legerősebb intenzitású az ‘á’, legkisebb intezitású az ‘u’ és az ‘i’. A mássalhangzók

nagy többsége kisebb intenzitású a magánhangzók és a ‘h’ a leggyengébb intenzitású hang.

2120 /10 mWI

Page 80: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

2. Alapfrekvencia (Hz)

Beszéd átlagos alapfrekvenciáját jelenti, férfiaknál 100-200 Hz, nőknél 150-300 Hz, gyermekeknél 250-600 Hz.

Hangfekvés: átlagos alapfrekvencia

Hangterjedelem: a beszélő legalacsonyabb és legmagasabb alapfrekvencia- értéke közötti kül.

Intonáció

Page 81: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

3. Hangszin [dB/Hz] A hang színezetére jellemző származtatott mennyiség a beszéd intenzitásszint sűrűség spektrumA beszédhangok megkülönböztetésében van lényeges szerepe. A megváltozott színkép tükrözője lehet a beszélő állapotának, jellemzi a beszélőt is; férfi, nő, vagy gyermek beszél-e.

4. Időtartam, tempó, szünetek [sec] A beszédhangok, a beszédhangátmenetek időtartama a beszédhangok időtartam arányaifontos jellemzői a beszédnek.

A beszédben az akusztikai összetevők a legváltozatosabb módon kombinálódnak, s lehetővé teszik, hogy a beszéd mint komplex akusztikai jelzés az árnyalt és differenciált közlés eszköze legyen.

Például: - a beszélő hangosabban beszél, a frekvencia-összetétel is megváltozik. Nagyobb hangerő, a nagyobb frekvenciájú felhangok intenzitása nagyobb mértékben erősödik fel. - hangsúlyos beszédrészekben az alaphang magasabb.

Page 82: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

5. Általános beszédszínkép

Page 83: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szegmentális leírás

• Egy beszédhang akusztikai tulajdonságait a gerjesztés típusa és a képzés helye (a hangképző csatorna állapota ) együttesen határozzák meg.

Page 84: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Artikuláció - hangképzőszervi mozgások összessége a beszéd folyamán

Page 85: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 86: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 87: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 88: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 89: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Gerjesztés típusa

Hangszalag rezeg zönge magánhangzók zöngés mássalhangzók: rezonans jellegű mássalhangzók zöngés zörejhangok

Résen kiáramló surlódási zörej réshangoklevegő turbulens zárrés hangok (affrikáták) áramlás

Zárfelpattanás zárfelpattanási zárhangokzörej zárréshangok(affrikáták)

Page 90: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Képzéshelyek 1.

Page 91: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 92: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 93: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Képzéshelyek 2

Page 94: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Képzéshelyek 3.

Page 95: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 96: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 97: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 98: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédképzés akusztikai leírása

Page 99: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A zöngés magánhangzók, és zöngés mássalhangzók

Hangforrás: a rezgő hangszallagRezonátor: a hangképző csatorna

Page 100: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 101: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 102: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 103: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 104: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 105: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 106: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 107: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 108: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 109: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 110: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 111: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 112: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

az átviteli függvény tartalmaz pólusokat és zérusokat(Ray D. 1992)nazális formáns frekvenciája 250 – 300 Hz, a többi formánshely a képzés helyétől függAntiformáns helyek alacsony (750 – 1250 Hz), középső (1450 – 2200 Hz) és magas (3000 Hz fölött) szintén változnak a képzési hellyel. Energiájuk jellemzően kisebb mint a magánhangzóké.

Page 113: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

rezonáns jellegű mássalhangzók. Formánsokkal és antiformánsokkal rendelkeznek, energiájuk jellemzően kisebb, mint a magánhangzóké

Page 114: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Mássalhangzók, réshangok

Hangforrás: szűk résen áthaladó levegő által keltett zörejzöngeműködéssel vagy annélkülRezonátor: a hangképző csatorna

Page 115: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 116: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 117: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Mássalhangzók, zárhangok

Hangforrás:Zárfelpattanási zörejzöngeműködéssel vagy annélkülRezonátor: a hangképző csatorna

Page 118: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

52. ábra

Page 119: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 120: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Akusztikai leírás Akusztikailag összetett

zárképzési tranziens, és zörej, zár, zárfelpattanás zörej

Időtartam, ritmuszár ~ 80 - 100msfelpatt. zörej ~ 5 - 40 ms + aspiration

hosszú mássalhangzó – csak a zár időtartama nő meg, ~ 100 – 300 ms

Page 121: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Mássalhangzók, zárréshangok(affrikáták)

Hangforrás:Zárfelpattanás plussz súrlódási zörejzöngeműködéssel vagy annélkülRezonátor: a hangképző csatorna

Page 122: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

AffrikátákAkusztikai leírás

locus képzési hely szerint

Akusztikailag összetett: zárképzési tranziens és zörej,zár,zárfelpattanási zörej, spiráns zörej.

Időtartam:zár ~ 50-100 msZárfelp és spiráns zörej.~ 50- 100 ms

hosszú mássalhangzó csak a zár időtartama növekszik

Page 123: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

rezonáns jellegű mássalhangzók. Formánsokkal és antiformánsokkal rendelkeznek, energiájuk jellemzően kisebb, mint a magánhangzóké

Page 124: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Magyar beszédhangok rendszere

Page 125: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

• Kialakulásának kezdete az első életév második felére tehető, ekkor jelennek meg a kisgyermek hangadásában az első, percepcionálisan már elsajátított nyelvspecifikus hangzási jegyek. A gyermeki beszéd hangjainak kor szerinti kialakulása az ábrákon látható.

• A magánhangzók kiejtésének fejlődése az életkor függvényében. (Az s.h.c. az adatbázisban szereplő beszédhibás gyermekek mintáit jelenti.) A beszédhangok jelölésére SAMPA szimbólumokat használunk

Page 126: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A réshangok és affrikáták kiejtésének fejlődése az életkor függvényében. (Az s.h.c. az adatbázisban szereplő beszédhibás gyermekek mintáit jelenti.) A beszédhangok jelölésére SAMPA szimbólumokat használunk

Page 127: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

ARTIKULÁCIÓS BÁZIS: A hangképző szervek jellemző

mozgásainak összessége, amelyekkel a nyelvi rendszer elemeit a beszédben

megvalósítjuk. A nyelvileg meghatározott artikulációs bázis a

normatív anyanyelvi kiejtés feltétele.

Page 128: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 129: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 130: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Magyar magánhangzók artikulációs tulajdonságai

Page 131: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Magyar mássalhangzók artikulációs tulajdonságai

Bilabialis

Labio-dentalis

Denti-alveolaris

Pre-palatalis

Palato-alveolaris

Velaris Glottalis

Zárhangok p b t d k g

Réshangok f v s z S Z h

Affrikáták ts dz tS dS t’

d’

Nazálisok m n

Likvidák lr

j

Rövid és hosszú mássalhangzókA mássalhangzó hosszúság a magyar nyelv sajátossága. Minden mássalhangzó lehet fonémikusan rövid, vagy hosszú (iker); halott /hּכlot:/ hallott /hּכl:ot:/hal /hּכl/ hall /hּכl:/sok /ok/ sokk /ok:/

Page 132: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szupraszegmentális leírás,A beszéd zenei elemeinek leirása

HANGLEJTÉS, HANGSÚLY, BESZÉDTEMPÓ, SZÜNETEK, HANGSZÍN

Hanglejtés: Hangmagasság szintje, másfelől a hangmagasság-változás irányát, a hangmenetet. A hangmagasság változás három lehetséges iránya, az ereszkedés, a szinttartás és az emelkedés

A tonális nyelvekben tehát a hanglejtés a szó szintjén önálló nyelvi tényezőként működik.Európában beszélt nyelvek közül a szerbhorvát, a litván, a svéd és a norvég. Pl. a norvégban a kokken fonémasor attól függően jelenti azt, hogy ’szakács’ vagy azt, hogy

’főzni’, hogy végig emelkedő dallammal, avagy ereszkedő dallammal mondjuk-e ki.

A monoton nyelvekben, amilyen a magyar is, a hanglejtésnek a mondat szintjén teljesedik ki a funkciója, ennek megfelelően egy szónak a hanglejtése attól függően ereszkedő, szinttartó vagy emelkedő, hogy milyen típusú mondatban, annak mely pontján és milyen mondattani szerepben áll.

Page 133: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

MimEd’mO: mozibOn?

kOtizEnel?

Page 134: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 135: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hangsúly, lehet akár az intenzitás, akár az időtartam, akár a frekvencia csúcsértéke.

Hogy hangsúlyt észleljünk a megnyilatkozásban (a hangerőváltozás irányát (gyengülő, szinttartó, erősödő), a szótagok között 10 dB feletti hangerőkülönbségnek és kis tercet meghaladó hangközkülönbségnek kell lennie.

Kötött hangsúlyról beszélünk, amikor a hangsornak mindig ugyanazt a sorszámú szótagját emeljük ki. A magyar nyelvben mindig a szó első szótagja viseli a hangsúlyt. A francia nyelvben, pl. mindig az utolsó szótagon, a lengyelben az utolsó előtti szótagon van a hangsúly.

Szabad hangsúlyról beszélünk, ha a hangsúly helye szavanként változik, pl. az angol nyelvben.

Page 136: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Időtartam és beszédsebesség

A beszédtempó: az időegységre jutó beszédhangok, szótagok, ritkábban szavak száma fejezi ki és egy nyelvközösségen belül viszonylag állandó jellemző.

A szünet és a szünethordozókA szünet – a közlemény szerkezeti és értelmi-logikai tagolásának elsőrendűen fontos eszköze – alapvetően biológiai funkcióhoz kapcsolódik, a belégzéshez.

A szünet érzetét objektív és szubjektív oldal együttes elemzése adja meg.

A magyar nyelvben általában az alábbi szünetérzetét keltő jelenségek fordulnak elő:

akusztikai jelkimaradás,a hangfolyamatra jellemző alkalmazkodások elmaradása,szókezdő vagy szóvégi beszédhangok megnyújtása,Gégezárhang (glottális zár) a szókezdő magánhangzó előtt (kemény hangindítás),kiemelkedő nyomatékú hangsúly,a hangmagasság hirtelen változása (felszökése vagy leesése),a tempó lefékezése,gondos artikuláció

Page 137: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 138: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 139: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 140: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédjel/beszédszünet detektálás mint lényegkiemelés

A gördülő energia számítása:

n

Nnm

n msN

E1

21

ahol N az ablak mérete, s(m) a mintasorozat.

A gördülő átlagos magnitúdó a gördülő energiához hasonlóan alkalmazható:

n

Nnm

n msN

M1

1

gyorsabban számolható

Page 141: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Zöngés/zöngétlen detektálás mint lényegkiemelés, és az alapfrekvencia

meghatározásának módszerei

• A gördülő energia kiemeli a nagy amplitúdójú (többnyire zöngés) jelszakaszokat. Zöngés és zöngétlen szegmensek tipikus gördülő energia sűrűségfüggvénye.

Zöngés és zöngétlen beszédszegmensek tipikus gördülő energia-sűrűségfüggvénye

A számottevő átlapolódás miatt a zöngés/zöngétlen detektálásra önállóan nem használatos.

Page 142: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A gördülő-nullátmenet (zero crossing) függvényt a

• az n-edik beszédmintát megelőző NT időtartamban az előjelváltások számát jelenti.

• Ha Zn-et N-el osztjuk, a gördülő átlagos nullátmenetfüggvényt kapjuk.

1sgnsgn2

1

1

msmsZn

Nnmn

1sgn ms ha ,0ms

,0sgn ms ha 0ms

00

1

TF frekvenciájú szinuszos jelekre a gördülő nullátmenetfüggvény értéke:

0

2

T

NTZn körül ingadozó egész szám.

Page 143: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

• Zöngés és zöngétlen beszédjelszegmensek tipikus nullátmenet-sűrűségfüggvénye

Page 144: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszédjel periodicitása kiemelhető az ún. középkivágás

segítségével

• a) eredeti beszédjel-idő függvény• b) pillanatnyi vágási karakterisztika• c) középen vágott beszédjel

A pillanatnyi vágási szintet mindig az időablakban mérhető maximális

jelamplitúdóhoz kell igazítani.

Page 145: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A gördülő autokorrelációs függvény:

• A 10…30 ms időtartamhoz tartozó N értékek adnak jó gyakorlati eredményt.• A k változót 0…25 ms tartományban célszerű felvenni.

.1

1

kmsmsN

kRn

Nnmn

Zöngés és zöngétlen beszédjelszakaszok gördülő autokorrelációs függvénye

Page 146: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

• Eredeti és középen vágott zöngés beszédjelszakasz gördülő autokorrelációs függvénye

Page 147: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A gördülő átlagos magnitúdókülönbség-függvény (Short-time

Average Magnitude Difference Function – AMDF) • a zöngés és zöngétlen jelszakaszok szétválasztására és az alapfrekvencia

meghatározására.

.1

1

n

Nnmn kmsms

NkD

Az AMDF a periódusidőnek megfelelő k értékeknél nem lapos maximumot (mint az autokorrelációs függvény), hanem éles minimumot ad. Fő előnye abból származik, hogy egyszerű aritmetikai műveletekkel számítható. A gyakorlatban k függvényében több minimumot is felmutat, kijelölhető a főminimum. Az ehhez tartozó km értékből az alap-periódusidő: , ahol T a mintavételi időköz.

Page 148: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

• Zöngés és zöngétlen beszédjelszegmensek gördülő AMDF függvényei

Page 149: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Zöngés/zöngétlen jelszakaszok detektálására és az alapfrekvencia meghatározására felhasználható jellemző

a lineáris predikció e(n) hibafüggvénye. • A zöngétlen esetekben zajszerű, zöngés szakaszoknál periódusonként

kiugró értéket vesz

Beszédjel-idő függvény és a lineáris predikció e(n) hibafüggvénye zöngésJelszakaszoknálA legújabb és legeredményesebb próbálkozások a fent említett módszereket összetetten alkalmazzák.

Page 150: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Cepstrumanalizis• A teljesítményspektrum logaritmusának inverz Fourier

transzformáltja.

A cepstrum meghatározásaFőként alaphang meghatározásra használjuk.

Page 151: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 152: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédadatbázsok

Létrehozásuk a véletlenszerű folyamat egyes megvalósulásainak összegyüjtése

Az adatbázisok számítógép segítségével létrehozott,- tárolt és a szükséges magyarázó jegyzetekkel,

címkézésekkel és átírásokkal ellátott beszédfelvételek gyűjteményei.

Page 153: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 154: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

1. Beszélőn belüli variálhatóság,

2. Beszélők közötti variáltság,

3. Környezeti hatások:statikus, dinamikus

Page 155: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 156: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 157: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédfelismerők, betanításához szükséges adatbázisok osztályozása a beszéd variáltsága függvényében

beszélőfüggőség: függő, független

beszélőadaptáció

beszédegység: szó, folyamatos felismerés, kapcsolt szavak

beszédtempó: lassú, normál, gyors

extra, nem nyelvi kapcsolatú hangok: nyelés, köhögés

szótárméret: felismerendő elemek száma

Page 158: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az adatbázisok tervezése

Az adott feladathoz legjobban illeszkedő adatbázis kiválasztásánál az alábbi szempontokat kell figyelembe venni:

a felvételek és a rögzítés pontos fizikai leírását,

a felvett anyag nyelvi jellemzőit,

az adatbázis méretét,

a beszélők szoció-, lingvisztikai adatait,

az adatbázis feldolgozási módját

Page 159: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 160: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 161: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Méretbeli jellemzők

Beszélők száma szerint külön adatbáziscsoportok léteznek.

Kevés beszélő adatbázisa pl. beszéd szintézis fejlesztés céljait szolgálja. Lényeges jellemzője a lehető legnagyobb fonetikai variáltságú anyag összegyűjtése. Az anyagban hangsúlyozottan szerepet kapnak a beszéd mikroszegmentális jellemzői. Rendszerint a bemondást szakértő végzi.

Adatbázis közepes számú beszélővel a felismerésénél használt modell paraméterek becslésére szolgál. Éppen ezért a nyelvi szöveg variáltsága nagy. Általában csendes helyiségekben történik a felvétel. Beszélők száma kisebb, mint 50.

Adatbázis sok beszélővel: Ezek az adatbázisok a beszélő független felismerők betanítására szolgálnak. A beszédstílus, és a rögzítési körülmények nagy variáltsága szükséges.

Szocio-lingvisztikai jellemzők

Ebbe a csoportba tartoznak azok a jellemzők, amelyek főleg a bemondók leírására szolgálnak. Férfiak, nők, dohányoznak, nem dohányoznak. Anyanyelvükön történik-e a bemondás. Tájszólások vannak e rögzítve az adatbázisban. Milyen a koreloszlás a bemondók között.

Page 162: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 163: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Adatbázis nyelvi feldolgozása

Nyelvi információ tartalmát is rögzíteniük kell

--- hullámforma tárolása + ortografikus karakterek.

---különböző zajok, embertől származóak,- vagy környezetiek bejelölésre kerülnek a legtöbb adatbázisban, vagy a szöveganyagban, vagy magában az időfüggvényben

Adatbázis nyelvi feldolgozása

Nyelvi információ tartalmát is rögzíteniük kell

--- hullámforma tárolása + ortografikus karakterek.

---különböző zajok, embertől származóak,- vagy környezetiek bejelölésre

kerülnek a legtöbb adatbázisban, vagy a szöveganyagban, vagy magában az időfüggvényben.

AnnotálásMinden hangfájl mellé egy címkefájlt készítünk,amely különféle információkat tartalmaz a hangfájl paramétereivel és tartalmávalkapcsolatban: az elhangzott szöveg ortografikus lejegyzését, hibás kiejtést, nem érthetőszavakat, szótöredékeket, a beszélő nem beszédből származó hangjait, környezetizajokat, stb. (Wells, J. 2001).

Szegmentálás és címkézésNyelvi egységek pontos időbeli bejelölése a hullámformába, és a megfelelő időszakaszokhoz karakterszimbólumok rendelése

Fonémahatárok bejelölése ----------------------- SAMPA fonémaszimbólumok rendelése a megadott szakaszhoz

Page 164: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Akusztikai jelek fonetikai átírásafolyamatos beszédet pl. beszédhang egységekben kvantálják, bejelölik a beszédhangok elejét és végét, valamint beírják a beszédjelhez tartozó írásos szimbólumokat. IPhA és SAMPA szimbólumkészletA fonetikai átírásnak számos szintje létezik:Kanonikus fonetikai átírás: Az adott szöveg karaktereinek olyan átírása, amelyben az ortografikus karaktereket fonémák sorozatára alakítjuk ki, de az adott szövegkörnyezetet nem vesszük figyelembe. Tehát a hasonulás és a koartikuláció nincs figyelembe véve.Fonotipikus fonetikai átírás: A karakterek átírását, az adott nyelv fonetikai szabályainak alapján végezzük, a szövegkörnyezet függvényében (pl. A hasonulási szabályok figyelembe vételével).Hallás alapján történő fonetikai átírás: A figyelmesen lehallgatott szöveg hallás alapján történő lejegyzése. Tehát itt, az írott szöveg figyelembe vétele nélkül, kizárólag a hallott hangok kerülnek lejegyzésre. Audio-vizuális fonetikai átírás: A fonémáknál kisebb egységek alapján történik az átírás, a közel stabil akusztikai-fonetikai részek bejelölésével. Az átírást a szöveg hallgatása, és az időfüggvény vagy a színkép elemzése alapján hajtják végre.

Page 165: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 166: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 167: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 168: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 169: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

BABEL SpeechDat-EMTBA MRBA

SPECO gyermek adatbázis

forrás mikrofon vonalas telefon

vonalas telefon, mobil mikrofon, hangkártya(PC hangbemenet)

mikrofon, hangkártya(PC hangbemenet)

formátum 20 kHz, 16 bit 8 kHz, 16 bit (ISDN) 8 kHz, 16 bit 16 kHz, 16 bit 20050 Hz, 16 bit

rögzítési környezet

Süketszoba (tiszta beszéd)

iroda, lakás, utca, telefonfülke stb.

iroda, lakás, utca, telefonfülke stb.

iroda, lakás, utca, telefonfülke stb.

süketszoba

bemondás módja

olvasott szöveg80% olvasott, 20% spontán szöveg

80% olvasott, 20% spontán szöveg

olvasott szövegolvasott, utánzott szöveg

szövegtípushangkapcsolatokszámok, szavakfolyamatos szöveg

betűzött szavakdátumok, pénzösszegekszámok, telefon- és hitelkártyaszámokszavak, tulajdonnevek, folyamatos szöveg

betűzött szavakdátumok, pénzösszegekszámok, telefon- és hitelkártyaszámokszavak, tulajdonnevek, folyamatos szöveg

folyamatos szöveg

kitartott beszédhangokhangkapcsolatokszámok, szavakmondatok

bemondók száma

60 1000 500332

76

feldolgozásfonotipikus átírásfonémaszintű szegmentálás

karakteres leírásnincs szegmentálászajok, hibák jelölése

--Szavak karakteres leírásnincs szegmentálászajok, hibák jelölése.--folyamatos szöveg fonémaszintű szegmentálása cimké és cimkézése

--Anyag 66%-a karakteres leírásnincs szegmentálászajok, hibák jelölése.-- Anyag 33%-a fonémaszintű Szegmen- tálása és cimkézése

fonotipikus átírásfonémaszintű szegmentálás

Magyar beszédadatbázisok összefoglaló adatai

Page 170: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 171: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Magyar hiranyag adatbázis

Kép, hang együttes kezelése

A feldolgozás elvei:A lejegyzés a magyar nyelv helyesírási szabályainak megfelelően készült formai követelmények figyelembe vételével.

Az annotálás során idő szerint bejelölésre kerülnek a híranyag akusztikai és tartalmi egységei.

Page 172: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Formai követelmények:Nagy kezdőbetű, mozaikszavak,stb.A számokat betűvel, a megfelelő magyar helyesírással Kiejtési jellemzők:Bakik:Tartalmi egységek:Szekciók:

A teljes hanganyagot szekciókra osztjuk fel. Egy szekcióban tartalmilag azonos híranyag kerül.

Beszélők:Egy hírműsor során több riporter, riportalany is megszólal. Fontos, hogy egy műsor alatt a beszélőket meg tudjuk különböztetni egymástól, illetve tudjuk, hogy mely riportokban szólalt meg ugyanaz a személy.

Frázisok:Frázisok közötti szünetek:

Page 173: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 174: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Akusztikai egységek:

Zajok:észrevehető, nem a hangképzéshez tartozó zajok, zörejek. A legtöbb esetben belégzésről, kilégzésről ,nevetésről, torokhangról, szájzörejről beszélhetünk, de ide tartozott a papírcsörgés és a mikrofonzaj is.

Beszéd akusztikai jellemzői:A beszéd lehet előre „tervezett”, vagy „spontán”,

stúdióminőség és telefonminőség.

Szignálok:A hírműsorra jellemző szignálokatHáttérzajok:– háttérhangokat, háttérzajokat – háttérhangoknak négy változata lehet, „zene”, „beszéd”, „sistergés” és „egyéb”

Page 175: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 176: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Nelvfüggetlen automatikus szegmentáló egység egység alapkoncepciója: amennyiben a bemondott hangsorban az akusztikailag közel homogén részek automatikusan szegmentálhatók és a bemondott szöveg betűkkel való leírása ismert, akkor a betűk a hanganyagban automatikusan bejelölhetők. A beszédhangok egy vagy több akusztikailag kvázi homogén részből épülnek fel. Ezek a kvázi homogén részek 9 osztályba sorolhatók, mégpedig

1. mvow mély és közepes magánhangzók

2. hvow magas magánhangzók

3. spir+ zöngés réshangok

4. spir- zöngétlen réshangok

5. nali - rezonáns mássalhangzók

6. burst+ zöngés zárfelpattanási zörej

7 .burst zöngétlen zárfelpattanási zörej

8. voice zöngés zár

9. unvoiced zöngétlen zár

Page 177: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Mivel a karakterek mesterséges fonetikai átírásánál pontosan tudom a beszédhangok határáit, ezért amikor a hanganyagot illesztem ehhez a modellhez, akkor hanganyag hullámformájába

is be tudjuk jelölni a hangok határait.

Az automatikus szegmentálási eljárás blokkvázlata

Page 178: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

kimeneti rétegkimeneti réteg

rejtett réteg

bemeneti rétegbemeneti réteg

t=10 mst=10 ms

tt11tt-1-1 tt00tt22

11 1919 2020 3838 3939 5757 5858 7676 7777 9595tt-2-2

11 99

tt00

11 4545

Osztályozás neurális hálóvalAz időkeretek besorolását a 9 akuszto-fonetikus osztályba egy rejtett rétegű visszafelé terjedő algoritmussal dolgozó neurális hálóval. A bemeneti csomópontokra időkeretenként a szűrőkimenetek kerülnek. Egy középső t0 időkeret a bemeneten 5 időkerettel van jellemezve a megelőző kettővel és a követő kettővel együtt. Ugyanis az artikuláció egy folyamatos mozgás, ahol az adott állapotot a megelőző és követő állapotok befolyásolnak. Így tehát a háló bemenetére

Page 179: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Tanítóanyag méretének hatása a szegmentálás pontosságára (az adatok a 25 ms-os eltérési határra vonatkoznak)

Nyelv Angol Magyar Angol Magyar

Tanítóanyag 4 paragrafus (2 nő és 2 férfi, 20 mondat)

4 paragrafus (2 nő és 2 férfi, 20 mondat)

4x4 paragrafus(8 nő és8 férfi, 80 mondat)

4x4 paragrafus(8 nő és8 férfi, 80 mondat)

Felismerési anyag 4 paragrafus (2 nő és 2 férfi, 20 mondat)

4 paragrafus (2 nő és 2 férfi, 20 mondat)

4 paragrafus (2 nő és 2 férfi, 20 mondat)

4 paragrafus (2 nő és 2 férfi, 20 mondat)

Rezonáns mássalhangzó 83% 76% 85% 77%

Réshang 95% 88% 94% 91%

Összes fonéma 83% 85% 83% 86%

Page 180: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

fejlesztéséhez szükséges angol, svéd, szlovén és magyar beszédadatbázis szegmentálására jól használható

volt.

Táblázat Magyar szöveganyag szegmentálásának pontossága a betanító anyag típusa szerint

Nyelv Magyar (H)

Betanító anyag típusa

Magyar (H)

Bolgár (B)

Német (G)

Vegyes

H_E

Vegyes

H_E_B

Vegyes

H_E_B_G

Rezonáns mássalhangzó

76 72 68 74 78 76

Réshang 88 93 88 86 87 90

Összes fonéma 85 79 80 83 86 85

Page 181: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hangok a zárt térben

Körülöttünk lévő nyitott vagy zárt terek akusztikailag Befolyásolják, megváltoztatják a beszédkeltéskor keletkezett

levegőben terjedő mechanikai beszédhang hullámokat, így hallószervünkbe jutó hang tulajdonságait.

A zárt terek befolyása nagyméretű, de nem köztudott.

Page 182: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Közvetett hang, közvetlen hang alakulása

Hangminőséget befolyásoló tényezők:közvetlen hang intenzitásától Idközvetlen/közvetett hang intenzitás arányától Id/Ikhangintenzitás térbeli eloszlásától I, I1, I2, I3, I4hangforrás irányhatásától α

64. ábra

Page 183: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

t

p

berezg. idő utórezg. idő

65. ábra

Zárt térben elhaló hang teljesítményének elemi csökkenése:

Page 184: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

(Tarnóczy, 1986)

Page 185: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Az utózengési időT = utórezgési idő az az időtartam, amely alatt a hang intenzitásszintje 60 dB-t csökken.

Termekben a termek adataiból kiszámítható.

a = összes felület hangelnyeléseα = hangelnyelési tényezőI = közvetlen int.Iv = visszavert int.

dBI

I60lg10

0

n

iiiA

Vm

a

V

m

sT

1

3 16,0][16,0

Page 186: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Utózengési idő alsó határa FÜL LECSENGÉSI TEHETETLENSÉGE, amelyAmpl. e-ed részre való csökkenése definíció szerint.Ez az időtartam mélyfrekvencián 50 ms.

Táblázat: Legmegfelelőbb utózengési idő [s] beszédcélú termekre normális és emelt hangú beszédteljesítmény mellett

Körülmények100 m3

300 m3

1000 m3

3 000 m3

10 000 m3

zajmentes terem 0,64 0,75 0,84 0,97 1,13

20 dB elfedést okozó teremzaj 0,90 1,05 1,22 1,40 1,60

40 dB elfedést okozó teremzaj 1,31 1,56 1,85 2,14 2,48

40 dB elfedést okozó teremzaj, 6 dB-el emelt hangerő

0,96 1,12 1,3 1,48 1,72

Tmin = 6,9 x 0,05s ~ 0,35 s

Ennél rövidebb T-t tervezni értelmetlen.

Page 187: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

(Tarnóczy, 1986)

Page 188: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Érthetőség

Hallás útján felismert beszédelemek száma Érthetőség = __________________________________

az összesen közölt elemek száma

beszédelemek: hang, szótag, szó, mondatbeszédérthetőség: értelmes szövegre vonatkozik, rendszerint szavakralogatomérthetőség: értelmetlen szótagok –

adott nyelv hangtani szabályai szerint alkotott szótag a logatom

Az érthetőség vizsgálatok célja: - valamely átviteli rendszer gyakorlati elbírálhatóságának eszköze - szabad v. zárt tér akusztikai viszonyainak megismerése - személyek, csoportok hallás ill. megértőképességének vizsgálata

(hallássérültek vizsgálata, beszédpszichológia) - személyek szövegkiejtési képességének vizsgálata - beszédelőállító berendezések hanghűségének vizsgálata: - telefonátvitel jósága, beszédtömörítés jósága,

- beszédszintetizálók minősége, stb.

Page 189: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Eredmények a körülményektől függnek – ezeket rögzíteni kell.

A szövegközlés és megfigyelés körülményei:

átviteli rendszer – átvitt jel hangereje, rendszer átviteli jelleggörbéje, torzítási tényezői, külső-belső zajok nagysága, színképe

szabad v. zárt tér – tér energiaeloszlási képe, utózengési idő, zajok erőssége – színképe

hallás megértésképesség – tér akusztikai viszonyai, zajok erőssége, színképe, személyek hallóképessége

Page 190: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Érthetőség vizsgálat szabad, v. zárt akusztikai térben

érthetőséget befolyásoló tényezők:hangerő k1

zavaró zaj k2

frekvenciakorlátozásk3

utózengési idő k4

E% = 100 k1 k2 …kn tényezők összeszorzása

a) jó akusztikai állapotEbeszéd= szóérthetőség

Eszótag 85% Ebeszéd ~ 97%

b)megfelelő akusztika

Eszótag 75% Ebeszéd ~9 4%

c) rossz akusztikai helyzet

Eszótag 65% Ebeszéd ~ 90%

Page 191: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szubjektív akusztika

A beszédhang fizikai jelenség, számunkra csak a fülünkön keresztül válik valósággá.

Hogy valójában milyen lesz a hang, amit meghallunk függ: 1. fizikai valóságtól

2. hallás tulajdonságaitól, képességeitől.

Page 192: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A fül szerkezeteA fül akusztikai, mechanikai, hidrodinamikai elektromos jelátalakító, idegvezetési és agyi szerkezet.

Page 193: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Külső fül védő, hangoló szerep2,5 – 2,7 cm hosszú, rezonancia ~ 3500 Hz-en.Középfülvédő, illesztő szerep (A levegő és a belső fülben lévő folyadék között nagy az akusztikai impedanciabeli különbség. A középfül biztosítja az illesztést a két különböző közeg között olyan jól, hogy pl. 800 Hz-en gyakorlatilag veszteség nélkül jut be a mechanikai rezgés a belső fülbe, az akusztikai ellenállás megközelítőleg egyenlő a levegőével)csontocskák 2-8 mm, rezgést továbbítják a dobhártyától a belső fül hártyás ovális ablakáradobhártya Ø: 55 mm2 ovális ablakkerek ablak

ovális ablak Ø: 3,2 mm2

Page 194: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Belső fül

Page 195: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

(Helicotrema)

Page 196: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 197: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 198: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

74. ábra

(Tarnóczy, 1984)

Page 199: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A belső fül három lényeges működési tulajdonsága:a) a frekvencia az alaphártyán helyfüggvénnyé váltb) mechanikai energia elektroenergiát szabadít feld) az idegek már nem az eredeti jelnek megfelelő (analóg) formát viszik át, hanem periodikusan egymást követő rövid kisüléseket indítanak el és vezetnek föl az agyba

Impulzusszerű kisülések un. AKCIÓS POTENCIÁL:

Intenzitás, impulzussorozatok sűrűségébe megy át. Impulzussűrűség egy ideghártyán ~ 800 Hz, nyugalmi helyzetben 1-100 Hz kb.

Hangjel időkésése a dobhártyától az agykéregig 3-5 ms.

Egy impulzusszerű kisülés: 1 ms időtartamú, néhány μV nagyságú (a csigából kilépve egy belső szőrsejtből 20 idegszál indul el)

Fölmenő idegszálak: 95% a belső szőrsejtekből indul, 5% külső szőrsejtekből gyűjti az információt10 külső szőrsejtet fog össze egy idegszál Leszálló rendszer: szabályzó utasításokat közöl az érzékelő szőrsejtnekoldalirányú gátlás alakul ki

Page 200: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Békésy halott állatokon kísérletezett

Dallos élő cochleában végezte méréseit.Fölmenő idegrostokban mért hangolási görbéket, amelyekéles frekvenciaszelektivítást mutattak.

Baziláris membrán kitérése is jóval élesebb, mint Békésy feltételezte.

Az aktív energiaigényes vibrációerősítő tevékenység hangjelenséggel jár – hallócsontokon keresztül kisugárzódik – otoakusztikus emisszió.

Page 201: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hallóidegek agyba vezetése

Mind a föl, mind a leszálló ágak keresztezik egymást.A bal fülben beadott jel 80-85% a jobboldali agyfélteke homloklebenyébe fut és viszont.

A két homloklebeny nem szimmetrikus: bal féltekén időbeli megfejtés, beszéd-feldolgozás történik,

jobb félteke a térbeli információ, színképi megfejtés helye (zene).

Page 202: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A két homloklebeny nem szimmetrikus: bal féltekén időbeli megfejtés, beszéd-feldolgozás történik,

jobb félteke a térbeli információ, színképi megfejtés helye (zene).

Page 203: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szubjektív akusztika

A hangélmény kialakulásával, leírásával foglalkozik

Page 204: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A fül nem lineáris átviteli rendszer.

HANGÉLMÉNY KIALAKULÁSA

fizikai paraméterek:

hangérzet paraméterei:

Intenzitás

Frekvencia

Színkép

Időtartam

Irány

stb.

Φ

érzék-szerv

ideg-vezetés

agy-működés Ψ

Hangosság

Hangmagasság

Hangszínezet

érzékelt időtartam

érzékelt irány,

stb. nO .......)( 21

O = műveleti szabály

Page 205: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

78. ábra78. ábra

Page 206: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Észlelési küszöb: Különböző típusú hangérzet paraméterek éppen észlelhető különbségeiről akkor beszélünk, amikor a lehallgatók 75%-a már azt állítja az adott paraméterekről, hogy különböző.

Intenzitásban: t 250 ms 60 dB intenzitásszintű zaj impulzus esetén, 0,3-1 dB, kisebb intenzitásszintnél 1-3 dB

t 250 ms az ép észlelhető különbség még nagyobb érték

Frekvenciában: t 100 ms szinuszos hang esetén 1 kHz alatt 1-3 Hznagyobb frekvencián progresszíven nő: pl. 8 kHz-en 100 Hz

t 100 ms, vagy I 20 dB szinuszos hang esetén, ezek az értékek nagyobbak

t 250 ms szinuszos hang esetén 850 megkülönböztethető frekvenciaszint lehetséges; keskenysávú zörej esetében ~ 132.

t ~ 10 ms szinuszos hang esetén csak 120 frekvenciaszint lehetséges.

Page 207: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 208: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

80. ábra

Page 209: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 210: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Időbeli elfedés

Page 211: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Kritikus hallási sávok

1000 Hz alatt ~ 100 Hz állandó sávszélesség, 1000 Hz felett a sáv középfrekvenciájával arányos a sávszélesség, kb. 1/3 oktáv.

2

5,7arctan5,376,0arctan13

kHz

f

kHz

fz

Page 212: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 213: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Összehasonlító hangosság

Külön egymásután megszólaltatott hangok közötti hangosságviszonyt fejezi ki.

Fletcher kísérlet

Együtt szól 10 db 60 dB-es szinuszos hang, melynek együttes intenzitás szintje 70 dB összesen.

10 db 500 Hz 1000 Hz 1500 Hz … 5000 Hz szinuszos hangok 60 dB 60 dB 60 dB 60 dB hang

egyformán hangos 1 db 90 dB intenzitásszintű 1000 Hz-es szinuszos hanggal

Page 214: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

10/)40(2 PS

SP lg3

10040

Page 215: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Összeg hangosság

Egyszerre megszólaltatott hangok hangossága. Kritikus sávok összefoglaló képessége és az elfedés nagymértékben befolyásolja az érzetet. A jelenség igen összetett.

• a “son” összegzés érvényes ha elég távoli frekvencián szólnak a részhangok.

• ha az összetevők intenzitása nagyon különbözik – elfedés

• elfedés hangosságfüggő – erősebb hangoknál nagyobb mértékű

Page 216: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hangmagasság

Zenei (harmonikus) hangköz

~

arányos két hang frekvenciahányadosának logaritmusával. Színtérték!

Oktáv – frekvenciaarány 2ld2 = 1 oktávEgyenletesen temperált félhang 12 részre osztást jelent, tehát frekvenciaaránya

1

2

ff

lg

059463,1212

Page 217: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

85. ábra

(Tarnóczy, 1982)

Melodikus hangmagasság

Page 218: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Beszédészlelés(percepció) és beszédmegértés

A fonetikai szint beszédhangjait tehát a variabilitás jellemzi!!!!!! míg az absztrakt fonémák észlelése nem képzelhető el invariabilitás nélkül!

-másképp hogyan lennénk képesek a beszédben előforduló sok száz hangot ötvennél kevesebb fonémához hozzárendelni? A beszédpercepcióval foglalkozó kutatások fő célja

a beszédhangok képviselte sokféleségben azokat az ún. felismerési kulcsokat megtalálni, amelyek az emberi agy számára lehetővé teszik a releváns jegyek felismerését és a redundáns jegyek figyelmen kívül hagyását.

Más szóval a beszédpercepció a pszicholingvisztikai modellek fonológiai és fonetikai szintje között található részfolyamatokat igyekszik leírni és modellezni.

Page 219: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Hanginger – hangészlelet – beszédészlelés – azonosítás – megértésa bejövő információ és az elraktározott információközötti interakció eredménye

Percepciós bázis

Minden nyelvnek saját percepciós bázisa van – szoros korrelációban az artikulációs bázissal – az anyanyelv elsajátítása során alakul ki.

Percepciós bázison azt a nyelv specifikus működésmechanizmust értjük, amelyek során az elhangzott közléssorozatot feldolgozzuk, mégpedig úgy hogy a nyelvi sajátosságok a meghatározóak, és hatnak a fiziológiai rendszer működésére (Nemser 71, Manszewski 75, Glucksberg-Danks 75)

Page 220: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

nyelv-

specifikus

nyelvfüggetlen

ASSZOCIÁCIÓKÉRTELMEZÉSE

BESZÉDMEGÉRTÉS

szemantikai szintaktikai elemzés

BESZÉDÉSZLELÉSfonológiai szintfonetikai szint

akusztikai szint

HALLÁS

BESZÉDMEGÉRTÉS HIERARHIKUS MODELLJE

Page 221: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszédészlelési folyamat működése- Akusztikai szint

energia – hangosság,frekvencia – hangmagasságszínkép - hangszín

-Fonetikai szintű döntések például:

F2 formáns határozza meg a magánhangzók hangmagasságérzetét

F1 F2, formánsok határozzák meg a beszédhang típusát, az F3 inkább a beszélőre jellemző.

87. ábra

Page 222: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

88. ábra

(Vics)

Spiráns hangok időtartam csökkentése (pl. CV kapcsolatban) azonos képzési helyen képzett affrikáták, majd zárhangok érzetét keltik.

Page 223: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Fonológiai szintű döntések például:Eva bátyja allergiás lett a [me:stØl].Csak az értelmezés határozza meg hogy mézről, vagy mészről van e szó.

A szegmentálás problémája:nyelvspecifikusbeszédészlelés és megértés folyamatainak funkciójaa szegmentálás készsége az anyanyelvi elsajátítás során fejlődik kiszoros összefüggés az elhangzó beszéd akusztikumával

Page 224: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 225: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 226: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A BESZÉD SZÁMÍTÓGÉPES FELDOLGOZÁSA

A beszéd számítógépes feldolgozásánál (beszédtechnológiában beszédkommunikáció körfolyamat egyes funkcióit ellátó egységek mesterséges eszközökkel való kiváltása történik.

Az egyik fő célja az ember-gép közötti párbeszéd lehetővé tétele.

Ezen párbeszéd minél tökéletesebb megvalósításakor nem csak használható, az emberi tevékenységeket támogató eszközök jönnek létre, hanem a megvalósításhoz végzett kutatások, elért eredmények segítenek abban, hogy minél jobban megértsük az emberi beszéd létrehozási és érzékelési eljárásait, az emberi beszéd kommunikációban. Az ember-gép közötti párbeszéd megteremtése ma többnyire a beszélt nyelvi interfészek megvalósításával történik. Egy beszédinterfész megvalósítása a felhasználó saját nyelvén az ideális. A beszélt nyelvi interfészek sok különböző technológiát és alkalmazást foglalnak magukban. Egy tipikus automatizált beszéd-dialógus rendszer fő komponensei láthatók az ábrán.

Page 227: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Egy tipikus automatizált beszéd-dialógus rendszer fő komponensei

Page 228: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Napjainkban az intelligens kommunikációs és információs eszközök (pl. mobiltelefonok, kézi számítógépek, stb.) mérete egyre csökken, míg funkcióik szaporodnak és kezelésük bonyolultabbá válik. A hagyományos eszközök (pl. egér, billentyűzet) kényelmetlenek, vagy a feladat velük meg sem oldható. A beszéddel történő információ csere az egyetlen, ami a kis fizikai méret mellett is megvalósítható megoldásnak tűnik.

Page 229: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A beszéd szintézise

1. Kötött szótáras beszéddel válaszoló rendszerek • "tárolt" beszéddel --előre meghatározott üzeneteket mondatnak ki a

géppel.• Több tárolt elem összekapcsolásával pl. Számfelolvasó

a betűkép alapján kézenfekvőnek tűnő 20-30 szó-szintű elem helyett 200-250 építőkockára van szükség ahhoz, hogy a 0-999.999.999 közötti tőszámneveket össze tudjuk rakni Néhány ezer különböző üzenet-elemet tartalmazó rendszert (pl. dátum- és pénzösszeg felolvasó, kisebb országok menetrend felolvasása, stb.). emberi bemondáshoz közelítő minőségben megvalósítani.

2. Kötetlen szókészletű szövegfelolvasó rendszerek

Nyelv, szótárkészlet kötött.Szövegfelolvasó (text-to-speech, TTS): adott nyelv köznapi szókincsében

(általában kb. 8-10 éves gyermek szókincsének megfelelő)Üzenet felolvasó (concept-to-speech, CTS): A gépkocsi típusa Többnyelvű TTS (multilingual TTS): azonos program kód (és hardware) kezeli a

különböző nyelvi változatokat, a nyelvfüggő adatok egységes szerkezetű, külső adatbázisban helyezkednek el.Poliglott TTS: azonos hangon szóló többnyelvű TTSKötött tematikájú (domain specific) TTS: csak egy adott témakörű (pl.

menetrend, időjárás, szállodafoglalás)

Page 230: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

Szintetizálási módszerek

1. Formánsszintézis A beszédet elektromos jelekből generálja

2. Hullámforma szintézisEgy beszélő tisztán bemondott szövege alapjánminden elemből csak egy példányt tárolnak, ezért feltétlenül szükség van arra, hogy jelfeldolgozási megoldások segítségével az adott hangrészletet spektrálisan jól leíró jel időtartamát, intenzitását és (zöngés esetben) alapfrekvenciáját a prozódiai mátrixban előírt értékre hozzák

3. Korpuszalapú szintézisegy-egy bemondótól olyan nagyméretű, akár több órányi hanganyagot tartalmazó adatbázist vesznek fel, ami (szinte) minden hangot ill. hangkapcsolatot számos változatban tartalmaz és a szintézis során az adott pozícióhoz valamilyen mérték szerint legjobban illeszkedő változat kerül kiválasztásra.

Page 231: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása
Page 232: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

1. A bemeneti szöveget csak betűket és tagmondat ill. mondathatároló írásjeleket tartalmazó, ún. folyó szöveggé alakítja át.

2. A modul működését segítheti egy szótár (GTG dict), ami rövidítések és speciális kifejezések (pl. @rc kft -> arc káefté) feloldását támogatja

3. 4.Az írott betűk és a kimondandó hangok közötti leképezést végzi el. A beszédszintézisben általában az adott nyelvhez tartozó minimális fonémakészlet helyett a jó minőségű beszédelőállításhoz szükséges, tágabb beszédhang-készletet alkalmaznak (pl. a magyarban külön hangként kezeljük a hosszú és a rövid magánhangzókat, a „h” hang különféle változatait, stb.).

5. Itt kerül sorra a prozódiai vagy egyéb okokból történő hangnyúlások és rövidülések kezelése, beleértve a szünetek megfelelő beállítását is.

Az 5. modul kimenetén áll elő az ún. prozódiai mátrix: az adott bemeneti szöveg alapján, milyen vezérlési információk mellett, milyen hangokat, milyen hosszúságban, milyen intenzitással és zöngés hangok esetén milyen alapfrekvenciával kell megszólaltatni.

6. A hangelem-tár (vagy más néven akusztikai adatbázis) elemeiből állítja össze a prozódiai mátrixban előírtak alapján a szintetizált hullámforma első változatát.

7.az alma szó diád elemei: _a, al, lm, ma, a_ (a _ a szünet jele). 1600 diád esetén 22kHz mintavételi frekvencia és 16 bites lineáris kódolás mellett 6.5Mbyte tárigény keletkezett.

8A modul arra szolgál, hogy az adott alkalmazáshoz illeszkedő formátumra hozza az elemtárból kiemelt, összefűzött (esetleg prozódiailag módosított) elemeket .

Page 233: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A prozódiai mátrix a Profivox fejlesztői rendszerben a „Ki beszél?” mondatra

Page 234: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

A TTS rendszereket az alábbi szempontok szerint értékelhetjük:

•milyen nyelveken szeretnénk felolvastatni•milyen szövegeket –szövegtípus: általános, szakszöveg, e-levél, SMS, stb.

mondattípus: kijelentő, kérdő, felkiáltó, egyéb érzelem kifejezése milyen minőségben

érthetőség (intelligibility)természetesség (naturalness)

milyen paraméterek állíthatóksebességhangmagasságsuttogásrekedtségszünetek hosszabetűzés

milyen platformokon fussonhardwareoperációs rendszer (Windows változatok, Linux, Symbian, stb.)

erőforrásigény, csatornaszám – nem mindegy, hogy mobiltelefonban vagy távközlési szolgáltató központbanmilyen vezérlési felületek, API-k érhetők elbővítési, továbbfejlesztési lehetőségek – mit ad hozzá a felhasználó és mit a fejlesztő, pl. speciális rövidítés-feloldó

milyen támogatást ad a TTS fejlesztő az alkalmazásfejlesztőnek

Page 235: Beszédkommunikáció Beszédinformáció adás-vétel folyamatának tárgyalása

http://speechlab.tmit.bme.hu/teszt/

többnyelvű TTS teszt