28
Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puheentuoton fonetiikan kertausta – p.1/109 Äänet, resonanssi ja spektrit Vfo251 Puhesynteesin perusteet Kev¨ at 2002 – p.2/109 Puhe äänenä Kaikki äänteet ovat luonteeltaan ns. seosääniä. Ts. ne ovat komplekseja ja sisältävät useita taajuuksia. Seosäänet voidaan analysoida osiinsa. Ne koostuvat siniaalloista, jotka yhdessä tuottavat äänelle sen luontaisen spektrin. Äänentuottojärjestelmän resonanssit antavat äänille niiden tunnistettavat luonteen. Puheentuotossa ääniväylän tuottamat resonanssit ovat puheen kannalta kaikkein olennaisimpi piirteitä. Vfo251 Puhesynteesin perusteet Kev¨ at 2002 – p.3/109 Äänen tuotto ja eteneminen Ääni syntyy hiukkasten muuttaessa jonkin ulkoisen häiriön (disturbance) vuoksi paikkaansa aineessa. Ulkoisen toiminnan tuottaman häiriö etenee aineessa sen muodostamien hiukkasten edestakaisena liikkeenä. Puheessa ääni tuotetaan aiheuttamalla paikallinen häiriö ilmahiukkasten liikkeeseen jossain kohtaa ääniväylää. Esim. vokaalien aikana nämä häiriöt ovat äänihuulten välisen raon – glottiksen – umpeutumisesta ja avautumisesta ulosvirtaavaan hengitysilmaan johtuvia pulsseja. Vfo251 Puhesynteesin perusteet Kev¨ at 2002 – p.4/109

Puheentuoton fonetiikan kertausta Vfo 251, …Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puheentuoton fonetiikan

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Puheentuoton fonetiikan kertaustaVfo 251, Puhesynteesin perusteet

Martti Vainio

Fonetiikan laitos, Helsingin yliopisto

Puheentuoton fonetiikan kertausta – p.1/109

Äänet, resonanssi ja spektrit

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.2/109

Puhe äänenä• Kaikki äänteet ovat luonteeltaan ns. seosääniä. Ts. ne ovat

komplekseja ja sisältävät useita taajuuksia.

• Seosäänet voidaan analysoida osiinsa.

• Ne koostuvat siniaalloista, jotka yhdessä tuottavat äänelle

sen luontaisen spektrin.

• Äänentuottojärjestelmän resonanssit antavat äänille niiden

tunnistettavat luonteen.

• Puheentuotossa ääniväylän tuottamat resonanssit ovat

puheen kannalta kaikkein olennaisimpi piirteitä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.3/109

Äänen tuotto ja eteneminen

• Ääni syntyy hiukkasten muuttaessa jonkin ulkoisen häiriön

(disturbance) vuoksi paikkaansa aineessa.

• Ulkoisen toiminnan tuottaman häiriö etenee aineessa sen

muodostamien hiukkasten edestakaisena liikkeenä.

• Puheessa ääni tuotetaan aiheuttamalla paikallinen häiriö

ilmahiukkasten liikkeeseen jossain kohtaa ääniväylää.

• Esim. vokaalien aikana nämä häiriöt ovat äänihuulten

välisen raon – glottiksen – umpeutumisesta ja

avautumisesta ulosvirtaavaan hengitysilmaan johtuvia

pulsseja.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.4/109

Äänen nopeus vs. hengitysilma

• Äänen nopeus ilmassa on n. 330 m/s.

• Se etenee suhteellisen nopeasti verrattuna hengitysilman

virran nopeuteen; n. 0.3 m/s.

• Näin ollen ilmavirran itse aiheuttamat häiriöt – ns.

glottispulssit – etenevät ääniväylässä huomattavasti sitä

itseään nopeammin – n. 1200 km/h vs. n. 1,8 km/h.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.5/109

Yksinkertainen harmoninen liike

Heilurin kaltainen liike

voidaan kuvata tasaisena liikkeenä ympyrässä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.6/109

Harmoninen liike ympyrässä• Yhdenmukainen (uniform) ympyräliike voidaan kuvata

kahden muuttujan avulla: täyteen kierrokseen vaadiittu aika

– periodi ja liikkuvan pisteen etäisyydellä ympyrän

keskipisteestä – – amplitudi.

• Ilmassa etenevän äänen suhteen nämä kaksi ovat

ilmahiukkasten yhden edestakaisen värähtelyn – periodin –

kesto ja niiden liikkeen koko.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.7/109

Heilurin liike

Ajassa heilurin liike

muodostaa siniaallon.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.8/109

Siniaalto

• Siniaallon jakso (periodi) on yhden täydellisen syklin

vaatima aika, joka useinmiten ilmaistaan taajuutena

(frekvenssi) ja edelleen hertzeinä (Hz) = periodia/sekunti.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.9/109

Siniaalto (jatkoa)• Siniaallon liikemäärää kutsutaan siis sen amplitudiksi. Se

on yhtä kuin värähtelyn ekstensio lepotilasta.

• Puheen sisältämät taajuudet ovat 50 Hz:n ja 10 kHz:n

välillä. Ne siis käytännössä kattavat suurimman osan

kuultavista taajuuksista.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.10/109

Siniaaltojen taajuudet

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.11/109

Vaimeneminen• Todelliset värähtelevät järjestelmät eivät koskaan ole

ideaaleja ja niiden tuottama värähtely on aina vaimenevaa.

• Esim. ilman sisäinen kitka aiheuttaa siinä etenevän aallon

amplitudin vaimenemista.

• Sinimäinen vaimentunut aalto ei siis ole puhdas siniaalto

koska sen amplitudi ei ole vakio.

• Vaimentuneet siniaallot voidaan kuitenkin analysoida

joukoksi eritaajuisiksi siniaalloiksi.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.12/109

Resonanssi• Värähtelevä objekti tekee sen aina sille ominaisella

taajuudella – esim. heilurin ns. resonanssitaajuus

määräytyy sen fysikaalisten ominaisuuksien – pituuden ja

painon – mukaan.

• Toinen esimerkki on ilman värähtely pullossa – voimme

saada pullossa olevan ilmapatsaan värähtelemään esim.

aukaisemalla korkki äkkinäisesti tai puhaltamalla viistosti

pullon suulle.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.13/109

Ilman värähtely pullossa

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.14/109

Värähtelyn taajuus• Edellisessä kuvassa kahteen aallon lepotilasta

edestakaiseen matkaan kului 2 millisekuntia tai 1/500 s.

Tämä on siis yhden periodin kesto. Sykli toistuu siis 500

kertaa sekunnissa ja on pullon matalin resonanssitaajuus.

• Edellisen kuvan pullon tuottaman värähtelyn taajuus on

riippuvainen pullon koosta – mitä korkeampi pullo, sen

matalampi ”poksahdus"pulloa avattaessa kuuluu.

• Voimme laskea pullon tuottaman äänen taajuuden äänen

nopeuden ja pullon korkeuden avulla.

• Taajuus:

f =c

λ

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.15/109

Värähtelytaajuuden määrittäminen• Toisesta päästä avoimen putken resonanssin määrittelevät

seuraavat rajoitteet: aallon hiukkasnopeuden pitää olla

suljetussa päässä minimissään ja avoimessa päässä

maksimissaan. Vastaavasti paineen täytyy olla avoimessa

päässä minimissään.

• Resonanssitaajuudet:

f =c ∗ (2n − 1)

4L

jossa n on mikä tahansa kokonaisluku ja L on putken pituus.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.16/109

Resonanssitaajuudet

1/4 λ

3/4 λ

17.5 cm

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.17/109

Hiukkasnopeus vs. paine

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.18/109

Resonanssit puheessa• Puheessä esiintyvät resonanssit tuotetaan edellä kuvattujen

prosessien mukaisesti.

• Vokaaleja tuotettaessa ilmavirtaan glottiksessa tuotetut

”katkokset"etenevät farynksin kautta suuonteloon

paineaaltoina, jotka edelleen heijastuvat takaisin

ääniväylään suuaukolla (käänteisinä).

• Äänihuulet toimivat toisessa päässä heijastavana pintana.

• Tyypillisesti miesäänellä äänihuulipulssin väliin mahtuu

kymmenkunta edestakaista heijastusta – siis n. viisi

periodia.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.19/109

Formantti• Puheessä ääniväylän resonansseja kutsutaan formanteiksi.

Miehillä, joiden ääniväylän keskimääräinen pituus on 17.5

cm, alin resonanssitaajuus – siis formantti – on n. 500 Hz.

• Ääniväylässä – kuten kaikissa putkissa – on myös muita,

taajuudeltaan korkeampia, resonansseja.

• Itse asiassa lähes kaikki äänteet eroavat toisistaan juuri

resonanssitaajuuksiensa ja näin ollen formanttiensa

suhteen.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.20/109

Spektrianalyysi• Mikä tahansa aaltomuoto voidaan luoda summaamalla

keskenään joukko siniaaltoja, joilla on oikeanlaiset

taajuudet ja amplitudit.

• Näitä siniaaltoja, joista kompleksit äännökset koostuvat,

kutsutaan niiden komponenteiksi.

• Analysoidaksemme minkä tahansa kompleksin äänen,

etsimme jollain keinolla sellaisest komponentit, jotka

summattuina tuottavat analysoimme äänen – yleensä tähän

käytetään Fourier analyysiä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.21/109

Vaimentuva siniaalto

• 500 Hz:n siniaalto on täysin synkroninen vastaavan

vaimentuvan aallon kanssa.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.22/109

Kompleksi ääni

• Kolme siniaaltoa voidaan summata yhdeksi vaimentuvaksi

aalloksi.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.23/109

Spektrin osat

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.24/109

Toistuva vaimentuva aalto . . .

• 500 Hz:n vaimentuva aalto, jota toistetaan 100

millisekunnin välein.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.25/109

. . . ja sen spektri

• Edellistä kuvaa vastaava spektri, joka koostuu 100 Hz:n

kerrannaisista siten, että voimakkain huippu vastaa

toistetun vaimentuvan aallon taajuutta (500 Hz).

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.26/109

Perustaajuus• Edellisen kuvan 100 Hz:n komponentti on sen ns.

perustaajuus (fundamental frequency).

• Spektriä, joka koostuu perustaajuutensa kerrannaisista,

kutsutaa harmoniseksi spektriksi. Vastaavasti

kerrannaistaajuuksia kutsutaan harmonisiksi osasäveliksi.

• Osasävelten voimakkuus/amplitudi näkyy spektrissä sen

korkeutena.

• Spektriä, joka koostuu osasävelistä, kutsutaan usein

viivaspektriksi (line spectrum), jonka vastakohta on jatkuva

spektri (continuous spectrum).

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.27/109

Esimerkki puheesta

Time (s)0 0.0287075

–0.4538

0.5618

0

• Aaltomuoto keskeltä pitkää [A]-vokaalia sanassa [lA:t�u].

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.28/109

Esimerkki puheesta

Frequency (Hz)0 2000

Soun

d pr

essu

re le

vel (

dB/

Hz)

0

20

40

• Esimerkki n. 100 millisekuntia pitkästä osasta [A] -

vokaalia. Perustaajuus on n. 105 Hz.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.29/109

Pulsseista puheeksi• Glottispulsseista lähtöisin olevat äänteet ovat

kokonaisuudessaan resonanssivärähtelyistä koostuva

kombinaatio, joka säteilee suuaukosta.

• Jokainen resonanssivärähtely vaimentuu lähes kokonaan

ennen seuraavaa pulssia.

• Pulssit toistuvat kuitenkin niin usein ja tasaisin välein, että

havaitsemme vain jatkuvan soinnillisen äänteen –

useinmiten kyseessä on vokaali.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.30/109

Glottispulssi ja aaltomuoto

• Glottaalinen hiukkasnopeus ja siitä johtuva aaltomuoto

soinnillisen äänteen alussa.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.31/109

Aperiodiset äänteet• Puhe sisältää myös ei-periodisia ääniä

• Ne voivat syntyä kahdella tavalla:

1. Yhtäkkinen (transientti) paineen vapautuminen esim.

klusiilien sulkeumavaiheen jälkeen.

2. Ääniväylässä olevan kaupeuman aiheutta turbulenssi

ilmavirrassa.

• Näinen äännösten spektrit muodostuvat niiden lähteen

muodostasta spektristä sekä ääniväylän resonanssien

vaikutuksesta alkuperäiseen ääneen.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.32/109

Puheentuotto

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.33/109

Ääntöelimistö

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.34/109

Ihmisen äänentuottomekanismi skemaattisesti

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.35/109

Artikulaatiopaikat ääniväylässä

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.36/109

Artikulaatiopaikat:

1. huulet (bi)labiaalinen

2. huulet + ylähampaat labiodentaalinen

3. hampaat dentaalinen

4. hampaiden takapinta post-dentaalinen

5. hammasvalli alveolaarinen

6. (kova) kitalaki palataalinen

7. kitapurje velaarinen

8. uvula uvulaarinenls

9. nielu faryngaalinen

10. kurkunpää faryngaalinen

11. kielen kärki apikaalinen

12. kielen lapa koronaalinen, laminaalinen

13. kielen selkä dorsaalinen

14. kielen tyvi radikaalinen

15. kielen alapinta sublaminaalinen

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.37/109

Suomen vokaalit

y•

æ•

ϥ

A•

o•

u•

e•

i•

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.38/109

Suomen konsonantit

Paikka

TapaBilab. Labiodent. Alveol. Postalveol. Palat. Velaarinen

Klusiilit p,b t�,d k,g

Nasaalit m n N

Lateraalit l

Tremulantit r

Frikatiivit f s S h

Approksimantit V j

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.39/109

Puheentuoton lähde-suodin -malli

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.40/109

Glottaalinen äänilähde

• Vokaalit saavat alkunsa larynksissa, missä tuotetaan

kaikkien soinnillisten äänteiden perusta.

• Kurkunpään äänentuotto perustuu ns. ääniraon (glottis)

nopeasti toistuvaan avautumiseen ja sulkeutumiseen.

• Tätä glottiksen toimintaa kutsutaan fonaatioksi (phonation).

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.41/109

Fonaatio

• Fonaatio perustuu siis äänihuulten (vocal folds) liikkeisiin.

Äänihuulet ovat lihaksista, jänteistä ja kudoksesta

koostuvat ulokkeet ilmaväylän molemmin puolin.

• Äänihuulten primitiivinen, alkuperäinen tarkoitus lienee

ollut pitää vieraat esineet poissa keuhkoista, mutta niiden

puheeseen liittyvä funktio on niin tärkeä, että niitä on alettu

kutsua äänihuuliksi.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.42/109

Kurkunpää (larynx)

• Äänihuulten asentoa muutetaan ns. arytenoidiruston

(arytenoid cartilage) välityksellä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.43/109

Glottispulssi• Fonaatiossa ääniraon toistuva sulkeutuminen ja

avautuminen muodostaa sen läpi kulkevaan ilmavirtaan

jonon pulsseja, jotka toistuvat jotakuinkin tasaisin välein.

• Pulssijonon spektraalinen muoto toimii pohjana kaikille

soinnillisille äänteille – etenkin vokaaleille. Näin ollen

glottaalisen äänilähteen spektri on kuultavissa kaikissa

soinnillisissa äänteissä.

• Glottispulssin spektraaliset ominaisuudet lähes täysin

riippuvaisia siitä, millä tavoin äänihuulet sitä tuotettaessa

värähtelevät.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.44/109

Äänihuulten mekaaninen malli

• Värähtely säilyy äänihuulissa, koska niiden osat liikkuvat

toistensa suhteen yhtenä järjestelmänä, joka voidaan

mekaanisesti kuvata edellisen kuvan kaltaisesti.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.45/109

Äänihuulten toiminta fonaation aikana

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.46/109

Äänihuulten toiminta fonaation aikana

• Subglottaalinen paine pakottaa äänihuulet erilleen, jolloin

niiden välisen ilman paine laskee ja kääntää niiden liikkeen

suunnan sulkeutuvaksi. Ns. Bernoullin efekti aiheuttaa

niiden sulkeutumisen äkkinäisesti.

• Tämän jälkeen subglottaalinen paine ja kudosten elastiset

voimat aloittavat syklin uudelleen.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.47/109

Glottispulssin muoto

• Glottispulssi muistuttaa muodoltaan ns. sahanteräaaltoa

(sawtooth wave).

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.48/109

Glottispulssin spektrin komponentit

• Glottispulssin spektrillä on kaksi erityisen tärkeää piirrettä:

1. Spektraalisten komponenttien – siis perussävelen ja sen

kerrannaistaajuuksien välimatka, joka on riippuvainen

pulssin toistumisen taajuudesta.

2. Komponenttien amplitudit taajuuksien suhteen, jotka

ovat riippuvaisia perättäisten glottispulssien muodosta.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.49/109

Glottispulssin spektri

• Idealisoitu 100Hz:n taajuudella toistuvan glottispulssin

spektri.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.50/109

Ääniväylän vaikutus fonaatioon

• Yleensä ääniväylän muoto ei vaikuta glottiksen toimintaan:

1. Väylässä etenevien tasoaaltojen suhteen sen

käyryydellä ei ole vaikutusta

2. Väylässä olevat sulkeumat (constriction) vaikuttavat

vain vähän pulssin muotoon.

• Glottispulssijono muistuttaa siis sahanteräaaltoa, joka

voidaan analysoida tasavälein toistuviksi

kerrannaistaajuuksiksi, joiden amplitudi laskee 12 dB

jokaisella oktaavilla.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.51/109

Lähde-suodin -teoria

• Vokaalien ja voimakkaasti soinnillisten äänteiden suhteen

glottis siis tuottaa niille niiden äänellisen perustan –

voimme siis kuvitella, että glottiksen yläpuolinen ääniväylä

toimii jonkinlaisena suotimena tai torvena, joka voimistaa

lähteen tuottamista komponenteista niitä, jotka ovat lähellä

väylän resonanssitaajuuksia.

• Lähde-suodin -teorian (source-filter theory) avulla voimme

siis selvittää kuinka vokaalien spektrit muodostuvat

glottaalisen lähteen ja ääniväylän suodinfunktion

kombinaationa.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.52/109

Lähde-suodin -teoria (kuva)

• Gunnar Fant: The Acoustic Theory of Speech Production,

1960.

• Teorian perustana on olettamus, että ääniväylä on täysin

riippumaton lähteestä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.53/109

Suotimen vaikutus lähteen spektriin

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.54/109

Lopullisen spektrin kaltevuus

• Muiden kuin neutraalin keskivokaalin – [@] – spektrin

kaltevuus riippuu väylän resonanssien välisistä

etäisyyksistä. Lähellä olevat resonanssit vahvistavat

toisiaan ja vastaavasti resonanssit vaikuttavat negatiivisesti

korkeammilla taajuuksilla oleviin resonansseihin.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.55/109

Äänentuottotavan vaikutus spektriin

• Ääviväylän resonanssien vuorovaikutusten lisäksi

vokaalien spektrin yleiseen muotoon (spectral envelope)

vaikuttaa se miten glottispulssit tuotetaan.

• Toisin sanoen glottispulssin taajuuden lisäksi vokaalin

lopulliseen spektriin vaikuttaa se, minkä muotoinen pulssi

on. Muoto on taas riippuvainen pitkälti siitä, kuinka paljon

sen tuottamiseen käytetään fyysistä toimintaa (vocal effort).

• Voimakkaasti tuotettu pulssi sisältää enemmän energiaa

korkeilla taajuuksilla, jolloin spektri on vähemmän kalteva.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.56/109

Vocal effort

• Äänilähteen spektrin kaltevuus heikosti ja voimakkaasti

tuotetuilla [A] -vokaaleilla.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.57/109

Ääniväylän vaikutus vokaalien spektreihin

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.58/109

Ääniväylän mallit

• Akustisessa tutkimuksessa on huomattu, että

yksinkertaisella – putkiin perustuvalla – ääniväylämallilla

voidaan tuottaa luonnolliselta kuulostavia vokaaleita.

• Ääniväylää (pharyngeal-oral tract) voidaan mallintaa yhden

tai usean putken kombinaatiolla.

• Koska ääni kulkee väylässä ns. tasoaaltona, ei väylän

taipuvalla muodolla ole mainittavaa vaikutusta sen

suodinfunktioon.

• Väylän poikkipinta-alan pienet poikkeamat eivät myöskään

ole vaikutuksiltaan suuria.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.59/109

Formantti

• Tässä vaiheessa on hyvä määritellä, mitä tarkoitamme usein

esiintyvällä termillä formantti.

• Teknisesti formantti on ääniväylän äänensiirtoon liittyvä

resonanssi, jonka vaikutukset näkyvät mm. äänteiden

spektreissä.

• On kuitenkin huomattava, että spektreissä ja

spektrogrammeissa esiintyvät energian kasaumat eivät ole

itse formantteja.

• Formantit ovat siis ääniväylään liittyviä akustisia piirteitä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.60/109

Formanttien järjestys

• Puheessa formantit numeroidaan taajuuksiensa mukaan

siten, että alin formantti on ensimmäinen (F1) ja sitä seuraa

ylemmät formantit (F2 jne.).

• Kolmen ensimmäisen formantin taajuudet ovat suoraan

riippuvaisia ääniväylän muodosta huulten, kielen ja leuan

sekä kurkunpään muodostaessa eri konsonantteja ja

vokaaleja.

• Ylemmät formantit pysyvät jotakuinkin vakiona puheen

aikana.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.61/109

Ääniväylän vaikutus formantteihin

• Edellä olemme jo nähneet, että tärkein formanttien

taajuuksiin vaikuttava tekijä on ääniväylän pituus.

• Toinen formanttitaajuuksiin vaikuttava tekijä on

ääniväylään (yleensä) kielen avaulla tuotettava kapeuma,

jonka aste ja pituus vaikuttavat alempien formanttien

taajuuksiin ja amplitudeihin.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.62/109

Kardinaalivokaalit

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.63/109

Etuvokaalit

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.64/109

Takavokaalit

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.65/109

Neljän putken ja kolmen parametrin malli

• Parametrit ovat kapeuman horisontaalinen etäisyys,

kapeuman pinta-ala ja huuliaukon pituus.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.66/109

Parametrien vaikutus formanttitaajuuksiin

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.67/109

Neutraali keskivokaali

• .

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.68/109

[u]

• .

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.69/109

[i]

• .

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.70/109

[A]

• .

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.71/109

Puhesynteesi

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.72/109

Puhesynteesin historiaa

• Mekaaniset synteesit: 1700-luvulla asiaa harrastivat

Wolfgang von Kempelen ja Christian Kratzenstein.

• 1900-luvulla tulivat elektromekaaniset sekä elektroniset

synteesit ja vuosisadan loppupuolella digitaaliset

syntisaattorit.• Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.73/109

Historiaa: Kratzenstein

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.74/109

Historiaa: Kempelen

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.75/109

Historiaa: Kempelen

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.76/109

Puhesynteesin historiaa: 1930-luku

• 1936: Englannin puhelinyhtiön puhuva kello käytti optista

tallennusta – lausekkeet, sanat ja sanojen osat.

• 1939: Bell Laboratorion VODER (Homer Dudley) –

mekaaninen urkujen kaltainen laite jolla voitiin ’soittaa’

puhetta. (1)*

• Dudleyn VOCODER, jossa puhesignaali jaettiin

lähde-suodin mallin mukaisesti.

* = ääniesimerkin numero osoitteessa

http://www.festvox.org/history/klatt.html

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.77/109

Historiaa: VODER

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.78/109

Historiaa: pattern playback

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.79/109

Historiaa: 1940 ja 1950-luvut

• Terminaalianalogiaan perustuvat mallit – formanttisynteesi

• Gunnar Fantin OVE, 1953. (4)

• Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT,

1958). (11)

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.80/109

Historiaa: 1960-luku

• Ensimmäiset digitaaliset mallit ja sääntösynteesi – tekstistä

puheeksi

• Brittienglanti; Holmes, Mattingly ja Shearme, 1964.

(17)

• Cokerin sääntöpohjainen artikulatorinen malli, 1968.

(19)

• Mattinglyn ensimmäinen prosodinen synteesi, 1968.

(20)

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.81/109

Historiaa: 1970-luku

• TTS (Text-To-Speech) tuotteet ja difonisynteesi

• Ensimmäinen täydellinen TTS-järjestelmä, Noriko

Umeda, Japani, 1968. (24)

• Lausetason fonologiset säännöt, Dennis Klatt, 1976.

(21)

• Lineaariprediktioon perustuvien difonien

konkatenaatio, Joseph Olive, 1977. (22)

• Votraxin Type-n-Talk, Richard Cagnon, 1978. (28)

• MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja

Dennis Klatt, 1979. (30)

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.82/109

Historiaa: 1980-luku

• Konkatenaatio valtaa alaa – suuremmat järjestelmät:

• AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34)

• DECtalk (35)

• DECtalk, 300 sanaa/minuutti. (36)

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.83/109

Historiaa: 1990-luku

• Tuotteet, monikielisyys, ’unit selection’

• Yleinen ’unit selection’, CHATR, Japani, 1994.

• Monikielinen MBROLA, ’vapaa’ synteesi, Belgia,

1995.

• Mikropuhe, TIMEHOUSE, Suomi

• 2000-luku: ...

• Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi

äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa

1936!) koska lopputulos on parempi.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.84/109

Puhesynteesin kolme peruslajia:

1. Analyysi-resynteesi

• LPC-synteesi

• GSM koodaus . . .

2. Tekstistä puheeksi (TTS = Text-to-Speech)

• Vammaissovellukset

• Puhelinpalvelut; sähköpostin luku . . .

3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis)

• Tietokantojen luku, listat, aikataulut

• Dialogijärjestelmät

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.85/109

Kolme perusparametriä:

1. Sanaston suuruus

• Rajattu sanasto – kuulutukset

• Rajaton sanasto – vapaa teksti

2. Synteesitapa

• Valmiin puheen leikkaa-liimaa menetelmät

• Pienten yksiköiden konkatenaatio

• Formanttisynteesi

3. Syötteen laatu

• Puhe

• Teksti

• Tietokanta

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.86/109

Kahdenlaista motivaatiota:

1. Sovellukset

• Vammaissovellukset

• TTS-järjestelmät

• Dialogijärjestelmät

2. Tieteellinen tutkimus

• Puheen havaitseminen – kontrolloidut ärsykkeet

• Puheen tuoton mallit

• Prosodian tutkimus

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.87/109

Kolme lähestymistapaa:

1. Konkatenaatio

• Sanat, lausekkeet, lauseet

• Sanaa pienemmät osat; tavut, puolitavut

• Difonit

• ”Mikrofoneemit"

2. Formanttisynteesi

• Puhe tuotetaan synteettisesti alusta pitäen

3. Artikulatorinen synteesi

• Fyysiset mallit – puhe on fysiikkaa

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.88/109

Konkatenaatio

• Oikeata puhetta leikkaa-ja-liimaa -periaatteella.

• Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja,

äänteitä, difoneja.

• Miten: tarkasti leikatut yksiköt voidaan liimata päistään

yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous

overlap and add) . . .

• Etuja: äärellinen määrä puhedataa riittää, prosessointi on

yksinkertaista, lopputuloksena korkeatasoinen ääni.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.89/109

Difonikonkatenaatio: TD-PSOLA

• TD-PSOLA: alennettu perustaajuus

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.90/109

Formanttisynteesi

• Miten: Generoidaan periodista ja aperiodista ääntä ja niitä

yhdistelemällä tuotetaan puheenkaltainen ääni.

• Etuja: erittäin muokkautuvainen, voidää päästä lähes

täydelliseen lopputulokseen, suhteellisen helppo

implementoida, tieteellisesti kiinnostava.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.91/109

Formanttisynteesi: kaavio

A1

impulsetrain

glottalfilter

LPfilter

randomnumbers

A2

A3

A4

A5

A6

R5

cascade

R4R3R2R1ZNRN

parallel

R1

R2

R3

R4

R5

R6

+ pre-empasis

syntheticspeechoutput

• Klatt syntetisaattori

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.92/109

Formanttisynteesi: rinnakkainen vai sarjassa• Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy

kertoa vain formanttien taajuudet ja kaistanleveydet;

amplitudit hakeutuvat automaattisesti oikeiksi.

• Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus

formanttien amplitudeista; rinnakkaismallilla voidaan

kuitenkin simuloida helpommin sellaisia konsonantteja

(etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta

rinnakkaismallin resonanssien summaaminen implikoi sitä,

että resonaattorit ovat itsenäisempiä ja ovat siten

itsenäisesti kontrolloitavissa.)

• Sarjamalli perustuu suoremmin puheentuoton akustiseen

teoriaan, jonka mukaan ääntöväylän siirtofunktio on

esitettävissä suotimien tulona.Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.93/109

Formanttisynteesi: glottaalinen eksitaatio

• Periaatteessa pelkkä impulssijono riittää tuottamaan puheen

kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii

kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä

lähteeseen liittyy useita parametrejä, joiden avulla voidaan

mallintaa muutoksia niin eri äänteiden kuin puhujienkin

välillä.

• Glottislähteen parametrejä ovat mm. sulkeuma- ja

avaumavaiheiden suhde (open quotient), aspiraatiohälyn

määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen

spektraalinen kaltevuus. Myös glottiksen alapuolisen

väylän vaikutus pulssin muotoon on otettu huomioon.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.94/109

Formanttisynteesi: resonaattori

• Formanttiresonaattorin impulssivaste ja sen spektri;

formantin kaistanleveys on suoraan verrannollinen

impulssivasteen vaimenemiseen.

Time (s)–0.0001 0.01

–0.9898

1

0

Frequency (Hz)0 11025

Soun

d pr

essu

re le

vel (

dB/

Hz)

0

20

40

60

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.95/109

Artikulatorinen synteesi

• Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman

virtausten sekä heijastusten suhteen – puheentuotto

nähdään sovellettuna fysiikkana.

• Etuja: Parantunut kontrolli, potentiaalisesti luonnollista

puhetta, perustutkimusta.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.96/109

Artikulatorinen synteesi: esimerkki

• Äänenpaineet ja hiukkasnopeudet artikulatorisessa

mallissa:

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.97/109

Artikulatorinen synteesi: esimerkki 2

• Haskins laboratorion artiulatorinen malli:

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.98/109

Artikulatorinen synteesi: esimerkki 3

• Haskins laboratorion artiulatorinen malli:

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.99/109

Tekstistä puheeksi:

teksti

signaalin generointi

Perustaajuudenestimointi

Äänekkyydenestimointi

Äännekesto-jenestimointi

Merkkijonojen identifiointi jaesiprosessointi = normalisointi

Lingvistinen analyysi; sanaluo-kat ja morfosyntaksi

Prosodinen ryhmitys”phrasing”

Sana- ja lausepainonmäärittely

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.100/109

Modulaarisuus

• Lähes kaikki modernit puhesynteesijärjestelmät ovat

modulaarisia: tekstianalyysiä seuraa prosodiset modulit,

joita seuraa synteesimodulit.

• Usein suuremmat modulit on vielä jaettu useimpiin tarpeen

mukaan – esim. intonaatiota voidaan mallintaa usealla

tavalla saman järjestelmän sisällä.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.101/109

Data vs. tieto

• Historiallisesti sääntösynteesijärjestelmät ovat perustuneet

tietoon – datapohjaiset järjestelmät ovat uudempi suuntaus.

• Kielen kombinatorinen kompleksisuus on kuitenkin niin

valtava, että suuretkin tietokannat ovat tuomittuja

edustamaan vain äärimmäisen pientä osaa koko puhutun

kielen avaruudesta.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.102/109

Tekstin analyysi

• Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja

normalisointi.

• Teksti muunnetaan järjestelmän ymmärtämään

lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden

kieliopilliset kategoriat, morfologiset analyysit, fonologiset

transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä

prosodisten rajojen paikat.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.103/109

Tekstin analyysi: esimerkki Festivalista

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.104/109

Prosodinen esiprosessointi

• Prosodinen esiprosessointi pitää sisällään syntaktisen

analyysin (joka voi yksinkertaisimmillaan olla

funktiosanojen tunnistamista) ja lauseiden sekä

lausekkeiden rajojen paikantamisen.

• Myös lausepainon paikan määritys kuuluu prosodiseen

tähän vaiheeseen.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.105/109

Prosodian estimointi: ajoitus

• Järjestelmään sisältyvän ajoituskomponentin tehtävänä on

laskea puheelle sen temporaalinen rakenne annetusta

symbolisesta syötteestä: foneemit, paino- ja

lausepainomerkinnät.

• Yleensä ajoituksella tarkoitetaan äännekestoja, mutta

muunlaistakin temporaalista informaatiota tarvitaan; esim.

perustaajuuden huippujen paikka vokaaliin nähden.

• Ajoitus voidaan laskea joko sääntöjen avulla tai dataan

perustuen esim. keinotekoisia hermoverkkoja käyttäen.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.106/109

Prosodian estimointi: intonaatio• Intonaatiokomponentin tehtävänä on laskea tuotettavalle

lauseelle sen perustaajuuskontuuri ajoituskomponentin

käyttämästä syötteestä ja sen tuottamista äännekestoista.

• Teorioiden ja mallien suhteen intonaation tutkimus on

äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin

synteesijärjeselmiin.

• Fonologisella puolella ei ole kunnollista konsensusta

yksiköiden suhteen ja foneettisella puolella ei ole

yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja

aksenttikomponenttien superpositio (Fujisaki),

tonaaliarvojen interpolaatio (Pierrehumbert),

linjasegmenttien konkatenaatio (IPO).

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.107/109

Intonaatiomallit:

x

x x

xx

Dutch

Fujisaki

Ladd

Phonology Intermediate Level

British

Pierrehumbert

(Halliday)

Accents,

Phrases

fall-rise

fall

H* + L

L*

HL +downstep

1, 2, 3,

targets

impulses and steps

registers

standardised shapes

F0

Redundancy

Fixed gradient slopes

Isard andPearson

.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.108/109

Signaalin generointi• Synteesikomponentti ottaa vastaan äännejonotietoa ja

prosodista informaatiota, joista sen tehtävänä on generoida

kuultava signaali.

• Historiallisesti signaalin generointi on perustunut

lähde-suodin -malliin; formanttisynteesi. Nykyisin

kuitenkin suurin osa syntetisaattoreista käyttää

jonkinasteista konkatenaatiomenetelmää (difoni tai ns.

unit-selection).

• Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti

difonit (kahden äänteen keskipisteiden välinen osa). “unit

selection” -tyyppisessä synteesissä yksikön koko vaihtelee

jopa kokonaisista lauseista difoniin.

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.109/109