Upload
zana-korac
View
50
Download
5
Embed Size (px)
DESCRIPTION
računalna sinteza govora
Citation preview
Sinteza govora
Struktura
UvodTemeljni pojmovi, govor, komunikacija, govoreni i umjetno stvoreni govorPovijesni pregledMehanike, elektroakustine i elektronike simulacijeSinteza govora danasPrimjeri za razliite jezike i njihova strukturaMetode, tehnike i algoritmiPretpostavke za stvaranje modelaProzodijaAnaliza prozodije rijei
UvodTemeljni pojmoviGovor je optimalna ljudska komunikacijaGovor je vrlo sloeni oblik ponaanja ovjeka, koji se u pojedinca razva usvajanjem jezika i njegove govorne okolineGovor je zvuni signal kojim se ljudi slue u meusobnoj komunikacijiTermin sinteza govora obuhvaa niz postupaka kojima se ozvuava odnosno prevodi u pseudo-govorni oblik korpus pisanog jezika.
Temeljni pojmoviProzodija intonacija, trajanje glasova, trajanje rijei, trajanje reenice, pauze, intenzitet izgovora, naglasci na rijeimarazliito naglaavanje rijei moe znaiti i sasvim drugu rije ili pak samo dijalektalnostpoplviti obojati u plavopoplaviti prekriti vodomVardinVaradin
Temeljni pojmoviIdeja u sintezi govora je simulirati govorni trakt ovjeka ili procese u njemu za vrijeme produkcije govora
Povijesni pregledKronoloki:Mehanika sintezaSimulacija govornog procesa mehanikim ureajimaElektro-akustina sintezaStvaranje zvuka elektronikim sklopovima stvaranje rezonantnih krugovaRaunalna sintezaDigitalna obrada i stvaranje zvuka
Povijesni pregledUmjetno stvaranje govora poinje 1769 mehanikim aparatom koji je napravio Wolfgang Ritter von Kempelen.Njegova aparat je jednim dijelom simulacija govornog trakta ovjeka, a dijelom zvuna simulacija ostvarenja govora
Povijesni pregled mehanika simulacija
1769 Wolfgang Ritter von Kempelen konstruira aparat za stvaranje umjetnih glasova1779 Christian Kratzenstein konstruira mehanike razonatore za stvaranje vokala1791 von Kempelen objavljuje konstrukciju svog aparataSredinom 18 st. Charles Wheatstone rekonstruira von Kempelenov aparat1835 Joseph Faber simulira funkciju jezika i grkljana u proizvodnji zvuka
Povijesni pregled - Kempelen
Povijesni pregled - Kempelen
Povijesni pregled - Kempelen
Povijesni pregled - Christian Kratzenstein
Povijesni pregled - Wheatstone
Povijesni pregled - Faber
Povijesni pregled - Riesz
Povijesni pregled elektro akustika simulacija 1922 Stewart prva simulacija rezonantnim strujnim krugovima1939 VODER modulacija rezonantnih frekvencija te oblikovanje spektra izlaznog zvuka prema odabranim pravilima
Povijesni pregled - VODER
Povijesni pregled - VODER
Povijesni pregled raunalna simulacija1968 Noriko Umeda nainio sustav tekst-u-govor temeljen na artikulacijskoj sintezi1979 - Allen, Hunnicutt i Klatt predstavili su laboratorski sustav tekst-u-govor nazvan MITalk koji su razvili na Institutu M.I.T. (ovaj sustav govori za Stephena Hawkinga)1981 - Kalttalk
Povijesni pregled sinteza
Raunalna sinteza govora producira zvuk na 3 razliita nainaArtikulacijska sintezaFormantna sintezaKorpusna sinteza
Povijesni pregled sinteza (1)Artikulacijska sintezaOpisuje kako kretanje artikulatora (pomaci donje vilice, stezanje miia, rad plua) utjee na stvaranje zvuka u govornom traktuSpektar zvuka ovisi o obliku cijevi koju formiraju govorni organi od glasnica do izlaska zvuka iz tijela (kroz nos ili usta)
Primjer artikulacijske sinteze
Create Speaker... muski Male 10Create Artword... a 1 ! Stvoriti potisak iz plucaSet target... 0.0 0.1 LungsSet target... 0.1 0 Lungs! dignuti meko nepce i zatvoriti nosnu supljinuSet target... 0.0 1 LevatorPalatiniSet target... 1.00 1 LevatorPalatini! zatvoriti glasnice da bi mogle vibriratiSet target... 0.0 0.5 InterarytenoidSet target... 1.00 0.5 Interarytenoid! spusti jezikSet target... 0.0 0.4 HyoglossusSet target... 1.00 0.4 Hyoglossus!spusti vilicuSet target... 0.0 -0.4 MasseterSet target... 1.00 -0.4 Masseter! napravi zvukselect Speaker muskiplus Artword aTo Sound... 22050 25 0 0 0 0 0 0 0 0 0
Artikulacijska sinteza u svijetu
Artikulacijska sinteza u svijetu
Povijesni pregled sinteza (2)
Formantna sintezaOpisuje spektar zvuka koji elimo stvoriti te njegovu promjenu kroz vrijemeNije bitno to se dogaa s artikulatorima, nego je bitan isti rezultat te nastojimo dobiti jednak rezultat
Formantna sinteza
Formantna sinteza
Primjer za formantnu sintezuCONFIGGAI=70; F0=110F1=VAR; F2=VAR; F3=VAR; F0=VAR; AV=VARENDCONFIGTIME=0AV=0; TIME + 30; AV=80; F1=360; F2=2200; F3=2850TIME + 400; F1=500; F2=1800; F3=2500TIME + 400; F1=700; F2=1400; F3=2250TIME + 400; F1=450; F2=1150; F3=2300TIME + 400; F1=380; F2=750; F3=2450; av=80TIME + 30; AV=0END
Primjer za formantnu sintezuCONFIGGAI=70; F0=110; F0=VAR; AV=VARF1=VAR; F2=VAR; F3=VAR; F4=VAR; B1=VAR; B2=VAR; B3=VAR; B4=VAR; A1=VAR; A2=VAR; A3=VAR; A4=VAR; ENDCONFIGTIME = 0; f0=137; f1=714; f2=1084; f3=2402; f4=3767; b1=362; b2=378;b3=406; b4=274; a1=44; a2=32; a3=23; a4=17; av=72time +50; f0=138; time +50; f0=137; time +50; f0=139; time +50; f0=136time +50; f0=136; time +50; f0=139; time +50; f0=137; time +50; f0=136time +50; f0=133; time +50; f0=131; time +50; f0=130; time +50; f0=135time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=136; time +50; f0=139; time +50; f0=133; time +50; f0=131time +50; f0=130; time +50; f0=135; time +50; f0=136; time +50; f0=139time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=136; time +50; f0=139; time +50; f0=137; time +50; f0=136time +50; f0=133; time +50; f0=131; time +50; f0=130; time +50; f0=135time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=130; time +50; f0=135; time +50; f0=132; time +50; f0=135time +50; f0=136; time +50; f0=137; time +50; f0=138; time +50; f0=135time +50; f0=136; time +50; f0=139; time +50; f0=138; time +50; f0=136TIME +50; F0=137; AV=72TIME + 30; AV=0END
Povijesni pregled (3)
Korpusna sintezaReproduciramo unaprijed snimljeni zvuk u trenutku kad je potrebanOvisno o primjeni sustava pohranjuju se segmenti zvuka koji e se spojiti za stvaranje, u tom obliku, do tada nepostojeeg niza
Korpusna sintezaNajjednostavniji stvarni primjer je zvuk koji se generira na upit korisnika telefonskom operateru o neijem telefonskom broju ili stanju rauna:Repertoar rijei je unaprijed poznat, ali se ne snima svaka posebna reenica, ona se slae u trenutku kada je potrebno odgovoriti korisnikuKvaliteta uglavnom ovisi o duljini prisutnosti operatera na tritu
Sinteza govora danasDananje se sinteze govora uglavnom temelje na korpusnoj sinteziRazlozi fokusiranja na ovaj pristup suvrlo kvalitetan rezultat sinteze zbog snimljenih stvarnih zvunih ostvarenjasmanjeni izdaci za istraivanja kako generirati neki zvuk potreban za sintezu
Korpusna sinteza danasU sluajevima gdje se ne moe pretpostaviti repertoar potreban za sintezu, snimaju se manji segmenti od dijelova reenica, poevi od rijei, slogova, glasova i difona (spojeva dva glasa, polovice) i trifona (jedan glas i po pola prije i poslije)
Korpusna sintezaDobro zvuee korpusne sinteze imaju snimljen ogroman zvuni korpus koji se sastoji od kompletnih reenica (fraze, este reenice), rijei (za nazive gradova, drava, ulica, imena ljudi), a slogovi, trifoni i difoni se koriste za ostatak traenih rijei koje nisu u korpusu snimljene cijele. Tada taj manji segment zvui loije od ostatka stvorenog zvuka.
Organizacija sitatizatorasintetizatortekstzvuk
Organizacija sitatizatoraanaliza tekstatekstzvukodabir trajanjaodabir intonacije
Korpusna sintezaAnalize koje napravi sintetizator laboratorija tvrke Bell za vrijeme sinteze zvuka
Metode i algoritmi ukorpusnoj sinteziMjerenje trajanja segmenataMjerenje intonacije na segmentimaPravila transkripcije teksta u fonetski zapisza neke jezike sloeno (engleski)za neke jednostavnije (hrvatski)Odabir segmenata za spajanje
Trajanje i intonacija
Algoritmi koriteni ukorpusnim sintezamaPSOLA Pitch Synchronous OverLap AddMBROLA Multi Band Resynthesis OverLap Add
PSOLA
MBROLAStvaranje segmenata zvuka koji se meusobno jednostavno spajaju, te je potrebno jedino PSOLA algoritmom oblikovati trajanje i intonaciju generirane rijeiSnimljeni zvuk se mijenja zbog stvaranja zajednikih mjesta u spektru
TranskripcijaIzvori automatima, gramatikama, stohastiki ili neuronskim mreamaZa hrvatski je dovoljan popis pravila i iznimaka (npr. injekcija)Najjednostavniji pristup je preko rjenika koji je transkribiran
Transkripcija pravila za hrvatskia -> ab -> bc -> ts -> tS -> tSd -> dd -> dZ -> dZe -> ef -> fg -> gh -> xi -> ij -> jk ->kTransktipcija se vri pretvorbom u SAMPA zapis koji koristi ASCII znakove za prikaz fonetske transkripcijeSAMPA je IPA (international phonetic alphabet) prilagoen jednostavnom oznaavanju na raunalu, kojeg koristi i MBROLA sintetizator za oznaavanje fonema za sintezul -> llj -> Lm -> mn -> nnj -> Jo -> op -> pr -> rs -> s -> St -> tu -> uv -> vz -> z -> Z
Transkripcija pravila za hrvatskiDodatna pravila stavljena su kao opcija (za oznaavanja asimilacija i glasovnih promjena)primjer: z S -> S , za sluaj kada se u izgovoru izgovornih rijei z i nau jedan za drugim. Tada se moe aktivirati ovo pravilo gdje z nestajeskupine pravila se biraju po potrebi
ProzodijaProzodija rijei ovisi o govornikuKroz prozodiju se prepoznaje pripadnost govornika nekom narodu, nekoj regiji, nekom graduJedinstvena za svakog ovjekaNapravljeno je mjerenje na jednom uzorku koji je zadnji proglaen za standardni izgovor
*