48
Sinteza govora Sinteza govora

sinteza

Embed Size (px)

DESCRIPTION

računalna sinteza govora

Citation preview

  • Sinteza govora

  • Struktura

    UvodTemeljni pojmovi, govor, komunikacija, govoreni i umjetno stvoreni govorPovijesni pregledMehanike, elektroakustine i elektronike simulacijeSinteza govora danasPrimjeri za razliite jezike i njihova strukturaMetode, tehnike i algoritmiPretpostavke za stvaranje modelaProzodijaAnaliza prozodije rijei

  • UvodTemeljni pojmoviGovor je optimalna ljudska komunikacijaGovor je vrlo sloeni oblik ponaanja ovjeka, koji se u pojedinca razva usvajanjem jezika i njegove govorne okolineGovor je zvuni signal kojim se ljudi slue u meusobnoj komunikacijiTermin sinteza govora obuhvaa niz postupaka kojima se ozvuava odnosno prevodi u pseudo-govorni oblik korpus pisanog jezika.

  • Temeljni pojmoviProzodija intonacija, trajanje glasova, trajanje rijei, trajanje reenice, pauze, intenzitet izgovora, naglasci na rijeimarazliito naglaavanje rijei moe znaiti i sasvim drugu rije ili pak samo dijalektalnostpoplviti obojati u plavopoplaviti prekriti vodomVardinVaradin

  • Temeljni pojmoviIdeja u sintezi govora je simulirati govorni trakt ovjeka ili procese u njemu za vrijeme produkcije govora

  • Povijesni pregledKronoloki:Mehanika sintezaSimulacija govornog procesa mehanikim ureajimaElektro-akustina sintezaStvaranje zvuka elektronikim sklopovima stvaranje rezonantnih krugovaRaunalna sintezaDigitalna obrada i stvaranje zvuka

  • Povijesni pregledUmjetno stvaranje govora poinje 1769 mehanikim aparatom koji je napravio Wolfgang Ritter von Kempelen.Njegova aparat je jednim dijelom simulacija govornog trakta ovjeka, a dijelom zvuna simulacija ostvarenja govora

  • Povijesni pregled mehanika simulacija

    1769 Wolfgang Ritter von Kempelen konstruira aparat za stvaranje umjetnih glasova1779 Christian Kratzenstein konstruira mehanike razonatore za stvaranje vokala1791 von Kempelen objavljuje konstrukciju svog aparataSredinom 18 st. Charles Wheatstone rekonstruira von Kempelenov aparat1835 Joseph Faber simulira funkciju jezika i grkljana u proizvodnji zvuka

  • Povijesni pregled - Kempelen

  • Povijesni pregled - Kempelen

  • Povijesni pregled - Kempelen

  • Povijesni pregled - Christian Kratzenstein

  • Povijesni pregled - Wheatstone

  • Povijesni pregled - Faber

  • Povijesni pregled - Riesz

  • Povijesni pregled elektro akustika simulacija 1922 Stewart prva simulacija rezonantnim strujnim krugovima1939 VODER modulacija rezonantnih frekvencija te oblikovanje spektra izlaznog zvuka prema odabranim pravilima

  • Povijesni pregled - VODER

  • Povijesni pregled - VODER

  • Povijesni pregled raunalna simulacija1968 Noriko Umeda nainio sustav tekst-u-govor temeljen na artikulacijskoj sintezi1979 - Allen, Hunnicutt i Klatt predstavili su laboratorski sustav tekst-u-govor nazvan MITalk koji su razvili na Institutu M.I.T. (ovaj sustav govori za Stephena Hawkinga)1981 - Kalttalk

  • Povijesni pregled sinteza

    Raunalna sinteza govora producira zvuk na 3 razliita nainaArtikulacijska sintezaFormantna sintezaKorpusna sinteza

  • Povijesni pregled sinteza (1)Artikulacijska sintezaOpisuje kako kretanje artikulatora (pomaci donje vilice, stezanje miia, rad plua) utjee na stvaranje zvuka u govornom traktuSpektar zvuka ovisi o obliku cijevi koju formiraju govorni organi od glasnica do izlaska zvuka iz tijela (kroz nos ili usta)

  • Primjer artikulacijske sinteze

    Create Speaker... muski Male 10Create Artword... a 1 ! Stvoriti potisak iz plucaSet target... 0.0 0.1 LungsSet target... 0.1 0 Lungs! dignuti meko nepce i zatvoriti nosnu supljinuSet target... 0.0 1 LevatorPalatiniSet target... 1.00 1 LevatorPalatini! zatvoriti glasnice da bi mogle vibriratiSet target... 0.0 0.5 InterarytenoidSet target... 1.00 0.5 Interarytenoid! spusti jezikSet target... 0.0 0.4 HyoglossusSet target... 1.00 0.4 Hyoglossus!spusti vilicuSet target... 0.0 -0.4 MasseterSet target... 1.00 -0.4 Masseter! napravi zvukselect Speaker muskiplus Artword aTo Sound... 22050 25 0 0 0 0 0 0 0 0 0

  • Artikulacijska sinteza u svijetu

  • Artikulacijska sinteza u svijetu

  • Povijesni pregled sinteza (2)

    Formantna sintezaOpisuje spektar zvuka koji elimo stvoriti te njegovu promjenu kroz vrijemeNije bitno to se dogaa s artikulatorima, nego je bitan isti rezultat te nastojimo dobiti jednak rezultat

  • Formantna sinteza

  • Formantna sinteza

  • Primjer za formantnu sintezuCONFIGGAI=70; F0=110F1=VAR; F2=VAR; F3=VAR; F0=VAR; AV=VARENDCONFIGTIME=0AV=0; TIME + 30; AV=80; F1=360; F2=2200; F3=2850TIME + 400; F1=500; F2=1800; F3=2500TIME + 400; F1=700; F2=1400; F3=2250TIME + 400; F1=450; F2=1150; F3=2300TIME + 400; F1=380; F2=750; F3=2450; av=80TIME + 30; AV=0END

  • Primjer za formantnu sintezuCONFIGGAI=70; F0=110; F0=VAR; AV=VARF1=VAR; F2=VAR; F3=VAR; F4=VAR; B1=VAR; B2=VAR; B3=VAR; B4=VAR; A1=VAR; A2=VAR; A3=VAR; A4=VAR; ENDCONFIGTIME = 0; f0=137; f1=714; f2=1084; f3=2402; f4=3767; b1=362; b2=378;b3=406; b4=274; a1=44; a2=32; a3=23; a4=17; av=72time +50; f0=138; time +50; f0=137; time +50; f0=139; time +50; f0=136time +50; f0=136; time +50; f0=139; time +50; f0=137; time +50; f0=136time +50; f0=133; time +50; f0=131; time +50; f0=130; time +50; f0=135time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=136; time +50; f0=139; time +50; f0=133; time +50; f0=131time +50; f0=130; time +50; f0=135; time +50; f0=136; time +50; f0=139time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=136; time +50; f0=139; time +50; f0=137; time +50; f0=136time +50; f0=133; time +50; f0=131; time +50; f0=130; time +50; f0=135time +50; f0=132; time +50; f0=135; time +50; f0=136; time +50; f0=137time +50; f0=130; time +50; f0=135; time +50; f0=132; time +50; f0=135time +50; f0=136; time +50; f0=137; time +50; f0=138; time +50; f0=135time +50; f0=136; time +50; f0=139; time +50; f0=138; time +50; f0=136TIME +50; F0=137; AV=72TIME + 30; AV=0END

  • Povijesni pregled (3)

    Korpusna sintezaReproduciramo unaprijed snimljeni zvuk u trenutku kad je potrebanOvisno o primjeni sustava pohranjuju se segmenti zvuka koji e se spojiti za stvaranje, u tom obliku, do tada nepostojeeg niza

  • Korpusna sintezaNajjednostavniji stvarni primjer je zvuk koji se generira na upit korisnika telefonskom operateru o neijem telefonskom broju ili stanju rauna:Repertoar rijei je unaprijed poznat, ali se ne snima svaka posebna reenica, ona se slae u trenutku kada je potrebno odgovoriti korisnikuKvaliteta uglavnom ovisi o duljini prisutnosti operatera na tritu

  • Sinteza govora danasDananje se sinteze govora uglavnom temelje na korpusnoj sinteziRazlozi fokusiranja na ovaj pristup suvrlo kvalitetan rezultat sinteze zbog snimljenih stvarnih zvunih ostvarenjasmanjeni izdaci za istraivanja kako generirati neki zvuk potreban za sintezu

  • Korpusna sinteza danasU sluajevima gdje se ne moe pretpostaviti repertoar potreban za sintezu, snimaju se manji segmenti od dijelova reenica, poevi od rijei, slogova, glasova i difona (spojeva dva glasa, polovice) i trifona (jedan glas i po pola prije i poslije)

  • Korpusna sintezaDobro zvuee korpusne sinteze imaju snimljen ogroman zvuni korpus koji se sastoji od kompletnih reenica (fraze, este reenice), rijei (za nazive gradova, drava, ulica, imena ljudi), a slogovi, trifoni i difoni se koriste za ostatak traenih rijei koje nisu u korpusu snimljene cijele. Tada taj manji segment zvui loije od ostatka stvorenog zvuka.

  • Organizacija sitatizatorasintetizatortekstzvuk

  • Organizacija sitatizatoraanaliza tekstatekstzvukodabir trajanjaodabir intonacije

  • Korpusna sintezaAnalize koje napravi sintetizator laboratorija tvrke Bell za vrijeme sinteze zvuka

  • Metode i algoritmi ukorpusnoj sinteziMjerenje trajanja segmenataMjerenje intonacije na segmentimaPravila transkripcije teksta u fonetski zapisza neke jezike sloeno (engleski)za neke jednostavnije (hrvatski)Odabir segmenata za spajanje

  • Trajanje i intonacija

  • Algoritmi koriteni ukorpusnim sintezamaPSOLA Pitch Synchronous OverLap AddMBROLA Multi Band Resynthesis OverLap Add

  • PSOLA

  • MBROLAStvaranje segmenata zvuka koji se meusobno jednostavno spajaju, te je potrebno jedino PSOLA algoritmom oblikovati trajanje i intonaciju generirane rijeiSnimljeni zvuk se mijenja zbog stvaranja zajednikih mjesta u spektru

  • TranskripcijaIzvori automatima, gramatikama, stohastiki ili neuronskim mreamaZa hrvatski je dovoljan popis pravila i iznimaka (npr. injekcija)Najjednostavniji pristup je preko rjenika koji je transkribiran

  • Transkripcija pravila za hrvatskia -> ab -> bc -> ts -> tS -> tSd -> dd -> dZ -> dZe -> ef -> fg -> gh -> xi -> ij -> jk ->kTransktipcija se vri pretvorbom u SAMPA zapis koji koristi ASCII znakove za prikaz fonetske transkripcijeSAMPA je IPA (international phonetic alphabet) prilagoen jednostavnom oznaavanju na raunalu, kojeg koristi i MBROLA sintetizator za oznaavanje fonema za sintezul -> llj -> Lm -> mn -> nnj -> Jo -> op -> pr -> rs -> s -> St -> tu -> uv -> vz -> z -> Z

  • Transkripcija pravila za hrvatskiDodatna pravila stavljena su kao opcija (za oznaavanja asimilacija i glasovnih promjena)primjer: z S -> S , za sluaj kada se u izgovoru izgovornih rijei z i nau jedan za drugim. Tada se moe aktivirati ovo pravilo gdje z nestajeskupine pravila se biraju po potrebi

  • ProzodijaProzodija rijei ovisi o govornikuKroz prozodiju se prepoznaje pripadnost govornika nekom narodu, nekoj regiji, nekom graduJedinstvena za svakog ovjekaNapravljeno je mjerenje na jednom uzorku koji je zadnji proglaen za standardni izgovor

    *