21
Syntéza reči

Syntéza reči

  • Upload
    nalani

  • View
    80

  • Download
    0

Embed Size (px)

DESCRIPTION

Syntéza reči. Syntéza reči - úvod. Rozpoznávanie – konverzia reči na text Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS) - PowerPoint PPT Presentation

Citation preview

Page 1: Syntéza reči

Syntéza reči

Page 2: Syntéza reči

Syntéza reči - úvod

Rozpoznávanie – konverzia reči na text

Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS)

Aplikácie: ak nie je iná možnosť ako oznámiť informácie: napr. v aplikáciach pre nevidiacich, telefónnych aplikáciach (call centers), experimentálnych aplikáciach, robotike

Ďalšie možné aplikácie: auto-aplikácie (navigácia), smart home aplikácie, office

TTS je menej výpočtovo náročný proces ako rozpoznávanie reči

Problematika TTS je interdisciplinárna: spracovanie signálov, teoretická informatika, natural language processing, fonetika, databazové systémy.

Page 3: Syntéza reči

1846 – prvý mechanický syntetizátor nazvaný rečový organ

1922 - prvý elektrické syntetizačné zariadenie

1939 – prvý elektrický rečový syntetizátor Voder, riadený človekom pomocou pedálov a kláves

1961 – prvý syntetizátor s fonetickými pravidlami pre digitálny počítač

1968 – prvý kompletný text-to-speech system

roky 80te – začiatky komerčných TTS

1985 – PSOLA – prosodické modifikácie

roky 90te – deterministické/stochastické modely, veľké databázy

Syntéza reči - história

Page 4: Syntéza reči

Syntéza reči – schéma - Voder

Page 5: Syntéza reči

Komplexnosť úlohy syntézy reči

Vyvinúť komplexný TTS systém nie je ľahké.

TTS musí zvládnuť úlohy: modelovanie prozódie (prízvuku), analýzu lexikálnej štruktúry textu a pod.

Zlá prozódia môže meniť význam vety!

Page 6: Syntéza reči

TTS – delenie podľa komplexnosti

TTS s malým slovníkom - spájané jednotky možu byť slová alebo frázy. Zvyčajne nie je potrebná nejaká prozodická modifikácia. Ide o jednoduché „zreťazenie“ jednotiek – slov, fráz.

TTS so stredne veľkým slovníkom (limitovaným) – najčastejšie technológia spájania slov a sub-slovných jednotiek (častí slov – slabík, ...). Úprava prozódie je voliteľná. Tento typ sa používa najmä v tel. aplikáciach

TTS s veľkým slovníkom – vstupom môže byť ľubovoľný text – väčšinou založený na zreťazení foném. Od týchto systémov sa očakáva kvalitná práca s prozódiou a „high quality concatenation“. Tento typ syntézy nájde uplatnenie v office aplikáciach.

Page 7: Syntéza reči

TTS systémová štruktúra

Page 8: Syntéza reči

TTS systémová štruktúra

Vstupom je čistý text (email, článok, príkazy...) alebo otagovaný (označený) text (VoiceXML, HTML, ...) so „značkami“ pre TTS systém

Textová analýza sa snaží porozumieť textu a vložiť doň sémantické (významové) značky.

Fonetická analýza – konvertuje text do postupnosti fonén

Prozodická analýza – pridáva informácie o prozódií do reťazca foném (melódia, akcent, pauzy, tempo)

Blok rečovej syntézy generuje rečový signál z daného reťazca foném (alebo iných jednotiek) a prozodickej informácie

Page 9: Syntéza reči

Syntéza reči – textová analýza

- Textová analýza je prvým blokom TTS systému - Snaží sa pochopiť vstupný text (na istej úrovni)- Do vstupného toku vkladá informáciu o význame (sémantike)- Može byť použitý v iných aplikáciach- Je jazykovo závislý. Rozdielné problémy v rozličných jazykoch- Pracuje s pravidlami, bázou znalostí a s veľkými slovníkami

Page 10: Syntéza reči

Text analyses - Document Structure Detection

Je potrebná pre veľké dokumenty, pre porozumenie častí dokumentu (kapitoly, paragrafy, tabuľky)

Rozdelenie na vety. Spracovanie textu sa vykonáva po vetách.

Výstupom by mal byť text v podobe otagovaných viet.

Pracuje s pravidlami.

Page 11: Syntéza reči

Text analyses – normalizácia textu

je dôležitá, každý TTS systém by ju mal mať.

jej úlohou je náhrada nerečových tokénov ich textovým prepisom

ide o čísla, dátumy, časy, skratky, symboly, a pod.

niekedy je potrebné použiť hláskovanie (spelling)

je potrebné implementovať pravidlá pre skloňovanie v slovečine

Výstupom by mal byť text bez špeciálnych symbolov

Pracuje s pravidlami (rules)

100 km/h -> sto kilometrov za hodinu (základný tvar: kilometre za sekundu)

Page 12: Syntéza reči

Text analyses – linguistická analýza

syntaktický a sémantický parsing textu

delenie viet ( na odseky, hlavná – vedľajšia veta)

určenie typu slova, vzoru, pádu, rodu

detekcia významu slova, zdôraznenia, priamej reči (povedal: „Ahoj!“) ...

Generuje informáciu pre prozodickú analýzu; zlé pochopenie textu -> nesprávna prozódia (prízvuk) -> výsledok bude znieť neprirodzene, resp. zlá prozódia, môže zmeniť význam textu.

Výstupom môže byť čistý text s označenou sémantickou informáciou

Pracuje s pravidlami (gramatiky, rozhodovacie stromy, ...)

Page 13: Syntéza reči

Syntéza reči – fonetická analýza

-Blok fonetickej analýzy je druhým blokom TTS systému

-Pokúša sa rozdeliť text na fonémy

-Definuje, čo bude syntetizátor hovoriť

-Generuje postupnosť foném

-Hlavnou časťou je konverzia grafém na fonémy (letter to sound)

-Pracuje s pravidlami a databázou jednotiek (foném)

Page 14: Syntéza reči

Syntéza reči - Odstránenie homografov

homograf – dve slová s rozdielnou výslovnosťou (fonémy, dlžka) a rovnakou textovou reprezentáciou.

príklad: ??

Rozhodnutie o tom, ktorá výslovnosť sa má použiť vyplýva z analýzy textu

Pracuje s informáciami z bloku textovej analýzy, pravidlami a pravdepodobnosťami.

Page 15: Syntéza reči

Syntéza reči – morfologická analýza

Dekompozícia slova na predponu, základ slova a príponu Pracuje s informáciami z bloku textovej analýzy, s pravidlami a

slovníkom.

Page 16: Syntéza reči

Syntéza reči – konverzia písmen na zvuky

konvertujú sa písmena (grafémy) na zvuky (fonémy) – fonetická transkripcia

fonémy sú jednotky na reprezentáciu hovorenej reči pracuje s transkripciami a slovníkmi výslovností

Page 17: Syntéza reči

Syntéza reči – prozodická analýza

-blok prozodickej analýzy je tretím blokom TTS systému-v jednoduchých syntetizátoroch nie je nevyhnutná-pridáva k vstupnému reťazcu foném príkazy pre rečový syntetizátor pre prozodické modifikácie

-F0: melódia-Hlasitosť: dôraz-Trvanie (duration): pauzy, rýchlosť reči

-môže pracovať s databázami prozodických príkladov alebo rôznych rečníckych štýlov

Page 18: Syntéza reči

Proces rečovej syntézy

-rečová syntéza je posledným blokom TTS systému

-Tento blok generuje rečový signál z danej postupnosti foném a riadiacích príkazov (tagov)

-dva zakladné procesy:

-výber jednotiek (unit selection)

-syntéza signálu (signal synthesis)

Page 19: Syntéza reči

Proces rečovej syntézy – výber jednotiek

zabezpečuje výber najlepších jednotiek (foném, difón, jednotiek s variabilnou dlžkou ...)

snaha je o minimalizovanie počtu zreťazení ( ak je to možné volí sa výber jednotiek s variabilnou dĺžkou)

snaha vybrať čo najlepšiu jednotku vzhľadom na dané požiadavky a okolité jednotky.

pracuje s indexom rečovej databázy (rýchle hľadanie) kvalita produkovanej reči závisí od počtu zreťazení ( v TTS

systémoch založených na zreťazení). Problémy s koartikulačnými javmi medzi fonémami

Väčší slovník znamená viacej jednotiek, menšie jednotky.

Page 20: Syntéza reči

Proces rečovej syntézy – výber jednotiek fonémy – kontextovo nezávislé

alofóny – kontextovo závislé fonémy

difóny – je jednotka, ktorá začína v strede jednej fonémy a konči v strede inej fonémy.

trifóna – ako difóna, iba preskočíme cez jednu fonému

slabika – je najmenšia kompaktná jednotka v reči

demi-slabika – podobne ako difóna

Page 21: Syntéza reči