Upload
nalani
View
80
Download
0
Embed Size (px)
DESCRIPTION
Syntéza reči. Syntéza reči - úvod. Rozpoznávanie – konverzia reči na text Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS) - PowerPoint PPT Presentation
Citation preview
Syntéza reči
Syntéza reči - úvod
Rozpoznávanie – konverzia reči na text
Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS)
Aplikácie: ak nie je iná možnosť ako oznámiť informácie: napr. v aplikáciach pre nevidiacich, telefónnych aplikáciach (call centers), experimentálnych aplikáciach, robotike
Ďalšie možné aplikácie: auto-aplikácie (navigácia), smart home aplikácie, office
TTS je menej výpočtovo náročný proces ako rozpoznávanie reči
Problematika TTS je interdisciplinárna: spracovanie signálov, teoretická informatika, natural language processing, fonetika, databazové systémy.
1846 – prvý mechanický syntetizátor nazvaný rečový organ
1922 - prvý elektrické syntetizačné zariadenie
1939 – prvý elektrický rečový syntetizátor Voder, riadený človekom pomocou pedálov a kláves
1961 – prvý syntetizátor s fonetickými pravidlami pre digitálny počítač
1968 – prvý kompletný text-to-speech system
roky 80te – začiatky komerčných TTS
1985 – PSOLA – prosodické modifikácie
roky 90te – deterministické/stochastické modely, veľké databázy
Syntéza reči - história
Syntéza reči – schéma - Voder
Komplexnosť úlohy syntézy reči
Vyvinúť komplexný TTS systém nie je ľahké.
TTS musí zvládnuť úlohy: modelovanie prozódie (prízvuku), analýzu lexikálnej štruktúry textu a pod.
Zlá prozódia môže meniť význam vety!
TTS – delenie podľa komplexnosti
TTS s malým slovníkom - spájané jednotky možu byť slová alebo frázy. Zvyčajne nie je potrebná nejaká prozodická modifikácia. Ide o jednoduché „zreťazenie“ jednotiek – slov, fráz.
TTS so stredne veľkým slovníkom (limitovaným) – najčastejšie technológia spájania slov a sub-slovných jednotiek (častí slov – slabík, ...). Úprava prozódie je voliteľná. Tento typ sa používa najmä v tel. aplikáciach
TTS s veľkým slovníkom – vstupom môže byť ľubovoľný text – väčšinou založený na zreťazení foném. Od týchto systémov sa očakáva kvalitná práca s prozódiou a „high quality concatenation“. Tento typ syntézy nájde uplatnenie v office aplikáciach.
TTS systémová štruktúra
TTS systémová štruktúra
Vstupom je čistý text (email, článok, príkazy...) alebo otagovaný (označený) text (VoiceXML, HTML, ...) so „značkami“ pre TTS systém
Textová analýza sa snaží porozumieť textu a vložiť doň sémantické (významové) značky.
Fonetická analýza – konvertuje text do postupnosti fonén
Prozodická analýza – pridáva informácie o prozódií do reťazca foném (melódia, akcent, pauzy, tempo)
Blok rečovej syntézy generuje rečový signál z daného reťazca foném (alebo iných jednotiek) a prozodickej informácie
Syntéza reči – textová analýza
- Textová analýza je prvým blokom TTS systému - Snaží sa pochopiť vstupný text (na istej úrovni)- Do vstupného toku vkladá informáciu o význame (sémantike)- Može byť použitý v iných aplikáciach- Je jazykovo závislý. Rozdielné problémy v rozličných jazykoch- Pracuje s pravidlami, bázou znalostí a s veľkými slovníkami
Text analyses - Document Structure Detection
Je potrebná pre veľké dokumenty, pre porozumenie častí dokumentu (kapitoly, paragrafy, tabuľky)
Rozdelenie na vety. Spracovanie textu sa vykonáva po vetách.
Výstupom by mal byť text v podobe otagovaných viet.
Pracuje s pravidlami.
Text analyses – normalizácia textu
je dôležitá, každý TTS systém by ju mal mať.
jej úlohou je náhrada nerečových tokénov ich textovým prepisom
ide o čísla, dátumy, časy, skratky, symboly, a pod.
niekedy je potrebné použiť hláskovanie (spelling)
je potrebné implementovať pravidlá pre skloňovanie v slovečine
Výstupom by mal byť text bez špeciálnych symbolov
Pracuje s pravidlami (rules)
100 km/h -> sto kilometrov za hodinu (základný tvar: kilometre za sekundu)
Text analyses – linguistická analýza
syntaktický a sémantický parsing textu
delenie viet ( na odseky, hlavná – vedľajšia veta)
určenie typu slova, vzoru, pádu, rodu
detekcia významu slova, zdôraznenia, priamej reči (povedal: „Ahoj!“) ...
Generuje informáciu pre prozodickú analýzu; zlé pochopenie textu -> nesprávna prozódia (prízvuk) -> výsledok bude znieť neprirodzene, resp. zlá prozódia, môže zmeniť význam textu.
Výstupom môže byť čistý text s označenou sémantickou informáciou
Pracuje s pravidlami (gramatiky, rozhodovacie stromy, ...)
Syntéza reči – fonetická analýza
-Blok fonetickej analýzy je druhým blokom TTS systému
-Pokúša sa rozdeliť text na fonémy
-Definuje, čo bude syntetizátor hovoriť
-Generuje postupnosť foném
-Hlavnou časťou je konverzia grafém na fonémy (letter to sound)
-Pracuje s pravidlami a databázou jednotiek (foném)
Syntéza reči - Odstránenie homografov
homograf – dve slová s rozdielnou výslovnosťou (fonémy, dlžka) a rovnakou textovou reprezentáciou.
príklad: ??
Rozhodnutie o tom, ktorá výslovnosť sa má použiť vyplýva z analýzy textu
Pracuje s informáciami z bloku textovej analýzy, pravidlami a pravdepodobnosťami.
Syntéza reči – morfologická analýza
Dekompozícia slova na predponu, základ slova a príponu Pracuje s informáciami z bloku textovej analýzy, s pravidlami a
slovníkom.
Syntéza reči – konverzia písmen na zvuky
konvertujú sa písmena (grafémy) na zvuky (fonémy) – fonetická transkripcia
fonémy sú jednotky na reprezentáciu hovorenej reči pracuje s transkripciami a slovníkmi výslovností
Syntéza reči – prozodická analýza
-blok prozodickej analýzy je tretím blokom TTS systému-v jednoduchých syntetizátoroch nie je nevyhnutná-pridáva k vstupnému reťazcu foném príkazy pre rečový syntetizátor pre prozodické modifikácie
-F0: melódia-Hlasitosť: dôraz-Trvanie (duration): pauzy, rýchlosť reči
-môže pracovať s databázami prozodických príkladov alebo rôznych rečníckych štýlov
Proces rečovej syntézy
-rečová syntéza je posledným blokom TTS systému
-Tento blok generuje rečový signál z danej postupnosti foném a riadiacích príkazov (tagov)
-dva zakladné procesy:
-výber jednotiek (unit selection)
-syntéza signálu (signal synthesis)
Proces rečovej syntézy – výber jednotiek
zabezpečuje výber najlepších jednotiek (foném, difón, jednotiek s variabilnou dlžkou ...)
snaha je o minimalizovanie počtu zreťazení ( ak je to možné volí sa výber jednotiek s variabilnou dĺžkou)
snaha vybrať čo najlepšiu jednotku vzhľadom na dané požiadavky a okolité jednotky.
pracuje s indexom rečovej databázy (rýchle hľadanie) kvalita produkovanej reči závisí od počtu zreťazení ( v TTS
systémoch založených na zreťazení). Problémy s koartikulačnými javmi medzi fonémami
Väčší slovník znamená viacej jednotiek, menšie jednotky.
Proces rečovej syntézy – výber jednotiek fonémy – kontextovo nezávislé
alofóny – kontextovo závislé fonémy
difóny – je jednotka, ktorá začína v strede jednej fonémy a konči v strede inej fonémy.
trifóna – ako difóna, iba preskočíme cez jednu fonému
slabika – je najmenšia kompaktná jednotka v reči
demi-slabika – podobne ako difóna