Upload
celestino-motta
View
212
Download
0
Embed Size (px)
Citation preview
Copyright, 2005 © ISTC-SPFD-CNR
ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE
Viale Marx, 1500137 Roma (Italy)
www: http://www.istc.cnr.ithttp://www.istc.cnr.it
Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale
Giacomo Sommavilla, Carlo Drioli, Piero Cosi
SEZIONE DI PADOVA“FONETICA E DIALETTOLOGIA”
Via G. Anghinoni, 1035121 Padova (Italy)
e-mail: [email protected]: http://www.pd.istc.cnr.ithttp://www.pd.istc.cnr.it
“ANALISI PROSODICA”teorie, modelli e sistemi di annotazione
2° Convegno Nazionale AISV – 30/11- 2/12 2005Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“
introduzione TTSSMS
HNM - Harmonic + Noise Model SMS tools (CLAM)
risultaticonclusioni e sviluppi futuri
introduzione TTSSMS
HNM - Harmonic + Noise Model SMS tools (CLAM)
risultaticonclusioni e sviluppi futuri
Riassunto
Sistema TTS “per concatenazione”
TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto
x concatenazione: la sintesi viene realizzata per concatenazione di unità di base
unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”
sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo
TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto
x concatenazione: la sintesi viene realizzata per concatenazione di unità di base
unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”
sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo
MatchProsody
Elaborazionedei difoni
SignalSynthesis
TTS (concatenativo ): schema generale
NLP+
Prosody
text Phonetic speechDigitalSignal
Processing
FESTIVAL TTSFESTIVAL TTS
.pho file
DSP – Digital Signal Processing
Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching)
MatchProsody
SignalSynthesis
Trasformazione e concatenazione in frequenza di difoni successivi
Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale
Elaborazionedei difoni
SMS - Spectral Modeling Synthesis
)()](cos[)()(1
tettAtsR
rrr
Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo
armoniche (parte armonica, deterministica)
residuo(parte stocastica, rumore)
Rappresentazione nel dominio della frequenza
Sinusoidal analysis/synthesis system
HNM - Harmonic + Noise Model
HNM synthesis
si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’
il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k)
HNM synthesis
PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM
cross-fading di Ak e 0
La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni)
il modello sinusoidale consente l’allineamento in fase di tutte le unità
un database ricco migliora la sintesi
CLAM-SMS
CLAM - C++ Library for Audio and Music
http://www.iua.upf.es/mtg/clam/
Analisi del database di difoni
d0.rawd1.rawd2.rawd3.raw
…
File audio
d0.sdifd1.sdifd2.sdifd3.sdif
…
File SDIF
analyzeDatabase.m
File SDIF
1. frequenze, ampiezze e fasi delle parziali (comp. armonica)
2. inviluppo spettrale della comp. residuale
MBROLAMBROLA
Architettura del sistema
C++C++
Matchprosody
TimeStretching
Fonemi, prosodia (pitch e durate)
Data Basedi difoni(SDIF)
Sintesi(IFFT +OLA)
.pho file .wav file
PitchShifting(formant
preserving)
Concatenazione
Parser
Risultati sperimentali
1) Sintesi MBROLA
2) Sintesi SMS
3) Sintesi SMS con trasformazione (1)
4) Sintesi SMS con trasformazione (2)
5) Sintesi MBROLA (T=1.5, F=2)
6) Sintesi SMS (T=1.5, F=2)
Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)
Conclusioni
i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale
la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto
i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale
la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto
Sviluppi Futuri
residuo: concatenazione ad-hoc per fonemi unvoiced;
parte armonica:
residuo: concatenazione ad-hoc per fonemi unvoiced;
parte armonica: I. morphing / voice conversion
II. sintesi vocale emotiva (E-TTS)III. tecniche di voice quality