17
Università degli Studi di Trieste Facoltà di Ingegneria Dipartimento di Elettrotecnica, Elettronica e Informatica Tesi di laurea in: Programmazione dei Calcolatori Laureando: Michele Furlan Relatore: Dott. Ing. Massimiliano Noli SVILUPPO DI UN’INTERFACCIA UOMO- ROBOT BASATA SULLA SINTESI VOCALE PER CONCATENAZIONE

Presentazione Laurea Triennale (Furlan Michele)

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Presentazione Laurea Triennale (Furlan Michele)

Università degli Studi di TriesteFacoltà di Ingegneria

Dipartimento di Elettrotecnica, Elettronica e Informatica

Tesi di laurea in:Programmazione dei Calcolatori

Laureando: Michele Furlan

Relatore: Dott. Ing. Massimiliano Nolich

SVILUPPO DI UN’INTERFACCIA UOMO-ROBOTBASATA SULLA SINTESI VOCALE

PER CONCATENAZIONE

Page 2: Presentazione Laurea Triennale (Furlan Michele)

Introduzione

• La sintesi vocale è uno strumento che permette di trasformare un testo scritto in formato audio

• Sintetizzatori vocali presenti su diverse piattaforme• Compromesso tra qualità e dinamismo• Migliorano interazione uomo-macchina• Agevolano persone ipovedenti

Page 3: Presentazione Laurea Triennale (Furlan Michele)

Motivazioni• Progettazione di un sintetizzatore vocale per applicazioni specifiche:

– Database fonetico ingente ma aggiornabile possibilità di ampliare il range di frasi pronunciabili– Multipiattaforma– Alta qualità– Diverse voci

• Risultati attesi:– Naturalezza – Comprensibilità

Page 4: Presentazione Laurea Triennale (Furlan Michele)

Sistemi di sintesi vocale

• Sintesi articolatoria

• Sintesi concatenativa– Concatenazione di difoni– Concatenazione di parole intere

Page 5: Presentazione Laurea Triennale (Furlan Michele)

Il sistema implementato

• Realizzazione di un sintetizzatore vocale per concatenazione di parole

• Linguaggio di programmazione Java (vers. 1.6)– JavaSound API– Netbeans IDE

• Struttura del programma– 4 classi implementate

Tesi

(solo il main che crea un oggetto FormPrincipale )

Frase(acquisisce stringa, crea oggetti Parola, playback,

grafo, costi, ottimizza, pessimizza, ottimizza2)

FormPrincipale

(estende JFrame)

Parola

(carica le parole corrette dal database)

Page 6: Presentazione Laurea Triennale (Furlan Michele)

JavaSound API

• Elaborazione, registrazione e mixaggio di audio digitale • “Platform independent”• Complessità dal punto di vista della programmazione• Formato MIDI e suoni campionati• Fornisce funzionalità per applicazioni tipo:

– Framework comunicativi– Media players e contenuti musicali– Programmi interattivi come videogiochi e siti web– Contenuti creativi ed editing– Tools e utilities

Page 7: Presentazione Laurea Triennale (Furlan Michele)

Concatenazione di parole• Registrazione di una serie di frasi campione• Estrazione delle parole tramite il taglio del segnale

audio• Le parole estratte hanno un peso che dipende dalla

posizione all’interno della frase (inizio, in mezzo, fine, etc.)

• Classificazione e memorizzazione delle parole all’interno del database

• Il peso delle parole viene considerato nella successiva fase di ottimizzazione

Page 8: Presentazione Laurea Triennale (Furlan Michele)

Ottimizza – Pessimizza

• Struttura tipo grafo

• Sistema di ottimizzazione

• Sistema di pessimizzazione

• Sistema di costi (ce ne sono 2)

Page 9: Presentazione Laurea Triennale (Furlan Michele)

Primo sistema di ottimizzazione

sistema di costi

Posizione corrente

Tipo file

Inizio

frase

Metà

frase

Fine

frase

Prima

virgola

Dopo

virgola

IF 1 3 5 5 2

IM 3 1 3 3 3

FF 5 3 1 2 5

PV 4 2 2 1 4

DV 2 2 4 4 1

costi Cp

Page 10: Presentazione Laurea Triennale (Furlan Michele)

Secondo sistema di ottimizzazione

• Prende in cosiderazione anche i costi CL

• Costi della transizione lettera-lettera tra parole diverse

• Caratteri fonetici dei fonemi della lingua italiana

• CL è un costo di tipo binario che modifica il costo Cp preesistente

Page 11: Presentazione Laurea Triennale (Furlan Michele)

Esempi di frasi• Frasi tratte dai test condotti:

– Primo sistema di ottimizzazione:• Frase ottima• Frase pessima

– Secondo sistema di ottimizzazione• Frase ottima• Frase pessima

Page 12: Presentazione Laurea Triennale (Furlan Michele)

Risultati sperimentali (1)

• Risultati attesi:– Sintesi naturale– Sintesi intelligibile– Differenza rilevabile tra sintesi ottimizzata e

sintesi pessimizzata– Valutazione dell’efficacia del secondo sistema di

ottimizzazione

Page 13: Presentazione Laurea Triennale (Furlan Michele)

Risultati sperimentali (2)

• Procedura di test:– 20 persone (tra i 18 e i 53 anni)– 10 frasi (ottimizzate e pessimizzate)– Valutazione da 1 a 5 su naturalezza ed intelligibilità per

ogni frase– Prima ed ultima frase uguali, ma…

Page 14: Presentazione Laurea Triennale (Furlan Michele)

Risultati sperimentali (3)

• Risultati preliminari:– Ottimizzazione aumenta naturalezza del 14,8%– Ottimizzazione aumenta intelligibilità del 13,4%– Secondo sistema di ottimizzazione migliora il

primo del 37,3% in naturalezza e rimane agli stessi livelli in fatto di intelligibilità

Page 15: Presentazione Laurea Triennale (Furlan Michele)

Risultati sperimentali (4)

• Dall’analisi dei dati raccolti emerge che:

Il sintetizzatore vocale sviluppato ha le potenzialità per fornire un parlato di naturalezza quasi Ottima e di intelligibilità Ottima.

Page 16: Presentazione Laurea Triennale (Furlan Michele)

Lavoro svolto

• Implementazione software ex novo• Studio delle modalità di programmazione dell’API JavaSound• Registrazione e taglio di segnali sonori generando un DB di

dati audio utilizzato dal software• Sviluppo di due differenti sistemi di ottimizzazione (con

relativa pessimizzazione)• Conduzione di un’indagine statistica• Analisi dei dati

Page 17: Presentazione Laurea Triennale (Furlan Michele)

Conclusioni e sviluppi futuri

• Aspettative rispettate• Applicazione su un sistema di autenticazione

biometrica• Applicabile in ambito ferroviario, aeroportuale,

telefonico, meteorologico, etc.• Sviluppi futuri:

sviluppo di un tool che guidi la registrazione e la corretta memorizzazione delle parole all’interno del database