1
ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια ( με Φυσική Προσωδία και Ηχητικά Εικονίδια ( Auditory Icons) Auditory Icons) * * To πρόβλημα: Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής: •Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίας που συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML), δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. •Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας. •Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων. Η προταθείσα λύση: ΔΗΜΟΣΘέΝΗΣ: Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA), που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ. • Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα. • Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣ αποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας. Απομεταγλώττιση εγγράφου σε λογικό επίπεδο. Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό. XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας. Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141 Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International Conference on Human - Computer Interaction (HCII2003), pp 806-810 Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 3025, pp. 390-399 Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol 3206, pp. 521-528 D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005 Doc docXML SSML Speec h & Audio Doc Adapte r Transform er Voice Browser Word HTML Math VXML Modules propert ies ASL Library Doc to docXML docXML to SSML ciXML to S&A Αναφορές: Γεώργιος Κουρουπέτρογλου και Γεράσιμος Ξύδας Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών [email protected] http://demosthenes.di.uoa.gr Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72 </subtok> <subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok> <tmf gender=”feminine” case=”nominative” number=”singular” > 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”> 5</tmf></subtok> </nswpf></W> για να προχωρήσουμε. Μετά την εφαρμογή του ASL για τηλεφωνικά νούμερα και ημερομηνίες Χειρισμός NSW κλιτών γλωσσών: 1. Non-Standard Word Pronunciation Format (NSWPF): Βασίζεται σε κανονικές εκφράσεις και μορφοποιεί αλφαριθμητικά. Π.χ. 210- 7275320 2.10-72.75.3.20 2. Target Morphological Format (TMF): Ορίζει τη μορφολογία μίας λέξης. Π.χ. Στο «21/7» το «21» θα αποδοθεί σε γένος θηλυκό και το «7» σε γένος ουδέτερο. 3. Για την απόδοση προσωδιακής αξίας χρησιμοποιείται η ASL. Πρόβλεψη προσωδιακών δομών Σύνθεση χρονικού διανύσματος Σύνθεση τονικού διανύσματος Σύνθεση κυματομορφής Αναγνώριση μερών του λόγου Συντακτική ανάλυση Μετατροπή σε φωνήματα Πρόσθετα Πρόσθετα modules modules : : Μορφολογικό λεξικό 1,2 εκατ. λέξ. • Αντίστροφο λεξικό καταλήξεων • Αναγνώριση function-content 99% • Αναγνώριση POS 93% Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή Λεξικό και letter-to-sound για τα Αγγλικά Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. CART based μοντέλα CART based μοντέλα – Correlation – Correlation στη πρόβλεψη στη πρόβλεψη των προσωδιακών δομών των προσωδιακών δομών standard standard enriched enriched Breaks Breaks 69.11% 69.11% 92.35% 92.35% Accents Accents 71.67% 71.67% 87.76% 87.76% Boundaries Boundaries 97.59% 97.59% 99.03% 99.03% Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). Αξιολόγηση Αξιολόγηση LR LR μοντέλου μοντέλου standard standard enriched enriched RMSE RMSE 24.79Hz 24.79Hz 21.30Hz 21.30Hz Correlation Correlation 0.58 0.58 0.77 0.77 Tim e (s) 0 7.54191 75 270 Tim e (s) 0 7.54191 75 270 Tim e (s) 0 7.54191 75 270 Origin al Enrich ed Standa rd Diphone-Based: δύο Ελληνικές βάσεις διφώνων ελεύθερες στο Web Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία Απο-μεταγλώττιση εγγράφου DtA: Κανονικοποίηση NSW * Χρηματοδοτήθηκε μερικώς από τα έργα: Μ-PIRO (IST) της Ευρωπαϊκής Ένωσης, ΠΡΟΣΩΔΙΑ (ΗΡΑΚΛΕΙΤΟΣ) του ΕΠΕΑΕΚ, «Προηγμένα Αλληλεπιδραστικά Συστήματα Ομιλίας» (ΠΡΑΞΕ) της ΓΓΕΤ και GR-PROSODY

To πρόβλημα :

Embed Size (px)

DESCRIPTION

Doc Adapter. docXML. Word. Math. VXML. HTML. ASL Library. Modules properties. DtA :. Doc to docXML. docXML to SSML. ciXML to S&A. Speech & Audio. Voice Browser. Transformer. SSML. Doc. - PowerPoint PPT Presentation

Citation preview

Page 1: To  πρόβλημα :

ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) *Auditory Icons) *

ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) *Auditory Icons) *

To πρόβλημα: To πρόβλημα:

Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής:•Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίας που συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML), δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. •Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας.•Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων.

Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής:•Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίας που συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML), δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. •Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας.•Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων.

Η προταθείσα λύση:Η προταθείσα λύση:• ΔΗΜΟΣΘέΝΗΣ: Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA), που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ.• Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα.• Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣ αποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web.

• ΔΗΜΟΣΘέΝΗΣ: Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA), που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ.• Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα.• Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣ αποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web.

• Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας.• Απομεταγλώττιση εγγράφου σε λογικό επίπεδο.• Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό.• XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας.

• Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας.• Απομεταγλώττιση εγγράφου σε λογικό επίπεδο.• Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό.• XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας.

• Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141• Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International

Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence

(LNAI), Vol. 3025, pp. 390-399• Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol

3206, pp. 521-528• Xydas G., D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005

• Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141• Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International

Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence

(LNAI), Vol. 3025, pp. 390-399• Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol

3206, pp. 521-528• Xydas G., D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005

Doc docXML SSML

Speech &

Audio

Doc Adapter

Transformer Voice Browser

Word

HTML

Math

VXML

Modules properties

ASL Library

Doc to docXML docXML to SSML ciXML to S&A

Ανα

φορ

ές:

Ανα

φορ

ές:

Γεώργιος Κουρουπέτρογλου και Γεράσιμος Ξύδας  Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών

[email protected] http://demosthenes.di.uoa.gr

Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72 </subtok> <subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok> <tmf gender=”feminine” case=”nominative” number=”singular” > 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”> 5</tmf></subtok> </nswpf></W> για να προχωρήσουμε.

Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72 </subtok> <subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok> <tmf gender=”feminine” case=”nominative” number=”singular” > 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”> 5</tmf></subtok> </nswpf></W> για να προχωρήσουμε.

Μετά την εφαρμογή του ASL για τηλεφωνικά νούμερα και ημερομηνίες

Χειρισμός NSW κλιτών γλωσσών: Χειρισμός NSW κλιτών γλωσσών:

1. Non-Standard Word Pronunciation Format (NSWPF): Βασίζεται σε κανονικές εκφράσεις και μορφοποιεί αλφαριθμητικά. Π.χ. 210-7275320 2.10-72.75.3.20

2. Target Morphological Format (TMF): Ορίζει τη μορφολογία μίας λέξης. Π.χ. Στο «21/7» το «21» θα αποδοθεί σε γένος θηλυκό και το «7» σε γένος ουδέτερο.

3. Για την απόδοση προσωδιακής αξίας χρησιμοποιείται η ASL.

Πρόβλεψηπροσωδιακών δομών

Σύνθεσηχρονικού διανύσματος

Σύνθεσητονικού διανύσματος

Σύνθεσηκυματομορφής

Αναγνώρισημερών του λόγου

Συντακτικήανάλυση

Μετατροπήσε φωνήματα

Πρόσθετα Πρόσθετα modulesmodules: : • Μορφολογικό λεξικό 1,2 εκατ. λέξ.• Αντίστροφο λεξικό καταλήξεων• Αναγνώριση function-content 99%• Αναγνώριση POS 93%• Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή• Λεξικό και letter-to-sound για τα Αγγλικά

Πρόσθετα Πρόσθετα modulesmodules: : • Μορφολογικό λεξικό 1,2 εκατ. λέξ.• Αντίστροφο λεξικό καταλήξεων• Αναγνώριση function-content 99%• Αναγνώριση POS 93%• Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή• Λεξικό και letter-to-sound για τα Αγγλικά

Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. CART based μοντέλαCART based μοντέλα – Correlation – Correlation στη πρόβλεψη των στη πρόβλεψη των προσωδιακών δομώνπροσωδιακών δομών

standardstandard enrichedenrichedBreaksBreaks 69.11%69.11% 92.35%92.35%AccentsAccents 71.67%71.67% 87.76%87.76%BoundariesBoundaries 97.59%97.59% 99.03%99.03%

Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. CART based μοντέλαCART based μοντέλα – Correlation – Correlation στη πρόβλεψη των στη πρόβλεψη των προσωδιακών δομώνπροσωδιακών δομών

standardstandard enrichedenrichedBreaksBreaks 69.11%69.11% 92.35%92.35%AccentsAccents 71.67%71.67% 87.76%87.76%BoundariesBoundaries 97.59%97.59% 99.03%99.03%

Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). Αξιολόγηση Αξιολόγηση LR LR μοντέλουμοντέλου

standardstandard enrichedenrichedRMSERMSE 24.79Hz24.79Hz 21.30Hz21.30HzCorrelationCorrelation 0.580.58 0.770.77

Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). Αξιολόγηση Αξιολόγηση LR LR μοντέλουμοντέλου

standardstandard enrichedenrichedRMSERMSE 24.79Hz24.79Hz 21.30Hz21.30HzCorrelationCorrelation 0.580.58 0.770.77

Time (s)0 7.54191

75

270

Time (s)0 7.54191

75

270

Time (s)0 7.54191

75

270

Original

Enriched

Standard

• Diphone-Based: δύο Ελληνικές βάσεις διφώνων ελεύθερες στο Web• Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία

• Diphone-Based: δύο Ελληνικές βάσεις διφώνων ελεύθερες στο Web• Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία

Απο-μεταγλώττιση εγγράφου DtA: DtA:

ΚανονικοποίησηNSW

* Χρηματοδοτήθηκε μερικώς από τα έργα: Μ-PIRO (IST) της Ευρωπαϊκής Ένωσης, ΠΡΟΣΩΔΙΑ (ΗΡΑΚΛΕΙΤΟΣ) του ΕΠΕΑΕΚ, «Προηγμένα Αλληλεπιδραστικά Συστήματα Ομιλίας» (ΠΡΑΞΕ) της ΓΓΕΤ και GR-PROSODY (ΚΑΠΟΔΙΣΤΡΙΑΣ) του ΕΚΠΑ .