To πρόβλημα :

ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) *Auditory Icons) *

ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) *Auditory Icons) *

To πρόβλημα: To πρόβλημα:

Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής:•Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίας που συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML), δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. •Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας.•Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων.

Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής:•Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίας που συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML), δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. •Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας.•Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων.

Η προταθείσα λύση:Η προταθείσα λύση:• ΔΗΜΟΣΘέΝΗΣ: Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA), που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ.• Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα.• Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣ αποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web.

• ΔΗΜΟΣΘέΝΗΣ: Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA), που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ.• Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα.• Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣ αποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web.

• Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας.• Απομεταγλώττιση εγγράφου σε λογικό επίπεδο.• Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό.• XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας.

• Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας.• Απομεταγλώττιση εγγράφου σε λογικό επίπεδο.• Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό.• XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας.

• Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141• Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International

Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence

(LNAI), Vol. 3025, pp. 390-399• Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol

3206, pp. 521-528• Xydas G., D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005

• Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141• Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International

Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence

(LNAI), Vol. 3025, pp. 390-399• Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol

3206, pp. 521-528• Xydas G., D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005

Doc docXML SSML

Speech &

Audio

Doc Adapter

Transformer Voice Browser

Word

HTML

Math

VXML

Modules properties

ASL Library

Doc to docXML docXML to SSML ciXML to S&A

Ανα

φορ

ές:

Ανα

φορ

ές:

Γεώργιος Κουρουπέτρογλου και Γεράσιμος Ξύδας Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών

[email protected] http://demosthenes.di.uoa.gr

Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72 </subtok> <subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok> <tmf gender=”feminine” case=”nominative” number=”singular” > 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”> 5</tmf></subtok> </nswpf></W> για να προχωρήσουμε.

Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72 </subtok> <subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok> <tmf gender=”feminine” case=”nominative” number=”singular” > 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”> 5</tmf></subtok> </nswpf></W> για να προχωρήσουμε.

Μετά την εφαρμογή του ASL για τηλεφωνικά νούμερα και ημερομηνίες

Χειρισμός NSW κλιτών γλωσσών: Χειρισμός NSW κλιτών γλωσσών:

1. Non-Standard Word Pronunciation Format (NSWPF): Βασίζεται σε κανονικές εκφράσεις και μορφοποιεί αλφαριθμητικά. Π.χ. 210-7275320 2.10-72.75.3.20

2. Target Morphological Format (TMF): Ορίζει τη μορφολογία μίας λέξης. Π.χ. Στο «21/7» το «21» θα αποδοθεί σε γένος θηλυκό και το «7» σε γένος ουδέτερο.

3. Για την απόδοση προσωδιακής αξίας χρησιμοποιείται η ASL.

Πρόβλεψηπροσωδιακών δομών

Σύνθεσηχρονικού διανύσματος

Σύνθεσητονικού διανύσματος

Σύνθεσηκυματομορφής

Αναγνώρισημερών του λόγου

Συντακτικήανάλυση

Μετατροπήσε φωνήματα

Πρόσθετα Πρόσθετα modulesmodules: : • Μορφολογικό λεξικό 1,2 εκατ. λέξ.• Αντίστροφο λεξικό καταλήξεων• Αναγνώριση function-content 99%• Αναγνώριση POS 93%• Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή• Λεξικό και letter-to-sound για τα Αγγλικά

Πρόσθετα Πρόσθετα modulesmodules: : • Μορφολογικό λεξικό 1,2 εκατ. λέξ.• Αντίστροφο λεξικό καταλήξεων• Αναγνώριση function-content 99%• Αναγνώριση POS 93%• Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή• Λεξικό και letter-to-sound για τα Αγγλικά

Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. CART based μοντέλαCART based μοντέλα – Correlation – Correlation στη πρόβλεψη των στη πρόβλεψη των προσωδιακών δομώνπροσωδιακών δομών

standardstandard enrichedenrichedBreaksBreaks 69.11%69.11% 92.35%92.35%AccentsAccents 71.67%71.67% 87.76%87.76%BoundariesBoundaries 97.59%97.59% 99.03%99.03%

Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. CART based μοντέλαCART based μοντέλα – Correlation – Correlation στη πρόβλεψη των στη πρόβλεψη των προσωδιακών δομώνπροσωδιακών δομών

standardstandard enrichedenrichedBreaksBreaks 69.11%69.11% 92.35%92.35%AccentsAccents 71.67%71.67% 87.76%87.76%BoundariesBoundaries 97.59%97.59% 99.03%99.03%

Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). Αξιολόγηση Αξιολόγηση LR LR μοντέλουμοντέλου

standardstandard enrichedenrichedRMSERMSE 24.79Hz24.79Hz 21.30Hz21.30HzCorrelationCorrelation 0.580.58 0.770.77

Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). Αξιολόγηση Αξιολόγηση LR LR μοντέλουμοντέλου

standardstandard enrichedenrichedRMSERMSE 24.79Hz24.79Hz 21.30Hz21.30HzCorrelationCorrelation 0.580.58 0.770.77

Time (s)0 7.54191

75

270

Time (s)0 7.54191

75

270

Time (s)0 7.54191

75

270

Original

Enriched

Standard

• Diphone-Based: δύο Ελληνικές βάσεις διφώνων ελεύθερες στο Web• Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία

• Diphone-Based: δύο Ελληνικές βάσεις διφώνων ελεύθερες στο Web• Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία

Απο-μεταγλώττιση εγγράφου DtA: DtA:

ΚανονικοποίησηNSW

* Χρηματοδοτήθηκε μερικώς από τα έργα: Μ-PIRO (IST) της Ευρωπαϊκής Ένωσης, ΠΡΟΣΩΔΙΑ (ΗΡΑΚΛΕΙΤΟΣ) του ΕΠΕΑΕΚ, «Προηγμένα Αλληλεπιδραστικά Συστήματα Ομιλίας» (ΠΡΑΞΕ) της ΓΓΕΤ και GR-PROSODY (ΚΑΠΟΔΙΣΤΡΙΑΣ) του ΕΚΠΑ .