8
Investeşte în oameni! Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial pentru Dezvoltarea Resurselor Umane 2007 – 2013 Axa prioritară: 1 „Educaţia şi formarea profesională în sprijinul creşterii economice şi dezvoltării societăţii bazate pe cunoaştere” Domeniul major de intervenţie: 1.5 „Programe doctorale şi postdoctorale în sprijinul cercetării” Titlul proiectului: “Dezvoltarea şi susţinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei naţionale de cercetare - dezvoltare - inovare” 4D- POSTDOC Cod Contract: POSDRU/89/1.5/S/52603 Beneficiar: Universitatea Tehnică din Cluj-Napoca RAPORT DE CERCETARE Septembrie 2010 Pentru programul de cercetare: Sistem de navigare vocală prin Internet pentru limba română Cercetător postdoctoral: dr.ing. DOMOKOS József

raport cercetare septembrie

Embed Size (px)

DESCRIPTION

Study of phonetics

Citation preview

Page 1: raport cercetare septembrie

Investeşte în oameni!

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial pentru Dezvoltarea Resurselor Umane 2007 – 2013

Axa prioritară: 1 „Educaţia şi formarea profesională în sprijinul creşterii economice şi dezvoltării societăţii bazate pe cunoaştere”

Domeniul major de intervenţie: 1.5 „Programe doctorale şi postdoctorale în sprijinul cercetării”

Titlul proiectului: “Dezvoltarea şi susţinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei naţionale de cercetare - dezvoltare - inovare” 4D-POSTDOC

Cod Contract: POSDRU/89/1.5/S/52603

Beneficiar: Universitatea Tehnică din Cluj-Napoca

RAPORT DE CERCETARESeptembrie 2010

Pentru programul de cercetare:

Sistem de navigare vocală prin Internet pentru limba română

Cercetător postdoctoral:

dr.ing. DOMOKOS József

Întocmit la 01.10.2010

Page 2: raport cercetare septembrie

Prezentul raport de cercetare prezintă activităţile desfăşurate în luna Septembrie 2010, având ca obiect activităţile prevăzute în programul de cercetare pentru luna menţionată mai sus 2010, în cadrul Pachetelor de lucru 1 şi 6 şi 7.

Pachetul de lucru 1 - Crearea bazei de date pentru modelul acustic

Activitatea 1.3 - Transcrierea fonetică

Primul pas în transcrierea fonetică este transcrierea ortografică. Transcrierea ortografică se face manual prin ascultarea repetată a secvenţelor de vorbire şi notarea celor auzite în fişiere text.

Transcrierea fonetică a întrebărilor prestabilite s-a realizat manual. Fişierele cu transcrierea fonetică se stochează în format .txt conform specificaţiilor bazei de date devenite standard în domeniul recunoaşterii vorbirii TIMIT. Setul de caractere ASCII SAMPA specific pentru limba română folosită pentru transcrierea fonetică a întrebărilor este prezentată în tabelul de mai jos.

Vocale

Simbol Exemplu de TranscriereSAMPA apariţiei vin vini_0 câini k1jni_0e fel fela cap kap@ măr m@ro loc loku sur sur^1 fân f^n

Semivocale.

Simbol Exemplu de TranscriereSAMPA apariţiej doi doje_X deasă de_Xas@w sau sawo_X culoare kulo_Xare

Consoane

Simbol Exemplu de TranscriereSAMPA apariţiep păr p@rb barbă barb@t tun tund dar dark cal kalg gât g^tts ţară tsar@

1 caracterul SAMPA 1 a fost înlocuit cu caracterul ASCII ^ deoarece aplicaţia HDman din HTK Toolkit nu suportă transcrieri fonetice care să începă cu cifre (de ex în = 1n)

2

Page 3: raport cercetare septembrie

tS ceas tSasdZ geantă dZant@f fată fat@v vale vales scaun skaunz zi ziS şa SaZ joi Zojh haină hajn@m mână m1n@n nas nasl lapte lapter râs r1s

După transcriere s-a stabilit că avem un număr de 43 propoziţii conţinând un număr de 321 cuvinte din care unele se repetă. Numărul total de cuvinte diferite este 180. Este necesară introducerea unor simboluri pentru marcarea porţiunilor de pauze în vorbire precum şi a porţiunilor ce conţin diferite zgomote (pocnituri, tuse, râs etc.) [2].

S-a realizat o verificare a transcrierilor şi s-au corectat greşelile de transcriere sesizate. Greşelile au ieşit la iveală la construirea dicţionarului de transcriere fonetică unde unele cuvinte au apărut cu mai multe transcrieri. Aceste transcrieri multiple au fost eliminate, iar greşelile de transcriere au fost corectate. Transcrierile corectate se găsesc în Anexa 3.

În urma corecţiilor efectuate s-a modificat şi frecvenţa de apariţie a unor foneme. Statistica refăcută poate fi consultată în Anexa 1 (statistica_fonema_refacuta17.09.2010).

Transcrierea fonetică a conversaţiilor se va realiza automat folosind funcţia HLed din HTK Toolkit [1] însă în prealabil este nevoie de transcrierea ortografică a conversaţiilor precum şi crearea dicţionarului folosind HDman [1] pe baza dicţionarului de pronunţie a cuvintelor.

Segmentarea la nivel de foneme şi cuvinte se va realiza în mod automat folosind metoda alinierii forţate a modelelor Markov ascunse (forced alignment) cu aplicaţia HVite din HTK Toolkit [1] şi va fi verificată manual în final. Se vor crea modele de foneme cu 3 stări stânga dreapta şi model total conectat pentru porţiunile de linişte, iniţializate uniform.

Din păcate nu există un dicţionar de transcriere fonetică în format electronic pentru limba română care să poată fi utilizată în aplicaţii de recunoaştere a vorbiri sau de tip text-to-speech. Din documentaţia studiată [3-6] reiese faptul că ar fi aplicaţii de transcriere fonetică automată pentru limba română şi că ar exista şi dicţionare de transcriere realizate manual pe baza cărora aceste aplicaţii să fie testate, însă aceste aplicaţii şi resurse sunt indisponibile. Am decis că pentru a putea efectua automat transcrierea fonetică, voi realiza o aplicaţie software de sine stătătoare pe baza regulilor de transcriere fonetică precizate de dicţionarele DOOM 2 (Dicţionarul ortografic, ortoepic şi morfologic al limbii române) şi DEX (Dicţionarul Explicativ al limbii române) precum şi pe o bază de date de excepţii de la aceste reguli.

Aplicaţia este dezvoltată în limbajul Java (pentru portabilitate) şi utilizează expresii regulate pentru a realiza transcrierea fonetică.

3

Page 4: raport cercetare septembrie

Rezultatul final al acestei activităţi va consta în fişierele de transcriere ortografică, dicţionarul de transcriere fonetică şi fişierele de transcriere fonetică a conversaţiilor şi se va finaliza în luna octombrie 2010.

A1.5 Înregistrarea bazei de date

Baza de date se va înregistra conform specificaţiilor Buckeye Corpus [2]. S-a realizat înregistrarea întrebărilor pentru controlul conversaţiilor în format audio wav, codat pe 16 biţi. Fiecare întrebare este înregistrată într-un fişier separat denumit cu s urmat de numărul de ordine codat pe 4 caractere şi având extensia wav: s0001.wav - s0043.wav

Pentru a putea testa transcrierea fonetică s-au mai înregistrat 20 de propoziţii pentru testare denumite: ts0001.wav - ts0020.wav

S-a realizat extragerea caracteristicilor Mel cepstrali şi a parametrilor delta şi acceleraţie atât pentru rostirile întrebărilor de control a conversaţiei cât şi pentru rostirile de test. Aceşti coeficienţi sunt stocaţi în fişiere cu acelaşi nume ca şi fişierele audio, însă cu extensia mfc (de ex. s0001.mfc - s0020.mfc pentru întrebări şi ts0001.mfc - ts0020.mfc pentru rostirile de testare).

Activitatea 1.7 - Documentarea bazei de date

Documentarea bazei de date va conţine descrierea condiţiilor şi parametrilor de înregistrare, lista vorbitorilor cu coduri, precum şi a convenţiilor de denumire a fişierelor din baza de date. Se va specifica vârsta, sexul şi limba maternă a fiecărui vorbitor.

Documentaţia va conţine structura fişierelor de transcriere fonetică, structura fişierelor de segmentare şi dicţionarul cu toate cuvintele care apar în baza de date împreună cu transcrierea lor fonetică.

Documentaţia tehnică a bazei de date va fi finalizată în luna Octombrie 2010. Versiunea în lucru a documentaţiei tehnice poate fi consultată în Anexa 2.

Activitatea 1.8 - Întocmirea rapoartelor de cercetare lunare

pentru etapa 1

Rezultatele acestei activităţi sunt:

Raport privind rezultatele sprijinului financiar pentru luna Septembrie 2010 (Anexa 4)

Raport lunar de cercetare

Evidenţa lunară a orelor efectuate în cadrul proiectului pentru luna Septembrie 2010 (Anexa 5)

Activitatea A6 - Diseminarea rezultatelor

Activitatea 6.13 - Realizarea şi mentenanţa paginii WEB a proiectului.

4

Page 5: raport cercetare septembrie

S-au încărcat pe pagina WEB a proiectului (http://users.utcluj.ro/~jdomokos) fişierele de raportare pentru luna Septembrie 2010.

Pagina a fost promovată în diferitele motoare de căutare (Google şi Yahoo).S-a realizat înregistrarea site-ului în Google Analytics şi în Google Webmaster Tools

pentru a se putea urmării diferite statistici despre accesările site-ului de către utilizatori.

Bibliografie

1. Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, The HTK Book (for HTK Version 3.4), 2006

2. Mark A. Pitt, Keith Johnson, Elizabeth Hume, Scott Kiesling, William Raymond, The Buckeye corpus of conversational speech: labeling conventions and a test of transcriber reliability, Speech Communication 45 (2005) pp. 89–95

3. Burileanu D., Basic Research and Implementation Decisions for a Text-to-Speech Synthesis System in Romanian, International Journal of Speech Technology, nr. 5/2002, pp.211-225

4. Burileanu D., Sima M., Neagu A., A phonetic converter for speech synthesis in romanian, Proceedings of the XIVth Congress on Phonetic Science (ICPhS), vol. 1, pp. 503-506, San Francisco, 1999

5. Toma Ş.-A., Munteanu D., Rule-based automatic phonetic transcription for the Romanian language, Computation World: Future Computing, Service Computation, Cognitive, Adaptive, Content, Patterns, pp. 682-686, Athens, 15-20 November 2009

6. Ordean M. A., Şaupe A., Ordean M., Duma M., Silaghi G. C., Enhanced rule-based phonetic transcription for the Romanian language, Proceedings of the 11th

International Symphosium On Symbolic and Numeric Alghorithms for Scientific Computation (SYNASC), pp. 401-406, Timişoara, 26-29 September 2009

Anexe

Anexa 1 - Statistica_fonema_refacuta 17.09.2010

Anexa 2 - Intrebari_conversatie_taranscrise_corectate

Anexa 3 – Documentaţia tehnică a bazei de date (versiune în lucru)

Anexa 4 - Raport privind rezultatele sprijinului financiar pentru luna august 2010

Anexa 5 - Evidenţa lunară a orelor efectuate în cadrul proiectului pentru luna August 2010

5