21
DIGGING FOR PHONOLOGICAL GOLD WITH ANNIE : A CASE STUDY OF EMBOSI MARTIAL EMBANGA ABOROBONGUI MARTINE ADDA-DECKER LPP UMR 7018

DIGGING FOR PHONOLOGICAL GOLD WITH ANNIE …lpp.in2p3.fr/IMG/pdf/2014-07-04_presentationmartineaddadecker.pdf · Adapter le système d ... Les consonnes des préfixes nominaux sont

Embed Size (px)

Citation preview

DIGGING FOR PHONOLOGICAL GOLD WITH ANNIE :

A CASE STUDY OF EMBOSI

MARTIAL EMBANGA ABOROBONGUI

MARTINE ADDA-DECKER

LPP UMR 7018

OUTLINE

Phonological processes in Embosi (Bantu C25) Phonological data mining / research perspectives

ƐMBƆ%SI, LANGUE BANTU (C 25) PARLÉE AU CONGO (BRAZZAVILLE)

•   Environs 108.000 l o c u t e u r s . (www.Ethnologue.com)

•  Region de la Cuvette

•  Parlé aussi dans les grandes villes du Congo et par sa diaspora

INTÉRÊT DE CE PROJET

Etudier les processus phonologiques suivants:

• Dissimilation consonantique • Élisions vocaliques • Coalescence vocalique de a+i • Allongement compensatoire

Adapter le système d’alignement automatique du français à l‘ɛmbɔsi pour vérifier ces processus phonologiques à la jonction de deux mots dans un long corpus de parole continu.

DISSIMILATION CONSONANTIQUE

Les consonnes des préfixes nominaux sont réalisées lorsque les racines sont à initiale vocalique. Elles ne le sont pas lorsque les racines sont à initial consonantique.

ba (cl. 2) est réalisé b- en (1,2) et a- en (3,4).

1. ba+ási → b-ási « femmes » 2. ba+ána → b-ána « enfants » 3. ba+kondzi → a-kondzi « chefs » 4. ba+kúsu → a-kúsu « tortues »  

La Dissimilation Consonantique ne signifie pas perte totale de la consonne.

La dissimilation consonantique laisse une trace que l’on retrouve dans le processus d’allongement compensatoire.

ELISION À LA JONCTION ENTRE 2 MOTS: CAS DE VOYELLES BRÈVES EN CONTACT

La voyelle finale du 1er mot tombe lorsque le 2ème mot est à initial vocalique. 5. ojúlalámbi                                                                                                                                                                                                                                      (m)o-­‐júlu      á-­‐lámb-­‐i Cl1.femme Cl1.Pas-cuisiner-Récent « La femme a cuisiné »   6. okondzásɛri              (m)o-­‐kondzi    á-­‐sɛr-­‐i   Cl1.chef Cl1.Pas-dire-Récent « The chef a dit. »

ELISION À LA JONCTION ENTRE 2 MOTS: CAS D’ALLONGEMENT COMPENSATOIRE

         Il y a allongement compensatoire lorsque le 2ème mot a une position consonantique flottante.                                                                                  7.    ajúlaalámbi                                                                                                                                                                  V        C        V            (b)a-­‐júlu              (b)á-­‐lámb-­‐i              Cl2.femme Cl2.Pas-cuisiner-Récent u a « Les femmes ont cuisiné »

     8.    akondzaásɛri                (b)a-­‐kondzi    (b)á-­‐sɛr-­‐i                Cl2.chefs    Cl2.Pas-­‐dire-­‐Récent                «  les  chefs  ont    dit.  »                                                                                                                                                                                                    La position C protège la more finale du 1er mot.

ELISION À LA JONCTION ENTRE 2 MOTS: CAS DE VOYELLES LONGUES

Lorsque le 1er mot se termine par une voyelle longue, seule la more finale de cette voyelle longue tombe. 9. ekuébve V V V e-­‐kuu    é-­‐bva-­‐i   cl7.porte cl7.Pas-tomber-Récent u e « la porte est tombée »

ELISION À LA JONCTION ENTRE 2 MOTS: CAS DE VOYELLES LONGUES AVEC POSITION C FLOTTANTE

Lorsque le 1er mot se termine par une voyelle longue et que le 2ème mot ait une position C flottante, une suite de trois voyelles (VVV) émerge. 10.  ikɔiibaá   V V (C) V mi-­‐kɔɔ  (  m)  i-­‐baá   cl4.jours cl4.deux ɔ i « deux jours »  

ELISION À LA JONCTION ENTRE 2 MOTS: CAS DE LA COALESCENCE DE A+I

La coalescence vocalique concerne la séquence a+i qui se réalise soit e ou ɛ selon l’harmonie vocalique. Ce processus est optionnel. 11.  ngéélémbi                ngá        í-­‐lémb-­‐i   1sg SM1sg- se perdre-Récent “Je me suis perdu” 12.  sɛɛkangá                sá    (m)i-­‐kangá   loc cl4.racines « dans les racines »  

PHONOLOGICAL DATA MINING

make use of automatic speech processing as a tool for phonological investigations in large corpora

EXAMPLE DIFFERENT LEVELS OF TRANSCRIPTION

1 2 3 4

1) original transcription 2) with tones and floating Cs 3) realized forms 4) translation

ADAPTATION OF A FRENCH ALIGNEMENT SYSTEM TO EMBOSI (IN COLLABORATION WITH LIMSI-CNRS ORSAY)

Acous'c  models  (HMM  phone  models)  :  French  Pronuncia'on  dic'onary  :  Embosi                

   

PronunciaPon  dicPonaries:  may  implement        1)  phonemic:    canonical  (underlying  full)    forms      2)  add  variants  accounPng  for  potenPal  elisions  on  w.  boundaries  

     

   

     

Alignments:  different  segmentaPon  Pers  depending  on  pron.  dicPonary  

 

Words     Canonical  forms   Variants  

ibáá  tsɛsi  oyénga  ngá        

ibaa  tsɛsi  ojenga  nga    

iba(V),  (V)baa  tsɛs(V)  ojeng(V),  (V)jenga  ng(V)    

ADAPTATION OF A FRENCH ALIGNEMENT SYSTEM TO EMBOSI (IN COLLABORATION WITH LIMSI-CNRS ORSAY)

ALIGNEMENT EXAMPLE – CANONICAL PRONS NO ELISIONS

Texte: ndza a tsɛsi wa re nga ßa li ikja bo «mais le lièvre se demande comment faire »

ALIGNEMENT EXAMPLE – VARIANTS DICTIONARY STUDY OF ELISIONS

Text: (nɔ odi ɔdza la eyia) si ɛβɔɔ yeebvura ɔtaβa nɔ kaa« Aucun secret n’existe pour vous »

Agreement rate between manual and automatic elision decision: 92%

PHONOLOGICAL MINING: A QUANTITATIVE APPROACH TO ELISION

V1#V2 V1# Cflott V2 Nb of word contacts 188 198

% of V1 elision 86,7% 83,3%

Elisions are found by detecting phonemes which are non-aligned on the speech signal at word junction.

PHONOLOGICAL MINING: COMING BACK TO COMPENSATORY LENGTHENING

V1#V2 V1# Cflott V2 Nb of word contacts 188 198 % of V1 elision 85% 83,3% Mean duration of V2 80 ms 100 ms

V (whole corpus) VV (whole corpus)

Nb of V 1738 343 Mean duration 70 ms 120 ms

•  V2 is 20 ms longer when there is a floating C. •  Its mean value is between the mean value of a short V and a

long VV

ANNIE’S RESEARCH AGENDA 2015+

collect field data of various Bantu languages produce transcriptions produce alignments for large scale investigations

elisions, compensatory lengthenings

f0, tones, pauses

test different phonological / tonal models

study acoustic correlates of tones… and many others

ANNIE: ENJOY A HAPPY ACTIVE EMERITAT (NON) RETIREMENT AT LPP THANK YOU