U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm,...
Preview:
Citation preview
- Page 1
- Page 2
- U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS
Christophe Parisse, Inserm, Modyco/CNRS Universit Paris Ouest
Nanterre
- Page 3
- T LCHARGEMENTS Elan:
http://tla.mpi.nl/tools/tla-tools/elan/download/http://tla.mpi.nl/tools/tla-tools/elan/download/
Prsentation des donnes en partitions, codage des gestes, des
interactions et reprsentation temporelle fine des donnes Clan:
http://childes.psy.cmu.edu/clan/http://childes.psy.cmu.edu/clan/
Codage textuel complet du langage oral (en particulier acquisition
du langage). Prsentation textuelles avec donnes secondaires.
Commandes annexes. Transcriber:
http://trans.sourceforge.nethttp://trans.sourceforge.net Codage
textuel des interactions. Transcription au kilomtre. Pas de donnes
secondaires. Praat:
http://www.fon.hum.uva.nl/praat/http://www.fon.hum.uva.nl/praat/
Logiciel de traitement et affichage de sons. Excel ou LibreOffice:
Logiciels de manipulation de tableau de donnes R:
http://cran.univ-lyon1.fr/http://cran.univ-lyon1.fr/ Le logiciel
libre de statistique, de traitement de corpus, de cration de
graphiques TXM:
http://textometrie.ens-lyon.fr/http://textometrie.ens-lyon.fr/ Un
logiciel de textomtrie permettant limport de multiples fichiers
textes Le Trameur:
http://www.tal.univ-paris3.fr/trameur/http://www.tal.univ-paris3.fr/trameur/
Un autre logiciel de textomtrie possdant des caractristiques
diffrentes (seulement sous Windows) Jedit, Notepad++, TextWrangler
Editeurs de texte brut permettant de modifier et de corriger
semi-automatiquement les corpus de texte ou les tableaux en texte
spars par des tabulations ou des virgules
- Page 4
- U TILISATION DE TABLEUR, DE LOGICIELS DE TEXTOMTRIE (TXM), DE
STATISTIQUES (R), AVEC DES CORPUS DE LANGAGE ORAL Plan du cours
Extraction depuis des corpus: Vers du texte en lignes et colonnes
(pour tableur) Vers du texte avec des sparateurs (pour textomtrie)
Vers des fichiers structurs (XML simplifi) Utilisation de logiciel
de textomtrie Lexique Concordances Cooccurrences Autres fonctions
Utilisation avec un tableur Codage Passage vers un logiciel de
statistiques Retour vers un logiciel de transcription
- Page 5
- E XPORTATIONS
- Page 6
- E XTRACTION DE CORPUS La plupart des logiciels dalignement de
corpus ont des outils permettant lexport vers des formats textes ou
csv (donnes spares par des virgules ou des tabulations) Cette
exportation permet de travailler avec des outils de statistiques,
de textomtrie, ou des tableurs. Il est parfois ncessaire, selon
loutil que lon va utiliser de faire des ajustements sur les
fichiers obtenus Changement dencodage (format des accents)
Insertion dentete de fichiers Insertion ou modification des formats
de lignes ou de mots La conversion peut tre loccasion dutiliser
doutils (analyse syntaxique par exemple)
- Page 7
- E XEMPLES DE CORPUS Le tutoriel est bas sur des exemples de
corpus de plusieurs origines et formats: Transcriber: Corpus du
franais parl parisien (http://cfpp2000.univ-paris3.fr/
)http://cfpp2000.univ-paris3.fr/ Clan: Corpus de Madeleine
(Morgenstern Paris corpus : Childes http://childes.psy.cmu.edu
)http://childes.psy.cmu.edu
- Page 8
- C ONVERSION DEPUIS T RANSCRIBER Les conversions de Transcriber
vers du format texte peuvent se faire facilement en passant par
ELAN ou par CLAN. TXM permet aussi limport direct depuis
Transcriber. ELAN ne permet toutefois pas le traitement de
multiples fichiers Transcriber Fichiers convertir un par un Passer
de Transcriber Clan Un outil est disponible ( tlcharger sur la page
du workshop : Conversion.jar attention ncessite Java) Il permet une
conversion vers Clan de rpertoires complets
- Page 9
- C ONVERSIONS. JAR ( NCESSITE J AVA ) Cliquer sur: Convertir de
Transcriber Vers CLAN Choisir dossier ou fichiers Convertir !
- Page 10
- C ONVERSION DEPUIS CLAN Les conversions depuis CLAN se ralisent
laide des commandes de CLAN CLAN permet de traiter en une seule
fois tout un ensemble de fichiers CLAN permet de choisir les
parties extraire Il est aussi possible de nettoyer les corpus des
codes spcifiques CHAT quils peuvent contenir et mettre les noncs
dans une seule ligne (ou paragraphe) Les commandes CLAN permet
aussi une conversion vers un format TABLEUR
- Page 11
- C OMMANDES CLAN D EXTRACTION DE T EXTE FLO cre une ligne
secondaire %flo contenant la transcription orthographique sans les
codes spcifiques de CHAT Loption -d supprime la ligne principale et
la remplace par la ligne sans code Loption -cm filtre la ligne
principale de manire parallle la ligne %mor: LONGTIER cre un
fichier CLAN sans retour la ligne (tous les tiers sont mis sur une
seule ligne) cette option facilite le traitement par certains
logiciels KWAL permet dextraire certaines parties dun corpus selon
ses besoins
- Page 12
- E NCHAINEMENT DES COMMANDES CLAN CLAN permet denchainer
plusieurs commandes de suite Dabord FLO, puis LONGTIER, puis KWAL
Chaque commande traite tous les fichiers et cre un nouveau fichier
avec le rsultat Soit cre un nouveau fichier avec une nouvelle
extension Soit remplace lancien fichier (attention avoir fait une
copie !). Par exemple: Andre-Morange.cha puis aprs FLO
Andre-Morange.flo.cex puis aprs LONGTIER
Andre-Morange.flo.longtr.cex puis aprs KWAL
Andre-Morange.flo.longtr.kwal.cex
- Page 13
- C OMMANDE KWAL La commande kwal est la commande fondamentale
pour extraire des donnes au format texte depuis des fichiers CLAN.
Elle est utilise pour le texte et pour linsertion dans un tableur.
Elle possde 18 paramtres dont 3 sont fondamentaux pour
lexportation: +dvaleur : paramtre rglant le format de sortie +d
sortie au format texte brut +d4 sortie au format tableur +tvaleur :
spcifie les champs rechercher et afficher +t*NOM cherche les lignes
principales du locuteur NOM +t%tier cherche les lignes secondaires
de nom %tier -t*NOM cherche les lignes principales sauf celles du
locuteur NOM -t%tier cherche les lignes secondaires sauf celles de
nom %tier
- Page 14
- C OMMANDE K WAL : SUITE +ovaleur : spcifie les champs produire
en dehors de ceux concerns par +t +o*MOT produit le locuteur MOT
mme sil nest pas recherch par +t +o%sit produit les lignes
secondaires %sit mme si elles ne sont pas recherches par +t +smotif
: spcifie un motif rechercher dans les lments indiqus par +t/-t
permet de nextraire quune partie des donnes +u combine tous les
fichiers en un seul +wx -wx produit des noncs avant ou aprs les
lments recherchs +xCNT produit seulement les noncs de C(>
table(t$enfant,t$nbargs) rsultats bruts 0 1 2 3 4 leonard 65 35 51
19 0 madeleine 257 129 265 104 1 theophile 38 23 48 7 0
>">
- Q UELQUES STATISTIQUES > table(t$enfant,t$nbargs) rsultats
bruts 0 1 2 3 4 leonard 65 35 51 19 0 madeleine 257 129 265 104 1
theophile 38 23 48 7 0 >
round(prop.table(table(t$enfant,t$nbargs),1),2)*100 pourcentages 0
1 2 3 4 leonard 38 21 30 11 0 madeleine 34 17 35 14 0 theophile 33
20 41 6 0 > chisq.test(c(65,35,51,19),c(257,129,265,104)) pas de
diffrence entre lonard Pearson's Chi-squared test et madeleine
data: c(65, 35, 51, 19) and c(257, 129, 265, 104) X-squared = 12,
df = 9, p-value = 0.2133 >
chisq.test(c(65,35,51,19),c(38,23,48,7)) pas de diffrence entre
lonar d Pearson's Chi-squared test et thophile data: c(65, 35, 51,
19) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value = 0.2133
> chisq.test(c(257,129,265,104),c(38,23,48,7)) pas de diffrence
entre madeleine Pearson's Chi-squared test et thophile data: c(257,
129, 265, 104) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value
= 0.2133
- Page 90
- E T UN GRAPHIQUE >
barplot(prop.table(table(t$enfant,t$nbargs),1), beside=T,
legend=c('leonard','madeleine','theophile)
- Page 91
- Editer le fichier tableur et exporter la feuille Convertir le
format si ncessaire Choisir le format de chaque colonne Rsultat
dans ELAN I MPORTER DE E XCEL VERS E LAN
- Page 92
- A UTRES IMPORTATIONS Il est possible dimporter depuis
Transcriber (fichier de transcription), depuis Praat, depuis CLAN.
Les importations depuis des CSV (fichiers spars par des
tabulations) peuvent tre rptes successivement en tirant parti de la
fonction Fusionner les transcriptions (menu Fichier) elle permet de
superposer deux transcriptions et de mettre le rsultat dans un
nouveau fichier ce qui permet de faire plusieurs traitements ou
transcriptions successives