Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Florence Chenu●, Harriet Jisa● , Michel Fayol*, Bernard Lété, Séverine Maggio
●
Laboratoire DDL (CNRS & Université Lumière Lyon 2)
Lapsco (CNRS & Université de Clermont-Ferrand)
Laboratoire EMC (université Lumière Lyon 2)
9-juillet-2013 École d'Été Dynamique de la production écrite - Poitiers 1
Sommaire
1. Rappels Eye & Pen Bref descriptif des procédures pour collecter les données
et des données collectées (format des données brutes).
2. Conventions de transcription pour l’écrit Segmentation et codage du texte
Annotations
Choix de CLAN
3. Enrichissement des données textuelles Cordial, Treetagger
Manulex, Lexique 3
Et autres
4. Extractions pour l’analyse des données chronométriques EP Keys & Perl
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 2
Renforcer la Flexibilité Lexicale et syntaxique
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 3
Objectifs
Élaboration de nouvelles voies pour l’analyse et l’amélioration de la
production des textes oraux et écrits des enfants, adolescents et
jeunes adultes.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 4
"Developing Literacy in Different Contexts and in Different Languages"*
Participants :
Israël - Tel Aviv (Ruth Berman (PI), Dorit Ravid)
USA - San Diego, California (Judy Reilly)
Sweden - Göteburg (Sven Strömqvist
Spain - Barcelona (Liliana Tolchinsky)
Holland - Nimegen (Ludo Verhoeven)
Iceland - Reyjavik (Hfranildur Ragnarsdottir)
France - Lyon2 (Harriet Jisa)
* Financial support for this research was provided by the Spencer Foundation (Chicago, Illinois, USA), Ruth Berman, Project Coordinator.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 5
Later language development
Dialogue to Monologue
Impact of literacy
Children write as they speak, but they also
learn to speak as they write
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 6
Bref descriptif des procédures pour collecter les
données et des données collectées (format des
données brutes).
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 7
MÉTHODOLOGIE
Collecte des données
Film Vidéo silencieuse présentant des scènes ordinaires de
problèmes entre les gens ;
Thème : conflit moral & social.
Textes Narratif
Chaque participant a écrit et raconté une histoire à propos d’un problème ou une dispute.
Expositif
Chaque participant a écrit et dit un texte dans lequel il présentait ses connaissances à propos des problèmes entre les gens.
8
Recueil des données
3 groupes (CM2 ; 5e ; 3e)
40 individus par groupe (parité de genre
; avec/sans difficulté d’expression)
3 questionnaires par individus
4 textes par individu (2 oraux – 2 écrits)
Soit environ 240 oraux ; 240 brouillons ; 240
« propres »
Enregistreurs numériques, tablettes
graphiques
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 9
Narrative Text
Each subject wrote and related a personal story concerning a problem or a quarrel.
Expository text
Each subject produced a written and spoken text in which s/he presented ideas
about problems between people.
Week 1 Week 2
A Narrative spoken Questionnaire Narrative written Expository spoken Questionnaire Expository written
B Narrative written Questionnaire Narrative spoken Expository written Questionnaire Expository spoken
C Expository spoken Questionnaire Expository written Narrative spoken Questionnaire Narrative written
D Expository written Questionnaire Expository spoken Narrative written Questionnaire Narrative spoken
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 10
Types de données
Données orales Produits
Données chrono
Données écrites brouillon Produits
Données Chrono
Données écrites propres Produits
Données Chrono
Questionnaires Cases à cocher
Questions ouvertes
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 11
Exemples de textes
12
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 13
Choix d’un format, aménagements
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 14
Textes
Choix de CLAN pour analyser les textes
produits oraux et écrits
Données chrono
CLAN pour les oraux
SPSS pour les écrits
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 15
Année universitaire 2011-12 [email protected] 16
Composants
Transcription (CHAT)
Analyses (CLAN)
Banque de données 30 langues (danois, français, allemand,
grec, hébreux, hongrois, tamil, turc, etc. mais principalement anglais)
Corpus transcrits et analysés enfants (développement normal et troubles du langage), adultes aphasiques, bilingues, apprenants L2.
Manuels
Compléments (gram)
Listes de diffusion [email protected]
Année universitaire 2011-12 [email protected] 18
Télécharger et installer CLAN
Sur http://childes.psy.cmu.edu/
Vérifier régulièrement qu’on
dispose d’une version récente
Se reporter
aux manuels
lorsqu’on
n’est pas sûr
Année universitaire 2011-12 [email protected] 19
Environnement CHILDES
Fenêtre
commande
Fenêtre
Résultats
Fenêtre corpus
Transcription & codage
Établissement de conventions de
« transcription » pour les spécificités de
l’écrit (e.g. codage des révisions, erreurs
d’orthographe, majuscules, chiffres, etc.
cf. manuel)
Aménagement des conventions CLAN
pour les oraux (mots non standard,
pauses, etc.)
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 20
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 21
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 22
Textes écrits brouillon
Transcription dans Eye & Pen avec les
conventions CLAN étendues pour l’écrit
(Manuel)
Exportation pour CLAN (perl) sans
données chrono
Exportation pour SPSS
avec données chrono
et codage
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 23
Eye and pen text – j506 expo écrit
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 24
Exemples d’aménagements CLAN écrits
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 25
Exemples d’aménagements CLAN écrits
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 26
Exemples d’aménagements CLAN écrits
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 27
Exemples d’aménagements CLAN écrits
Mots incomplets
Mots incompréhensibles
Mots non standard
Mots manquants
Chiffres et nombres
Acronymes et sigles
Ponctuation
Gribouillis et signes non alphabétiques, etc.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 28
École d'Été Dynamique de la production écrite -
Poitiers 29
Classification des Revisions Activité de révision
Suppression
Reformulation
Répétition
Insertion
Déplacement
Distance entre le site de revision et le point où le scripteur revient dans le texte Short: within the same clause
Medium: across clause boundaries
Long: after finishing the text
Portée de la révision Smaller than word (spelling, punctuation)
Word
Larger than word
9-juillet-2013
Aménagements CLAN écrits : révisions
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 30
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 31
Questionnement sur la dynamique de l’écriture et sur
l’analyse des pauses
Questionnement sur l’enrichissement des données
textuelles
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 32
Types d’analyses
Analyse des produits
Comparaisons oral écrit
Types de textes
Lexique, syntaxe
Analyses temps réel
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 33
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 34
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 35
Fichier E&P
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 36
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 37
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 38
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 39
Écrire un texte vs recopier un texte
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 40
Brouillon Propre
Écrire un texte vs recopier un texte
Brouillon Propre
Pauses longues (au-delà de 1000 ms) L1 SDL - Langage & pensée 41
frj508M ORDRE D
Pourquoi étudier l’écriture en temps réel ?
Comment de novice devient-on expert ?
Existe-t-il des stratégies d’écriture
corrélées à la qualité du texte ? Qu’est-ce qui fait d’un novice un novice et d’un expert un
expert ?
Quand a lieu la planification ?
Quand les révisions ont-elles lieu et qu’est-ce qui est
révisé ?
Qu’est-ce qui est automatique et qu’est-ce qui ne l’est pas
dans la production écrite ?
Etc.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 42
Ce qu’on peut observer…
Ce qui est écrit
Localisation (dans le texte en
production, révisions)
Pauses
Pression du stylo
Débits d’écriture
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 43
Les pauses : reflet des processus cognitifs dans la production langagière ?
manifestations comportementales de processus cognitifs
Écriture => processus cognitifs 1 (débits & pression du stylo)
Inactivité => processus cognitifs 2 (pauses)
Ce qui a été écrit
Ce qui est en train d’être écrit
Ce qui va être écrit
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 44
Corrélats comportementaux des processus cognitifs
Schilperoord (2002)
Un processus cognitif peut avoir différents corrélats comportementaux
Un comportement peut avoir des corrélats cognitifs différents (à des moments différents comme au même moment)
Un comportement peut correspondre à des processus cognitifs non envisagés (que la théorie ne prévoit pas i.e. autre chose que retrieving, formulating, monitoring, repairing)
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 45
Causes des pauses (Schilperoord, 2002:75-76 après De Beaugrande, 1984) Cognitives (ce qui nous intéresse)
Planning, retrieving, monitoring & repairing
Physiques Fatigue musculaire, distance, etc.
Pauses très brèves ?
Socio-psychologiques Stress causé par la situation, anxiété par rapport à la
tâche
Pauses très longues ?
Communicatives (si un interlocuteur est présent)
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 46
Qu’est-ce qu’une pause ?
Inactivité scripturale (stylo levé ou baissé mais immobile).
Pendant combien de temps ? 15 ms ? (Eye & Pen©) 250 ms ? (e.g. Olive & Kellog, 2002) 1s ? (seuil le plus communément utilisé pour adultes,
Schilperoord, 2002)
Questions ouvertes : Y-a-t-il un seuil objectif ? Ce seuil dépend-il du scripteur, de la tâche ?
○ Mots isolés ; ○ Complétion de phrases ; Complétion de narration ; ○ Production spontanée (brouillon vs finale) ; etc.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 47
Qu’est-ce qu’une pause ?
Une pause est réputée être liée à ce qui suit (et ou précède).
Mais On peut montrer qu’un scripteur peut être engagé dans différents
types d’activité pendant qu’il écrit (Alamargot, D., Dansac, C., & Chesnet, D., & Fayol, M. (in press) ; Chesnet & Alamargot, 2005)
Scripteurs débutants, en développement ? Le geste graphique n’est pas (ou pas encore complètement)
automatisée
Peut-être pas en mesure d’être engagés dans différents types d’activité en même temps qu’écrire (Lambert & Espéret 1997, Kellogg & Olive 2002, Peverly 2006, McCutchen (1996)).
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 48
Analyse des pauses
Différentes approches
Dirigée par la temporalité : Définir un seuil et
observer où les pauses ont lieu (voir si une
unité émerge).
Dirigée par le linguistique : Définir une unité
et chercher les pauses aux frontières de ces
unités ou à l’intérieur de ces unités
(Schilperoord, 1996) ;
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 49
Approche dirigée par la temporalité Objectif : déterminer automatiquement un
seuil pour exclure les pauses dues à l’activité motrice
Données: production spontanée, plusieurs groupes d’âge
Méthodes : Seuil statistique adaptatif (ne fonctionne pas)
Détection de points de rupture de la dynamique scripturale
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 50
Données
3 groupes de niveaux scolaires équilibrés en
genre composés chacun de 40 locuteurs
francophones (10-11 ans ; 12-13 ans ; 14-15
ans)
Tablettes graphiques + logiciel Eye & Pen©
(Chesnet & Alamargot, 2005)
2 types de textes (narratif & expositif) par sujet
2 versions de chaque texte : brouillon & final
(seuls les brouillons ont été utilisé pour cette
étude).
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 51
40 * 3 * 2 * 1 = 240 textes
Statistiques descriptives
107319 15 611443 759,81 5004,411 25044133 37,597 ,007 2809,528 ,015
107319
V15
N valide (listwise)
Stat istique Stat istique Stat istique Stat istique Stat istique Stat istique Stat istique Erreur std Stat istique Erreur std
N Minimum Maximum Moyenne Ecart type Variance Asy métrie Kurtosis
Distribution des pauses (seuil : 15 ms) 15 ms (Eye & Pen©)
Tous les fichiers brouillon
Pauses distribution
0
5000
10000
15000
20000
25000
30000
35000
40000
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10 10.5 11 11.5 12 ou
plus...
Duration classes (log)
Fre
qu
en
cie
s
14-15-year-olds
12-13-year-olds
10-11-year-olds
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 52
N=107319
Moyenne=759.81 msec
Médiane=147.00
SD=5004.411
Skewness=37.957
Kurtosis=2809.528
•Variations
importantes
•Nombre
important de
pauses courtes
•Distribution très
asymétrique
Modèles de mélanges de K-gaussiennes Méthode:
Données : toutes les pauses vs seulement pauses intermots
Transformation logarithmique (normalisation)
Différents types de pauses, différentes durées ?
La distribution des pauses comporte différents composants (Gaussiens) : GMM (Gaussian Mixture Model)
Estimation de paramètres par une règle de maximisation de probabilité ○ Nombre de composants K = 2,3,4
○ Expectation-Maximization algorithm (Matlab GMM program by Igor Cadez 01/23/99)
○ Calcul des seuils les plus probables à partir de la distribution GMM
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 53
Exemple 3-G
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 54
Participant:
10-11 ans
Fille
Sans difficulté
Type de texte : Expositif
Version : Brouillon
Ordre : B
frgs02fewdbw
Modèles de mélanges de K-gaussiennes Conclusions
Pas possible d’utiliser seulement les pauses intermots pour beaucoup de 10-11 ans (textes trop courts)
Utiliser toutes les pauses donne des seuils plus bas
Le nombre de gaussiennes (2-4) expliquant la distribution varie selon le scripteur/texte et n’est pas évident à déterminer automatiquement (voire manuellement)
Cette méthode ne prend pas en compte la dynamique de l’écriture
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 55
0
,5
1
1,5
2
2,5
3
3,5
4
4,5
Moy. cell
10-11 year olds 12-13 year old 14-15 ear olds
Cell
Graphique des interactions pour TabMeanSpeed
Effet : Age
Barres d'erreur: ± 1 Déviation(s) standard
-,376 ,183 <,0001 S
-,814 ,183 <,0001 S
-,438 ,182 <,0001 S
Diff. moy. Diff. crit. Valeur p
10-11 year olds, 12-13 year old
10-11 year olds, 14-15 ear olds
12-13 year old, 14-15 ear olds
Test PLSD de Fisher pour TabMeanSpeed
Effet : Age
Niveau de significativité : 5 %
Prendre en compte la dynamique de l’écriture Analyse de variance des vitesses moyennes d’écriture
Méthode : récupérer la vitesse des événements DOWN (exclure les pauses)
10-11 ans plus lents que 12-13 & 14-15 ans
12-13 ans plus lents que 14-15 ans => définir un seuil différent pour chaque groupe d’âge / sujet ???
Mean writing speed as a function of age groups
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
10-11-year-olds 12-13-year-olds 14-15-year-olds
Age groups
Wri
tin
g s
peed
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 56
F=38.388; p<.0001 * *
*
Détecter les points de rupture de la dynamique scripturale
Méthode
Calculer la vitesse d’écriture pour chaque événement de chaque texte
Identifier des passages d’écriture (événements DOWN) par opposition
aux pauses (événements UP)
Représenter l’activité d’écriture dans un espace temps/distance à deux
dimensions
Pour chaque pause calculer la position attendue pour le prochain passage
d’écriture étant donné le rythme du précédent passage d’écriture (Matlab
linear prediction) si seulement l’activité motrice était impliquée
Calculer un intervalle de confiance et décider pour chaque pause si elle
est plus probablement une pause motrice ou pas (Matlab Polyconf)
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 57
Détecter les points de rupture de la dynamique scripturale Exemple
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 58
Participant:
10-11 ans
Fille
avec difficulté
Type de texte : Narratif
Version : Brouillon
Ordre : A
frgs01fnwdad
Détails
__ Writing
Non motor interword pause
Pause end interval
x Beginning of a writing chunk
2345 Event number
Corresponding text
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 59
Participant:
10-11 ans
Fille
avec difficulté
Type de texte : Narratif
Version : Brouillon
Ordre : A
frgs01fnwdad
Détecter les points de rupture de la dynamique scripturale
14-15-year-olds
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
33.
5 44.
5 55.
5 66.
5 77.
5 88.
5 99.
5 1010
.5 1111
.5 12
ou p
lus.
..
Classes
Fre
qu
en
cie
s
Undetermined
GMAP
CP
9-juillet-2013 École d'Été Dynamique de la production écrite -
Poitiers 60
Conclusions
Un seuil différent pour chaque pause
Quand le passage d’écriture précédent est trop court (out)
calcul impossible.
Nombre d’observations limité (jusqu’à 5% pour certains textes)
Variation de la taille des passages d’écriture : différents
niveaux de précision
Prendre en compte la pression, les pauses appuyées
Pondérer le calcul en intégrant le cumul de tous les passages
d’écriture.
Seuil pas basé sur la longueur de la pause (pauses
courtes comparé aux seuils habituels)
1 s pourrait bien être un seuil surestimé même pour les adultes
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 61
Approche dirigée par le linguistique Ne pas déterminer de seuil a priori
Pour chaque unité linguistique, associer des descripteurs numériques (valeurs) tels que la fréquence de la forme orthographique, la fréquence du lemme, etc.
Base de données Manulex (Lété, Sprenger-Charolles, & Colé, 2004 ;
Peereman, Lété & Sprenger-Charolles, 2007).
Utiliser les caractéristiques statistiques lexicales et
infra-lexicales des unités pour prédire les variations
chronométriques observées dans l’écriture de mots
en contexte de production de texte.
École d'Été Dynamique de la production écrite -
Poitiers 62 9-juillet-2013
Extraction des variables chronométriques
Seuls les brouillons ont été utilisés pour
cette étude
École d'Été Dynamique de la production écrite -
Poitiers 63
40 participants * 3 niveaux scolaires * 2 types de textes = 240 textes
Données brutes (Eye and Pen) 1
9-juillet-2013
Séquençage manuel des données :
École d'Été Dynamique de la production écrite -
Poitiers 64
• chaque mot ou ponctuation et la pause précédente pause forment UNE séquence.
• Une séquence se définit entre le moment auquel la pause précédente commence et
le moment auquel le mot ou la ponctuation se termine (début de la prochaine pause
entre mots)
2
séquence
9-juillet-2013
Séquençage SEMI-automatique depuis E&P2
9-juillet-2013 65
École d'Été Dynamique de la production écrite -
Poitiers
Eye and Pen + codage CLAN (pour export vers Childes)
École d'Été Dynamique de la production écrite -
Poitiers 66
3
9-juillet-2013
Automatisation des exports avec EP Keys
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 67
Variables prédictives du corpus
Étiquetage Morphosyntaxique des séquences avec Cordial Analyseur©
Extraction des indices statistiques lexicaux et infralexicaux à partir de Manulex-infra Nombre de lettres, phonèmes, syllabes
Consistance phonème-graphème
Fréquence de la forme orthographiée
Variables prédictives de plus haut niveau à partir de l’analyse syntaxique Cordial Type de proposition
Type de constituant
École d'Été Dynamique de la production écrite -
Poitiers 68 9-juillet-2013
étiquetage
Enrichissement des données
Annotations linguistiques
○ Cordial
○ TreeTagger
Fréquences, etc.
○ Manulex
○ Lexique
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 69
Installation de PERL
http://perl.linguistes.free.fr
1. télécharger l'installateur automatique de
l'environnement de travail PPL.exe et
l'exécuter
2. installer ActivePerl (choisir la version
Windows x86)
3. modifier l'affichage des noms des
fichiers afin que leurs extensions ne
soient plus masquées (voir page 88)
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 70
Installation de TreeTagger
1. installer le TreeTagger
1. télécharger l'archive contenant
l'exécutable tree-tagger-windows-3.1.zip
2. télécharger les paramètres french-par-
linux-3.1.bin.gz
3. décompresser les deux archives dans C:\
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 71
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 72
Résultat Treetagger
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 73
Résultat cordial
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 74
Comparaison
Toujours vérifier ce que font les outils de TAL !!!!
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 75
Manulex
BDD lexicales créée à partir d’un corpus de 54 manuels
scolaires (1,9 millions de mots).
fréquences d'occurrences de mots
trois niveaux d'expertise de la lecture (CP , CE1 , cycle 3) ou
l’ensemble.
2 lexiques pour les 4 niveaux
48 900 formes orthographiques différentes rencontrées dans les
manuels (chantons, chanteraient, bateau, bateaux, …)
23 900 lemmes (somme des fréquences des formes
orthographiques (chanter = chantons + chanteraient, bateau =
bateau + bateaux, …).
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 76
http://leadserv.u-bourgogne.fr/bases/manulex/manulex_infra/indexFR.htm
Lété, B., Sprenger-Charolles, L., & Colé, P. (2004). MANULEX :
A grade-level lexical database from French
elementary school readers. Behavior Research
Methods, Instruments, & Computers, 36 (1), 156–166.
Manulex
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 77
Manulex-Infra
BDD à partir de Manulex (45 000 entrées retenues). indice de difficulté orthographique — ou
consistance orthographique — calculé pour le début, le milieu, la fin et le mot en entier.
fréquences des bigrammes, biphones et syllabes
fréquences des associations graphème-phonème
voisinage orthographique et phonologique (densité et fréquence).
…
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 78
Peereman, R., Lété, B., & Sprenger-Charolles, L. (2007).
Manulex-infra : Distributional characteristics of
grapheme-phoneme mappings, and infralexical and
lexical units in child-directed written material. Behavior
research methods, 39 (3), 579–589.
Manulex-Infra
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 79
Lexique
BDD lexicale 135 000 mots du français
représentations orthographiques et
phonémiques
syllabation
catégorie grammaticale
Fréquences (frantext, freqfilm)
lemmes, etc.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 80
New, B. 2006. Lexique 3 : Une nouvelle base de données
lexicales. Actes de la Conférence Traitement Automatique des
Langues Naturelles (TALN 2006), avril 2006, Louvain, Belgique
http://www.lexique.org.
Lexique 3
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 81
Scripts PERL pour intégration des annotations
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 82
Ce que fournit E&P
Comment le transformer pour obtenir les mesures de
pauses avant mot / pause intra mot / débit.
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 83
Variables CHRONOmétriques
Débit d’écriture des mots (en ms par car)
Débit rapide = petit chiffre
Temps où le stylo est appuyé et en mouvement pendant l’écriture du mot divisé par le nombre de caractères
Pause avant le mot (en ms)
Pauses intra mots (en ms par car)
Temps où le stylo est levé pendant l’écriture du mot divisé par le nombre de caractères
École d'Été Dynamique de la production écrite -
Poitiers 84 9-juillet-2013
Script PERL pour calcul des variables chrono
9-juillet-2013
École d'Été Dynamique de la production écrite -
Poitiers 85
Mise en correspondance des variables chronométriques et des variables prédictives du corpus
École d'Été Dynamique de la production écrite -
Poitiers 86
Eye & Pen© Sequence list
Perl
script
Manulex-infra
Eye & Pen© modified Sequence list
Final corpus
9-juillet-2013
Perl
script Perl
script
Perl
script