Upload
arluin-dupond
View
105
Download
1
Embed Size (px)
Citation preview
Analyse de corpus
Détails administratifs Enseignant: Amalia Todirascu salle
informatique 4S.12, bâtiment 4 au sous-sol
Mardi, 8-10 tous les 15 jours Evaluation: dossier
un corpus à constituer un outil d'exploration de corpus
Plan Mise en place des notions:
Corpus: définition, exemples, formats Apport théorique: utilisation d'un
concordancier simple AntConc Concordancier : définition,
fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier
gratuit.
Plan (II) Apport théorique/ utilisation de AtlasTi
Annotations de corpus citations réseau de citations
Apport théorique / utilisation de WeftQDA annotations exploration de corpus
Corpus: définitions, exemples, formats
Mise en place des notions
Définition des corpus Corpus ou bases textuelles existants Constitution de corpus
i. exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques
ii. critères de sélection des corpus Formats des corpus: texte brut, langage
de balises (XML), annotations (TEI).
Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes
ou de paroles en format électronique sélectionnés pour un objectif précis
"A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)
Pourquoi des corpus? étudier une phénomène linguistique
particulier vérifier les emplois "réels"
étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux,
changement des formes comparer les travaux de deux auteurs
lexique, syntaxe, figures de style
Pourquoi des corpus (II)? retrouver toutes les informations liés à un
personnage historique ou à un pays relations avec d'autres personnalités, avec les
pays voisins, pour une période bien déterminée
analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit
vérifier les emplois pour la traduction rechercher les expressions pour voir si leur
utilisation est fréquente
Corpus Taille de corpus: variable selon l'application
Des millions de mots Quelques miliers de mots
oral/écrit Annotations:
morpho-syntaxiques sémantiques commentaires
Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets
Corpus (II) disponibles en ligne ou téléchargeables
(peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte
intégral outils d'exploration de corpus: les
concordanciers proposent les contextes d'un mot ou d'une
expression nécessitent l'apprentissage du langage
d'intérrogation – pas toujours facile
Exemples de corpus ou bases textuelles Français
Linguistique: base textuelle Frantext (textes littéraires et techniques)
http://www.frantext.fr Corpus oral C-ORAL-ROM
http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est républicain)
http://www.cnrtl.fr/corpus/ Sociolinguistique
corpus du français parlé à Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadien
-fa.html Sociologie: CLAPI
http://clapi.univ-lyon2.fr/feuilleter.php
FRANTEXT www.frantext.fr, version non-catégorisé et
catégorisée accès gratuit via la bibliothèque virtuelle de l’UMB
base de textes littéraires (auteurs français) dates: XIIIème-20ème grande taille:
version non-catégorisé: 3952 textes, 237 582 579 mots version catégorisée: 1940 textes, 126990750 mots
Définition d'un corpus selon plusieurs critères Auteur, titre Date, genre
Frantext (II) concordancier en ligne
permettant : recherche de cooccurrences recherche par liste de mots recherche de recherche par
catégories "sûres" et "incertes" ou séquences d'étiquettes (version catégorisée)
Exemples de corpus multilingues
débats parlementaires (Parlement européen)
http://corp.hum.sdu.dk/cqp.fr.html corpus étiqueté, lemmatisé, disponible en
plusieurs langues: français, anglais, esperanto, danois, portugais,
espagnol
corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues
Anglais Linguistique et TAL :
British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus
(http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)
Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)
Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ )
Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS)
(http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie :
Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)
British National Corpus corpus de référence répartition uniforme de genres:
la partie écrite: le domaine: 75% de textes "informatifs", le reste
appartient à la fiction; le support: 60% livres, 30% périodiques, supports de
discours radio, télé etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus
prêtés) la partie orale: echantillon démographique: âge,
sexe, groupe social, région (dates, environnement, participants)
Corpus en ligne – autres langues (I) Allemand
TüPP-D/Z (articles de journaux, 200 millions de tokens)
http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml
Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/
korpora/ Multilingue
Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo – 2,6 millions de mots
http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html
norvégien, anglais, français, italien
Corpus en ligne – autres langues (II) Corpus international du portugais – 1 million de mots
(http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage
d’une langue étrangère – norvégien (http://ask.uib.no/index.page)
Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)
3,1 millions de mots Corpus bulgare
http://www.bultreebank.org/btbmorf/ 1 million de mots
Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)
Bases textuelles Association des Bibliophiles Universels
(ABU) http://abu.cnam.fr/
Gallica (BNF) http://gallica.bnf.fr/
Les bibliothèques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp
La bibliothèque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr
Bases textuelles vs. corpus documents en
format numérique recherche par des
critères "classiques" auteur, titre,
editeur, année la recherche plein
texte n'est pas toujours accessible
documents en format numérique
critères de sélection spécifiques, selon objectif
recherches avancées plein texte catégorie lexicale,
fonction syntaxique, information sémantique...
texte enrichi, documenté
Corpus électroniques Corpus électronique = un ensemble
de textes numériques qui sont sélectionnés sur des critères bien
définis (paramètres de Biber) documentés (nom de la personne qui
a numérisé le document, le format etc.)
couplés à des outils d'exploration (concordanciers)
Comment constituer son propre corpus? Developping Linguistic Corpora: a
Guide for Good Practices http://ahds.ac.uk/creating/guides/
linguistic-corpora/index.htm
Un exemple de constitution de corpus (sociolinguistique)
Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs
acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)
Méthodologie de travail identifier l'objectif de l'étude à
effectuer sur corpus définir des critères de sélection des
textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:
le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes
et pour les annoter nettoyer le corpus constitué
Critères de sélection des textes typologie des textes, genres et
registres (D.Biber,1999) types de textes: ensemble de
caractéristiques linguistiques narratif, argumentatif, descriptif
genre: catégories reconnues par une communauté
registre : caractéristiques linguistiques utilisés avec un but communicatif
Critères de sélection (II)
Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/
privé-interpersonnel destinataire
pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées:
générales/spécialisées/personnelles
Critères de sélection (III)
destinataire: variation démographique: sexe, age,
profession statut: individu/institution
Factualité informatif-factuel/intermédiaire/imaginaire
Objectifs persuader, amuser, édifier, informer,
expliquer, donner des consignes, etc. Thèmes=>documenter le corpus
annoter le corpus
Paramètres linguistiques Biber et Conrad (2009)
groupes nominaux complexes longueur de la phrase modifieurs (groupes prépositionnels,
adverbes etc.) préférence pour un temps ou un
mode particulier pronoms (personnels, impersonnels,
demonstratifs)
Exemples de corpus constitué (I) Corpus Sociolinguistique
Source des textes: entretiens oraux transcrits
Critères de sélection: Canal: oral Interlocuteurs:
Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)
Cadre: institutionnel/privé Date Entreprise: caractère multinational
Exemple de corpus constitué (II) Format :
Fichiers en format texte brut Informations provenant de la
transcription (pauses, reprises etc.) Annotation:
Les locuteurs La date L’entreprise concernée
Méthodologie de travail identifier l'objectif de l'étude à effectuer sur
corpus définir des critères de sélection des textes
en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:
le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes
et pour les annoter nettoyer le corpus constitué
Où trouver des documents numériques?
Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche
spécialisés archiver et numériser des documents
outils de recherche (moteurs et méta-moteurs spécialisés)
portails spécialisés
Portail
une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site
Portail (II) Quelques exemples
le portail de l'Education Nationale http://www.education.gouv.fr/
le portail des revues en SHS http://www.revues.org/
le portail du CNRShttp://www.drei.cnrs.fr
- le Bulletin Officielhttp://www.education.gouv.fr/pid230/textes-officiels.html
Bibilothèques virtuelles
Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques:
livres, images, vidéos etc. Possibilités avancées de navigation
et de recherche
Moteurs de recherches dédiés Moteur de recherche spécialisé pour la
recherche des livres http://books.google.com/
Moteur de recherche spécialisé – indexation des articles scientifiques http://scholar.google.com
HAL-SHS http://www.archives-ouvertes.fr/
Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)
Le Web comme source le Web n'est pas un corpus!! taille importante
environ 76 milliards de mots (Kilgariff & Greffenstette 2003)
hétérogénéité pas de contrôle sur l'information publiée
disparité de ressources thématique langues
langage structuré – HTML
Techniques Aspiration directe d'un site
pertinence choix des documents propres Désavantage: il faut connaître les adresses
des sites exploiter les résultats des moteurs de
recherche automatisé, mais beaucoup des documents
inutiles plate-formes dédiées (Telanaute, projet
SAFIR, BootCat)
Problèmes
doublons inclusions des documents vérification manuelle du corpus
impossible si taille trop importante Pas de contrôle sur l’auteur du texte
documents indexés par les moteurs (taille variable de l'index)
Exercice: Un exemple de constitution de corpus
Un corpus des nouvelles sur la reforme de la retraite Quelle sources? Quels critères de sélection? Quelles informations annotées?
Format (rappel)
application spécialisée pour créer les documents texte, PDF, HTML (Page Web), document
Microsoft Word etc. extension du fichier = une indication sur
l'application à utiliser txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet
Explorer Utiliser le logiciel approprié pour lire le
contenu et convertir vers d'autres formats
Formats (II) texte brut PDF texte enrichi d'annotation
Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)
format d'annotation de textes : TEI (Texte Encoding Initiative)
Texte brut une suite de lettres et de chiffres, sans mise
en forme seulement le caractère nouvelle ligne
pas de mise en forme interprétable par tous les éditeurs de textes
tous systèmes d'exploitation: Windows, Linux, MacOS
code ASCII (limité à 128 caractères) plusieurs encodages possibles
LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)
Format HTML Langage interprété par les
navigateurs Internet Visualisation du contenu et la
navigation Mise en forme: en gras, en couleurs
etc. Structuration du texte: paragraphes,
tableaux, liens vers d’autres pages…
Notion de balise Une balise permet de distinguer un
document HTML d’un fichier texte Les balises sont insérées dans le corps du
document Elles permettent de contrôler le formatage et
la présentation d’un document Mise en forme des paragraphes, insertion
d’images, insertion de liens hypertexte, tableaux …
Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>
Notion de balise (II) Une balise est encadrée par <…> et
peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées
mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font
size="+1"><b><i>texte</i></b></font>
Notion de balise (III) Une balise peut avoir trois formes
<nombalise> <br> passage à la ligne
<nombalise> … </nombalise> <b>texte à mettre en gras</b>
<nombalise attribut1="valeur_1"… attributn="valeur_n"> texte
</nombalise> <body bgcolor="#80fff" text="red">
le fond de la page sera de couleur bleu clair
Limites du langage HTML L’ensemble des balises est
prédéfini, mais limité à celui défini par le World Wide Web consortium http://www.w3.org
Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le
contenu
Formats (Rappel) Ouvrez Microsoft Word tapez un texte dans le nouveau
document, avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire
"Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:
texte simple (Texte brut) avec l'encodage Windows, Europe occidentale avec l'encodage Unicode, UTF-8
HTML
Formats – Exercice (suite) fermez Microsoft Word ouvrez les applications suivantes
et essayez de lire les fichiers que vous avez enregistré sous Word WordPad Bloc Notes Internet Explorer Notepad++
Formats – Exercice (suite) Avec Microsoft Word, ouvrez le
fichier .txt et changez l'encodage (du Latin vers du Unicode, UTF-7)
enregistrez à nouveau
Texte annoté - XML XML – Extended Markup Language marquage de plusieurs zones de textes
pour: faciliter la recherche d'information faciliter le partage des connaissances
Même principe que le langage HTML On peut définir les balises adaptées à notre
propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes,
d’organisations, de métiers)
Pourquoi XML? Structurer l'information
Identification du contenu des données Accessibilité
divers types de présentations de données (XSL)
interopérabilité des données re-utiliser les XML dans d'autres
applications possibilité de vérifier si le document est
valide: DTD, XML schémas définitions partagées
Texte annoté (II) Outils pour l’annotation en format
XML Annotea, Gate, Oxygène, XML Starlet,
Notepad++ Outils pour executer des requêtes
sur les balises XML Xaira, XQuery
<?xml version="1.0" encoding="ISO-8859-1"?><Article><Lieu>MEXICO</Lieu> <Texte>Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe
porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne.
Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.
Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection
</Texte><Source>L’Express</Source><Datepubli>lundi le 4 mai
2009</Datepubli><Auteur>Christian Dupont</Auteur><Commentaire auteur="A.Todirascu">un article sur la
propagation de l'épidemie de grippe porcine</Commentaire></Article>
Un premier exemple d’annotation XML
Elements XML <Article>, <Texte><Lieu>,
<Auteur>, <Source>, <Datepubli>, <Commentaire>
Attributs: auteur pour l’élement
<Commentaire> Lang pour l’élément <Texte>
Un premier exemple (II) Interprétation
Un texte est constitué par un élément <Article>
Un <Article> est composé par un élément <Lieu><Texte><Source><Datepubli><Auteur><Commentaire>
La structure d’un document XML Une première ligne sur la version du XML
<?xml version="1.0"?> <?xml version="1.0" encoding="ISO-
8859-1"?> Une deuxième ligne avec le fichier de
définitions Le fichier DTD ou le lien vers le XML schéma
Un ou plusieurs éléments XML Un élement XML
<balise>texte</balise>
MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.
Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.
L’Express, Date: lundi 4 mai 2009
<?xml version="1.0" encoding="ISO-8859-1"?><Lieu>MEXICO</Lieu> <épidémie><épisode><pays>Le Mexique</pays> s'est dit sur <état
type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>
</épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités
se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>
</épisode>. <épisode>Malgré ces nouvelles rassurantes, <état
type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>
</épisode> <épisode>et certains pays <état type="prévention">ont
renforcé les mesures de protection.</état></épisode></épidémie><Source>L’Express</Source><Datepubli>lundi le 4 mai
2009</Datepubli>
Avantages du XML Structuration de l’information Définitions partagées Facilite le développement des standards
TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)
Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles
XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)
OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)
Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI
simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html
Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press
Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys
Sinclair, J. (1991) Coocurrences, concordances, collocations
Concordanciers recherches dans le corpus et outils
d'exploration de corpus qu'est-ce que c'est un
concordancier? fonctions de base un exemple: Antconc
Recherches sur les corpus en linguistique: trouver des exceptions
ou renforcer une hypothèse linguistique en traduction: chercher des emplois
réels en sociolinguistique: quel point de vue
ont les divers acteurs? en littérature: comparer le style de deux
auteurs en TAL: chercher les informations
spécifiques: qui a fait quoi? quand? où?
Analyse quantitative vs. analyse qualitative quantitative
analyse factorielle fréquence distance
intertextuelle données
structurées volume de
données important
qualitative analyse fine du contenu informations
linguistiques à prendre en compte:
catégorie lexicale fonctions syntaxiques informations
sémantiques données non-structurées volume de données
limité (si analyse manuelle)
Qu'est-ce que c'est un concordancier? un outil qui permet la recherche
d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots,
une expression contextes
gauche et droit à l'intérieur de la phrase au sein du même paragraphe
Les fonctions d'un concordancier définir un pivot: mot, terme,
expression visualiser les contextes d'apparition
du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences
de 2 ou plusieurs mots)
Antconc outil gratuit
http://www.antlab.sci.waseda.ac.jp/ pivot: mot (avec respect de la casse) ou
expression régulière expression régulière: une suite de lettres,
chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC (Keyword in
Context) tri sur les contextes gauches ou droites
50 caractères la taille du contexte
Antconc (II) taille de corpus limitée visualisation d'occurences par
rapport au corpus formats divers:
fichier texte (Unicode, Latin-1) format HTML (mais balises
confondues avec le texte)
Antconc (III) calcul de cooccurences sélection des contextes
les contextes qui contiennent un ou plusieurs mots
liste de mots exclusion des mots grammaticaux comparaison avec un corpus de référence
extraction de n-grammes (séquences de n mots qui se succedent)
Autres fonctions du Antconc Plot: la position de chaque
collocateur dans le fichier Utiliser les balises:
pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les
balises
Recherches - méthodologie
quoi chercher? établir la liste des mots les plus
fréquents (mots contenus) extraire les séquences de n mots les
plus fréquentes définir manuellement une liste de
termes, mots, expressions pertinentes
Recherches – méthodologie (II)
analyse des résultats identification de contextes inutiles ou
erronées analyse des collocatifs position dans le document
recherches complexes sélection des contextes pertinentes
présence ou absence d'un mot dans les contextes position par rapport au pivot
Plan (II) Apport théorique: utilisation d'un
concordancier WordSmith Etiquetage des textes : notions fondamentales,
difficultés, outils Utilisation de Wordsmith, concordancier permettant
des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico
Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des
fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi
Corpus étiquetés (catégorisés) corpus enrichi avec les informations
morpho-syntaxiques chaque mot est associé à une catégorie
lexicale parfois on spécifie le lemme et les propriétés
morpho-syntaxiques associées: nombre, genre, cas pour le nom temps, mode, personne, nombre pour le verbe
annotation réalisée automatiquement à l'aide d'un outil de catégorisation, suivie d'une correction manuelle
Les DET:ART leturbulences NOM turbulencede PRP del' DET:ART leannée NOM année2003 NUM @card@ont VER:pres avoirébranlé VER:pper ébranlerle DET:ART lesecteur NOM secteurdes PRP:det dutransports NOM transportaériens ADJ aérien: PUN :plus ADV plusencore ADV encorequ' KON queen PRO:PER entémoignent VER:subp témoigner
Corpus étiquetés: ressources disponibles corpus pré-étiquetés
sélection de textes selon des critères bien définis
genre, registre, date, auteur, catégorie jeu d'étiquettes spécifique étiquetage automatique + correction manuelle
des erreurs existent toujours! recherches à l'aide d'un outil de type
concordancier (identification des contextes d'un mot ou d'une séquence des mots)
connaissance du jeu d'étiquettes et du langage d'interrogation
Ressources disponibles en ligne
Français Frantext (http://www.frantext.fr payant!) Freebank (http://freebank.loria.fr/) French Treebank (http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-
fr.php) Anglais
British National Corpus – 50 exemples (http://www.natcorp.ox.ac.uk/index.xml)
International Corpus of English (http://www.ucl.ac.uk/english-usage/ice/)
Anglais américain corpus Brown : LDC Online
(https://online.ldc.upenn.edu/login.html)
Europarl débats parlementaires (Parlement
européen) http://corp.hum.sdu.dk/
cqp.fr.html corpus étiqueté, lemmatisé,
disponible en plusieurs langues: français, anglais, esperanto, danois,
portugais, espagnol
Corpus en ligne – autres langues (I) Allemand
TüPP-D/Z (articles de journaux, 200 millions de tokens)
http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml
Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/
korpora/ Multilingue
Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html
norvégien, anglais, français, italien
Limites possibilité de consulter le contenu,
mais pas de rajouter de nouveaux textes
langage d'intérrogation complexe intérface graphique pas toujours
simple jeu d'étiquettes spécifique pour
chaque projet
Créer son propre corpus étiqueté
sélection d'un ensemble de textes pour créer un corpus critères: date, auteur, genre, registre... sources: le Web, textes libres de droit...
application d’un outil de catégorisation correction manuelle des erreurs
d'étiquetage et de lemmatisation recherche d’information dans le corpus
à l'aide d'un concordancier (WordSmith)
Etiqueteur(Catégoriseur)
Un étiqueteur(catégoriseur) est un outil qui découpe le texte en unités (lexicales, polylexicales ou signes de ponctuation) et qui associe à chaque unité une catégorie lexicale (étiquette) jeu d'étiquettes spécifique à chaque
outil lemmatisation parfois disponible apprentisage à partir d'un corpus
étiqueté manuellement
Exemples d'étiqueteurs TreeTagger (IMS Stuttgart, Allemagne) (Schmid,
1994) http://www.ims.uni-stuttgart.de/projekte/
corplex/TreeTagger allemand, anglais, français, espagnol, italien
Catégoriseur de E.Brill (AdLabs, Microsoft Research) http://research.microsoft.com/en-us/um/people/
brill/ anglais, français
Cordial (payant!) http://www.synapse-fr.com/
TreeTagger (I) ressources disponibles pour le
français étiquetage et lemmatisation
manipulation facile installation simple interface graphique disponible
(http://www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm)
TreeTagger (II) utilisation d'un dictionnaire proposition des étiquettes et des
lemmes pour les mots inconnus classes d'équivalence
possibilité d'apprendre des ressources sur des nouveaux corpus étiquétés outil d'entraînement disponible
TreeTagger (III) entrée: texte brut ou SGML ou HTML sortie: un mot par ligne, suivi de l'étiquette
et du lemme, si le lemme est inconnu, alors marqué
possibilité de segmenter le texte (module intégré ou module propre) expressions figées abréviations
possibilité de préétiquetage noms propres mots étrangers
ABR abréviation ADJ adjectif ADV adverbe DET:ART article DET:POS pronom possessif
(ma, ta, ...) INT interjection KON conjonction NAM nom propre NOM nom NUM numéral PRO pronom PRO:DEM pronom
démonstratif PRO:IND pronom indéfini PRO:PER pronom
personnel PRO:POS pronom possessif
(mien, tien, ...) PRO:REL pronom relatif
• PRP préposition• PRP:det préposition plus article
(au,du,aux,des)• PUN ponctuation• PUN:cit citation• SENT fin de proposition• SYM symbole• VER:cond verbe conditionnel• VER:futu verbe futur• VER:impe verbe imperatif• VER:impf verbe imparfait• VER:infi verbe infinitif• VER:pper verbe participe passé• VER:ppre verbe participe
présent• VER:pres verbe présent• VER:simp verbe passé simple• VER:subi verb subjonctif
imparfait• VER:subp verb subjonctif
présent
Jeu d'étiquettes utilisé par TreeTagger pour le français
Limites des catégoriseurs
erreurs d'étiquetage provoquées par une mauvaise segmentation en phrases
difficile d'identifier les catégories lexicales entre: préposition et verbe couvert: verbe participe passé, nom, adjectif participe
passé dépendant des genres textuels composant le corpus
taux d'erreurs important sur des textes spécialisés correction manuelle nécessaire
coût important accord entre annotateurs nécessaire
Problèmes liés à l'étiquetage étiquettes incomparables
niveau morphologique, syntaxique divergences théoriques
possessifs: adjectifs ou déterminants agrégats (du, des) ou de+le, de+les
ambiguïtés déterminant mais aussi numéral
« J’ai vu hier un chat et trois souris » « J’ai envoyé un courrier à Jean »
verbe futur, mais aussi mot étranger « Il sera maire de Paris un jour » « Corrierre de la sera »
différences entre les langues
Wordsmith ensemble d'outils pour exploiter les
textes fonctions similaires à AntConc Avantages
possibilité de travailler avec des fichiers de grande taille (plusieurs millions de mots)
plusieurs possibilités d'utiliser les balises pour faire les recherches
plusieurs formats disponibles comme sortie
Wordsmith (II)
WordSmith - Concordancier langage d'interrogation résultats affichés en format KWIC possiblité de voir les collocations
plusieurs mesures statistiques tri par occurences à gauche, à droite
(1-5 positions)
Langage d'interrogation * : - ignorer la fin du mot: bio*
ignorer le mot entier: book * hotel ? : tout caractère simple (y compris la
ponctuation): Engl??? # n'importe quel chiffre entre 0 et 9 $### ^ n'importe quelle lettre de l'alphabet: Alle^agn^ == sensible à la casse: ==French== / séparer les mots de recherche: may/can/will <> début et fin de balises: <w NN1>
Concordancier (II) possibilité de sélectionner les
contextes: exclure les contextes incluant certains mots sélectionner les contextes contenant:
un mot une balise une liste de mots et de balises
Recherches possibilité de faire des recherches
suite des étiquettes, lemmes et mots la sortie de TreeTagger sur plusieurs
colonnes: <mot> <étiquette> <lemme>
position: L1, L5, R1, R5 si balises, on peut identifier les
élements entre les balises: sélection des mots entre les balises
Recherches - exemples on cherche les séquences Det Nom Adj
PronRel DET:ART * * Nom * * Adj * * PronRel
on cherche les étiquetes du verbe suivi dans le contexte droit de l'étiquette NOM
combiner les recherche lemme+étiquette faire * NOM
Concordanciers: Colocateurs les cooccurrences
triées par une relation statistique: information mutuelle
autres mesures: MI3
Autres fonctions du concordancier cluster: identifier les séquences de
n-grammes Plot: la position de chaque
collocateur dans le fichier Utiliser les balises:
pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les
balises
Liste de mots clés comparer son propre corpus avec
un autre corpus de référence établir les listes de mots de chaque
corpus mesure statistique pour calculer la
distance entre le motx de la première liste et la distance entre le moty de la deuxième liste
Plan (II) Apport théorique: utilisation d'un
concordancier WordSmith Etiquetage des textes : notions fondamentales,
difficultés, outils Utilisation de Wordsmith, concordancier permettant
des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico
Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des
fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi
ATLAS.Ti outil pour l'analyse qualitative
outil payant :0( www.atlasti.com demo gratuite, avec des limitations en
nombre de documents analyse au niveau
textuel (découpage en segments thématiques, citations, codes)
conceptuel (représentation visuelle des annotations)
ATLAS.Ti (II) pour le travail coopératif à plusieurs
auteurs partage d'annotations (citations,
mémo) partage de connaissances (codes,
mémos, réseaux) liens entre les divers mémos,
citations, ségments
ATLAS.Ti (III) Plusieurs catégories d'objets:
text vidéo audio transcrits
fonctions de correction transcriptions
Fonctions Visualisation des informations Intégration des informations (unité
hermeneutique) discussion autour des documents et
des annotations du groupe Navigation facilitée: pour retrouver
des expressions ou mots saillants Exploration des idées nouvelles
Le projet l'unité hermeneutique
au moins un document principal format divers
citations définies à partir d'une sélection (d'un
mot, d'une phrase, du paragraphe) correspondent à des parties de textes
thématiquement homogènes, ayant un interêt pour l'étude
liens à distance entre les citations
Le projet (II) les codes
étiquettes permettant d'associer à une citation un thème
on peut associer une citation à plusieurs codes
on peut extraire des codes à partir des textes sélectionnées
Le projet (III) les mémos
pour communiquer les informations entre les utilisateurs
discussions autour des notions, citations, etc.
contiennent des indications méthodologiques à mettre en application
associés à un document ou à une citation
Le projet (IV) les familles
regroupements de mémos, de codes, de citations, documents
utiles pour plusieurs facettes du même concept
les points de vue sur les réseaux visualisation graphique des objets
Fonctions textuelles définir des sélections, des citations créer des mémos recherche des mots, des
expressions regulières ou des codes
associer des mémos et des citations
Fonctions conceptuelles définir des réseaux de noeuds
codes citations mémos
organiser les connaissances du domaine extraites à partir du texte définir une théorie identifier des concepts-clés
Autres plateformes Weft QDAWeft http://www.pressure.to/qda/
http://onlineqda.hud.ac.uk
Exemples de sujets (I) constituer un petit corpus d'articles
scientifiques sur le sujet de votre mémoire (maximum 8 documents)
segmentez le corpus en fonction de la thématique (définir un ensemble de mots-clés)
définir les codes associés construire un réseau des conceptes du
domaine
Exemples de sujets (II) sur un corpus journalistique
comparable (anglais-français), qui vous sera fourni, effectuez des recherches, à l'aide d'un concordancier afin d'identifier les relations hiérarchiques ("chef de", "président de") sélectionnez les contextes qui
contiennent des entités de type personnes ou organisations
Exemples de sujets (III) constituez un corpus journalistique
concernant les chefs du parti socialiste (en France, en Angleterre, en Allemagne) sur des sources disponibles en ligne. expliquez la procedure de constitution
de corpus, les critères de sélection de corpus
Exemple de sujet (IV) constituez un corpus trilingue parallèle (le
même contenu en anglais, en français, en allemand) à partir de rapports financiers de la compagnie Swiss.com (à partir du avril 2008) extraire le texte du PDF comparer les textes pour identifier les différences nettoyage éventuel balisage avec la date du rapport
même sujet pour Lufthansa (anglais, allemand)