122
Analyse de corpus

Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Embed Size (px)

Citation preview

Page 1: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Analyse de corpus

Page 2: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Détails administratifs Enseignant: Amalia Todirascu salle

informatique 4S.12, bâtiment 4 au sous-sol

Mardi, 8-10 tous les 15 jours Evaluation: dossier

un corpus à constituer un outil d'exploration de corpus

Page 3: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Plan Mise en place des notions:

Corpus: définition, exemples, formats Apport théorique: utilisation d'un

concordancier simple AntConc Concordancier : définition,

fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier

gratuit.

Page 4: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Plan (II) Apport théorique/ utilisation de AtlasTi

Annotations de corpus citations réseau de citations

Apport théorique / utilisation de WeftQDA annotations exploration de corpus

Page 5: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus: définitions, exemples, formats

Page 6: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Mise en place des notions

Définition des corpus Corpus ou bases textuelles existants Constitution de corpus

i. exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques

ii. critères de sélection des corpus Formats des corpus: texte brut, langage

de balises (XML), annotations (TEI).

Page 7: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes

ou de paroles en format électronique sélectionnés pour un objectif précis

"A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)

Page 8: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Pourquoi des corpus? étudier une phénomène linguistique

particulier vérifier les emplois "réels"

étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux,

changement des formes comparer les travaux de deux auteurs

lexique, syntaxe, figures de style

Page 9: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Pourquoi des corpus (II)? retrouver toutes les informations liés à un

personnage historique ou à un pays relations avec d'autres personnalités, avec les

pays voisins, pour une période bien déterminée

analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit

vérifier les emplois pour la traduction rechercher les expressions pour voir si leur

utilisation est fréquente

Page 10: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus Taille de corpus: variable selon l'application

Des millions de mots Quelques miliers de mots

oral/écrit Annotations:

morpho-syntaxiques sémantiques commentaires

Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets

Page 11: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus (II) disponibles en ligne ou téléchargeables

(peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte

intégral outils d'exploration de corpus: les

concordanciers proposent les contextes d'un mot ou d'une

expression nécessitent l'apprentissage du langage

d'intérrogation – pas toujours facile

Page 12: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de corpus ou bases textuelles Français

Linguistique: base textuelle Frantext (textes littéraires et techniques)

http://www.frantext.fr Corpus oral C-ORAL-ROM

http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est républicain)

http://www.cnrtl.fr/corpus/ Sociolinguistique

corpus du français parlé à Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadien

-fa.html Sociologie: CLAPI

http://clapi.univ-lyon2.fr/feuilleter.php

Page 13: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

FRANTEXT www.frantext.fr, version non-catégorisé et

catégorisée accès gratuit via la bibliothèque virtuelle de l’UMB

base de textes littéraires (auteurs français) dates: XIIIème-20ème grande taille:

version non-catégorisé: 3952 textes, 237 582 579 mots version catégorisée: 1940 textes, 126990750 mots

Définition d'un corpus selon plusieurs critères Auteur, titre Date, genre

Page 14: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Frantext (II) concordancier en ligne

permettant : recherche de cooccurrences recherche par liste de mots recherche de recherche par

catégories "sûres" et "incertes" ou séquences d'étiquettes (version catégorisée)

Page 15: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours
Page 16: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de corpus multilingues

débats parlementaires (Parlement européen)

http://corp.hum.sdu.dk/cqp.fr.html corpus étiqueté, lemmatisé, disponible en

plusieurs langues: français, anglais, esperanto, danois, portugais,

espagnol

corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues

Page 17: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Anglais Linguistique et TAL :

British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus

(http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)

Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)

Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ )

Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS)

(http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie :

Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)

Page 18: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

British National Corpus corpus de référence répartition uniforme de genres:

la partie écrite: le domaine: 75% de textes "informatifs", le reste

appartient à la fiction; le support: 60% livres, 30% périodiques, supports de

discours radio, télé etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus

prêtés) la partie orale: echantillon démographique: âge,

sexe, groupe social, région (dates, environnement, participants)

Page 19: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus en ligne – autres langues (I) Allemand

TüPP-D/Z (articles de journaux, 200 millions de tokens)

http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml

Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/

korpora/ Multilingue

Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo – 2,6 millions de mots

http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html

norvégien, anglais, français, italien

Page 20: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus en ligne – autres langues (II) Corpus international du portugais – 1 million de mots

(http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage

d’une langue étrangère – norvégien (http://ask.uib.no/index.page)

Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)

3,1 millions de mots Corpus bulgare

http://www.bultreebank.org/btbmorf/ 1 million de mots

Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)

Page 21: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Bases textuelles Association des Bibliophiles Universels

(ABU) http://abu.cnam.fr/

Gallica (BNF) http://gallica.bnf.fr/

Les bibliothèques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp

La bibliothèque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr

Page 22: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Bases textuelles vs. corpus documents en

format numérique recherche par des

critères "classiques" auteur, titre,

editeur, année la recherche plein

texte n'est pas toujours accessible

documents en format numérique

critères de sélection spécifiques, selon objectif

recherches avancées plein texte catégorie lexicale,

fonction syntaxique, information sémantique...

texte enrichi, documenté

Page 23: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus électroniques Corpus électronique = un ensemble

de textes numériques qui sont sélectionnés sur des critères bien

définis (paramètres de Biber) documentés (nom de la personne qui

a numérisé le document, le format etc.)

couplés à des outils d'exploration (concordanciers)

Page 24: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Comment constituer son propre corpus? Developping Linguistic Corpora: a

Guide for Good Practices http://ahds.ac.uk/creating/guides/

linguistic-corpora/index.htm

Page 25: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Un exemple de constitution de corpus (sociolinguistique)

Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs

acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)

Page 26: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Méthodologie de travail identifier l'objectif de l'étude à

effectuer sur corpus définir des critères de sélection des

textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:

le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes

et pour les annoter nettoyer le corpus constitué

Page 27: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Critères de sélection des textes typologie des textes, genres et

registres (D.Biber,1999) types de textes: ensemble de

caractéristiques linguistiques narratif, argumentatif, descriptif

genre: catégories reconnues par une communauté

registre : caractéristiques linguistiques utilisés avec un but communicatif

Page 28: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Critères de sélection (II)

Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/

privé-interpersonnel destinataire

pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées:

générales/spécialisées/personnelles

Page 29: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Critères de sélection (III)

destinataire: variation démographique: sexe, age,

profession statut: individu/institution

Factualité informatif-factuel/intermédiaire/imaginaire

Objectifs persuader, amuser, édifier, informer,

expliquer, donner des consignes, etc. Thèmes=>documenter le corpus

annoter le corpus

Page 30: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Paramètres linguistiques Biber et Conrad (2009)

groupes nominaux complexes longueur de la phrase modifieurs (groupes prépositionnels,

adverbes etc.) préférence pour un temps ou un

mode particulier pronoms (personnels, impersonnels,

demonstratifs)

Page 31: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de corpus constitué (I) Corpus Sociolinguistique

Source des textes: entretiens oraux transcrits

Critères de sélection: Canal: oral Interlocuteurs:

Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)

Cadre: institutionnel/privé Date Entreprise: caractère multinational

Page 32: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemple de corpus constitué (II) Format :

Fichiers en format texte brut Informations provenant de la

transcription (pauses, reprises etc.) Annotation:

Les locuteurs La date L’entreprise concernée

Page 33: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Méthodologie de travail identifier l'objectif de l'étude à effectuer sur

corpus définir des critères de sélection des textes

en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:

le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes

et pour les annoter nettoyer le corpus constitué

Page 34: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Où trouver des documents numériques?

Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche

spécialisés archiver et numériser des documents

outils de recherche (moteurs et méta-moteurs spécialisés)

portails spécialisés

Page 35: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Portail

une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site

Page 36: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Portail (II) Quelques exemples

le portail de l'Education Nationale http://www.education.gouv.fr/

le portail des revues en SHS http://www.revues.org/

le portail du CNRShttp://www.drei.cnrs.fr

- le Bulletin Officielhttp://www.education.gouv.fr/pid230/textes-officiels.html

Page 37: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Bibilothèques virtuelles

Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques:

livres, images, vidéos etc. Possibilités avancées de navigation

et de recherche

Page 38: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Moteurs de recherches dédiés Moteur de recherche spécialisé pour la

recherche des livres http://books.google.com/

Moteur de recherche spécialisé – indexation des articles scientifiques http://scholar.google.com

HAL-SHS http://www.archives-ouvertes.fr/

Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)

Page 39: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Le Web comme source le Web n'est pas un corpus!! taille importante

environ 76 milliards de mots (Kilgariff & Greffenstette 2003)

hétérogénéité pas de contrôle sur l'information publiée

disparité de ressources thématique langues

langage structuré – HTML

Page 40: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Techniques Aspiration directe d'un site

pertinence choix des documents propres Désavantage: il faut connaître les adresses

des sites exploiter les résultats des moteurs de

recherche automatisé, mais beaucoup des documents

inutiles plate-formes dédiées (Telanaute, projet

SAFIR, BootCat)

Page 41: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Problèmes

doublons inclusions des documents vérification manuelle du corpus

impossible si taille trop importante Pas de contrôle sur l’auteur du texte

documents indexés par les moteurs (taille variable de l'index)

Page 42: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exercice: Un exemple de constitution de corpus

Un corpus des nouvelles sur la reforme de la retraite Quelle sources? Quels critères de sélection? Quelles informations annotées?

Page 43: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Format (rappel)

application spécialisée pour créer les documents texte, PDF, HTML (Page Web), document

Microsoft Word etc. extension du fichier = une indication sur

l'application à utiliser txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet

Explorer Utiliser le logiciel approprié pour lire le

contenu et convertir vers d'autres formats

Page 44: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Formats (II) texte brut PDF texte enrichi d'annotation

Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)

format d'annotation de textes : TEI (Texte Encoding Initiative)

Page 45: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Texte brut une suite de lettres et de chiffres, sans mise

en forme seulement le caractère nouvelle ligne

pas de mise en forme interprétable par tous les éditeurs de textes

tous systèmes d'exploitation: Windows, Linux, MacOS

code ASCII (limité à 128 caractères) plusieurs encodages possibles

LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)

Page 46: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Format HTML Langage interprété par les

navigateurs Internet Visualisation du contenu et la

navigation Mise en forme: en gras, en couleurs

etc. Structuration du texte: paragraphes,

tableaux, liens vers d’autres pages…

Page 47: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Notion de balise Une balise permet de distinguer un

document HTML d’un fichier texte Les balises sont insérées dans le corps du

document Elles permettent de contrôler le formatage et

la présentation d’un document Mise en forme des paragraphes, insertion

d’images, insertion de liens hypertexte, tableaux …

Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>

Page 48: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Notion de balise (II) Une balise est encadrée par <…> et

peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées

mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font

size="+1"><b><i>texte</i></b></font>

   

Page 49: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Notion de balise (III) Une balise peut avoir trois formes

<nombalise> <br> passage à la ligne

<nombalise> … </nombalise> <b>texte à mettre en gras</b>

<nombalise attribut1="valeur_1"… attributn="valeur_n"> texte

</nombalise> <body bgcolor="#80fff" text="red">

le fond de la page sera de couleur bleu clair

Page 50: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Limites du langage HTML L’ensemble des balises est

prédéfini, mais limité à celui défini par le World Wide Web consortium http://www.w3.org

Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le

contenu

Page 51: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Formats (Rappel) Ouvrez Microsoft Word tapez un texte dans le nouveau

document, avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire

"Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:

texte simple (Texte brut) avec l'encodage Windows, Europe occidentale avec l'encodage Unicode, UTF-8

HTML

Page 52: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Formats – Exercice (suite) fermez Microsoft Word ouvrez les applications suivantes

et essayez de lire les fichiers que vous avez enregistré sous Word WordPad Bloc Notes Internet Explorer Notepad++

Page 53: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Formats – Exercice (suite) Avec Microsoft Word, ouvrez le

fichier .txt et changez l'encodage (du Latin vers du Unicode, UTF-7)

enregistrez à nouveau

Page 54: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Texte annoté - XML XML – Extended Markup Language marquage de plusieurs zones de textes

pour: faciliter la recherche d'information faciliter le partage des connaissances

Même principe que le langage HTML On peut définir les balises adaptées à notre

propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes,

d’organisations, de métiers)

Page 55: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Pourquoi XML? Structurer l'information

Identification du contenu des données Accessibilité

divers types de présentations de données (XSL)

interopérabilité des données re-utiliser les XML dans d'autres

applications possibilité de vérifier si le document est

valide: DTD, XML schémas définitions partagées

Page 56: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Texte annoté (II) Outils pour l’annotation en format

XML Annotea, Gate, Oxygène, XML Starlet,

Notepad++ Outils pour executer des requêtes

sur les balises XML Xaira, XQuery

Page 57: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

<?xml version="1.0" encoding="ISO-8859-1"?><Article><Lieu>MEXICO</Lieu> <Texte>Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe

porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne.

Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection

</Texte><Source>L’Express</Source><Datepubli>lundi le 4 mai

2009</Datepubli><Auteur>Christian Dupont</Auteur><Commentaire auteur="A.Todirascu">un article sur la

propagation de l'épidemie de grippe porcine</Commentaire></Article>

Page 58: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Un premier exemple d’annotation XML

Elements XML <Article>, <Texte><Lieu>,

<Auteur>, <Source>, <Datepubli>, <Commentaire>

Attributs: auteur pour l’élement

<Commentaire> Lang pour l’élément <Texte>

Page 59: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Un premier exemple (II) Interprétation

Un texte est constitué par un élément <Article>

Un <Article> est composé par un élément <Lieu><Texte><Source><Datepubli><Auteur><Commentaire>

Page 60: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

La structure d’un document XML Une première ligne sur la version du XML

<?xml version="1.0"?> <?xml version="1.0" encoding="ISO-

8859-1"?> Une deuxième ligne avec le fichier de

définitions Le fichier DTD ou le lien vers le XML schéma

Un ou plusieurs éléments XML Un élement XML

<balise>texte</balise>

Page 61: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.

L’Express, Date: lundi 4 mai 2009

Page 62: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

<?xml version="1.0" encoding="ISO-8859-1"?><Lieu>MEXICO</Lieu> <épidémie><épisode><pays>Le Mexique</pays> s'est dit sur <état

type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>

</épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités

se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>

</épisode>. <épisode>Malgré ces nouvelles rassurantes, <état

type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>

</épisode> <épisode>et certains pays <état type="prévention">ont

renforcé les mesures de protection.</état></épisode></épidémie><Source>L’Express</Source><Datepubli>lundi le 4 mai

2009</Datepubli>

Page 63: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Avantages du XML Structuration de l’information Définitions partagées Facilite le développement des standards

TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)

Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles

XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)

OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)

Page 64: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI

simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html

Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press

Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys

Sinclair, J. (1991) Coocurrences, concordances, collocations

Page 65: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Concordanciers recherches dans le corpus et outils

d'exploration de corpus qu'est-ce que c'est un

concordancier? fonctions de base un exemple: Antconc

Page 66: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Recherches sur les corpus en linguistique: trouver des exceptions

ou renforcer une hypothèse linguistique en traduction: chercher des emplois

réels en sociolinguistique: quel point de vue

ont les divers acteurs? en littérature: comparer le style de deux

auteurs en TAL: chercher les informations

spécifiques: qui a fait quoi? quand? où?

Page 67: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Analyse quantitative vs. analyse qualitative quantitative

analyse factorielle fréquence distance

intertextuelle données

structurées volume de

données important

qualitative analyse fine du contenu informations

linguistiques à prendre en compte:

catégorie lexicale fonctions syntaxiques informations

sémantiques données non-structurées volume de données

limité (si analyse manuelle)

Page 68: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Qu'est-ce que c'est un concordancier? un outil qui permet la recherche

d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots,

une expression contextes

gauche et droit à l'intérieur de la phrase au sein du même paragraphe

Page 69: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Les fonctions d'un concordancier définir un pivot: mot, terme,

expression visualiser les contextes d'apparition

du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences

de 2 ou plusieurs mots)

Page 70: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Antconc outil gratuit

http://www.antlab.sci.waseda.ac.jp/ pivot: mot (avec respect de la casse) ou

expression régulière expression régulière: une suite de lettres,

chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC (Keyword in

Context) tri sur les contextes gauches ou droites

50 caractères la taille du contexte

Page 71: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Antconc (II) taille de corpus limitée visualisation d'occurences par

rapport au corpus formats divers:

fichier texte (Unicode, Latin-1) format HTML (mais balises

confondues avec le texte)

Page 72: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Antconc (III) calcul de cooccurences sélection des contextes

les contextes qui contiennent un ou plusieurs mots

liste de mots exclusion des mots grammaticaux comparaison avec un corpus de référence

extraction de n-grammes (séquences de n mots qui se succedent)

Page 73: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Autres fonctions du Antconc Plot: la position de chaque

collocateur dans le fichier Utiliser les balises:

pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les

balises

Page 74: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Recherches - méthodologie

quoi chercher? établir la liste des mots les plus

fréquents (mots contenus) extraire les séquences de n mots les

plus fréquentes définir manuellement une liste de

termes, mots, expressions pertinentes

Page 75: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Recherches – méthodologie (II)

analyse des résultats identification de contextes inutiles ou

erronées analyse des collocatifs position dans le document

recherches complexes sélection des contextes pertinentes

présence ou absence d'un mot dans les contextes position par rapport au pivot

Page 76: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Plan (II) Apport théorique: utilisation d'un

concordancier WordSmith Etiquetage des textes : notions fondamentales,

difficultés, outils Utilisation de Wordsmith, concordancier permettant

des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico

Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des

fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi

Page 77: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus étiquetés (catégorisés) corpus enrichi avec les informations

morpho-syntaxiques chaque mot est associé à une catégorie

lexicale parfois on spécifie le lemme et les propriétés

morpho-syntaxiques associées: nombre, genre, cas pour le nom temps, mode, personne, nombre pour le verbe

annotation réalisée automatiquement à l'aide d'un outil de catégorisation, suivie d'une correction manuelle

Page 78: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Les DET:ART leturbulences NOM turbulencede PRP del' DET:ART leannée NOM année2003 NUM @card@ont VER:pres avoirébranlé VER:pper ébranlerle DET:ART lesecteur NOM secteurdes PRP:det dutransports NOM transportaériens ADJ aérien: PUN :plus ADV plusencore ADV encorequ' KON queen PRO:PER entémoignent VER:subp témoigner

Page 79: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus étiquetés: ressources disponibles corpus pré-étiquetés

sélection de textes selon des critères bien définis

genre, registre, date, auteur, catégorie jeu d'étiquettes spécifique étiquetage automatique + correction manuelle

des erreurs existent toujours! recherches à l'aide d'un outil de type

concordancier (identification des contextes d'un mot ou d'une séquence des mots)

connaissance du jeu d'étiquettes et du langage d'interrogation

Page 80: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Ressources disponibles en ligne

Français Frantext (http://www.frantext.fr payant!) Freebank (http://freebank.loria.fr/) French Treebank (http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-

fr.php) Anglais

British National Corpus – 50 exemples (http://www.natcorp.ox.ac.uk/index.xml)

International Corpus of English (http://www.ucl.ac.uk/english-usage/ice/)

Anglais américain corpus Brown : LDC Online

(https://online.ldc.upenn.edu/login.html)

Page 81: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Europarl débats parlementaires (Parlement

européen) http://corp.hum.sdu.dk/

cqp.fr.html corpus étiqueté, lemmatisé,

disponible en plusieurs langues: français, anglais, esperanto, danois,

portugais, espagnol

Page 82: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours
Page 83: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours
Page 84: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Corpus en ligne – autres langues (I) Allemand

TüPP-D/Z (articles de journaux, 200 millions de tokens)

http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml

Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/

korpora/ Multilingue

Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html

norvégien, anglais, français, italien

Page 85: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Limites possibilité de consulter le contenu,

mais pas de rajouter de nouveaux textes

langage d'intérrogation complexe intérface graphique pas toujours

simple jeu d'étiquettes spécifique pour

chaque projet

Page 86: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Créer son propre corpus étiqueté

sélection d'un ensemble de textes pour créer un corpus critères: date, auteur, genre, registre... sources: le Web, textes libres de droit...

application d’un outil de catégorisation correction manuelle des erreurs

d'étiquetage et de lemmatisation recherche d’information dans le corpus

à l'aide d'un concordancier (WordSmith)

Page 87: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Etiqueteur(Catégoriseur)

Un étiqueteur(catégoriseur) est un outil qui découpe le texte en unités (lexicales, polylexicales ou signes de ponctuation) et qui associe à chaque unité une catégorie lexicale (étiquette) jeu d'étiquettes spécifique à chaque

outil lemmatisation parfois disponible apprentisage à partir d'un corpus

étiqueté manuellement

Page 88: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples d'étiqueteurs TreeTagger (IMS Stuttgart, Allemagne) (Schmid,

1994) http://www.ims.uni-stuttgart.de/projekte/

corplex/TreeTagger allemand, anglais, français, espagnol, italien

Catégoriseur de E.Brill (AdLabs, Microsoft Research) http://research.microsoft.com/en-us/um/people/

brill/ anglais, français

Cordial (payant!) http://www.synapse-fr.com/

Page 89: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

TreeTagger (I) ressources disponibles pour le

français étiquetage et lemmatisation

manipulation facile installation simple interface graphique disponible

(http://www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm)

Page 90: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

TreeTagger (II) utilisation d'un dictionnaire proposition des étiquettes et des

lemmes pour les mots inconnus classes d'équivalence

possibilité d'apprendre des ressources sur des nouveaux corpus étiquétés outil d'entraînement disponible

Page 91: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

TreeTagger (III) entrée: texte brut ou SGML ou HTML sortie: un mot par ligne, suivi de l'étiquette

et du lemme, si le lemme est inconnu, alors marqué

possibilité de segmenter le texte (module intégré ou module propre) expressions figées abréviations

possibilité de préétiquetage noms propres mots étrangers

Page 92: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

ABR abréviation ADJ adjectif ADV adverbe DET:ART article DET:POS pronom possessif

(ma, ta, ...) INT interjection KON conjonction NAM nom propre NOM nom NUM numéral PRO pronom PRO:DEM pronom

démonstratif PRO:IND pronom indéfini PRO:PER pronom

personnel PRO:POS pronom possessif

(mien, tien, ...) PRO:REL pronom relatif

• PRP préposition• PRP:det préposition plus article

(au,du,aux,des)• PUN ponctuation• PUN:cit citation• SENT fin de proposition• SYM symbole• VER:cond verbe conditionnel• VER:futu verbe futur• VER:impe verbe imperatif• VER:impf verbe imparfait• VER:infi verbe infinitif• VER:pper verbe participe passé• VER:ppre verbe participe

présent• VER:pres verbe présent• VER:simp verbe passé simple• VER:subi verb subjonctif

imparfait• VER:subp verb subjonctif

présent

Jeu d'étiquettes utilisé par TreeTagger pour le français

Page 93: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Limites des catégoriseurs

erreurs d'étiquetage provoquées par une mauvaise segmentation en phrases

difficile d'identifier les catégories lexicales entre: préposition et verbe couvert: verbe participe passé, nom, adjectif participe

passé dépendant des genres textuels composant le corpus

taux d'erreurs important sur des textes spécialisés correction manuelle nécessaire

coût important accord entre annotateurs nécessaire

Page 94: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Problèmes liés à l'étiquetage étiquettes incomparables

niveau morphologique, syntaxique divergences théoriques

possessifs: adjectifs ou déterminants agrégats (du, des) ou de+le, de+les

ambiguïtés déterminant mais aussi numéral

« J’ai vu hier un chat et trois souris » « J’ai envoyé un courrier à Jean »

verbe futur, mais aussi mot étranger « Il sera maire de Paris un jour » « Corrierre de la sera »

différences entre les langues

Page 95: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Wordsmith ensemble d'outils pour exploiter les

textes fonctions similaires à AntConc Avantages

possibilité de travailler avec des fichiers de grande taille (plusieurs millions de mots)

plusieurs possibilités d'utiliser les balises pour faire les recherches

plusieurs formats disponibles comme sortie

Page 96: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Wordsmith (II)

Page 97: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

WordSmith - Concordancier langage d'interrogation résultats affichés en format KWIC possiblité de voir les collocations

plusieurs mesures statistiques tri par occurences à gauche, à droite

(1-5 positions)

Page 98: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Langage d'interrogation * : - ignorer la fin du mot: bio*

ignorer le mot entier: book * hotel ? : tout caractère simple (y compris la

ponctuation): Engl??? # n'importe quel chiffre entre 0 et 9 $### ^ n'importe quelle lettre de l'alphabet: Alle^agn^ == sensible à la casse: ==French== / séparer les mots de recherche: may/can/will <> début et fin de balises: <w NN1>

Page 99: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Concordancier (II) possibilité de sélectionner les

contextes: exclure les contextes incluant certains mots sélectionner les contextes contenant:

un mot une balise une liste de mots et de balises

Page 100: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Recherches possibilité de faire des recherches

suite des étiquettes, lemmes et mots la sortie de TreeTagger sur plusieurs

colonnes: <mot> <étiquette> <lemme>

position: L1, L5, R1, R5 si balises, on peut identifier les

élements entre les balises: sélection des mots entre les balises

Page 101: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Recherches - exemples on cherche les séquences Det Nom Adj

PronRel DET:ART * * Nom * * Adj * * PronRel

on cherche les étiquetes du verbe suivi dans le contexte droit de l'étiquette NOM

combiner les recherche lemme+étiquette faire * NOM

Page 102: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Concordanciers: Colocateurs les cooccurrences

triées par une relation statistique: information mutuelle

autres mesures: MI3

Page 103: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Autres fonctions du concordancier cluster: identifier les séquences de

n-grammes Plot: la position de chaque

collocateur dans le fichier Utiliser les balises:

pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les

balises

Page 104: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours
Page 105: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours
Page 106: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Liste de mots clés comparer son propre corpus avec

un autre corpus de référence établir les listes de mots de chaque

corpus mesure statistique pour calculer la

distance entre le motx de la première liste et la distance entre le moty de la deuxième liste

Page 107: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Plan (II) Apport théorique: utilisation d'un

concordancier WordSmith Etiquetage des textes : notions fondamentales,

difficultés, outils Utilisation de Wordsmith, concordancier permettant

des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico

Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des

fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi

Page 108: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

ATLAS.Ti outil pour l'analyse qualitative

outil payant :0( www.atlasti.com demo gratuite, avec des limitations en

nombre de documents analyse au niveau

textuel (découpage en segments thématiques, citations, codes)

conceptuel (représentation visuelle des annotations)

Page 109: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

ATLAS.Ti (II) pour le travail coopératif à plusieurs

auteurs partage d'annotations (citations,

mémo) partage de connaissances (codes,

mémos, réseaux) liens entre les divers mémos,

citations, ségments

Page 110: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

ATLAS.Ti (III) Plusieurs catégories d'objets:

text vidéo audio transcrits

fonctions de correction transcriptions

Page 111: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Fonctions Visualisation des informations Intégration des informations (unité

hermeneutique) discussion autour des documents et

des annotations du groupe Navigation facilitée: pour retrouver

des expressions ou mots saillants Exploration des idées nouvelles

Page 112: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Le projet l'unité hermeneutique

au moins un document principal format divers

citations définies à partir d'une sélection (d'un

mot, d'une phrase, du paragraphe) correspondent à des parties de textes

thématiquement homogènes, ayant un interêt pour l'étude

liens à distance entre les citations

Page 113: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Le projet (II) les codes

étiquettes permettant d'associer à une citation un thème

on peut associer une citation à plusieurs codes

on peut extraire des codes à partir des textes sélectionnées

Page 114: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Le projet (III) les mémos

pour communiquer les informations entre les utilisateurs

discussions autour des notions, citations, etc.

contiennent des indications méthodologiques à mettre en application

associés à un document ou à une citation

Page 115: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Le projet (IV) les familles

regroupements de mémos, de codes, de citations, documents

utiles pour plusieurs facettes du même concept

les points de vue sur les réseaux visualisation graphique des objets

Page 116: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Fonctions textuelles définir des sélections, des citations créer des mémos recherche des mots, des

expressions regulières ou des codes

associer des mémos et des citations

Page 117: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Fonctions conceptuelles définir des réseaux de noeuds

codes citations mémos

organiser les connaissances du domaine extraites à partir du texte définir une théorie identifier des concepts-clés

Page 118: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Autres plateformes Weft QDAWeft http://www.pressure.to/qda/

http://onlineqda.hud.ac.uk

Page 119: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de sujets (I) constituer un petit corpus d'articles

scientifiques sur le sujet de votre mémoire (maximum 8 documents)

segmentez le corpus en fonction de la thématique (définir un ensemble de mots-clés)

définir les codes associés construire un réseau des conceptes du

domaine

Page 120: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de sujets (II) sur un corpus journalistique

comparable (anglais-français), qui vous sera fourni, effectuez des recherches, à l'aide d'un concordancier afin d'identifier les relations hiérarchiques ("chef de", "président de") sélectionnez les contextes qui

contiennent des entités de type personnes ou organisations

Page 121: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemples de sujets (III) constituez un corpus journalistique

concernant les chefs du parti socialiste (en France, en Angleterre, en Allemagne) sur des sources disponibles en ligne. expliquez la procedure de constitution

de corpus, les critères de sélection de corpus

Page 122: Analyse de corpus. Détails administratifs Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours

Exemple de sujet (IV) constituez un corpus trilingue parallèle (le

même contenu en anglais, en français, en allemand) à partir de rapports financiers de la compagnie Swiss.com (à partir du avril 2008) extraire le texte du PDF comparer les textes pour identifier les différences nettoyage éventuel balisage avec la date du rapport

même sujet pour Lufthansa (anglais, allemand)