Transcript
Page 1: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

1

Linguistique de corpus

Page 2: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

2

Détails administratifs Enseignants: Amalia Todirascu

([email protected]), Daniela Capin, François Rousselot

salle informatique 4S.12, bâtiment 4 au sous-sol

des séances de 3 heures 13.10, 03.11, 10.11, 17.11, 24.11, 01.12,

08.12, 15.12 évaluation: contrôle continu sur

machine (2x1h)

Page 3: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

3

Plan Mise en place des notions:

Corpus: définition, exemples, formats Apport théorique: utilisation d'un

concordancier simple AntConc Concordancier : définition,

fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier

gratuit Corpus en ligne: Frantext

Page 4: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

4

Plan (II) Le concordancier Xaira : exploitation de

données en format XML Mesures statistiques Corpus étiquetés

Etiquetage des textes : notions fondamentales, difficultés, outils

Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés.

Exploitation des informations syntaxiques avec TigerSearch

Page 5: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

5

Corpus: définitions, exemples, formats

Page 6: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

6

Mise en place des notions

Définition des corpus Corpus ou bases textuelles existants Constitution de corpus

i. exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques

ii. critères de sélection des corpus Formats des corpus: texte brut, langage

de balises (XML), annotations (TEI).

Page 7: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

7

Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes

ou de paroles en format électronique sélectionnés pour un objectif précis

"A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)

Page 8: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

8

Pourquoi des corpus? étudier une phénomène linguistique

particulier vérifier les emplois "réels"

constituer des ressources linguistiques pour une analyse automatique

étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux, changement

des formes comparer les travaux de deux auteurs

lexique, syntaxe, figures de style

Page 9: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

9

Pourquoi des corpus (II)? retrouver toutes les informations liés à un

personnage historique ou à un pays relations avec d'autres personnalités, avec les

pays voisins, pour une période bien déterminée

analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit

vérifier les emplois pour la traduction rechercher les expressions pour voir si leur

utilisation est fréquente

Page 10: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

10

Corpus Taille de corpus: variable selon l'application

Des millions de mots Quelques miliers de mots

Oral/écrit Annotations:

morpho-syntaxiques sémantiques commentaires

Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets

Page 11: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

11

Corpus (II) disponibles en ligne ou téléchargeables

(peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte

intégral outils d'exploration de corpus: les

concordanciers proposent les contextes d'un mot ou d'une

expression nécessitent l'apprentissage du langage

d'intérrogation – pas toujours facile

Page 12: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

12

Exemples de corpus ou bases textuelles Français

Linguistique: base textuelle Frantext (textes littéraires et techniques)

http://www.frantext.fr Corpus oral C-ORAL-ROM

http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est républicain)

http://www.cnrtl.fr/corpus/ Sociolinguistique

corpus du français parlé à Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadien

-fa.html Sociologie: CLAPI

http://clapi.univ-lyon2.fr/feuilleter.php

Page 13: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

13

Exemples de corpus multilingues

débats parlementaires (Parlement européen)

http://corp.hum.sdu.dk/cqp.fr.html corpus étiqueté, lemmatisé, disponible en

plusieurs langues: français, anglais, esperanto, danois, portugais,

espagnol

corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues

Page 14: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

14

Anglais Linguistique et TAL :

British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus

(http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)

Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)

Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ )

Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS)

(http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie :

Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)

Page 15: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

15

British National Corpus corpus de référence répartition uniforme de genres:

la partie écrite: le domaine: 75% de textes "informatifs", le reste

appartient à la fiction; le support: 60% livres, 30% périodiques, supports de

discours radio, télé etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus

prêtés) la partie orale: echantillon démographique: âge,

sexe, groupe social, région (dates, environnement, participants)

Page 16: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

16

Corpus en ligne – autres langues (I) Allemand

TüPP-D/Z (articles de journaux, 200 millions de tokens)

http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml

Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/

korpora/ Multilingue

Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo – 2,6 millions de mots

http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html

norvégien, anglais, français, italien

Page 17: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

17

Corpus en ligne – autres langues (II) Corpus international du portugais – 1 million de mots

(http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage

d’une langue étrangère – norvégien (http://ask.uib.no/index.page)

Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)

3,1 millions de mots Corpus bulgare

http://www.bultreebank.org/btbmorf/ 1 million de mots

Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)

Page 18: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

18

Bases textuelles Association des Bibliophiles Universels

(ABU) http://abu.cnam.fr/

Gallica (BNF) http://gallica.bnf.fr/

Les bibliothèques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp

La bibliothèque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr

Page 19: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

19

Bases textuelles vs. corpus documents en

format numérique recherche par des

critères "classiques" auteur, titre,

editeur, année la recherche plein

texte n'est pas toujours accessible

documents en format numérique

critères de sélection spécifiques, selon objectif

recherches avancées plein texte catégorie lexicale,

fonction syntaxique, information sémantique...

texte enrichi, documenté

Page 20: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

20

Corpus électroniques Corpus électronique = un ensemble

de textes numériques qui sont sélectionnés sur des critères bien

définis (paramètres de Biber) documentés (nom de la personne qui

a numérisé le document, le format etc.)

couplés à des outils d'exploration (concordanciers)

Page 21: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

21

Comment constituer son propre corpus? Developping Linguistic Corpora: a

Guide for Good Practices http://www.ahds.ac.uk/creating/

guides/linguistic-corpora/index.htm

Page 22: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

22

Un exemple de constitution de corpus (sociolinguistique)

Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs

acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)

Page 23: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

23

Méthodologie de travail identifier l'objectif de l'étude à

effectuer sur corpus définir des critères de sélection des

textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:

le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes

et pour les annoter nettoyer le corpus constitué

Page 24: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

24

Critères de sélection des textes typologie des textes, genres et registres

(D.Biber,1999) types de textes: ensemble de

caractéristiques linguistiques narratif, argumentatif, descriptif

genre/registre: catégories intuitives qui utilisent les locuteurs pour répartir les productions langagières

thèmes formes de textes

Page 25: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

25

Critères de sélection (II)

Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/

privé-interpersonnel destinataire

pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées:

générales/spécialisées/personnelles

Page 26: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

26

Critères de sélection (III)

destinataire: variation démographique: sexe, age,

profession statut: individu/institution

Factualité informatif-factuel/intermédiaire/imaginaire

Objectifs persuader, amuser, édifier, informer,

expliquer, donner des consignes, etc. Thèmes=>documenter le corpus

annoter le corpus

Page 27: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

27

Exemples de corpus constitué (I) Corpus Sociolinguistique

Source des textes: entretiens oraux transcrits

Critères de sélection: Canal: oral Interlocuteurs:

Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)

Cadre: institutionnel/privé Date Entreprise: caractère multinational

Page 28: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

28

Exemple de corpus constitué (II) Format :

Fichiers en format texte brut Informations provenant de la

transcription (pauses, reprises etc.) Annotation:

Les locuteurs La date L’entreprise concernée

Page 29: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

29

Méthodologie de travail identifier l'objectif de l'étude à effectuer sur

corpus définir des critères de sélection des textes

en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:

le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes

et pour les annoter nettoyer le corpus constitué

Page 30: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

30

Où trouver des documents numériques?

Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche

spécialisés archiver et numériser des documents

outils de recherche (moteurs et méta-moteurs spécialisés)

portails spécialisés

Page 31: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

31

Portail

une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site Catalogues en ligne

Page 32: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

32

Portail (II) Quelques exemples

le portail de l'Education Nationale http://www.education.gouv.fr/

le portail des revues en SHS http://www.revues.org/

le portail du CNRShttp://www.drei.cnrs.fr

- le Bulletin Officielhttp://www.education.gouv.fr/pid230/textes-officiels.html

Page 33: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

33

Bibilothèques virtuelles

Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques:

livres, images, vidéos etc. Possibilités avancées de navigation

et de recherche

Page 34: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

34

Moteurs de recherches dédiés Moteur de recherche spécialisé pour la

recherche des livres http://books.google.com/

Moteur de recherche spécialisé – indexation des articles scientifiques http://scholar.google.com

HAL-SHS http://www.archives-ouvertes.fr/

Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)

Page 35: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

35

Le Web comme source le Web n'est pas un corpus!! taille importante

environ 76 milliards de mots (Kilgariff & Greffenstette 2003)

hétérogénéité pas de contrôle sur l'information publiée

disparité de ressources thématique langues

langage structuré – HTML

Page 36: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

36

Techniques Aspiration directe d'un site

pertinence choix des documents propres Désavantage: il faut connaître les adresses

des sites exploiter les résultats des moteurs de

recherche automatisé, mais beaucoup des documents

inutiles plate-formes dédiées (Telanaute, projet

SAFIR, BootCat)

Page 37: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

37

Problèmes

doublons inclusions des documents vérification manuelle du corpus

impossible si taille trop importante Pas de contrôle sur l’auteur du texte

documents indexés par les moteurs (taille variable de l'index)

Page 38: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

38

Exercice: Un exemple de constitution de corpus

Un corpus concernant le transport des marchandises dangereuses en Europe Quelle sources? Quels critères de sélection? Quelles informations annotés?

Page 39: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

39

Format

en fonction de l'application utilisée pour créer les documents PDF, HTML (Page Web), document Microsoft

Word etc. extension du fichier = une indication sur

l'application à utiliser pour les lire txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet

Explorer Utiliser le logiciel approprié pour lire le

contenu et convertir vers d'autres formats

Page 40: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

40

Formats (II) texte brut PDF texte enrichi d'annotation

Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)

format d'annotation de textes : TEI (Texte Encoding Initiative)

Page 41: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

41

Formats - Exercice Ouvrez Microsoft Word tapez un texte dans le nouveau document,

avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire

"Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:

document Word (doc) texte simple (Texte brut) RTF (Rich Text Format) HTML (PageWeb)

Page 42: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

42

Formats – Exercice (suite) fermez Microsoft Word ouvrez les applications suivantes

et essayez de lire les fichiers que vous avez enregistré sous Word Acrobat Reader WordPad Bloc Notes Internet Explorer

Page 43: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

43

Texte brut une suite de lettres et de chiffres, sans mise

en forme seulement le caractère nouvelle ligne

pas de mise en forme interprétable par tous les éditeurs de textes

tous systèmes d'exploitation: Windows, Linux, MacOS

code ASCII (limité à 128 caractères) plusieurs encodages possibles

LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)

Page 44: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

44

Format HTML Langage interprété par les

navigateurs Internet Visualisation du contenu et la

navigation Mise en forme: en gras, en couleurs

etc. Structuration du texte: paragraphes,

tableaux, liens vers d’autres pages…

Page 45: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

45

Notion de balise Une balise permet de distinguer un

document HTML d’un fichier texte Les balises sont insérées dans le corps du

document Elles permettent de contrôler le formatage et

la présentation d’un document Mise en forme des paragraphes, insertion

d’images, insertion de liens hypertexte, tableaux …

Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>

Page 46: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

46

Notion de balise (II) Une balise est encadrée par <…> et

peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées

mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font

size="+1"><b><i>texte</i></b></font>

   

Page 47: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

47

Notion de balise (III) Une balise peut avoir trois formes

<nombalise> <br> passage à la ligne

<nombalise> … </nombalise> <b>texte à mettre en gras</b>

<nombalise attribut1="valeur_1"… attributn="valeur_n"> texte

</nombalise> <body bgcolor="#80fff" text="red">

le fond de la page sera de couleur bleu clair

Page 48: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

48

Limites du langage HTML L’ensemble des balises est

prédéfini, mais limité à celui défini par le World Wide Web consortium http://www.w3.org

Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le

contenu

Page 49: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

49

Texte annoté - XML XML – Extended Markup Language marquage de plusieurs zones de textes

pour: faciliter la recherche d'information faciliter le partage des connaissances

Même principe que le langage HTML On peut définir les balises adaptées à notre

propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes,

d’organisations, de métiers)

Page 50: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

50

Pourquoi XML? Structurer l'information

Identification du contenu des données Accessibilité

divers types de présentations de données (XSL)

interopérabilité des données re-utiliser les XML dans d'autres

applications possibilité de vérifier si le document est

valide: DTD, XML schémas définitions partagées

Page 51: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

51

Texte annoté (II) Outils pour l’annotation en format

XML Annotea, Gate, Oxygène, XML Starlet,

Notepad++ Outils pour executer des requêtes

sur les balises XML Xaira, XQuery

Page 52: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

52

<?xml version="1.0" encoding="UTF-8" ?>   <!DOCTYPE corpus SYSTEM "def.dtd"> - <corpus>- <nouvelle lang="fr">- Solution à la crise financière et économique : L’intervention de l’Etat est

nécessaire, selon les rénovateurs La financière et économique dans laquelle est englué le monde ne peut être résolue que par le retour aux fondements de la social-démocratie dont l’un des principes majeurs est <solution>l’interventionnisme de l’Etat dans l’économie</solution>. Telle est la conviction de <organisation id="1">l’Union pour le renouveau démocratique </organisation> qui a réfléchi sur le sujet lors de son université d’hivernage du week-end.

Que doivent faire les socio-démocrates pour sortir de la crise ? A cette question, <Personne>Diégane Sène</Personne>, membre de la direction exécutive de <organisation id="1">l’Union pour le renouveau démocratique (Urd)</organisation> qui animait une conférence sur le thème : ‘Les recettes de la social-démocratie’ au deuxième jour de l’université d’hivernage de <organisation id="1">l’Urd</organisation>, tenue ce week-end, répond qu’il faut ‘retourner au fondement de la social démocratie’.  

- </nouvelle>  </corpus>

Page 53: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

53

Un premier exemple d’annotation XML

Elements XML <corpus>, <nouvelles>,

<Personne>, <organisation>, <solution>

Attributs: Lang pour l’élément <nouvelles> Id pour l’élément <organisation>

Page 54: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

54

Un premier exemple (II) Interprétation

Un document est constitué par un élément <corpus>

Un <corpus> est composé par un ou plusieurs éléments <nouvelles>

Un <nouvelles> est composé par plusieurs séquences de texte, par un ou plusieurs <organisation>, <Personne>, <solution>

Page 55: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

55

MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.

L’Express, Date: lundi 4 mai 2009

Page 56: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

56

<?xml version="1.0" encoding="ISO-8859-1"?><Lieu>MEXICO</Lieu> <épidémie><épisode><pays>Le Mexique</pays> s'est dit sur <état

type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>

</épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités

se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>

</épisode>. <épisode>Malgré ces nouvelles rassurantes, <état

type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>

</épisode> <épisode>et certains pays <état type="prévention">ont

renforcé les mesures de protection.</état></épisode></épidémie><Source>L’Express</Source><Datepubli>lundi le 4 mai

2009</Datepubli>

Page 57: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

57

Avantages du XML Structuration de l’information Définitions partagées Facilite le développement des standards

TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)

Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles

XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)

OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)

Page 58: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

58

Exercice Annotez le corpus constitué sur la

crise financière avec vos propres balises

Page 59: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

59

Normes - TEI Text Encoding Initiative:

objectif: partage de l'information textuelle normalisation de l'annotation simple, clair et extensible représentation complète de l'information textuelle

Proposé par Association for Computers and the Humanities the Association for Computational Linguistics the Association for Literary and Linguistic Computing

Site officiel: http://www.tei-c.org/index.xml

Page 60: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

60

TEI(II) <TEI> <teiHeader><!-- [ TEI Header information ] --> </teiHeader> <text>  <front>  </front>  <body><!-- [ body of text ... ] -->  </body>  <back>  </back> </text></TEI>

Page 61: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

61

TEI beaucoup d'outils pour

l'édition des annotations et des meta-données

validation des annotations plusieurs projets de bases

textuelles et de corpus adopte le standard http://www.tei-c.org/Activities/Projects

/

Page 62: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

62

Page 63: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

63

Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI

simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html

Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press

Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys

Sinclair, J. (1991) Coocurrences, concordances, collocations

Page 64: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

64

Autres ressources European Language Distribution

Agency (http://www.elda.org/) Linguistic Data Consortium

(http://www.ldc.upenn.edu/)

Page 65: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

65

Plan Mise en place des notions:

Corpus: définition, exemples, formats Apport théorique: utilisation d'un

concordancier simple AntConc Concordancier : définition,

fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier

gratuit Corpus en ligne: Frantext

Page 66: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

66

Concordanciers recherches dans le corpus et outils

d'exploration de corpus qu'est-ce que c'est un

concordancier? fonctions de base un exemple: Antconc

Page 67: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

67

Recherches sur les corpus en linguistique: trouver des exceptions

ou renforcer une hypothèse linguistique en traduction: chercher des emplois

réels en sociolinguistique: quel point de vue

ont les divers acteurs? en littérature: comparer le style de deux

auteurs en TAL: chercher les informations

spécifiques: qui a fait quoi? quand? où?

Page 68: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

68

Analyse quantitative vs. analyse qualitative quantitative

analyse factorielle fréquence distance

intertextuelle données

structurées volume de

données important

qualitative analyse fine du contenu informations

linguistiques à prendre en compte:

catégorie lexicale fonctions syntaxiques informations

sémantiques données non-structurées volume de données

limité (si analyse manuelle)

Page 69: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

69

Qu'est-ce que c'est un concordancier? un outil qui permet la recherche

d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots,

une expression contextes

gauche et droit à l'intérieur de la phrase au sein du même paragraphe

Page 70: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

70

Les fonctions d'un concordancier définir un pivot: mot, terme,

expression visualiser les contextes d'apparition

du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences

de 2 ou plusieurs mots)

Page 71: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

71

Concordanciers outils indépendants

Antconc, Lexico, Wordsmith, ParaConc

on peut les appliquer sur notre propre corpus

concordanciers en-ligne interface Web permettant des

recherches dans les corpus "fermés"

Page 72: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

72

Antconc outil gratuit

http://www.antlab.sci.waseda.ac.jp/ pivot: mot (avec respect de la casse) ou

expression régulière expression régulière: une suite de lettres,

chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC tri sur les contextes gauches ou droites

50 caractères la taille du contexte

Page 73: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

73

Antconc (II) taille de corpus limitée visualisation d'occurences par rapport

au corpus formats divers:

fichier texte (Unicode, Latin-1) format HTML (mais balises confondues avec

le texte) un petit tutoriel:

http://mariepaule.jacques.free.fr/FormationDoctorale/TutorielAntConc.pdf

Page 74: 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselottodiras@unistra.fr

74

Antconc (III) calcul de cooccurences sélection des contextes

les contextes qui contiennent un ou plusieurs mots

liste de mots exclusion des mots grammaticaux comparaison avec un corpus de

référence extraction de n-gramms