Click here to load reader

1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu ([email protected] ), Daniela Capin, François [email protected]

  • View
    109

  • Download
    1

Embed Size (px)

Text of 1 Linguistique de corpus. 2 Détails administratifs Enseignants: Amalia Todirascu ([email protected] ),...

  • Page 1
  • 1 Linguistique de corpus
  • Page 2
  • 2 Dtails administratifs Enseignants: Amalia Todirascu ([email protected]), Daniela Capin, Franois [email protected] salle informatique 4S.12, btiment 4 au sous- sol des sances de 3 heures 13.10, 03.11, 10.11, 17.11, 24.11, 01.12, 08.12, 15.12 valuation: contrle continu sur machine (2x1h)
  • Page 3
  • 3 Plan Mise en place des notions: Corpus: dfinition, exemples, formats Apport thorique: utilisation d'un concordancier simple AntConc Concordancier : dfinition, fonctionnement, fonctions gnriques Utilisation d'AntConc, concordancier gratuit Corpus en ligne: Frantext
  • Page 4
  • 4 Plan (II) Le concordancier Xaira : exploitation de donnes en format XML Mesures statistiques Corpus tiquets Etiquetage des textes : notions fondamentales, difficults, outils Utilisation de Wordsmith, concordancier permettant des recherches sur des textes tiquets. Exploitation des informations syntaxiques avec TigerSearch
  • Page 5
  • 5 Corpus: dfinitions, exemples, formats
  • Page 6
  • 6 Mise en place des notions Dfinition des corpus Corpus ou bases textuelles existants Constitution de corpus i. exemples concrets de problmes de recherche : linguistiques sociolinguistiques historiques ii. critres de slection des corpus Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).
  • Page 7
  • 7 Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes ou de paroles en format lectronique slectionns pour un objectif prcis "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)
  • Page 8
  • 8 Pourquoi des corpus? tudier une phnomne linguistique particulier vrifier les emplois "rels" constituer des ressources linguistiques pour une analyse automatique tudier l'volution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux, changement des formes comparer les travaux de deux auteurs lexique, syntaxe, figures de style
  • Page 9
  • 9 Pourquoi des corpus (II)? retrouver toutes les informations lis un personnage historique ou un pays relations avec d'autres personnalits, avec les pays voisins, pour une priode bien dtermine analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit vrifier les emplois pour la traduction rechercher les expressions pour voir si leur utilisation est frquente
  • Page 10
  • 10 Corpus Taille de corpus: variable selon l'application Des millions de mots Quelques miliers de mots Oral/crit Annotations: morpho-syntaxiques smantiques commentaires Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets
  • Page 11
  • 11 Corpus (II) disponibles en ligne ou tlchargeables (peu de disponibilits :0( ) corpus "ferms", pas d'accs au texte intgral outils d'exploration de corpus: les concordanciers proposent les contextes d'un mot ou d'une expression ncessitent l'apprentissage du langage d'intrrogation pas toujours facile
  • Page 12
  • 12 Exemples de corpus ou bases textuelles Franais Linguistique: base textuelle Frantext (textes littraires et techniques) http://www.frantext.fr Corpus oral C-ORAL-ROM http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est rpublicain) http://www.cnrtl.fr/corpus/ Sociolinguistique corpus du franais parl Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadie n-fa.html http://www.sociolinguistique.uottawa.ca/materiel/canadie n-fa.html Sociologie: CLAPI http://clapi.univ-lyon2.fr/feuilleter.php
  • Page 13
  • 13 Exemples de corpus multilingues dbats parlementaires (Parlement europen) http://corp.hum.sdu.dk/cqp.fr.html corpus tiquet, lemmatis, disponible en plusieurs langues: franais, anglais, esperanto, danois, portugais, espagnol corpus de normes europenes (Acquis Communautaire) http://langtech.jrc.it/JRC- Acquis.html disponible en 22 langues
  • Page 14
  • 14 Anglais Linguistique et TAL : British National Corpus ( http://www.natcorp.ox.ac.uk ) http://www.natcorp.ox.ac.uk Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/ list/private/brown/brown.html) Susanne (http://www.cs.cmu.edu/afs/cs/project/ai- repository/ai/areas/nlp/corpora/susanne/0.html) Histoire : ASChart (http://www.aschart.kcl.ac.uk/)http://www.aschart.kcl.ac.uk/ CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ )http://www.ucc.ie/celt/ Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie : Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)http://www.inf.uszeged.hu/rgai/homepagecorpus
  • Page 15
  • 15 British National Corpus corpus de rfrence rpartition uniforme de genres: la partie crite: le domaine: 75% de textes "informatifs", le reste appartient la fiction; le support: 60% livres, 30% priodiques, supports de discours radio, tl etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus prts) la partie orale: echantillon dmographique: ge, sexe, groupe social, rgion (dates, environnement, participants)
  • Page 16
  • 16 Corpus en ligne autres langues (I) Allemand TPP-D/Z (articles de journaux, 200 millions de tokens) http://www.sfs.uni- tuebingen.de/en_nf_asc_resources.shtml Deutsches Referenzkorpus (DeReKo) http://www.ids- mannheim.de/kl/projekte/korpora/ Multilingue Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/ corpus/index.html norvgien, anglais, franais, italien
  • Page 17
  • 17 Corpus en ligne autres langues (II) Corpus international du portugais 1 million de mots (http://cintil.ul.pt/index.jsp) Corpus pour de production crite pour lapprentissage dune langue trangre norvgien (http://ask.uib.no/index.page) Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html) 3,1 millions de mots Corpus bulgare http://www.bultreebank.org/btbmorf/ 1 million de mots Corpus littraire estonien (Multext-EAST) 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)
  • Page 18
  • 18 Bases textuelles Association des Bibliophiles Universels (ABU) http://abu.cnam.fr/ Gallica (BNF) http://gallica.bnf.fr/ Les bibliothques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp La bibliothque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr
  • Page 19
  • 19 Bases textuelles vs. corpus documents en format numrique recherche par des critres "classiques" auteur, titre, editeur, anne la recherche plein texte n'est pas toujours accessible documents en format numrique critres de slection spcifiques, selon objectif recherches avances plein texte catgorie lexicale, fonction syntaxique, information smantique... texte enrichi, document
  • Page 20
  • 20 Corpus lectroniques Corpus lectronique = un ensemble de textes numriques qui sont slectionns sur des critres bien dfinis (paramtres de Biber) documents (nom de la personne qui a numris le document, le format etc.) coupls des outils d'exploration (concordanciers)
  • Page 21
  • 21 Comment constituer son propre corpus? Developping Linguistic Corpora: a Guide for Good Practices http://www.ahds.ac.uk/creating/guides/lin guistic-corpora/index.htm
  • Page 22
  • 22 Un exemple de constitution de corpus (sociolinguistique) tudier les moyens dapplication dune politique linguistique par les entreprises multinationales implantes en Alsace Corpus: entretiens avec plusieurs acteurs impliqus dans la mise en place dune politique linguistique (PDG, responsables des services, simple employs)
  • Page 23
  • 23 Mthodologie de travail identifier l'objectif de l'tude effectuer sur corpus dfinir des critres de slection des textes en fonction de son objectif identifier les sources pertinentes dfinir les aspects techniques: le format des documents les informations d'annotation les outils ncessaires pour rassembler les textes et pour les annoter nettoyer le corpus constitu
  • Page 24
  • 24 Critres de slection des textes typologie des textes, genres et registres (D.Biber,1999) types de textes: ensemble de caractristiques linguistiques narratif, argumentatif, descriptif genre/registre: catgories intuitives qui utilisent les locuteurs pour rpartir les productions langagires thmes formes de textes
  • Page 25
  • 25 Critres de slection (II) Paramtres situationnels (Biber 1999) canal: crit/parl/crit lu; format: publi/non-publi; cadre: institutionnel/autre cadre public/ priv- interpersonnel destinataire pluralit: pluriel/individuel/non-compt prsence: prsent/absent interaction: aucune/peu/beaucoup connaissances partages: gnrales/spcialises/personnelles
  • Page 26
  • 26 Critres de slection (III) destinataire: variation dmographique: sexe, age, profession statut: individu/institution Factualit informatif-factuel/intermdiaire/imaginaire Objectifs persuader, amuser, difier, informer, expliquer, donner des consignes, etc. Thmes =>documenter le corpus annoter le corpus
  • Page 27
  • 27 Exemples de corpus constitu (I) Corpus Sociolinguistique Source des textes: entretiens oraux transcrits Critres de slection: Canal: oral Inter