Upload
brier
View
24
Download
0
Embed Size (px)
DESCRIPTION
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?. Questions abordées. 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? - PowerPoint PPT Presentation
Citation preview
Introduction à l’utilisation des corpus
2. Comment constituer un corpus?
Questions abordées 2. Comment constituer un corpus ?
Comment trouver des textes ? Ou et comment
trouver des ressources (glossaires, dictionnaires,
corpus parallèles) ?
Comment exploiter au mieux les fonctionnalités des
moteurs de recherche?
Comment choisir quel texte inclure ou pas dans le
corpus ?
Sous quelle forme faut-il le stocker pour qu’il soit
facilement utilisable ? (rappel : formats de fichiers)
Rappel : quel type de corpus ?
On va constituer un mini corpus Électronique
Bilingue comparable (quelles langues? )
D’originaux (éviter les auteurs locuteurs non-natifs)
Synchronique
Annoté? Ou bien forme de textes bruts?
Ouvert : constamment enrichi
De spécialité. Domaines/sous-domaines couverts ? Exemples :
Le volcans de boue
Le circuit de l’eau dans les sols
Les montagnes
Où trouver des textes? 1/ Science Direct (www.sciencedirect.com)
• ¼ de la littérature scientifique, médicale et technique en ligne
• plus de 2.000 journaux, centaines de livres, manuels
• accès uniquement sur le campus
• droits d’auteur ;-)
2/ PLOS (Public Library of Science) : http://www.plos.org/
3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet.
E.x. http://docinsa.insa-lyon.fr/sapristi/trouver-20.php
http://www.inria.fr/rrrt/index.fr.html
Où trouver des textes?
4/ www.sudoc.abes.fr (recherche de thèses)
5/ ENT de l’université Paris Diderot :
- HAL
- GEOBASE
6/ Recherche sur Internet
Recherche documentaire sur InternetComment choisir ? Internet n’est pas une grande bibliothèque. Tout n’est pas crédible.
Avant d’inclure un texte récupéré sur Internet vérifier :
• la date de mise ajour du site
• qui est l’auteur de la page ?
• le texte a été écrit par un locuteur natif?
• quelle institution cautionne le contenu?
Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!
GGooooggllee : comment l’utiliser au mieux ?
Comment cibler au mieux les résultats formuler résultats plus pertinents
• http://www.googleguide.com/
• GGooooggllee Hacks - 100 Industrial-Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly
GGoooogglle e : syntaxe de base
pomme de terre (AND implicite)
« pomme de terre »
Paris OR London
hôtel (Paris OR London)
Bush -George –president
Bush
BUSH
bush
écri* ?????
« trois * raisons » caractère joker
glossary OR vocabulary OR lexicon ~glossary
GGooooggllee : syntaxes spéciales Opérateurs google
intitle:
inurl:
intext:
inanchor:
site:
link:
filetype:
related:
define:
Et plein d’autres!!!
L’ordre des termes de la requête et la répétition peuvent affecter les résultats.
Autres questions
• Que faire si une page n’existe plus?
• vérifier si elle existe encore en cache (retrouve une page que GGooooggllee a indexée)
• www.webarchive.org
• Où trouver des glossaires et corpus parallèles?
• http://www.multilingual.ch
Un dernier GGooooggllee hackhack
Chercher sur GGooooggllee le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.
Comment stocker les textes ?
Parenthèse : formats des fichiers Moyen d’encoder de l’information afin de la stocker sur l’ordinateur.
IMAGES uniquement : .jpg, .png, etc
Formats de fichiers ‘documents’
sans aucun formatage : .txt : uniquement des caractères textuels ordinaires
formatés :
.doc : formats propriétaires Microsoft
.rtf : formats propriétaires Microsoft : Lisible, inter-opérable
.odt (OpenOffice Text Doc) : logiciel libre sources disponibles
.html, .xml : langages à balises
.pdf : format propriétaire de Adobe Systems, même si ouvert
préserve polices, images, graphiques et la mise en forme
EXTENSIONS
Démonstration : comparaison entre les documents de type
.txt, .doc, .html, .rtf, .odt
(Observer la taille des documents)
A lire :
Formats de fichiers (documentation de l’équipe système de l’UFR EILA) :
www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats
Fichiers texte /vs/ binaires• Fichiers texte : contenu pouvant être interprété comme
du texte. Suite de caractères d’un ensemble donné. – en codage ASCII ou une extension de ASCII (UTF-8, UTF-16
ou extension régionale). Exemples : fichiers .XML ; .txt
• Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. – fichier exécutable ; – fichier de base de données structuré en enregistrements de
taille fixe ou variable ; – document de traitement de texte ; – fichiers multimédias : images, sons, vidéos.
Encodage des caractères
• associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.
• Exemples d’encodage : – Le code Morse
• Le code ASCII
• ISO-8859-1
• UNICODE
Encodage des caractères
• associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.
• Exemples d’encodage : – Le code Morse
Encodage de caractères I
– US-ASCII (1967): American Standard Code of Information Interchange
– Lettres (alphabète anglais), numéraux, ponct– 7 bits (128 codes) 98 signes définis– Ex :
• A : 065, B : 066, C : 067• a : 097, b : 098, c : 099, etc.
– Très limité extensions.
Encodage des caractères II
• ISO 8859 (1987) : International Standards Organization
• étend US-ASCII en ajoutant les caractères accentués– 8 bits (256 codes) 191 signes définis
• ISO 8859-1 : Europe le l’Ouest– 8859-2 : Latin 2, Europe de l’Est– 8859-3 : Latin 3, Europe du Sud Est– 8859-4 : Latin 4, Scandinavie, Baltique– 8859-5 : cyrillique– 8859-6 : arabe, 8859-7 : grec, etc
Encodage des caractères III
– Approche systématique : UNICODEUNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères) permet le mélange de langues
– Permet l’encodage de toutes les langues vivantes et mortes
• UTF-8UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODEUNICODE
• UTF-16UTF-16
Formats des fichiers : comment stocker le corpus ?
CORPUS_PRENOM_NOM
ANGLAIS FRANCAIS ALLEMAND
SOURCES TEXTES Référence biblio dans la BD Termino !!!!!
BAUM_1996.pdf BAUM_1996.txt
Comment citer la source ?
• Quels champs indiquer pour chaque type de document ? (JabRef) :
• Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages
• Site web : Titre, (Auteur|institution), Url (localisation), date de consultation.
• Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)
Comment citer la source ?
• Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche)
• Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.
Parenthèse : formats des fichiers
• Démonstration : comment stocker les fichiers constituant son corpus ?
Que faire avec les fichiers PDF ?• Portable Document Format • créé par Adobe Systems• préserve la mise en forme (polices, images, objets
graphiques…) quelles que soient l'application et la plate-forme
• PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.
• les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).
Que faire avec les fichiers PDF ?
• Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!):
• Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration.
• Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo.
• Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).
Quel format pour le stockage ?
Créer un répertoire CORPUS_NOM_PRENOM Créer les sous-répertoires ANGLAIS & FRANCAIS (non
pas FRANÇAIS) Stocker dans les deux des articles convertis en
format .txt, avec l’encodage UFT-8 Nom du fichier :
le nom de l’auteur + - + année de publication + a,b,c (optionnel, si plusieurs articles de la même année) + .txt Ex : DUPONT_2006.txt
UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD
POURQUOI ???