27
Le cœur du projet : objectifs L’élaboration d’une base de corpus (principalement oraux) regroupant des données de langues de différentes natures – Une approche pluridisciplinaire Une normalisation pour l'encodage et la description de corpus de langue (métadonnées)

Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Embed Size (px)

Citation preview

Page 1: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Le cœur du projet : objectifs

• L’élaboration d’une base de corpus (principalement oraux) regroupant des données de langues de différentes natures

– Une approche pluridisciplinaire

– Une normalisation pour l'encodage et la description de corpus de langue (métadonnées)

Page 2: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Exploitation, conservation, diffusion

• Nécessité de normaliser : – pourquoi ?

Besoins de partager, diffuser et rechercher/retrouver

– Comment ?

XML / Dublin Core / OAI / OLAC

Page 3: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Normalisation des données

• XML: Format de représentation

• Dublin Core: Norme de métadonnées

• OAI: Concept d’interopérabilité

• OLAC: Standard proposé par des linguistes

Page 4: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Normalisation des corpus oraux

OAIOpen Archive

InitiativeDublin Core

OLACOpen Language

Archive Community

XML

Page 5: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

XML

• Langage à balises qui permet d'annoter et de structurer une ressource.– libre de droit, multi-plateforme, échangeable

• par ex:• <balise attribut= ''valeur''>donnée</balise>

<titre lang=''fr''>norma…</titre>

Page 6: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Dublin Core

• Norme de métadonnées.

• 15 éléments simples mais efficaces pour décrire les ressources :– Title, (creator), subject, description, publisher,

contributor, date, type, format, identifier, language, relation, coverage, rights, source.

Page 7: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Eléments de métadonnées Dublin Core

1. Title : nom donné à la ressource, (celui par lequel elle est connue officiellement)

2. Subject : sujet du contenu de la ressource, décrit par un ensemble de mots clés, de phrases ou d’un code de classification.

3. Description : une description du contenu de la ressource. Peut contenir un résumé, une table des matières, une référence à une représentation graphique du contenu ou un texte libre sur le contenu.

4. Publisher : une entité responsable de la diffusion de la ressource, dans sa forme actuelle. Pour nous, ce sera toujours l’ED 268.

5. Contributor : une entité qui a contribué à la création du contenu de la ressource.

6. Date : une date associée à un événement dans le cycle de vie de la ressource.

7. Type : la nature ou le genre du contenu de la ressource.

Page 8: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Eléments de métadonnées Dublin Core

8. Format : la matérialisation physique ou digitale de la ressource.

9. Identifier : référence non ambiguë à la ressource dans un contexte donné.

10. Source : référence à une ressource à partir de laquelle la ressource actuelle a été dérivée.

11. Language : la langue du contenu intellectuel de la ressource.

12. Relation : référence à une autre ressource qui a un rapport avec cette ressource.

13. Coverage : la portée ou la couverture spatio-temporelle de la ressource.

14. Rights : information sur les droits sur et au sujet de la ressource.

Page 9: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

OAI : Open Archive Initiative

• Concept « d’interopérabilité. »

– Recherche sur les métadonnées.

– Retrouver l’emplacement physique des corpus sans les télécharger.

– Accessible à tous.

Page 10: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Extensions OLAC

5 extensions du Dublin Core rattachées à la linguistique:

– Discourse Type : (drama, narrative, language play,…)

– Language Identification : (code ISO: fr, en,…)

– Linguistic Field : (sociolinguistique, phonétique,…)

– Linguistic Data Types : (lexicon, primary-text,language-description)

– Participant Roles : (annotator, author, speaker,…)

OLAC ne remplace pas, mais complète, spécifie le DC

par rapport aux attentes de la communauté linguistique.

Page 11: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

MKM (Make Metadata) S. Fleury

• Comment insérer ces métadonnées de façon conviviale ?

• Outil « fait-maison »…

Page 12: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche
Page 13: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche
Page 14: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche
Page 15: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

code résultant

• <dc:subject xsi:type="olac:linguistic-field" olac:code="phonetics" />

Page 16: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Manuel d’utilisation

MKM 1.10

MakeMetaData

Page 17: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche
Page 18: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Les onglets MKMETA1, (6)contiennent les fenêtres d’édition pour l'écriture des métadonnées et les points d’entrée pour les différentes fonctionnalités associées.

Page 19: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Démarche (1)

• Pour constituer les métadonnées, vous devez remplir l'ensemble des formulaires MKMETA1, (6). Pour chacun de ces onglets, compléter la colonne METADONNEES. Pour vous aider dans cette tâche vous pouvez consulter les fichiers d'aide disponibles (sur la colonne la plus à droite de chaque ligne du formulaire).

•  

Page 20: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Démarche (2)

• Dans chacun de ces onglets, vous trouverez soit des cases à cocher, soit des zones de saisie avec un bouton "Edit" donnant accès à un éditeur.

•  • Les zones de saisie se composent de deux champs

(de saisie) :– un pour entrer la valeur de la métadonnée idoine,

– l'autre pour décrire la langue utilisée dans le premier champ

Page 21: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

• Par défaut ce second champ est initialisé avec la valeur "fr".•  • Vous pouvez modifier cette valeur en regardant le fichier HTML

fourni avec mkMetadata (LanguageCodes.html) qui donne une présentation de ce tableau de codage des langues. Accès à ce fichier via le bouton CODE de l'onglet HELP-DC-OLAC.

• Pour certaines zones de saisie, un modèle est fourni pour écrire la métadonnée : c'est le cas par exemple pour décrire les contributeurs : dans le cas ou plusieurs personnes sont associées

• à un champ contributeur, chaque Nom complet (le nom suivi du prénom) doit être séparé du suivant par un point virgule. Il est important de respecter ce format.

Page 22: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Un exemple

Page 23: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Un exemple (2)

• on peut vouloir donner 2 métadonnées de type "title", l'une écrite en français et l'autre en anglais. Pour réaliser cette bi-description, on active l'éditeur de métadonnée disponible en regard de l'élément "title" , une zone d'édition permet ensuite de décrire la métadonnée : dans celle-ci, un onglet = une description dans une langue donnée.

Page 24: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Export des traitements

• Une fois les 6 onglets remplis, la génération des métadonnées est déclenchée par l'activation du bouton EXPORT , le fichier de métadonnées constitué est visible dans la fenêtre d'édition de l'onglet RESULT.

•  • La génération des métadonnées produit un fichier du

type : MK-METADATA-yyyyyyyyyy.xml,

• Ne pas oublier de renommer ce fichier après avoir quitté le programme, car au prochain lancement du programme tous les fichiers de ce type seront effacés (fichiers avec une extension html, txt, png etc.).

Page 25: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Et puis …?

• Une fois constitué le fichier de métadonnées, il est possible de valider ce document (parseur XML), de produire une version HTML de ce fichier de métadonnées (2 versions sont disponibles) ou d'en produire une image au format PNG.

• Le bouton INIT (fenêtre principale) permet de réinitialiser l'ensemble des formulaires des onglets MKMETA1, MKMETA2, MKMETA3, MKMETA4, MKMETA5, MKMETA6.

•  

Page 26: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Import de métadonnées

• Il est possible de ré-importer un fichier de métadonnées préalablement construit avec ce programme.

•  • Un fichier d'export est automatiquement construit en

activant le bouton EXPORT . Son nom est du type EXPORT-MK-METADATA-yyyyyyyyyy.xml

•  • Ne pas oublier de renommer ce fichier après avoir quitté le programme, car à

chaque lancement du programme tous les fichiers de ce type seront effacés.

•  • Pour importer un fichier, il suffit d'activer le bouton

IMPORT et de sélectionner le fichier souhaité.

Page 27: Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche

Exercice à prévoir

• Pour votre TD, vous devrez utiliser le fichier enregistré pour le cours d’interaction :

• Remplissez les métadonnées en conséquence …

• Rappel : une fiche de métadonnées par fichier sonore, et une par grille d’annotation.