65
Avranches – 30 Août 2016 Pierre-Yves Buard – Pôle Document Numérique, MRSH Caen Université de Caen Normandie Standards et outils XML École d’été Biblissima

Standards et outils XML

Embed Size (px)

Citation preview

Page 1: Standards et outils XML

Avranches – 30 Août 2016

Pierre-Yves Buard – Pôle Document Numérique, MRSH CaenUniversité de Caen Normandie

Standards et outils XML École d’été Biblissima

Page 2: Standards et outils XML

Contexte

Page 3: Standards et outils XML

Recherche et patrimoine écrit Émergence des humanités numériques

✤ frontières poreuses entre conservation, communication, diffusion, valorisation, édition, analyse…

✤ tension croissante entre masse documentaire mise à disposition et outils d’appropriation, d’exploitation

✤ diversification sensible du lectorat potentiel…✤ document numérique comme outils et comme objet d’étude

Page 4: Standards et outils XML

Recherche et patrimoine écrit Une source écrite = un ensemble de données variées

✤ qui peuvent être considérées et exploitées dans des configurations à géométrie variable✤ témoin utilisé dans une édition de texte, élément d’une base de données notices descriptives

(fonds, catalogue thématique…) etc.

→ contraintes et enjeux :✤ disposer d’informations exploitables et récupérables, ✤ produire de nouvelles informations à leur tour exploitables et récupérables

Page 5: Standards et outils XML

Liste des noms de poissons

Marqueur de citation

Texte de la citation

Page 6: Standards et outils XML

Notion de document (1) Sources anciennes, document et texte

Page 7: Standards et outils XML

Notion de document (2) Sources anciennes, document et texte

✤ Notion floue et difficile à définir précisément✤ Document = structure logique + structure physique (Roger T. Pédauque)

Page 8: Standards et outils XML
Page 9: Standards et outils XML

Métadonnées (1) Définition

✤ données visant à définir ou à caractériser d’autres données pour les référencer et les manipuler

✤ « Les métadonnées sont des informations structurées qui décrivent, expliquent, localisent ou encore facilitent la découverte, l’utilisation ou la gestion d’une ressource d’information. »

NISO (National Information Standards Organization) Understanding metadata, 2004, ISBN: 1-880124-62-9[http://www.niso.org/standards/resources/UnderstandingMetadata.pdf]

Page 10: Standards et outils XML

✤ décrire les ressources numériques

✤ facilité l’interprétation des données :

✤ définition des contenus et leurs relations

✤ ajouter des connaissances à des éléments (annotations, informations complémentaires)

✤ automatiser les manipulations des données

Métadonnées (2) Objectifs

Page 11: Standards et outils XML

✤ Métadonnées descriptives à vocation catalographique (ou permettant le référencement, la découverte ou l’identification de ressources)

✤ Métadonnées structurelles (explicitation des relations entre les composants de la ressource ; liens entre ces composants)

✤ Métadonnées administratives (gestion des droits et des accès…)

Métadonnées (3) Typologies

Page 12: Standards et outils XML

EncapsuléesExternes Englobantes (1) Englobantes (2)

lien

description description description

document document document

< d e s c . > d o c u m e n t < d e s c . > document document document d o c u m e n t d o c u m e n t < d e s c . > d o c u m e n t d o c u m e n t < d e s c . > d o c u m e n t document document document document document document document document document document document document <desc.> document <desc.> document document document document document <desc.> document <desc.> document document document document document <desc.> document <desc.> document document document document document document

Métadonnées (4) Modèles d’inclusion

Page 13: Standards et outils XML

✤ contexte technique : XML et technologies associées

✤ nécessité de respecter les standards (TEI, EAD, ONIX, DC, etc.)

✤ respect des cultures métiers (chercheurs, archivistes, documentalistes, éditeurs, etc.)

Standards et métiers

Page 14: Standards et outils XML

Formats, normes et outils Encodage des caractères

ASCII et ISO-8859-1

✤ 128 ou 256 caractères✤ Très dépendant des polices✤ Échange de fichiers compliqué

Page 15: Standards et outils XML

Formats, normes et outils Encodage des caractères

Unicode

✤ Plus de 100 000 caractères✤ Indépendant des polices✤ Compatible avec l’ASCII et l’ISO-8859-1

Page 16: Standards et outils XML

Formats, normes et outils Encodage des caractères

Page 17: Standards et outils XML

eXtensible Markup Language

Page 18: Standards et outils XML

XML

✤ créé en 1998, s’impose aujourd’hui comme le format d’échange et de stockage dans l’édition

✤ principe : étiquetage systématique des éléments constitutifs d’un texte avec des balises de début (<debut>) et de fin d’élément (</fin>)

✤ évolution du SGML (Standard Generalized Markup Language – ISO 8879 dont découle aussi le HTML (HyperText Markup Language)) pour être plus adapté au web

✤ objectifs : dépasser les limites du HTML et reprendre les principes du SGML en les simplifiant

✤ métalangage (permet la création de nouveaux langages)✤ structures arborescentes (imbrication des éléments)✤ format ouvert (pas de logiciel propriétaire)✤ souplesse des structures (choix des éléments)

Page 19: Standards et outils XML

XML Règles d’écriture

✤ le document commence par la déclaration XML✤ il contient un élément racine unique qui contient tous les autres✤ toute balise ouverte doit être fermée✤ les balises uniques sont de la forme <balise/>✤ pas de chevauchement :

✤ <message><exclamation>oh oh!</exclamation></message>et pas

✤ <message><exclamation>oh oh!</message></exclamation>✤ les valeurs d’attributs sont renseignées entre quotes :

✤ <note n=“12“>Le texte de la note</note>

Page 20: Standards et outils XML

XML Notion de conformité

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

<livre>

<titre>Mon titre</titre>

<auteur>Nom de l’auteur</auteur>

<chapitre><titre>Titre du chapitre</titre>

<para>Premier paragraphe</para>

<para>Second paragraphe</para>...

</chapitre>...

</livre>

Exemple de fichier XML bien formé (ou conforme)

Page 21: Standards et outils XML

XML Grammaire de référence

✤ objectif : définir des vocabulaires communs dans les communautés✤ ensemble des balises utilisables pour un type ou une classe de document (thèses, CV,

documentation technique, humanités, etc.)✤ au moyen d’une DTD (Document Type Definition) ou d’un schéma XML

Page 22: Standards et outils XML

XML Grammaire de référence

<!ELEMENT book (title, author*, chapter+)>

<!ELEMENT title (#PCDATA)>

<!ELEMENT author (firstname?, surname)>

<!ELEMENT firstname (#PCDATA)>

<!ELEMENT surname (#PCDATA)>

<!ELEMENT chapter (title?, para+)>

<!ELEMENT para (#PCDATA)>

Exemple de DTD : book.dtd

Page 23: Standards et outils XML

XML Notion de validité

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<!DOCTYPE book SYSTEM "book.dtd">

<book><title>Annuaire 1995</title>

<author>

<surname>La Poste</surname>

</author>

<chapter><title>Paris</title>

<para>ABEL Antoine 82 23 44 12</para>

<para>ABEL Pierre 82 67 23 12</para>...

</chapter>

</book>

Exemple de fichier XML valide et bien formé

Page 24: Standards et outils XML

XML Notion de chemin : XPath

Page 25: Standards et outils XML

Text Encoding Initiative

Page 26: Standards et outils XML

TEI

✤ Objectifs : description de l’ensemble des textes de sciences humaines✤ créé en 1987 par

✤ Association for Computers and the Humanities✤ Association for Computational Linguistics✤ Association for Literary and Linguistic Computing

✤ Version actuelle : P5✤ Évolution constante (Workgroups, Special Interest Groups, etc.)✤ Maintenu par le consortium : http://www.tei-c.org

Page 27: Standards et outils XML

TEI

✤ ensemble de recommandations pour la description et la structuration des textes✤ définition des catégories de textes à plusieurs niveaux (préliminaires, corps, post-

liminaires mais aussi divisions, paragraphes, notes, citations, etc.)✤ peut aboutir à production de grammaires de référence (DTD ou schémas) pouvant

prendre en compte : ✤ en-tête du document✤ structure de texte par défaut✤ ensembles de balises pour la prose, la poésie, le théâtre✤ transcription des textes oraux✤ dictionnaires et terminologie✤ citations, appareil critique✤ tables, formules, graphiques✤ liens, relations, etc.

Page 28: Standards et outils XML

TEI Exemple (1)

ACT I - SCENE I

Enter Barnardo and Francisco, two Sentinels, at several doors

BARN : Who's there?

FRAN : Nay, answer me. Stand and unfold yourself.

BARN : Long live the King!

FRAN : Barnardo?

BARN : He.

FRAN : You come most carefully upon your hour.

BARN : Tis now struck twelve. Get thee to bed, Francisco.

Page 29: Standards et outils XML

<div type="Act" n="I"><head>ACT I</head>

<div type="Scene" n="1"><head>SCENE I</head>

<stage rend="italic">Enter Barnardo and Francisco,

two Sentinels, at several doors</stage>

<sp><speaker>Barn</speaker><l part=Y>Who's there?</l></sp>

<sp><speaker>Fran</speaker>

<l>Nay, answer me. Stand and unfold yourself.</l></sp>

<sp><speaker>Barn</speaker>

<l part="i">Long live the King!</l></sp>

<sp><speaker>Fran</speaker><l part="m">Barnardo?</l></sp>

<sp><speaker>Barn</speaker><l part="f">He.</l></sp>

<sp><speaker>Fran</speaker>

<l>You come most carefully upon your hour.</l></sp>

<sp><speaker>Barn</speaker>

<l>Tis now struck twelve.

Get thee to bed,Francisco.</l></sp>

... </div> ........</div>

TEI Exemple (2)

Page 30: Standards et outils XML

✤ En-tête : <teiHeader>✤ informations sur le texte (similaires à celles que l’on trouve sur une page de titre

imprimée)✤ Texte : <text>

✤ Préliminaires : <front>✤ Corps : <body>✤ Post-liminaires : <back>

TEI

Page 31: Standards et outils XML

✤ En-tête (<teiHeader>) structuré✤ Description bibliographique du fichier électronique(<fileDesc>) avec trois zones

distinctes✤ Titre, auteur du fichier (<titleStmt>)✤ Éditeur, lieu d’édition, date d’édition du fichier (<publicationStmt>)✤ Références bibliographiques des sources dont est dérivé le fichier (<sourceDesc>)

✤ Description des rapports entre un texte électronique et la ou les sources dont il dérive (<encodingDesc>)✤ Description du projet (<projectDesc>)✤ Description des principes éditoriaux (<editorialDecl>)✤ Description quantitative du balisage (<tagsDecl>)

✤ Description des révisions (<revisionDesc>)✤ Historique, nature et auteurs des révisions successives du document.

TEI

Page 32: Standards et outils XML

✤ préliminaires (<front>) : page de titre, auteur et titre du document, avant-propos, préface, dédicace, etc.

✤ corps (<body>) : introduction, conclusion, parties, chapitres, section, sous-sections, etc.✤ “post-liminaires” (<back>) : annexes, glossaires, index, bibliographie, etc.✤ éléments flottants : note, citation, liste, etc.

TEI

Page 33: Standards et outils XML

✤ les éléments sont regroupés en ensembles thématiques documentés (base, théâtre, description de sources primaires, dictionnaires, etc.)

✤ le consortium propose des outils de fabrication de grammaire (Roma et précédemment pizza chief) et de documentation spécifique

✤ divers outils de conversion de fichiers XML TEI (production de pages web, de PDFs, etc.)

TEI

Page 34: Standards et outils XML

TEI Roma

Page 35: Standards et outils XML

TEI Exemple

Page 36: Standards et outils XML

✤ TEI comme point de rencontre entre les besoins de la recherche et les impératifs éditoriaux

✤ structuration scientifique / structuration éditoriale✤ subdivisions structurelles et distinctions formelles propres à l’activité éditoriale

traditionnelle :✤ préliminaires : dédicace, exergue, avertissement, sommaire, préface, présentation,

titre…✤ matière : introduction, titres intérieurs, intertitres, appels de notes, notes, figures,

tableaux…✤ compléments : épilogue, postface, bibliographie, index, table des matières…

TEI … et édition

Page 37: Standards et outils XML

Encoded Archival Description

Page 38: Standards et outils XML

✤ Standard international : Encoded Archival Description (EAD)

➡ Objectifs : traitement, restitution des hiérarchies et des mécanismes d’héritage des instruments de recherche

➡ Créé en 1993 à l’Université de Californie, Berkeley➡ Version actuelle : EAD 3 (EAD 2002 encore beaucoup utilisé)➡ Maintenu par la bibliothèque du congrès

et la société des archivistes américains : http://www.loc.gov/ead/

EAD

Page 39: Standards et outils XML

EAD

Page 40: Standards et outils XML

EAD

Page 41: Standards et outils XML

EAD

Page 42: Standards et outils XML

Production et exploitation

Page 43: Standards et outils XML

Outils

✤ Production✤ Traitement de texte (styles et feuilles de styles)✤ OpenOffice (traitement de texte et surtout outil de conversion)✤ XSLT (Extended Stylesheet Language Transformation)✤ Éditeur XML (XMLmind XML Editor, Oxygen, XMetal, Morphon, Millefeuille)✤ Logiciel de PAO (Indesign, Xpress, FrameMaker)

✤ Diffusion / exploitation / exploration✤ Langage de scripts (applescript, javascript)✤ PHP, XSLT, CSS✤ xquery, eXist, BaseX, Philologic, etc.

Page 44: Standards et outils XML

Outils XSLT (1)

✤ Extended Stylesheet Language Transformation✤ c’est un fichier XML (il en respecte les principes)✤ ne contient pas de données✤ transforme un arbre XML en autre chose (un autre arbre XML, un fichier , etc.) :

✤ passage d’un document XML TEI à un document XHTML✤ passage d’un document XML TEI à un autre XML TEI (interopérabilité)

Page 45: Standards et outils XML

XSLT

[…]

<xsl:template match="list"><ul><xsl:apply-templates/></ul>

</xsl:template>

<xsl:template match="item"><li><xsl:apply-templates/></li>

</xsl:template>

[…]

XML TEI

[…]

<list><item>item 1</item><item>item 2</item><item>item 3</item>

</list>

[…]

XHTML

[…]

<ul><li>item 1</li><li>item 2</li><li>item 3</li>

</ul>

[…]

Outils XSLT (2)

Page 46: Standards et outils XML

Outils XSLT (3)

Page 47: Standards et outils XML

Outils Édition XML (1)

Page 48: Standards et outils XML

Outils Édition XML (2)

Page 49: Standards et outils XML

Outils Édition XML (3)

Page 50: Standards et outils XML

✤ ensemble de fichiers : ✤ fichier de configuration -> centralise l’ensemble des fonctionnalités✤ schémas -> contrôle de la structure au cours de la saisie✤ cascading style sheet -> vues sur le document (5 vues maximum/document)✤ commandes -> automatisation d’opération, application de transformations,

indexation, etc.✤ feuilles de transformation XSLT -> production de formes de diffusion, modifications

générales, etc.✤ modèle -> pour débuter la saisie directement en XML

Outils Édition XML (4)

Page 51: Standards et outils XML

Chaîne éditoriale

Page 52: Standards et outils XML

Édition

© Alain Pierrot

Page 53: Standards et outils XML

Chaîne éditoriale Principes (1)

✤ intégration du XML pour l’ensemble des productions✤ solution adaptée aux grandes fonctions de l’éditeur scientifique (diffusion,

production de formes référençables, traduction d’une structure logique en une forme intelligible adaptée à un (ou des) support(s) donné(s)

✤ rationalisation des pratiques autour du document numérique✤ séparation fond / forme✤ notion centrale de document structuré pérenne et archivable (indépendant des

logiciels)

Page 54: Standards et outils XML

Chaîne éditoriale Principes (2)

✤ préserver la qualité éditoriale quel que soit le support de diffusion : culture du secrétariat d’édition

✤ un seul flux de production pour tous les supports (Single Source Publishing)✤ une seule méthode de travail (conservation des outils habituels du secrétaire d’édition)

Page 55: Standards et outils XML

Chaîne éditoriale Principes (3) – Chicago manual of styles

http://www.chicagomanualofstyle.org/home.html

Page 56: Standards et outils XML

✤ niveau de balisage suffisant pour l’édition : versification, titres, paragraphes, etc.

✤ peu de profondeur (divisions, puis deux niveaux maximum : paragraphes et caractères)

Chaîne éditoriale Niveaux de balisage (1) – Balisage éditorial

Page 57: Standards et outils XML

✤ exemple de structure complexe✤ segments, indications bibliographiques,

plusieurs types de notes, etc.✤ structure aussi profonde que nécessaire

Chaîne éditoriale Niveaux de balisage (2) – Balisage scientifique

Page 58: Standards et outils XML

Contexte de travail

Page 59: Standards et outils XML

exportation, conversion

PDF

papier

éditions en ligne

ePub

inventaires/archives

autoritéslocales, viaf, crossref

lieux, personnes, œuvres

XML (TEI)

XML (EAD)

bases de données recherche

fiches catalographiques

textes auteurs

connexion

transformations

Page 60: Standards et outils XML

Exemples et études de cas

Page 61: Standards et outils XML

Exemples et études de cas Études de cas (1) – Hortus Sanitatis

✤ traité latin d’ichtyologie (fin XVe siècle)

✤ compilation de sources (peu de passages de l’auteur)

✤ identification des sources de chaque segment de citation

✤ édition bilingue : latin/français

✤ édition papier et en ligne

✤ accès aux images des éditions

✤ interopérabilité avec Sourcencyme (Atelier Vincent de Beauvais, Nancy, ANR 2007)

Page 62: Standards et outils XML

Exemples et études de cas Études de cas (1) – Hortus Sanitatis

Page 63: Standards et outils XML

Exemples et études de cas Études de cas (1) – Hortus Sanitatis

Page 64: Standards et outils XML

Exemples et études de cas Études de cas (2) – Nummus

✤ Monnaies en contexte archéologique

✤ 12000 monnaies

✤ fiches XML EAD

Page 65: Standards et outils XML

Exemples et études de cas Études de cas (2) – Nummus