25
Slide 1 [email protected] [email protected] Projet SYNTAX – janvier 2005 Passage d'un format text standard à un format XML normalisé http://syntax.loria.fr Spécification d'un outil de normalisation

Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 1 [email protected] [email protected]

Projet SYNTAX – janvier 2005

Passage d'un format text standard à un format XML normalisé

http://syntax.loria.fr

Spécification d'un outil de normalisation

Page 2: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 2 [email protected] [email protected]

• La méthode d'approche• La phase d'analyse• La phase de normalisation• Conclusion• Perspectives

Sommaire

Page 3: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 3 [email protected] [email protected]

• Besoin de normaliser une ressource au format XML (selon Modélisation + catégories de données)

• Trouver une méthodologie de normalisation fiable et fonctionnelle

Problèmatique

Méthode d'approche

Page 4: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 4 [email protected] [email protected]

La courbe du soleil (1)

Méthode systémique : la courbe du soleil (MERISE)2 phases :

L'analyse du document à normaliser (l'actuel) La normalisation proprement dite (le futur)

3 niveaux d'approche :Physique (le plus concret)OrganisationnelConceptuel (le plus abstrait)

Méthode d'approche

Page 5: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 5 [email protected] [email protected]

La courbe du soleil (2)

Méthode d'approche

Page 6: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 6 [email protected] [email protected]

La phase d'analyse

But : extraire les concepts véhiculés par une ressource (ex : fichier XML) : phase d'abstraction

2 niveaux :• la contextualisation• la conceptualisation

Page 7: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 7 [email protected] [email protected]

La contextualisation

1) Trouver tous les contextes possibles d'une instance XML (extraction).

Definition : Un contexte est un chemin issu du parcours d'un arbre XML en considérant ou non les noeuds (elements) et leurs valeurs (#PCDATA), les attributs et leurs valeurs (#CDATA) comme autant de choix de parcours possibles.

La phase d'analyse

Page 8: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 8 [email protected] [email protected]

La contextualisation (2)

<text-structure> <block id=1> <line type=nom>pierre</line> <line type=age>24</line> <line type=note>12</line> </block> <block id=2> <line type=nom>jean</line> <line type=age>18</line> <line type=note>8</line> </block></text-structure>

/text-structure/text-structure/block@id=1/text-structure/block@id=1/line@type=nom/text-structure/block@id=1/line@type=age/text-structure/block@id=1/line@type=note/text-structure/block@id=2/text-structure/block@id=2/line@type=nom/text-structure/block@id=2/line@type=age/text-structure/block@id=2/line@type=note

extractionParamètres : ouverture de la

contextualisation à toutes les

valeurs d'attribut (#CDATA),

fermeture aux valeurs d'

élément (#PCDATA).

La phase d'analyse

Page 9: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 9 [email protected] [email protected]

La contextualisation (3)

2) Réduire la liste de contextes manuellement (reduction) afin d'obtenir une liste pertinente et suffisante pour caractériser l'organisation du fichier XML en cours d'analyse.

La phase d'analyse

Page 10: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 10 [email protected] [email protected]

La contextualisation (4)

/text-structure/text-structure/block@id=1/text-structure/block@id=1/line@type=nom/text-structure/block@id=1/line@type=age/text-structure/block@id=1/line@type=note/text-structure/block@id=2/text-structure/block@id=2/line@type=nom/text-structure/block@id=2/line@type=age/text-structure/block@id=2/line@type=note

/text-structure/text-structure/block@id/text-structure/block@id/line@type=nom/text-structure/block@id/line@type=age/text-structure/block@id/line@type=note

réduction

Est-ce que la valeur de l'attribut

id apporte une information

pertinente ?

Est-ce qu'elle definit un

nouveau trait de de caractère ?

Non, c'est une simple

valeur possible non

bornée

La phase d'analyse

Page 11: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 11 [email protected] [email protected]

La conceptualisation (1)

But : caractériser les éléments terminaux des contextes (attributs ou elements terminaux d'un parcours d'arborescence XML) avec un concept sous la forme d'une description en langage naturel.

La phase d'analyse

Page 12: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 12 [email protected] [email protected]

La conceptualisation (2)

Contextes pertinents Concepts en langage naturel

Text-structure un relevé de notes

Block un élève@id le numéro de l'élève

Line un enregistrement@type=nom le nom de l'élève

Line un enregistrement@type=age l'age de l'élève

Line un enregistrement@type=note la note de l'élève sur 20

/text-structure

/text-structure/block@id

/text-structure/block@id/line@type=nom

/text-structure/block@id/line@type=age

/text-structure/block@id/line@type=note

La phase d'analyse

Page 13: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 13 [email protected] [email protected]

Résumé

La phase d'analyse

Page 14: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 14 [email protected] [email protected]

La phase de normalisation

But : faire le lien entre l'existant, représenté par des concepts, et la norme : phase de conception5 étapes :

Specification du méta-modèleLa collecte des catégories de données (matching)La structurationLa normalisation des descripteursLa normalisation des structurantsLa création du rapport et de la XSLT

Page 15: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 15 [email protected] [email protected]

La spécification du méta-modèle

Un choix doit être arrêté sur le profile normatif que l'on souhaite mettre en place (TMF, MAF...) afin de guider le reste du processus.

• Acceptation d'un méta-modèle normalisé pré-existant,ou bien• Selection d'un méta-modèle personnel (construit par l'utilisateur).

La phase de normalisation

Page 16: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 16 [email protected] [email protected]

La collecte des catégories de données (1)

But : faire correspondre un maximum de description de concepts issus de l'analyse avec des concepts normés (= catégories de données)

• Utilisation du DCS spécifique au méta-modèle,ou bien• Utilisation d'un DCS sélectionné par l'utilisateur.

La phase de normalisation

Page 17: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 17 [email protected] [email protected]

La collecte des catégories de données (2)

Etape décisive :• Mise en evidence des lacunes dans le méta-modèle (impossibilité de transcrire des informations structurantes),• Révèle la non-complétude du DCR (pas de catégorie de donnée pour normer un concept),• Conditionne le reste de la normalisation (besoin d'un méta-modèle et d'un DCS avec une interopérabilité maximum).

La phase de normalisation

Page 18: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 18 [email protected] [email protected]

La structuration (1)

But : trier les concepts en fonction du méta-modèle normatif choisi. Deux types de concepts possibles :

•Type descripteur : définit ou décrit un concept.

•Type structurant : est directement associé à un composant du méta-modèle choisi (ex : “un usage dans une langue” -> LanguageSection dans Terminological Markup Framework ISO16642:2003),

La phase de normalisation

Page 19: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 19 [email protected] [email protected]

La structuration (2)

Description du concept Descripteur StructurantUn relevé de notes XUn élève XLe numéro de l'élève XUn enregistrement XLe nom de l'élève XL'age de l'élève XLa note de l'élève sur 20 X

La phase de normalisation

Page 20: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 20 [email protected] [email protected]

La normalisation des descripteurs

But : faire correspondre un concept descripteur avec une ou plusieurs catégories de données issues d'un DCS construit au préalable.

La note de l'élève sur 20

score version 2.0 Range version 1.0

Concept descripteur :

Cat. de donnée : +

La phase de normalisation

Page 21: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 21 [email protected] [email protected]

La normalisation des structurants

But : faire la correspondance entre les concepts structurants avec un niveau de meta-modèle choisi (ex : dans TMF -> TE, LS, TS, TCS).

Un relevé de notes

FirstLevel

Concept structurant :

Niveau du méta-model :

La phase de normalisation

Page 22: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 22 [email protected] [email protected]

La création du rapport et de l'XSLT

Générer un rapport retraçant tous les étapes de l'analyse et de la normalisation en n'oubliant pas de décrire le méta-modèle de la norme choisie ainsi que la sélection de catégories de données (DCS) utilisée.

Générer automatiquement un canevas de 2 feuilles XSLT qui permettent de convertir un fichier XML de départ vers XML normé (XSLT), et de convertir le XML normé en XML de départ (XSLT-1).

La phase de normalisation

Page 23: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 23 [email protected] [email protected]

Résumé

La phase de normalisation

Page 24: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 24 [email protected] [email protected]

Conclusion

Peut être utilisé pour la création de norme par itérations au niveau conceptuel de la phase de normalisation

Révélateur de l'interopérabilité entre une ressource et une norme

Page 25: Présentation PowerPointjulien.ducret.free.fr/docs/outilNormalisation.pdf · Title: Présentation PowerPoint Created Date: 1/24/2005 10:05:38 AM

Slide 25 [email protected] [email protected]

Perspectives

Première tentative d'implémentation en PHP 4 afin de l'intégrer à Syntax Suite mais problèmes :

Faible robustesse du parser XML (paquet de 4Mo max, sensibilité à l'UTF-8 et aux caractères spéciaux),

Temps de traitements > 20 mn (contextualisation de n instances -> !n contextes),

Capacité limitée de travailler sur de gros fichiers en client-serveur (maximum 10 Mo)

Afin de résoudre ces problèmes, une nouvelle implémentation est prévue en JAVA.