26
DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue pour la gestion des documents multistructurés Karim Djemal* Mohamed Mbarki* Nathalie Vallès-Parlangeau* , ** * IRIT, Equipe SIG/D2S2, Université Paul Sabatier 118, route de Narbonne, F-31062 Toulouse cedex4 {djemal, mbarki}@irit.fr ** Université Toulouse I 2 rue du Doyen Gabriel Marty, F-31042 Toulouse cedex 9 [email protected] RÉSUMÉ. La gestion flexible des documents numériques se situe aujourd’hui au centre des préoccupations des décideurs (production collaborative, partage, personnalisation, actualisation, agrégation, etc.). Il est évident ainsi qu’un même document peut avoir plusieurs descriptions et donc plusieurs décompositions et plusieurs structures selon plusieurs contextes. Il apparaît que la gestion de cette multistructuralité par des techniques de classification peut être un élément clé pour garantir un stockage efficace et une exploitation flexible des contenus des documents multimédias. L’objectif de cet article est de présenter notre approche pour la gestion de la multistructuralité dans le cadre d’un entrepôt de documents multimédia. Au travers des méthodologies de modélisation et d’exploitation flexible, nous permettons une prise en compte des différentes structures rattachées à un même document. ABSTRACT. The flexible management of digital documents is today in the core of decision makers concerns (collaborative production, share, personalization, actualization, aggregation, etc). It is obvious that the same document can have several descriptions and thus several decompositions and several structures according to several contexts. It appears that the management of this multistructurality by classification techniques can be a key element to guarantee an efficient storage and a flexible exploitation of multimedia documents contents. The objective of this paper is to present our approach for the multistructurality management within the framework of a multimedia documents repository. Through methodologies of modelling and flexible exploitation, we allow to consider the various structures attached to the same document. MOTS-CLÉS : entrepôts de documents, multistructuralité, modélisation, technique de fragmentation, vues, nœud, classification. KEYWORDS: document repositories, multistructurality, modelling, fragmentation technique, views, node, classification. DOI:10.3166/DN.10.2.37-61 © 2007 Lavoisier, Paris

Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

DN – 10/2007. Entreposage de documents, pages 37 à 61

Une approche multivue pour la gestion des documents multistructurés Karim Djemal* — Mohamed Mbarki* Nathalie Vallès-Parlangeau*, ** * IRIT, Equipe SIG/D2S2, Université Paul Sabatier 118, route de Narbonne, F-31062 Toulouse cedex4 {djemal, mbarki}@irit.fr ** Université Toulouse I 2 rue du Doyen Gabriel Marty, F-31042 Toulouse cedex 9 [email protected] RÉSUMÉ. La gestion flexible des documents numériques se situe aujourd’hui au centre des préoccupations des décideurs (production collaborative, partage, personnalisation, actualisation, agrégation, etc.). Il est évident ainsi qu’un même document peut avoir plusieurs descriptions et donc plusieurs décompositions et plusieurs structures selon plusieurs contextes. Il apparaît que la gestion de cette multistructuralité par des techniques de classification peut être un élément clé pour garantir un stockage efficace et une exploitation flexible des contenus des documents multimédias. L’objectif de cet article est de présenter notre approche pour la gestion de la multistructuralité dans le cadre d’un entrepôt de documents multimédia. Au travers des méthodologies de modélisation et d’exploitation flexible, nous permettons une prise en compte des différentes structures rattachées à un même document. ABSTRACT. The flexible management of digital documents is today in the core of decision makers concerns (collaborative production, share, personalization, actualization, aggregation, etc). It is obvious that the same document can have several descriptions and thus several decompositions and several structures according to several contexts. It appears that the management of this multistructurality by classification techniques can be a key element to guarantee an efficient storage and a flexible exploitation of multimedia documents contents. The objective of this paper is to present our approach for the multistructurality management within the framework of a multimedia documents repository. Through methodologies of modelling and flexible exploitation, we allow to consider the various structures attached to the same document. MOTS-CLÉS : entrepôts de documents, multistructuralité, modélisation, technique de fragmentation, vues, nœud, classification. KEYWORDS: document repositories, multistructurality, modelling, fragmentation technique, views, node, classification.

DOI:10.3166/DN.10.2.37-61 © 2007 Lavoisier, Paris

Page 2: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

38 DN – 10/2007. Entreposage de documents

1. Introduction

La société de la connaissance est basée sur trois axes : la diffusion et l’usage de l’information via les nouvelles technologies, la connaissance induite par cette information et les impacts économiques qui peuvent en découler. Proposer aux acteurs et plus particulièrement aux « décideurs » de cette société de la connaissance un outil qui leur permette d’élaborer de la « connaissance » ou du moins des « éléments de connaissance » à partir de l’information constitue un véritable challenge. Ce challenge peut s’articuler autour de trois problèmes : la représentation, le stockage et l’exploitation de cette information.

Le premier challenge est celui de la représentation de l’information contenue dans le document numérique. On entend généralement par information le contenu « directement visible » du document (texte, mots, sons, etc.). Mais un document véhicule aussi de « l’information invisible » au travers des différentes dimensions ou structures qui le décrivent : structure physique, logique, linguistique, spatiale, etc. Une question (à laquelle nous ne répondrons pas ici) est de savoir comment accéder de façon automatique à toute cette information « invisible » ? En supposant que nous ayons accès à cette information, il est donc primordial de gérer et d’intégrer la multistructuralité du document. De plus, il faut parler non pas de document mais des documents, de la diversité des documents numériques disponibles. Il faut pouvoir exploiter aussi bien les informations issues de textes que celles issues de sons, d’images, de vidéos, de pages web, etc. Et de façon intuitive, il semble évident que certaines informations peuvent être issues des liens existants entre différentes structures de documents de natures différentes : la personne qui parle et qui se trouve en photo sur le journal, etc.

Ainsi, si l’on veut arriver à « créer de la connaissance » à partir de l’information, il faut être capable de prendre en compte des documents de différentes natures, de gérer leur multistructuralité, d’exploiter et de faire le lien entre les différentes structures d’un même document ou de plusieurs documents.

Le cadre général de nos travaux vise à proposer une solution permettant de « gérer et créer de la connaissance » à partir de l’intégration de toute l’information disponible sur les documents, et ce au travers d’un entrepôt de documents multimédias. L’objet de ce papier n’est pas de présenter l’entrepôt de documents, mais surtout de discuter de la modélisation des documents multistructurés. Au travers des deux modèles proposés, nous permettons une prise en compte des différentes structures rattachées à un document, mais nous veillons également à optimiser le stockage et permettre une exploitation flexible des informations et des documents de l’entrepôt.

Dans un premier temps, après un état de l’art, nous formalisons une méthodologie de modélisation des documents multistructurés. Cette méthodologie se base sur une technique de fragmentation : le document est découpé en éléments structurants (éléments de structure logique) autour desquels s’articuleront des composants (métadonnées de nature sémantique) le décrivant. Il sera ainsi possible

Page 3: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 39

de rattacher à une même structure logique plusieurs structures sémantiques. De plus, une telle décomposition facilite la gestion du contenu et des structures de documents complexes, ceci sans perdre la vue globale de ces documents. Il est tout à fait possible de reconstruire l’intégralité du document à partir des granules le composant. La notion de structure générique permet de regrouper les documents sous forme de collection. Une collection de documents est considérée comme un ensemble homogène et cohérent d’un point de vue structurel. Ceci nous permet d’optimiser et d’offrir plus de flexibilité dans l’exploitation qui peut être faite des informations et des documents. Deux modèles, basés sur les principes énoncés ci-dessus sont présentés. Le premier modélise les structures logiques et sémantiques du document. Le second élargit la notion de structure à celle de vue, permettant ainsi de prendre en compte des structures de natures variées. Enfin, nous validons les propositions présentées dans ce papier par une série d’expérimentations menées sur un corpus d’évaluation qui se caractérise par une hétérogénéité de contenu et un recouvrement des structures.

2. Cadre d’étude

2.1. La multistructuralité

La description d’une structure d’un document consiste à identifier chacun des éléments qui le constituent. Cette description peut prendre plusieurs formes. Nous distinguons ainsi une typologie structurelle diversifiée. En commençant par le niveau de description le plus bas, la structure physique correspond à l’organisation de l’information sur un support de présentation. Cette organisation dépend essentiellement du média de diffusion (écran, papier, etc.). La structure logique permet un découpage de l’information d’un point de vue hiérarchique. Elle permet d’identifier de façon non ambiguë les granules d’information (entité) composant le document. La structure sémantique permet de présenter le sens des contenus documentaires. Elle établit une image structurée de l’information contenue dans le document. La structure spatiale exprime les contraintes d’ordonnancement des différentes parties d’un document sur un support de présentation. La structure temporelle permet de décrire l’enchaînement des parties d’un document dans le temps. Certaines de ces parties peuvent avoir elles aussi leurs propres dimensions temporelles (vidéo, audio). D’autres structures liées uniquement à des domaines d’études bien spécifiques peuvent être évoquées (linguistique, de discours, hypermédia, etc.).

La multistructuralité reflète l’association de différentes structures à un même document. Ainsi, plusieurs définitions ont été proposées.

Selon une première vision, les différences entre les structures qui décrivent un document sont seulement dues à la décomposition ou au regroupement des parties de contenu de ce document. Dans ce contexte, (Durusau et al., 2002) et (Tennison et al., 2002) considèrent que le concept de multistructuralité est apparu du fait qu’il est souvent très difficile de réduire la structure d’un document à un arbre unique. Ils

Page 4: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

40 DN – 10/2007. Entreposage de documents

supposent que les documents textuels ont souvent plusieurs structures. Ils donnent l’exemple des poèmes qui ont à la fois une structure « poétique » sous forme de strophes et vers et une structure « textuelle » (ensemble des paragraphes) ou de la Bible qui peut être composée en chapitres et versets ou en sections et paragraphes. La multistructuralité couvre dans ce contexte seulement les structures logique et sémantique.

La multistructuralité peut être considérée également comme étant « la définition simultanée de plusieurs structures pour un même document de base » (Chatti et al., 2004). Dans ce cadre, un document multistructuré est décrit par un ensemble de structures mises en correspondance. L’une de ces structures est constitutive du document et toute autre structure doit être rattachée à cette structure pivot. La diversité de ces structures est due au cadre d’utilisation de document. Dans ce sens, la multistructuralité est une description d’un document par « un ensemble d’éléments en relation les uns avec les autres, au cours ou en vue d’un usage » (Abascal et al., 2003).

Les différences majeures entre les définitions proposées dans ces travaux par rapport à la première vision résident d’une part dans l’utilisation d’une seule structure de base sur laquelle seront liées les autres structures (physique, temporelle, spatiale, etc.) et d’autre part sur la possibilité d’attribuer d’autres points de vue au même document. Cette possibilité est traduite également dans la définition proposée par (Mechkour, 1995). En revanche, selon lui chaque point de vue peut exister indépendamment des autres.

2.2. Gestion de documents multistructurés

Les différentes façons de définir la multistructuralité ont induit plusieurs approches pour gérer ce concept. Ces approches peuvent être classées en deux catégories selon la flexibilité de l’organisation des structures.

Les approches de la première catégorie utilisent des modèles basés sur des organisations prédéterminées. Dans ce cadre, le modèle EMIR² (Mechkour, 1995) et son extension (Charhad, 2004) représentent le document comme étant un ensemble de « vues » (perceptuelle, structurelle, symbolique, spatiale, temporelle, événementielle) encore appelées « facettes ». Ces vues sont combinées afin d’établir une description globale du contenu. Ces modèles se caractérisent par :

– la séparation qu’ils imposent dans la présentation des vues. L’objectif de cette catégorie de modèles est plutôt de décrire chaque vue indépendamment des autres ;

– par l’aspect statique des structures de vues. En effet, ces structures sont formées par une liste d’objets fixes, ce qui engendre un manque de flexibilité dans la gestion des documents. Avec de tels modèles, nous ne pouvons exploiter que les informations qui sont identifiées dans les structures proposées. D’autre part, nous serons obligés de sauvegarder pour chaque vue la liste de toutes ces informations, même avec des valeurs non renseignées.

Page 5: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 41

Les modèles proposés selon les approches de la deuxième catégorie ne sont pas définis a priori et peuvent décrire toute organisation de documents.

Durusau et al., (2002) proposent de construire dynamiquement les structures de documents au moment de leur stockage. Ils ne se limitent pas à une structuration (ou modélisation) fixe, mais ils associent à chaque nouveau document une nouvelle structure indépendante. Ils sont ainsi incapables de gérer le recouvrement entre structures. Tennison et al., (2002) proposent d’utiliser un nouveau langage de balisage (non XML) qui n’est pas défini en terme d’éléments, mais de « ranges » (des ensembles d’éléments ou branches d’un arbre) qui forment l’intersection de deux structures. L’utilisation des « ranges » permet de faciliter la gestion des recouvrements entre structures en traitant simultanément l’ensemble des éléments en commun au lieu de les traiter de façon indépendante.

Le modèle MSXD (Bruno et al., 2006) permet d’encoder séparément les différentes structures associées à un document. Les relations entre ces structures sont gérées dans ce qu’ils appellent désormais « schéma de document multistructuré ». L’avantage de cette méthode consiste à représenter chaque structure indépendamment des autres. Ainsi, aucune d’entre elles n’est privilégiée. La duplication des mêmes parties de contenu associées aux différentes structures est l’inconvénient majeur de cette solution. D’autre part, la création du schéma de document multistructuré requiert des traitements volumineux et généralement « envahissants » tels que l’analyse simultanée de toutes les structures et l’extraction des contraintes à expliciter.

Chatti et al., (2006) proposent le modèle MSDM (Multi-Structured Document Model) qui rattache toutes les structures qui décrivent un document à une seule structure de base. La structure de base est une structure interne qui permet de partager un même contenu entre plusieurs structures. C’est la structure la plus générale, qui permet de représenter tous les noeuds possibles. Ce modèle met en évidence des relations entre ces structures. Ces relations permettent d’exprimer le partage du contenu commun et d’expliciter des liens spéciaux entre les éléments de structures différentes. Dans ce contexte, malgré la gestion des relations complexes entre plusieurs structures, la structure de base est caractérisée par une organisation trop simple (plate). En effet, tous les fragments de cette structure sont des feuilles d’une même racine qui ne joue aucun rôle fonctionnel dans la structure. Elle est donc incapable de traduire l’organisation d’un document puisqu’elle ne gère pas la description des relations de composition et de description entre fragments. Elle permet juste de rattacher les autres structures aux contenus documentaires.

D’autres travaux proposent de gérer les documents multistructurés au travers d’une syntaxe dédiée. Le standard SGML (ISO 8879:1986) offre la fonction « CONCUR » pour gérer les structures concurrentes dans un même document. Cette option permet aux documents SGML de définir autant de DTD que de structures (Goldfarb et al., 1990). La distinction entre les éléments de chaque structure est assurée par l’utilisation d’un préfixe indiquant le nom de la DTD dans laquelle est

Page 6: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

42 DN – 10/2007. Entreposage de documents

défini l’élément. Ainsi, les documents représentés selon cette méthode sont des documents valides par rapport à chacune des DTD définies. En revanche, cette méthode utilise des notations « encombrantes » et impose un contenu commun partagé par les différentes structures. TEI propose trois solutions pour gérer les documents multistructurés (Sperberg-McQueen et al., 2001). La première appelée « milestones » consiste à utiliser des éléments vides marquant le début et la fin des éléments produisant un chevauchement entre structures. La deuxième préconise le découpage de certains éléments, qui admettent des contenus communs, pour avoir des structures arborescentes. L’utilisation de l’attribut « rond » permet d’identifier les différentes parties d’un élément fragmenté. La troisième solution consiste à utiliser des éléments virtuels appelés « join ». Ces éléments servent à joindre les éléments fragmentés. L’avantage de ces méthodes est de permettre à toutes les structures d’être manipulées implicitement. En revanche, l’ensemble de ces solutions ne permet pas d’avoir des documents XML valides et bien formés. Ainsi, ces documents nécessitent des traitements lourds pour reconstruire les structures concurrentes. D’un autre coté, l’implémentation d’un parseur supportant les fonctionnalités de chacune de ces syntaxes est une tâche difficile.

MECS (Huitfeldt, 1998) est une syntaxe similaire à celle de SGML. Elle se distingue par la simplicité de ses notations et par la gestion du chevauchement de structures. Ainsi, un document SGML peut être considéré comme étant un document MECS, mais l’inverse n’est pas vrai. Bien que les structures concurrentes soient gérées par des fragments de code incorporés au niveau des éléments, ces structures ne sont pas représentées sous forme d’arbre. De ce fait, un parseur MECS n’offre pas autant de fonctionnalités que celles d’un parseur SGML. (Huitfeldt et al., 2001) propose une syntaxe flexible : TexMECS. Cette syntaxe est isomorphe à XML si le document traité admet une structure arborescente, ou à MECS si le document présente une structure appropriée. Une telle richesse est offerte au détriment de la simplicité de cette syntaxe.

En ce qui concerne l’exploitation, certaines des propositions citées exigent des traitements particuliers.

Vu que leur modèle est proche de XQuery et XPath, (Bruno et al., 2006) proposent d’ajouter des fonctions et des opérateurs à ce langage d’interrogation. Ils choisissent d’étendre la sémantique du filtre de XQuery pour interroger les structures concurrentes ainsi que les relations qui les relient.

Witt, (2004) suppose que le problème de la représentation et du traitement des documents multistructurés devrait être subdivisé en deux sous problèmes séparés. En premier lieu, il suppose qu’il est nécessaire de déclarer et/ou d’appliquer des grammaires pour déterminer et gérer les éléments et les attributs qui forment les structures de ces documents. Le deuxième problème consiste à pouvoir gérer le chevauchement ou le recouvrement entre ces structures. Cette gestion consiste à pouvoir localiser et délimiter les éléments communs entre un ensemble de structures représentant le même document. (Witt, 2004) suppose que la solution la plus simple

Page 7: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 43

pour gérer ces deux problèmes consiste à commencer par annoter les multiples structures dans plusieurs fichiers séparés. Ensuite et afin d’éliminer la redondances des éléments de chevauchement, ces fichiers séparés seront fusionnés pour ne former qu’un fichier unique contenant toutes les descriptions du document de base.

DeRose (2004) propose une syntaxe basée sur la méthode « milestones » connue sous le nom de « Trojan milestones », qui emploie le même type d’élément pour les élément normaux et les éléments vides. Ceci maximise l’uniformité entre les cas de chevauchement et non-chevauchement. (DeRose, 2004) utilise également « Trojan milestones » pour représenter des documents LMNL sous forme XML.

Les document MECS et TexMECS seront gérés au travers des structures GODDAG (Sperberg-McQueen et al., 2000). Ces structures sont définies au travers de graphes de nœuds orientés et acycliques. Pour gérer le chevauchement entre les différentes structures concurrentes, chaque nœud fils peut avoir plusieurs noeuds parents. Pour générer les structures GODDAG, Dekhtyar et al., (2005) ont élaboré un compilateur qui traduit les documents multistructurés représentés sous forme de DXD (Document XML distribué : ensemble de documents XML qui partagent la même racine et le même contenu).

Pour interroger les GODDAG, Le Maitre (2006) propose d’étendre le modèle XDM (Fernandez et al., 2007), qui ne permet pas de gérer les structures non arborescentes, par ce qu’il appelle les « nœuds retard ». Un nœud retard est la représentation virtuelle d’une partie des enfants de son noeud père au travers d’une expression XQuery.

2.3. Synthèse et proposition

La multistructuralité est une caractéristique inhérente à tout document. Un document quelconque, complexe ou non, peut être décrit par différentes structures, soient liées à sa « nature » même, soit liées aux usages qui peuvent en être fait. Ces structures peuvent être plus ou moins indépendantes. Elles peuvent contenir leurs propres fragments ou reprendre ceux d’une ou de plusieurs autres structures tout en ajoutant des informations supplémentaires. De plus, on peut avoir pour un même document plusieurs structures de même nature. Par exemple, on peut trouver différentes annotations d’un même document, desquelles nous pourrons extraire deux structures sémantiques différentes.

Dans l’ensemble de travaux présentés dans la section précédente, chaque utilisateur n’est pas contraint par l’utilisation d’une seule structure. Il peut définir et rattacher librement à un même document de base d’autres structures selon plusieurs points de vue. Certains travaux permettent également d’exploiter les liens qui peuvent exister entre ces structures. Par contre, nous constatons l’absence de toute règle pour organiser leur stockage dans une base ou un entrepôt de document et faciliter ainsi la gestion et l’exploitation de ce grand nombre de structures diverses.

Page 8: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

44 DN – 10/2007. Entreposage de documents

Il nous semble ainsi important de centrer nos travaux autour des points suivants : – la flexibilité : assurer liberté et souplesse dans la proposition des structures

(nature et composition), – le stockage : assurer un stockage efficace qui minimise les redondances, – la manipulation et l’exploitation : offrir plusieurs points d’accès au contenu des documents suivant les différentes structures possibles.

3. Notre approche

Le traitement flexible, rapide et efficace de ces documents présente un vrai défi. Les documents multistructurés doivent pouvoir être stockés et manipulés via des outils fiables et puissants. La gestion de la multistructuralité dans le cadre des entrepôts de documents semble être une solution appropriée pour atteindre ces objectifs. En effet, la centralisation de l’ensemble des documents permet d’obtenir et de partager plus facilement les informations documentaires. De plus, les utilisateurs peuvent combiner les informations récupérées pour obtenir des connaissances mises en perspectives et possédant une réelle valeur ajoutée.

3.1. Modélisation

Pour pouvoir stocker et manipuler, sous plusieurs facettes et plusieurs points de vue un document, il s’avère important de pouvoir modéliser tous les concepts liés aux différents types de structures associés à un document. La modélisation est basée sur la notion de fragmentation. Nous définissons la notion de fragmentation comme étant la possibilité de décrire séparément les différentes entités qui forment un document ainsi que les relations qui les relient. La fragmentation permet d’éviter la redondance de stockage des granules à travers la gestion de recouvrement des structures. Elle assure également la gestion des versions liées à un seul document en ajoutant dans la base de stockage seulement les parties qui ont été modifiées ou ajoutées aux versions précédentes de documents.

Le métamodèle de base permet de prendre en compte plusieurs structures de type logique et sémantique. Souhaitant étendre le nombre de type de structure pris en compte, nous présentons une extension du métamodèle dans lequel les structures sont considérées comme des vues.

3.1.1. Métamodèle de base

Dans un premier temps, nous avons proposé un métamodèle qui permet de gérer les structures logique et sémantique (Mbarki et al., 2004). A ce niveau, la gestion de la multistructuralité concerne la possibilité de décrire le même élément logique selon plusieurs contextes d’utilisation (Mbarki et al., 2007). Par exemple, une image extraite d’un site web peut être annotée différemment selon les besoins

Page 9: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 45

d’exploitation. Ce métamodèle intègre plusieurs niveaux d’organisation imbriqués (cf. figure 1) :

– une couche générique et une couche spécifique. La structure spécifique est associée à un seul document. La structure générique est liée à un ensemble de documents décrits avec des structures spécifiques similaires ;

– une description structurelle et une description de métadonnées. La description structurelle correspond à la modélisation de structures logiques. La description des métadonnées vise à identifier et à organiser les métadonnées associées aux composants qui forment les éléments des structures sémantiques.

Description Structurelle

1

1

0..*

0..*

Version

Structure Logique Générique 1..*

1

0..*

Composer_E

1..*

1

1..*

StrGenNomSG

EltGenNomEG

Cardinalité

EltSpeNomESNumSeqContenu

AttGenNomAG

AttSpeNomASValeur

Englober

Englober_S

Définir

0..*

0..*

{ordre}

{order}

Structure Logique Spécifique

{ordre}

1..*

0..*

Composer_E_S

Posséder

DocumentsNomDoc

1..*

DéclarationsNomDecValeur

0 ..*

Contenir

Appartenir

1..*1

Description Structurelle

1

1

0..*

0..*

Version

Structure Logique Générique 1..*

1

0..*

Composer_E

1..*

1

1..*

StrGenNomSG

EltGenNomEG

Cardinalité

EltSpeNomESNumSeqContenu

AttGenNomAG

AttSpeNomASValeur

Englober

Englober_S

Définir

0..*

0..*

{ordre}

{order}

Structure Logique Spécifique

{ordre}

1..*

0..*

Composer_E_S

Posséder

DocumentsNomDoc

1..*

DéclarationsNomDecValeur

0 ..*

Contenir

Appartenir

1..*1

TypeEG

1

1..*

Affecter_S

Affecter

1

Structure Générique des Métadonnées

CompGenNomCGCardinalité

MtdSpeNomMSValeur

Structure Spécifique des Métadonnées

Description des Métadonnées

Annoter

Annoter_S

0..*0..*1..*

1 0..*0..*

{ordre}

CompSpeNomCSNumSeqContenu

0..*

Composer_C

{ordre}0..*

Composer_C_S

0..*{ordre}

1..*MtdGen

NomMGCardinalité

Composer_M

{ordre}0..*

Composer_M_S

TypeEG

1

1..*

Affecter_S

Affecter

1

Structure Générique des Métadonnées

CompGenNomCGCardinalité

MtdSpeNomMSValeur

Structure Spécifique des Métadonnées

Description des Métadonnées

Annoter

Annoter_S

0..*0..*1..*

1 0..*0..*

{ordre}

CompSpeNomCSNumSeqContenu

0..*

Composer_C

{ordre}0..*

Composer_C_S

0..*{ordre}

1..*MtdGen

NomMGCardinalité

Composer_M

{ordre}0..*

Composer_M_S

Figure 1. Metamodèle d’entrepôt de documents multimédia

La description structurelle

La description structurelle reflète l’organisation du document. Elle décrit la structure logique à deux niveaux :

– le niveau générique est la description relative à une classe de documents. La structure logique générique est définie par un ensemble d’éléments génériques pouvant être composés d’autres éléments génériques. Ces éléments peuvent être décrits des attributs génériques. Un élément générique est caractérisé par un nom générique (par exemple Image, qui peut correspondre au niveau spécifique à photo, picture, etc.), un type générique (image, son, vidéo, etc.) et une cardinalité qui indiquera la possibilité d’occurrence d’un élément (« » : un et un seul, « + » : un ou plusieurs, « * » : zéro ou plusieurs, « ? » : zéro ou un) ;

Page 10: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

46 DN – 10/2007. Entreposage de documents

– le niveau spécifique est la description relative à un document particulier. La structure logique spécifique est définie par un ensemble d’éléments spécifiques qui peuvent être composés d’autres éléments spécifiques. Nous pouvons lui associer des attributs spécifiques. Un élément spécifique est caractérisé par son nom (NomES) qui permet de sauvegarder le nom de la balise qui existe dans le document s’il est différent de celui indiqué dans la structure logique générique (mel et e-mail, speaker et locuteur, etc.).

La description structurelle contient également trois autres classes : – StrGen qui désigne la structure logique commune à un ensemble des documents, – la classe Documents qui désigne un document spécifique, – et la classe Déclaration qui permet de garder l’information concernant les caractéristiques des documents de l’entrepôt tel que « la version ».

La description des métadonnées

La description des métadonnées reflète la structure sémantique du document. Cette description s’articule autour des éléments logiques génériques. Les éléments de la description logique sont décomposés, en composants tout en élicitant d’éventuelles métadonnées. Nous accédons ainsi à la description du contenu du document, et donc à sa sémantique. La description des métadonnées décrit la structure sémantique à deux niveaux :

– au niveau générique, la structure générique des métadonnées permet d’extraire des composants génériques implicites. Ces composants ne peuvent pas être déduits directement de la structure logique générique. Par exemple, « un segment musique » d’un « élément audio » ou le composant « tête » à partir d’une « photo ». Un composant générique peut être (selon le type de l’élément générique) une unité textuelle, une région d’une image, une séquence vidéo, un segment (parole et/ou musique), etc. Un composant générique peut être fragmenté en d’autres composants génériques. Par exemple, un élément « photo » peut contenir le composant « enfant » qui peut à son tour contenir les composants « tête » et « corps ». D’autre part, nous pouvons attribuer à chaque composant générique des métadonnées génériques. Par exemple, « la forme » du composant « tête ». Une métadonnée peut être décrite par d’autres métadonnées. Par exemple, à la métadonnée « couleur » nous pouvons associer la métadonnée « intensité » ;

– au niveau spécifique, la structure spécifique des métadonnées correspond à une spécialisation de la structure générique des métadonnées. Elle présente la composition spécifique d’un document particulier et détaille la description de son contenu.

Notre métamodèle se positionne dans la catégorie de modèles flexibles qui ne se limitent pas à des structures prédéfinies pour décrire l’organisation de documents. D’autre part, comme les travaux de (Chatti et al., 2006), nous utilisons une structure pivot (structure logique) sur laquelle nous pouvons rattacher plusieurs autres

Page 11: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 47

structures (sémantique). Contrairement à ces travaux, notre structure pivot reflète une description plus riche du document en présentant son organisation logique. Elle reflète ainsi les liens qui régissent la composition des éléments de la structure logique.

L’originalité de ce métamodèle réside dans la possibilité de gérer des structures génériques. Une structure générique représente une collection des structures spécifiques ; elles permettent donc le regroupement de structures spécifiques similaires en classes. Ceci permettra d’organiser le stockage des documents en vue d’en faciliter l’exploitation. La liste des structures génériques peut être utilisée comme index pour diminuer le temps d’accès et de recherche dans les structures spécifiques. En effet, au lieu de gérer tout le contenu de l’entrepôt, l’utilisateur peut avoir un accès direct à une collection particulière qui répond à ces besoins, par exemple : faire des recherches seulement dans les flashs infos annotés dans le cadre d’un corpus particulier et non pas dans tous les flashs infos ou dans tous les documents audio de l’entrepôt. La figure 2 illustre cette optimisation d’accès.

Figure 2. Regroupement et indexation par structures génériques

Exemples d’instanciation du métamodèle

Pour expliquer davantage la différence entre la description structurelle et la description des métadonnées, nous présentons un exemple d’instanciation du métamodèle. Pour cela nous analysons une base de documents qui décrit un ensemble des monuments. Un extrait de cette base est présenté dans la figure 3.

La description structurelle traduit le schéma de cette base (cf. figure 4). D’après ce schéma, nous pouvons déduire que chaque document de la base est formé par le nom de monument, sa date de construction, sa localisation qui est formée par la ville

Page 12: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

48 DN – 10/2007. Entreposage de documents

et le pays, sa description qui est traduite par une description textuelle et éventuellement de description(s) audio. Chaque document contient également une photo de monument concerné.

Figure 3. Extrait de la base de documents « Présentations Monuments »

La figure 5 présente l’instanciation de notre métamodèle par les structures logiques génériques (le schéma de la base) et spécifiques (description de la composition du document « Présentation_Pyramide »).

Localisation Nom Date de

const ruction

Ville Pays

Description Photos

La grande pyramide de Gizeh

2516 Av J-C

Gizeh Egypte Le mot pyramide vient du Grec pyramis, du nom d’un petit gâteau de blé ayant la même forme que cette construction. Elles furent le tombeau de rois et de reines de la IIIe dynastie à la XIIe dynastie. … La perfection, les Egyptiens l’atteignirent avec le monument que se fit élever le pharaon Khéops (2538 - 2516 av.J-C) … …

Les pyramides de Gizeh

Le Colisée

80 Ap J-C

Rome

Italie L’ Amphitéâtre flavien (en latin Amphitheatrum Flavium), connu aussi sous le nom de Colisée), est un amphithéâtre de Rome qui pouvait accueillir de 45 000 à 60 000 (20 000 places debout et 40 000 places assises) personnes selon le Petit Robert. Il est une ellipse de 527 m de circonférence …

… … ... … … … Vue extérieure de Colisée

Page 13: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 49

LocalisationDate_de_construction

Présentation_monument

Nom

Ville Pays

Description Photo

Desc_Text Desc_Audio*

Figure 4. Arborescence du schéma de la base « Présentations Monuments »

: DocumentsDoc : Présentation_ Pyramide

3 4 5

1

2

Structure Logique Spécifique

1

2

NomEG : PhotoType : ImageCardinalité : 1

: StrGenNomSG : Présentation_monument

1

1 2 3

Structure Logique Générique

4

5

1

2

2

NomEG : Desc_AudioTexte : AudioCardinalité : *

NomEG : Desc_TextType : TexteCardinalité : 1

NomEG : DescriptionType : MultimédiaCardinalité : 1

NomEG : PaysType : TexteCardinalité : 1

NomEG : VilleType : TexteCardinalité : 1

NomEG : LocalisationType : TexteCardinalité : 1

NomEG : Date de constructionType : TexteCardinalité : 1

: EltGen

NomEG : NomType : TexteCardinalité : 1

NomES : NumSeq : 1Contenu : Pyramides.jpg

NomES : NumSeq : 1Contenu :

NomES : NumSeq : 1Contenu : Egypt

NomES : NumSeq : 1Contenu : Gizeh.

NomES :NumSeq : 1Contenu :

NomES :NumSeq : 1Contenu : 2516 Av J-C

: EltSpeNomES :NumSeq : 1Contenu : Le grand pyramide …

1

32

NomES : NumSeq : 1Contenu : desc_P_2.wave

NomES : NumSeq : 1Contenu : desc_P_1.wave

NomES : NumSeq : 1Contenu : Le mot pyramide …

Figure 5. Instanciation de la description structurelle

Page 14: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

50 DN – 10/2007. Entreposage de documents

La description des métadonnées (description sémantique) du document est la description plus détaillée des éléments logiques. Ces descriptions ne sont pas offertes par le concepteur de la base et elles ne figurent pas dans son schéma. En effet, elles sont les résultats des annotations fournies par un ou plusieurs utilisateurs de la base. Ainsi, l’élément « Desc_Text » peut être composé en « Paragraphes ». Chaque paragraphe peut être annoté par un ensemble des « Références » et/ou de « Mots clés ». A la métadonnée « Référence » nous pouvons rattacher une autre métadonnée qui fournit le lien associé à cette référence. Par exemple, (d’une manière spécifique) dans le document « Présentation_pyramide » la référence « IIIe dynastie » fait un renvoi vers une page web qui donne plus de détails sur ce mot (cf. figure 6, par souci de clarté, nous n’avons pas présenté les liens d’héritages entre la partie générique et la partie spécifique).

: EltGen

NomEG : Desc_TextTypeEG : TexteCardinalité : 1

: EltSpeNomES :NumSeq: 1Contenu : Le mot pyramide …

...

...

: MtdGenNomMG : LienCardinalité : 1

NomMS : Valeur: http://...

MtdSpeNomMS :Valeur: http://...

NomCG : Mot-cléCardinalité : +

NomCG : RéférenceCardinalité : +

: CompGenNomCG : ParagrapheCardinalité : +

NomCS : Dim-hauteurSeqNum : 3Contenu : 146m

NomCS : Dim-cotéSeqNum : 2Contenu : 232m

NomCS : Période-constSeqNum : 1Contenu : 2538 - 2516 av.J-C

NomCS : SeqNum : 4Contenu : Ces trois …

NomCS : SeqNum : …Contenu : …

NomCS : SeqNum : 2Contenu : XIIe dynastie

NomCS : SeqNum : 1Contenu : IIIe dynastie

: CompSpeNomCS : SeqNum : 1Contenu : Le mot …

Structure Générique des Métadonnées

Structure Spécifique des Métadonnées

Structure Logique Générique

Structure Logique Spécifique

112

1

1

...

4

12

1

1

123

Figure 6. Annotation de l’élément « Desc_Texte »

Pour un même élément logique, nous pouvons rattacher plusieurs structures des métadonnées selon différentes annotations possibles. Par exemple, une première annotation peut s’intéresser aux locuteurs pour mesurer le degré de confiance des informations fournies dans les descriptions (cf. figure 7). Dans ce cas, une description audio peut être formée par un ensemble des segments. Chaque segment est caractérisé par des dates de début et fin et il est formé à son tour par un ensemble de locuteurs. Un locuteur est annoté par ses dates de début et fin d’intervention, son nom, son grade et une liste de transcriptions.

Page 15: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 51

: EltGen

NomEG : Desc_AudioTypeEG : AudioCardinalité : *

: EltSpeNomES :NumSeq: 1Contenu : Desc_P_1.wave

...

...

NomCG : LocuteurCardinalité : +

: CompGenNomCG : SegmentCardinalité : +

NomCS : SeqNum : …Contenu : …

NomCS : SeqNum : 1Contenu :

NomCS : SeqNum : …Contenu :

: CompSpeNomCS : SeqNum : 1Contenu :

Structure Spécifique des Métadonnées

Structure Logique Générique

Structure Logique Spécifique

NomMG : Deb_Fin_TCardinalité : 1

Structure Générique des Métadonnées

NomMG : TranscriptionCardinalité : +

NomMG: GradeCardinalité : *

NomMG: NomCardinalité : 1

NomMG: Deb_Fin_LCardinalité : 1

: MdGenNomMG : Deb_Fin_SCardinalité : 1

NomMS : Vaeur : 0-7

NomMS : Valeur : The oldest …

NomMS :

Valeur : Professeur d’égyptologie

NomMS : Valeur : Miroslav Verner

NomMS : Valeur : 0-63

: MtdSpeNomMS : Valeur : 0-312

11

2

1

234 1

1

…12

1

2

34

1

Figure 7. Première annotation de l’élément « Desc_Audio »

: EltGen

NomEG : desc_Audio TypeEG : AudioCardinalité : *

: EltSpeNomES :NumSeq: 1Contenu : Desc_P_1.wave

...

...

NomCG : ThèmeCardinalité : +

: CompGenNomCG : SegmentCardinalité : +

NomCS : SeqNum : …Contenu : …

NomCS : SeqNum : 1Contenu :

NomCS : SeqNum : …Contenu :

: CompSpeNomCS : SeqNum : 1Contenu :

Structure Spécifique des Métadonnées

Structure Logique Générique

Structure Logique Spécifique

NomMG : Deb_Fin_TCardinalité : 1

Structure Générique des Métadonnées

NomMG : TranscriptionCardinalité : +

NomMG: Deb_Fin_LCardinalité : 1

NomMG: LangueCardinalité : +

NomMG: NomCardinalité : 1

NomMG: Deb_Fin_TCardinalié : 1

: MtdGenNomMG : Deb_Fin_SCardinalité : 1

NomMS : Valeur : 0-7

NomMS : Valeur : This oldest …

NomMS: Valeur : 0-48

NomMS: Valeur : Anglais

NomMS : Valeur : Méthodes de construction

NomMS: Valeur : 0-127

: MtdSpeNomMS : Valeur : 0-312

11

2

12

1

1

2

1

12

12

3

1

Figure 8. Deuxième annotation de l’élément « Desc_Audio »

Page 16: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

52 DN – 10/2007. Entreposage de documents

Une deuxième annotation pourrait s’intéresser aux thèmes abordés dans les descriptions (cf. figure 8). Dans ce deuxième cas, la description audio est composée par un ensemble de segments. Chaque segment est caractérisé par des dates de début et fin et il est formé par un ensemble de thèmes. Un thème est annoté par ses dates de début et fin, son nom et les langues utilisées pour l’aborder. La métadonnée langue est caractérisée par les dates début et fin et par une liste de transcriptions.

3.1.2 Extension du métamodèle

Notre extension découle essentiellement de trois besoins : – ne pas se limiter à la gestion de deux types de structures (logique et sémantique) et être capable de prendre en compte tout type de structure ; – pouvoir gérer des relations entre nœuds à n’importe quel niveau de granularité. Ainsi, le nouveau métamodèle permettra de rattacher différentes vues à n’importe quel type de nœud ; – prendre en compte des relations inter ou intra structure (synchronisation,

agencement, etc.). Par rapport au métamodèle de base, nous avons conservé la composition

générique/spécifique pour continuer à gérer des collections de documents similaires.

La notion de vue est utilisée pour permettre la prise en compte de plusieurs types de structures (Djemal, 2007b). Chaque vue présente un type particulier (vue logique, vue sémantique, vue physique, vue temporelle, etc.). Les différentes annotations d’un document engendrent plusieurs vues de même type. Par exemple, nous pouvons avoir deux vues sémantiques d’un même nœud s’il est annoté selon deux descriptions différentes.

Les liens qui rattachent plusieurs points de vue concernent à ce niveau tout type de noeud (élément, composant, métadonnée). Chaque nœud comporte le champ « TypeNG » (Type nœud générique) pour pouvoir retrouver la nature du fragment.

Les liens entre ces nœuds sont établis par des relations. Chaque relation est caractérisée par un type (composition, synchronisation, agencement, etc.). Nous pouvons par exemple utiliser les relations d’Allen (1991) pour gérer l’agencement temporel entre nœuds ou les techniques évoquées dans les travaux de (Jedidi, 2005) pour gérer les relations spatio-temporelles. Une relation relie deux nœuds selon un point de vue particulier. Par exemple, le nœud Localisation est relié au noeud Ville par une relation de composition selon une vue logique (cf. figure 10). Ces relations concernent des noeuds d’une même structure (intra structure) ou de structures différentes (inter structure).

Le métamodèle étendu (cf. figure 9) (Djemal, 2007a) est reprend les mêmes possibilités de description que celles supportées par le métamodèle de base. La figure 10 traduit l’organisation logique des éléments « Localisation », « Pays » et « Ville » selon les deux métamodèles.

Page 17: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 53

Niveau Générique

Niveau Spécifique

* *

VueGén

NomVG : stringTypeVG : string

RelationGén

TypeRG : string

CardinalitéRG : string

NomRG : string

Ordre : integer

RelationSpé

Ordre : integerTypeRS : stringNomRS : string

Valeur : string

VueSpé

NomVS : stringTypeVS : string

NomVG : stringTypeVG : string

Ordre : integer

NomVS : stringTypeVS : string 1..*1

TypeRG : string

CardinalitéRG : string1 1..*

NomRG : string

Ordre : integer

TypeRS : stringNomRS : string

Valeur : string

StrGén

NomSG : string

NoeudSpé

Contenu : stringNumSeq : integerNomNS : string

TypeNG : string

StrSpé

NomSS : string

Contenu : string

NoeudGén

NomNG : stringTypeNG : string

NumSeq : integerNomNS : string

NomNG : stringTypeNG : string

*

* NomSG : string1 0..1

*

NomSS : string1 0..1Document

NomDoc : stringNomDoc : string1*

1

TypeNG : string

* Déclaration

NomDec : stringValeur : stringNomDec : string

*

Valeur : string

Figure 9. Métamodèle étendu

Figure 10. Exemple de composition d’un élément selon les deux métamodèles

Les vues telles que nous les avons conçues permettent le partage des nœuds. Ce chevauchement entre vues permet d’éliminer les redondances de stockage et de gérer

NomEG : PaysType : TexteCardinalité : 1

: VueGénNomVG :StrLogTypeVG : Logique

: VueGénNomVG :StrLogTypeVG : Logique

: NoeudGénNomNG : LocalisationTypeNG : Élément

: NoeudGénNomNG : LocalisationTypeNG : Élément

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: NoeudGénNomNG : PaysTypeNG : Élément

: NoeudGénNomNG : PaysTypeNG : Élément

: NoeudGénNomNG : VilleTypeNG : Élément

: NoeudGénNomNG : VilleTypeNG : Élément

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 2

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 2

1

2

NomEG : VilleType : TexteCardinalité : 1

: EltGen

NomEG : LocalisationType : TexteCardinalité : 1

2

Méta-modèle de base

Méta-modèle étendu

Page 18: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

54 DN – 10/2007. Entreposage de documents

les structures concurrentes. Dans notre exemple, les nœuds « Desc_Audio », « Segment », « Deb_Fin_S», « Transcription » et « Deb_Fin_Tr » sont partagés par les deux vues sémantiques « StrSem » et « StrSem1 » (cf. figure 11) (par souci de clarté, nous n’avons présenté que la partie générique).

TypeRG : Composition Cardinalité : +Ordre : 3

NomNG : LangueTypeNG : Métadonnée

TypeRG : Composition Cardinalité : 1Ordre : 1

TypeRG : Composition Cardinalité : +Ordre : 1

NomNG : ThémeTypeNG : Métadonnée

NomNG : Deb_Fin_TrTypeNG : Métadonnée

NomNG : TrascriptionTypeNG : Métadonnée

NomNG : LocuteurTypeNG : Métadonnée

NomNG : Segment TypeNG : Élément

: NoeudGén

NomNG : DescAudioTypeNG : Élément

TypeRG : Composition Cardinalité : 1Ordre : 1

TypeRG : Composition Cardinalité : +Ordre : 1

TypeRG : Composition Cardinalité : +Ordre : 2

: RelationGénTypeRG : CompositionCardinalité : +Ordre : 1

: VueGénNomVG :StrSemTypeVG : Sémantique

: VueGénNomVG :StrSemTypeVG : Sémantique

TypeRG : Composition Cardinalité : +Ordre : 2: VueGén

NomVG :StrSem1TypeVG : Sémantique

: VueGénNomVG :StrSem1TypeVG : Sémantique

: RelationGénTypeRG : CompositionCardinalité : +Ordre : 1

: RelationGénTypeRG : CompositionCardinalité : +Ordre : 1

Figure 11. Exemple de chevauchement de nœuds entre deux vues

: NoeudGénNomNG : Desc_TextTypeNG : Élément

: NoeudGénNomNG : Desc_TextTypeNG : Élément

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: NoeudGénNomNG : ParagrapheTypeNG : Élément

: NoeudGénNomNG : ParagrapheTypeNG : Élément

: RelationGénTypeRG : Correspondance Cardinalité : 1Ordre : 1

: RelationGénTypeRG : Correspondance Cardinalité : 1Ordre : 1

: VueGénNomVG :StrSemTypeVG : Sémantique

: VueGénNomVG :StrSemTypeVG : Sémantique

: NoeudGénNomNG : DescAudioTypeNG : Élément

: NoeudGénNomNG : DescAudioTypeNG : Élément

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: RelationGénTypeRG : Composition Cardinalité : 1Ordre : 1

: NoeudGénNomNG : SegmentTypeNG : Élément

: NoeudGénNomNG : SegmentTypeNG : Élément

… …

… …

Figure 12. Exemple de deux types de relations entre nœuds

Page 19: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 55

L’originalité de ce nouveau métamodèle réside également dans la possibilité d’établir des liens supplémentaires pour décrire les relations spécifiques (synchronisation, agencement, etc.) autres que celle de composition. Les descriptions, textuelles et audio, d’un même monument peuvent ne pas être totalement indépendantes. Un segment (audio) et un paragraphe (texte) qui abordent le même sujet peuvent être liés par une relation de correspondance (cf. figure 12).

3.2. Validation

Nos propositions relatives au premier métamodèle ont été validées par l’élaboration d’un outil d’aide à l’intégration et à l’analyse de documents multistructurés et particulièrement aux documents multimédia, intitulé MDOCWARE (Multimudia DOCument WAREhouse (Mbarki et al., 2005a)).

Les documents ayant servi à nos expérimentations ont été extraits de sources diverses : il s’agit des documents XML issus des émissions de RFI (Radio France International) et RTM (Radio Télévision du Maroc) annotées dans le cadre des projets RAIVES (Parlangeau-Vallès et al., 2003) et ESTER (Gravier et al., 2005), des corpus fournis dans le cadre de benchmarks à partir de sites Web (wikipedia, etc.) (Denoyer et al., 2006) et de CD-ROM (OTG : Office du Tourisme de Grenoble, etc.) (Nicolas, 2002). Ces documents ne sont pas associés à un domaine particulier.

Dans cette section, nous détaillons un exemple d’analyse qui permet d’exploiter les informations appartenant à deux structures différentes de métadonnées rattachées au même élément générique.

Figure 13. Ajout des structures des métadonnées à une structure logique

Nous reprenons la base des « présentations de monuments » (cf. figure 8). Notre prototype permet dans un premier temps d’extraire la structure logique (cf. figure 9). (Mbarki et al., 2005b). Il utilise ensuite cette structure pour assurer le stockage de toutes les présentations dans l’entrepôt. Cette structure logique peut être étendue par

Page 20: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

56 DN – 10/2007. Entreposage de documents

plusieurs structures de métadonnées qui seront rattachées à un ou plusieurs éléments génériques. Pour ajouter ces nouvelles structures, il suffit de sélectionner l’élément en question et d’aller chercher le fichier (xml) qui contient sa description. La structure, ainsi que le contenu de cette annotation, seront rattachés au document de base (cf. figure 13).

Figure 14. Choix des paramètres d’analyse à partir de la structure logique et de la première structure des métadonnées

Une fois que toutes les descriptions des documents sont stockées, plusieurs types d’analyse peuvent être effectués. Ces analyses peuvent porter sur un document particulier ou sur une collection de documents (analyse par structure spécifique ou par structure générique). Elles peuvent aussi porter sur une structure logique et/ou une ou plusieurs structures de métadonnées.

Exemple : nous voulons interroger notre entrepôt pour trouver la liste des locuteurs qui ont fourni une description sonore sur les monuments « Le Sphinx », « Les pyramides de Gizeh », « le Temple de Louxor » et « la vallée des Rois ». Pour chaque Locuteur, nous voulons déterminer également la durée de ses interventions selon les langues utilisées.

Page 21: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 57

Pour effectuer cette analyse, nous devons fixer les paramètres suivants : – dimension d’ordre 1 : « Langue » (à partir de la deuxième structure des

métadonnées rattachée à l’élément « Description audio »), – dimension d’ordre 2 : « Locuteur » (à partir de la première structure des

métadonnées rattachée à l’élément « Description audio »), – dimension d’ordre 3 : Présentation monument (à partir de la structure logique), – fait : Somme des durées des interventions (à partir de la première ou deuxième

structure des métadonnées rattachée à l’élément « Description audio »). Nous utilisons une structure logique pivot (Présentations Monuments) et deux

structures des métadonnées qui sont rattachées au même élément « Description audio ». Le système commence par afficher la structure sémantique par défaut (structure logique et première structure de métadonnées), nous pouvons ainsi choisir les dimensions d’ordre 2 et 3 ainsi que le fait (cf. figure 14).

Nous affichons ensuite la deuxième structure des métadonnées (cf. figure 15) pour choisir la dimension d’ordre 1. Une dernière opération de filtrage doit être appliquée sur la dimension d’ordre 1 pour prendre seulement les trois monuments indiqués dans la requête.

Figure 15. Choix des paramètres d’analyse à partir de la structure logique et de la deuxième structure des métadonnées

Page 22: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

58 DN – 10/2007. Entreposage de documents

Le système permet de visualiser les résultats sous forme de tables multidimensionnelles (cf. figure 16). La première dimension est représentée en ligne, la deuxième est représentée en colonne. Chaque table représente une valeur pour la dimension d’ordre trois. Les valeurs du fait sont représentées sous forme d’inter-relations entre les différentes valeurs des dimensions. Par exemple, le locuteur « Jean-Philipe Lauer » parle de « Sphinx » en « français » pendant 227 secondes.

Figure 16. Résultats d’analyse

4. Conclusion

Nous avons proposé une méthodologie de modélisation des documents multistructurés afin de les intégrer dans des entrepôts de documents décisionnels. Cette méthodologie se base sur une technique de fragmentation qui permet de gérer le chevauchement entre structures à travers la factorisation des parties communes. Cette méthodologie offre également la possibilité de reconstitution d’un document de base par rassemblement de ses granules.

Dans un premier temps, nous avons proposé un métamodèle qui permet de gérer les structures logique et sémantique. A ce niveau, la gestion de la multistructuralité concerne la possibilité de décrire un même élément logique selon plusieurs contextes de description. Cette proposition a été étendue pour pouvoir gérer tout type de structure (logique, sémantique et aussi physique, spatiale, etc.). Cette extension va permettre également de gérer des relations à n’importe quel niveau de granularité et de prendre en compte des relations inter ou intra structure.

Nos propositions, relatives au métamodèle de base, ont été validées par l’élaboration d’un outil d’aide à l’intégration et à l’analyse de documents multistructurés et particulièrement aux documents multimédia, intitulé MDOCWARE (Multimudia DOCument WAREhouse). Nous avons montré la

Page 23: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 59

capacité de cet outil à gérer le rattachement de plusieurs structures sémantiques à un document de base au travers d’exemples d’analyse.

Notre approche assure ainsi : – une liberté et une souplesse dans la proposition des structures (nature et

composition) ; – un stockage efficace qui minimise les redondances ; – plusieurs points d’accès au contenu des documents suivant les différentes

structures possibles. En effet, nos travaux offrent une gestion flexible des vues qui permettre de traiter

un même document selon des différentes possibilités d’annotation et contextes de manipulation. Ils visent à gérer également les relations qui peuvent exister entre ses vues et de traiter conjointement plusieurs structures associées à un même document. Nos travaux offrent également la possibilité de regrouper des structures similaires. Ceci permettra d’organiser le stockage des documents en vue d’en faciliter l’exploitation.

La complexité des relations que nous voulons désormais traiter entre les vues est difficilement gérable par la structure arborescente sur laquelle se base notre actuelle validation. Nous envisageons ainsi de mettre en place un mécanisme pour la gestion des vues basé sur les graphes. Ceci nécessite l’extension des méthodes utilisées actuellement pour l’intégration des documents et leur exploitation.

5. Bibliographie

Abascal R., Beigbeder M., Benel A., Calabretto S., Chabbat B., Champin P.A., Chatti N., Jouve D., Prie Y., Rumpler B., « Modéliser la structuration multiple des documents », Actes de la Conférence H2PTM Hypertexte et Hypermédia -Créer du sens à l’ère du numérique, 2003, Paris, Editions Hermès, p. 253-258.

Allen J., “Time and time again: The many ways to represent time”, International Journal of Intelligent Systems, 1991, p. 341-355.

Bruno E., Murisasco E., « MSXD: a formal model for concurrent structures defined over the same textual data », DEXA 2006 (LNCS), 2006, p. 172-181.

Charhad M., Quénot G., “Semantic Video Content Indexing and Retrieval using Conceptual Graphs”, ICTTA, Damascus, Syria, 2004, p. 19-23.

Chatti N., Calabretto S., Pinon J-M, « Vers un environnement de gestion de documents à structures multiples », Base de Données Avancées, BDA’2004, Montpellier, octobre 2004.

Chatti N., Calabretto S., Pinon J.M., “MultiX: an XML-based formalism to encode multi-structured documents”, Proceedings of Extreme Markup Languages 2006, Montréal, Canada, 2006.

Dekhtyar A., Iacob E., “A framework for management of concurrent XML markup”, Data and Knowledge Engineering, 2005, p. 185-208.

Page 24: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

60 DN – 10/2007. Entreposage de documents

Denoyer L., Gallinari P., “The Wikipedia XML Corpus”, SIGIR Forum, June 2006, p. 64-69.

DeRose S., “Markup overlap: a review and a hors”, Proceedings of Extreme Markup Languages, 2004.

Djemal K., “A Multi-Views Repository for Multi-Structured Documents”, 9th International Conference on Enterprise Information Systems (ICEIS), Funchal, Madeira - Portugal, INSTICC Press, 2007, p. 544-548, (Poster) (a).

Djemal K., « Vers une exploitation de documents multi-structurés », Congrès de l’INFormatique des Organisations et Systèmes d’Information et de Décision (INFORSID’07), Perros-Guirec, 22-25 mai 2007, p. 37-52 (b).

Durusau P., O’Donnell M. B., “Concurrent Markup for XML Documents”, Proceeding of XML Europe 2002 Conference & Exposition, Princesa Sofia Inter-Continental, Barcelona, Spain, May, 2002.

Fernandez M., Malhotra A., Marsh J., Nagy M., Walsh N., “XQuery 1.0 and XPath 2.0 Data Model (XDM)”, W3C CandidateRecommendation, 2007.

Goldfarb C.-F., Rubinsky Y., The SGML handbook. Clarendon Press, Oxford, 1990.

Huitfeldt C., “MECS - A Multi-Element Code System”, Working Papers from the Wittgenstein Archives at the University of Bergen, Version 3, October 1998.

Huitfeldt C., Sperberg-McQueen C. M., “TexMECS: An experimental markup meta-language for complex documents”, Rev., 17 February 2001.

ISO 8879:1986, Information processing - Text office systems - Standard Generalized Markup Language (SGML).

Jedidi A., Modélisation générique de documents multimédia par des métadonnées - Mécanismes d’annotation et d’interrogation, Thèse de doctorat, Université Paul Sabatier, juillet 2005.

Le Maitre J., “Representing multistructured XML documents by means of delay nodes”, Proceedings of the 2006 ACM Symposium on Document Engineering (DocEng 2006), Amsterdam, The Netherlands, October 2006.

Mbarki M., Soulé-Dupuy C., “A Semantic Modeling of Multimedia Document”, IADIS International Conference WWW/Internet 2004, Madrid-Espagne, IADIS, octobre 2004.

Mbarki M., Soulé-Dupuy C., Vallés-Parlangeau N., « Vers une exploitation flexible de documents multimédia », Congrès de l’INFormatique des Organisations et Systèmes d’Information et de Décision INFORSID, Grenoble, INFORSID, mai 2005, p. 95-112 (a).

Mbarki M., Soulé-Dupuy C., Vallés-Parlangeau N., “Modeling and Flexible exploitation of Audio Documents”, The proceeding of IEEE International Conference on Signal-Image Technology & Internet Based Systems, Yaoundé, Cameroon, 2005, p. 216-223 (b).

Mbarki M., Soulé-Dupuy C., Vallés-Parlangeau N., “Multimedia Documents Management in a Multistructural Context”, Conference on Research Challenges in Information Science (RCIS), Ouarzazate, Morocco, IEEE, avril 2007, p. 165-176.

Mechkour M., “A multifacet formal image model for information retrieval”, MIRO final workshop, Glasgow, UK, 1995, p. 18-20.

Page 25: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue

Approche multivue pour gérer des documents multistructurés 61

Nicolas S., Letellier-Zarshenas I., Schadle J.-Y., Antoine, J., “Towards a large corpus of spoken dialogue in French that will be freely available: the “Parole Publique” project and its first realizations”, Actes LREC’2002, Las Palmas de Gran Canaria, Espagne, Mai 2002, p. 649-655.

Gravier G., Bonastre J.F., Galliano S., Geoffrois E., Mc Tait K., Choukri K., “The ESTER evaluation campaign of Rich Transcription of French Broadcast News”, Proceeding of Language Evaluation and Resources Conference.

Parlangeau-Vallès N., Farinas J., Fohr D., Illina I, Magrin-Chagnolleau I, Mella O., Pinquier J., Rouas J-L., Sénac C., “Audio Indexing on the Web : A Preliminary Study of Some Audio Descriptors”, Proceedings of SCI 2003, Orlando, Florida, USA, Juillet 2003.

Sperberg-McQueen C. M., Huitfeldt C., “GODDAG: A Data Structure for Overlapping Hierarchies”, DDEP/PODDP, 2000, p. 139-160.

Sperberg-McQueen C.M., Burnard L., Guidelines for Electronic Text Encoding and Interchange, Chicago and Oxford, TEI P4, 2001.

Tennison J., Piez W., “The Layered Markup and Annotation Language (LMNL)”, Proceeding of Extreme Markup Languages Conferences, Montreal, Quebec, Canada, 2002.

Witt A., “Multiple hierarchies: news aspects of an old solution”, Proceedings of Extreme Markup Languages, 2004.

Page 26: Une approche multivue pour la gestion des …pdfs.semanticscholar.org/b15e/ca1c94cbaf4d3f7eb46159c53...DN – 10/2007. Entreposage de documents, pages 37 à 61 Une approche multivue