Upload
eudo-riou
View
107
Download
0
Embed Size (px)
Citation preview
Présentation du projetedot
Revue intermédiaire - 29 Juin 2004
Revue E.Dot 29/6/2004
De plus en plus d’informations utiles pour les entreprises accessibles via le Web
Requêtes par mot clé pour rechercher des pages web
Que trouve-t-on sur le Web public et privé ?
Des documents (HTML, doc, pdf…), des données semi structurées (XML), des données structurées (BD relationnelles)
Motivations
Revue E.Dot 29/6/2004
Ce qui est en train de changer Format d’échange universel (XML)
Mariage entre documents et bases de données Standard de langage de requêtes: XQuery
Services Web (SOAP, WSDL) Format pour exporter des services sur le Web Format pour encapsuler des requêtes
Web sémantique (ontologies) Trouver et utiliser l’information pertinente
Le projet e.dot est fondé sur ces technologies
Revue E.Dot 29/6/2004
Objectifs d’edot Génériques
Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration de ces données
ParticulierDévelopper un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence
Partenaires
Revue E.Dot 29/6/2004
Calendrier Labelisation par le RNTL : mai 2002 Date de début officielle : janvier 2003
durée : 2 ans Notification : Juillet-Septembre 2003 Demande d’avenant en Janvier 2004
date de fin : juin 2005 rapport intermédiaire : juin 2004
Revue E.Dot 29/6/2004
Organisation du projetTous les partenaires participent à tous les sous projets
Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments
Sous projet 2 (Xyleme): acquisition de données du Web
Sous projet 3 (IASI): organisation et structuration de l’entrepôt
Sous projet 4 (BIA): validation auprès des utilisateurs
Durée 2 ans et demi
1 2 3 4
Revue E.Dot 29/6/2004
Spécification de l’entrepôt
Analyse des besoins Avec l’aide de biologistes et
d’industriels, analyse des manques dans la base existante Sym’Previus
Analyse du contenu d’autres bases nationales ou internationales
Analyse de sites du Web qui pourraient contenir des informations intéressantes
Revue E.Dot 29/6/2004
Données existantes 2 formats différents
BD relationnelle BD semistructurée
Ontologie commune Hiérarchie de termes
Noms d’attributs ou de valeurs d’attribut du schéma relationnel
Noms de concepts du schéma de graphes Exemple: produit, scarole, germe,
listeria
Revue E.Dot 29/6/2004
Interface de requêtes commune
L’ontologie: sert de schéma médiateur entre les
utilisateurs et les 2 bases de données MIEL:
langage de requêtes simple critères de sélection + attributs de projectionquels sont tous les germes contaminants de la scarole ?
Requêtes exécutées sur la BD relationnelle et sur la BD de graphes
Revue E.Dot 29/6/2004
Nos choix Se servir de l’ontologie existante pour
intégrer de nouvelles données Choix cohérent avec celui fait pour l’acquisition Nécessite de savoir/pouvoir caractériser les
nouvelles données en fonction de l’ontologie Problème inverse de ce qu’on fait habituellement en
BD
Pour pouvoir interroger de façon uniforme (via MIEL) les données existantes et les données nouvelles
Revue E.Dot 29/6/2004
Données extérieures utiles Des pages Web ou des documents (XML,
pdf, doc) localisés par le crawler de Xylème Des sites bibliographiques répertoriant des
articles scientifiques (en pdf) portant sur le risque alimentaire
Des fiches excel transmises par des experts Des bases de données de partenaires de
Sym’Previus : ComBase
Revue E.Dot 29/6/2004
Principales tâches Crawling et filtrage de pages web Extraction de données structurées de documents
html, pdf ou excel Transformation de ces données en XML avec le
plus possible de balises provenant de l’ontologie Résultat: base documentaire en XML annotée par les
termes de l’ontologie Reformulation des requêtes MIEL en des requêtes
XML Résultat: interrogation uniforme des données existantes
et des données ajoutées
Revue E.Dot 29/6/2004
Vue globale
Relational tables
Conceptual graphs
MIEL
existing dataWe
b
Combase
Excel files
external data
Bibliographic sites
crawling + filteringstructure extracting
semantic tagging
XML
Revue E.Dot 29/6/2004
Architecture E.Dot
Revue E.Dot 29/6/2004
Data flow
Crawler
EdotFilter
Store
Validation
Miel++
External DBs
Web
Any2SML
Workspaceurl
doc
Thesu
url+meta
Ontologyquery
data data
doc data
data
Expert
Revue E.Dot 29/6/2004
Exposés du matin Modules de Crawling et filtrage
Crawl + thesu EdotFilter
Modules d’extraction et transformation des données en XML Any2Xtab Xtab2SML PDF2SML
Revue E.Dot 29/6/2004
Exposés de l’après-midi Modules d’interrogation
MIEL++ Couplage entre ontologies
Plateforme d’intégration ACWare Schéma de l’entrepôt de travail
Démonstrations Conclusion