Service sémantique de découverte de données géospatiales
Serge Kéna-Cohen et Yvan Bédard
Conférence Géomatique 2009
Menu
1. Introduction
2. Besoins
3. Domaines d’application envisagés
4. Solution
5. Enjeux et orientations
6. Environnement technologique
7. Conclusion
Introduction• Contexte• Problématique• But• Objectifs • Besoins
Contexte- Projet GéoConnexions
• Partenaires:
– Ministère des Ressources naturelles et de la Faune du Québec, Secteur du territoire
– Ministère des Ressources naturelles et de la Faune du Québec, Secteur des mines
– Défense nationale du Canada – RDDC-V
– Ressources naturelles Canada, GéoConnexions
• Développeurs
– DMR
– Université Laval – Centre de recherche en géomatique
Contexte
• On veut découvrir et accéder aux jeux de données géospatiales (et aux services géospatiaux)
– Spécifier les critères de recherche
– Découvrir les données pertinentes
Problématique
• Aucune idée du nombre de résultats
• Les résultats ne sont pas triés par ordre d’importance
• On doit utiliser un vocabulaire spécifique
• On doit chercher dans la langue des données
• Certains termes ont une portée géographique
Buts
• Mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiales.
– Capacité de raisonnement sémantique
– Environnement conforme aux normes OGC et ISO
Objectifs
• Réviser les besoins reliés à la découverte des données dans un concept d’utilisation d’ontologies, de services Web et de cube multidimensionnel spatial
• Identifier les fonctions et les opérations de services pour répondre à ces besoins
• Définir les protocoles Web pour les services
• Développer les fonctions
• Valider avec les partenaires
• Intégrer au portail des partenaires.
Besoins• Besoins fonctionnels• Besoins non-fonctionnels
Besoins fonctionnels
• Identifier l’information à l’aide des concepts métiers:
– Identification par concepts
– Indépendance de la langue.
• Naviguer selon la modélisation du domaine:
– Structuration des concepts
– Permettre de comprendre, assimiler et exploiter la modélisation
• Examiner les données de manière plus dynamique:
– Naviguer selon la sémantique.
• Assister l’utilisateur dans l’expression de ses besoins:
– Choisir les bons éléments
– Exploiter les connaissances du domaine et leur organisation.
• Présenter les résultats:
– Afficher selon l’ordre d’importance des résultats.
• Avoir une vision globale:
– Vision globale et synthétique de l’information.
Besoins non-fonctionnels
Volumes Plus de 1,000,000 d’enregistrements
Chargements Chargement générique, chaque partenaire a son format de métadonnées respectif
Mise-à-jour régulière
Performance Très rapide dû à la technologie OLAP
Sécurité Usagers authentifiés
Pas de restriction d’accès pour les données individuelles
Disponibilité 7 jours par semaine, 20 heures par jour
4 heures de nuit réservées aux mise-à-jour
Flexibilité Doit accommoder les différents partenaires
Interopérabilité Fonctions implantées comme services Web
Bases de données Interface JDBC
Environnement de développement
Open Source (Java)
Interface Fureteur Web
Solution
Domaines de solutions• Ontologies• Ontologies et Web sémantique• Services Web sémantiques• Systèmes décisionnels• SOLAP – Spatial On-Line Analytical
Processing
Domaines de solutions
• Les Ontologies
• Les Ontologies et le Web sémantique
• Le Spatial On-Line Analytical Processing (SOLAP)
• Les CRM
Enjeux et Orientations• Portée des ontologies• Accès aux ontologies• Inconsistances et incohérences• Concepts ou termes• Contenu des ontologies• Services d’ontologie• Contenu des ontologies
• Dimensions du cube• Intégration des aspects spatiaux• Intégration des ontologies• Conversion générique• Rafraichissement du cube• Ordre d’importance• Perfomance
Solution fonctionnelle
Enjeux – Portée des ontologies
• Restreint à l’information géospatiale
• Pas gérer toute la connaissance d’un domaine
• Offrir les opérations les plus importantes nécessaires pour répondre aux besoins exprimés
• Information documentée par des métadonnées normées
• La langue des informations est connue
• Limitée aux:– Termes
– Descriptions
– Traductions
– Relations• Termes apparentés• Synonymes• Termes englobés (hiérarchie ou classes et sous-classes)
Enjeux – Accès aux ontologies
• Chacun décrit sa propre ontologie
• Modèle commun de données ontologiques
• Serveur d’ontologie centralisé
• Accessible en utilisant des services Web.
Enjeux – Inconsistances et incohérences
• Ontologies limitées aux domaines d’intérêt
• Ontologies ne sont pas volumineuses
• Risque d’incohérences est minime
• Élimination des références circulaires.
Enjeux – Concepts ou termes
• Concepts
• Énoncés simples RDF (Resource Description Framework)
• Multilingue
Enjeux – Services d’ontologie
• Récupérer les services OGM3:
Enjeux – Services d’ontologie
• Récupérer les services OGM3:
– GetCapabilities – retourne les capacités du service
– GetOntology – retourne l'ontologie
– GetDefinition- retourne la définition d'un terme
– GetPrefered – retourne le terme de préférence
– GetSimilar – retourne les termes similaires
– GetTranslation – retourne la traduction d'un terme
– GetGraph – retourne le graphe d'un terme dans l'ontologie
Enjeux – Contenu des ontologies
• Canadian Core Subjects Thesaurus – CCST (Thesaurus des sujets de base du gouvernement du Canada – TSB)
• OpenDirectory
• Getty Thesaurus of Geographical Names (TGN)
• Library of Congres Subject Headings
• Center for International Earth Science Information Network (CIESIN)
• Global Change Master Directory (GCMD)
• Dictionnaire des entités géographiques du Québec
• Constitution à partir des métadonnées
Enjeux – Dimension du cube de données
• Dimensions sont les critères de recherche
• Sept plus ou moins deux
• Différentes représentations– Étoile
– Flocon
– Parent-enfant
• Différents types– Numérique
– Date
– Spatial
– Nominal
Enjeux – Conversion générique
• Critères de recherche paramétrisés
• Utilisés lors de la création du cube
• Utilisés lors de la recherche
• Dimensions pas nécessairement dans la métadonnée
• Interprétation humaine requise dans la conception d’un cube
• Besoin de spécifier les niveaux d’agrégation
• Définir une structure fixe avec dimensions typiques
• Choisir les critères parmi les dimensions potentielles
Enjeux – Intégration des aspects spatiaux
• Structure matricielle
• Territoire découpé en petites régions régulières
• Forment la cellule de base pour l’indexation
• Sélection d’un groupe de cellules détermine le nombre de documents
Enjeux – Intégration des ontologies
• Trois possibilités:– Au moment de la constitution du cube
• Permet la représentation généralisée (termes englobant) ou étendue (termes englobés)
• Réponse instantanée• Cube plus volumineux
– Au moment de la recherche• Choisir l’ontologie lors de la recherche• Volume du cube limité aux métadonnées• Réponse moins rapide
– Mixte:• Plus grande latitude de recherche
Enjeux – Ordre d’importance des résultats
• Priorisation de l’affichage des résultats en fonction:
– Du nombre de critères respectés
– Du type et pourcentage de relation sémantique respectés
– De l’utilisation de critères de popularité (ventes)
Enjeux - Performance
• Création du cube
• Requêtes de découverte
• Services d’ontologie
• Priorisation des résultats
Enjeux - Normes
Enjeux - Normes
– ISO 639 pour la définition des langages et le codage en UTF8 pour les caractères.
– Thésaurus monolingues (ISO 2788) et multilingues (ISO 5964) pour la codification des liens sémantiques.
– Les normes W3C :• DAML-OIL et OWL, pour décrire les ontologies• SVG, pour afficher les liens graphiques entre concepts
d’ontologies• XML, pour coder les protocoles d’échange inter-service• WSDL pour décrire les services• SOAP pour les protocoles d’accès• UDDI pour publiciser les services
Enjeux - Normes
– Les normes géomatiques:• le profil nord américain des métadonnées d’ISO 19115 pour la
source des métadonnées à extraire par l’ETL• ISO 19115 et CSDGM de FGDC pour la définition des types de
mots-clés de contenu à conserver dans les ontologies (thème, entité, attribut, catégories, etc.)
• ISO 19110 pour définir les critères de contenu• ISO 19112 pour définir les critères géographiques• WMS pour l’identification des critères d’étendues géographiques
lors de recherches et d’affichage géographique de résultats• CAT 2.0 pour l’interface normalisée au cube de données
Protocoles
• Protocoles d’accès aux services d’ontologie– Basés sur les protocoles HTTP et XML
– Requête de description des capacités (GetCapabilities)• Opérations supportées• Domaines de l’ontologie• Langages• Données géographiques
– Requête pour obtenir les ontologies
– Requête pour obtenir:• Terme préféré• Termes similaires• Traduction• Définition
Environnement technologique
Environnement technologique - Services
• Intégrés à l'environnement technologique du client.
• Facilité par une architecture orientée services.
– Services autonomes
– Accessibles via un protocole Web normalisé basé sur XML et décrit avec la norme WSDL.
– Inscrits dans un registre UDDI.
– Adaptation du progiciel Protégé-2000
Environnement technologique
• Open Source, Développement en Java
• Permet de récupérer des composantes existantes (API Java de Protégé 2000)
• Connexion au SGBD à travers une couche indépendante JDBC – MS SQL Server
– Oracle
• Affichage géographique OpenLayers
• Affichage graphique JFreeChart
• Site Web permettant de démontrer la technologie
Conclusion
• L’architecture s’est terminée en février 2009
• Le module d’extraction et de constitution du cube est terminé
• Le module sémantique est en tests, nous avons encore 2 enjeux: la performance et le contenu
• Le module de recherche est en développement
• Le développement du module de priorisation n’a pas débuté
• Fin prévue février 2010
Conclusion