Upload
abdelilah-aissa
View
329
Download
1
Embed Size (px)
Citation preview
RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE
MINISTÈRE DE L'ENSEIGNEMENT SUPÉRIEUR
ET DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITÉ IBN KHALDOUN - TIARET
FACULTÉ DES SCIENCES ET DES SCIENCES DE L’INGÉNIEUR
DÉPARTEMENT DE L’INFORMATIQUE
MÉMOIRE DE FIN D’ÉTUDES
POUR L’OBTENTION DU DIPLÔME
D'INGÉNIEUR D’ÉTAT EN INFORMATIQUE
OPTION : Systèmes d’informations avancés
Présenté par
Jaouaf Mohamed Amine
Mehenni Noureddine
THÈME
Dirigé par : Mr. Berber El-Mehdi
Année universitaire : 2009-2010
Génération automatique des requêtes de médiation dans un contexte relationnel
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 3
RemerciementRemerciementRemerciementRemerciementssss
Nous tenons à remercier toutes les personnes ayant contribué et facilité la
réalisation de ce travail dans de bonnes conditions.
Nous tenons à remercier plus particulièrement.
Monsieur Berber El-Mehdi qui nous a encadrés, Nous a orientés tout au
long de ce travail et nous a guidés avec ses conseils et ses critiques
bienveillants .
Nos remerciements s’adressent également au président et aux
membres de jury, qui nous ont fait le grand plaisir d’accepter de
juger ce travail.
Nous tenons à remercier l’ensemble des personnels du département de
l’informatique de l’université d’IBN KHALDOUN.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 4
Dédicace
Je dédie ce modeste travailJe dédie ce modeste travailJe dédie ce modeste travailJe dédie ce modeste travail ::::
ÁÁÁÁ mon père qui sait sacrifier afin que rien ne m’empêche du bon déroulement de mes études.
Á Á Á Á ma mère qui n’a pas cessé de m’encourager et de me soutenir dans les moments difficiles.
Á Á Á Á tous mes frères, et sœurs.
ÁÁÁÁ toute la promotion sortante 5ème année informatique 2010.
[email protected] r Amine.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 5
DédicaceDédicaceDédicaceDédicace
A mes très chers parents,
Pour leur soutien permanent et inépuisable,
Que Dieu les protège.
A mes frères et sœurs.
A tous la famille Younes.
Et à tous ceux qui me sont chers.
A mon collaborateur Amine qui m’a encouragé…
A tous mes amis et mes collègues.
Noureddine
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 6
Table des matiéres
Introduction générale .............................................................................................. 1
Chapitre I : Intégration des Données Hétérogènes : Etat de l’art
1. Introduction ............................................................................................................. 2
2. Systèmes d’intégration de données ............................................................................. 2
2.1 Définition et Composante ...................................................................................................... 3
2.2. Classification des systèmes d’intégration ............................................................................. 3
2.2.1 - Localisation de données intégrées. .................................................................................... 4
2.2.2. Mapping de données / Nature du mapping ......................................................................... 7
2.2.3. Processus d’intégration / Automaticité du mapping ........................................................... 8
2.2.4. Langages de représentation de données intégrées : ............................................................ 8
3. Système de médiation ................................................................................................ 8
3.1 Introduction : ......................................................................................................................... 8
3.2 Définition : ............................................................................................................................. 8
3.3 Problématique : ...................................................................................................................... 9
3.4 Objectifs : ............................................................................................................................ 10
Chapitre II :Java et Bases de données relationnelles
1. Introduction ........................................................................................................ 11
2. Java est un langage orienté objet ........................................................................... 11
3. Bases de données relationnelles ............................................................................. 11
3.1 Notion de base de données ............................................................................................. 11
3.1.1 Description générale .................................................................................................... 11
3.1.2 Base de données informatisée ...................................................................................... 11
3.2 Modèles des bases de données........................................................................................ 12
3.2.1 Modèle hiérarchique .................................................................................................... 12
3.2.2 Modèle réseau .............................................................................................................. 12
3.2.3 Modèle relationnel ....................................................................................................... 12
3.2.4 Modèle déductif ........................................................................................................... 12
3.2.5 Modèle objet................................................................................................................. 12
3.3 Système de gestion de base de données (SGBD) ........................................................... 12
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 7
3.4 Bases de données relationnelles: .................................................................................... 13
3.4.1 Le modèle relationnel................................................................................................... 13
3.4.2. Algèbre relationnelle ........................................................................................................ 14
3.4.3. Langage SQL..................................................................................................................... 14
4. Java et les bases de données relationnelles ............................................................. 16
4.1 JDBC et les architectures client serveur .............................................................................. 16
4.1.1 Architecture client-serveur 2/tiers ...................................................................................... 16
4.1.2 Architecture 3/tiers ............................................................................................................. 17
4.2 API JDBC ......................................................................................................................... 18
4.2.1 Structure générale ............................................................................................................... 18
4.2.2 Bibliothèques nécessaires ................................................................................................... 18
4.2.3 Charger un pilote en mémoire ............................................................................................ 18
4.2.4 Etablir une connexion ........................................................................................................ 20
4.2.5 Traitement des requêtes SQL ............................................................................................. 21
4.2.6 Gestion des transactions ..................................................................................................... 22
4.2.7 Fermeture de connexion ..................................................................................................... 22
4.2.8 Informations de la structure de la base de données............................................................ 23
5. Conclusion .......................................................................................................... 23
Chapitre III : Génération des requêtes de médiation 1. Introduction ........................................................................................................ 24
2. Métadonnées utilisées ........................................................................................... 25
2.1 Métadonnées au niveau des sources ................................................................................... 25
2.2 Métadonnées au niveau de la médiation ............................................................................ 25
2.3 Métadonnées entre la médiation et les sources ................................................................... 25
3. Recherche des relations de mapping ...................................................................... 26
3.1 Recherche des mapping étendus ..................................................................................... 26
3.2 Recherche des mapping de transition ............................................................................. 27
4. Recherche du graphe d’opération ......................................................................... 29
5. Recherche des chemins de calcul et définition des requêtes de médiation ................. 30
6. Prise en compte de l’hétérogénéité ........................................................................ 31
6.1 Les métadonnées utilisées .................................................................................................. 32
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 8
6.2 Exploitation des métadonnées ............................................................................................ 32
7. Conclusion .......................................................................................................... 34
Chapitre IV : Implémentation
1. Introduction ........................................................................................................ 35
2. Architecture générale ........................................................................................... 35
3. Description de la méta-base .................................................................................. 36
4 La description des différents modules ....................................................................... 37
4.1 La recherche des relations de mapping étendu ................................................................... 37
4.2 La recherche des relations de transition .............................................................................. 38
4.3. La recherche des opérations de jointures ......................................................................... 38
4.4 La recherche des chemins de calcul ................................................................................ 39
4.5 La recherche des requêtes de médiation ........................................................................... 40
5 Scénario de fonctionnement .................................................................................. 40
5.1 Administrateur ................................................................................................................ 40
5.1.1 Configuration des connexions aux bases de données ....................................................... 41
5.1.2 Fenêtre de création d’une relation de médiation ............................................................... 42
5.1.3 La configuration de la méta-base ...................................................................................... 42
5.1.4 Fenêtre de gestion des Comptes ....................................................................................... 43
5.2 Partie Utilisateur ............................................................................................................. 43
5.2.1 Fenêtre de génération des relations de mapping étendu .............................................. 44
5.2.2 Fenêtre de génération des relations de mapping transition ......................................... 44
5.2.3 Fenêtre de génération des opérations de jointure ........................................................ 45
5.2.4 Fenêtre Génération des chemins de calcul................................................................... 45
5.2.5 Fenêtre Génération des requêtes de médiation ............................................................ 46
6 Conclusion ........................................................................................................... 46
Conclusion et Perspectives ..................................................................................... 47
Bibliographie ........................................................................................................... 48
Glossaire .................................................................................................................. 49
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 9
Liste des figures Figure 1.1: Système d’intégration d’information……………………………………...…………….......3 Figure 1.2 : Architecture matérialisée vs architecture virtuelle…………………………………........….5 Figure 1.3 : Comparaison des architectures GAV et LAV………………………………….........……....7 Figure 1.4. Architecture d’un système de médiation…………………..……………………...…...……..9
Figure 2.1 : Architecture client-serveur 2/tiers………………………………………………….........…17
Figure 2.2 : Architecture client-serveur 3/tiers…………………………………………………........….17
Figure 2.3 : Fenêtre administrateur de source de données ODBC…………………………….……..…20
Figure 4.1 : Architecture du prototype de génération automatique des requêtes de médiation……..…35
Figure 4.2 : La description du Méta-Base …………………………………………………………....…37
Diagramme 1 : La recherche des relations de mapping étendu………………………………….....…...37
Diagramme 2 : La recherche des relations de transition………………………………………………...38
Diagramme 3 : La recherche des opérations de jointure…………………………………….……....…..39
Diagramme 4 : La recherche des chemins de calcul………………………………………..………...…39
Diagramme 5 : La génération des requêtes de médiation………………………………….…...…..…. 40
Figure 4.3 Interface Administrateur………………………………………………………………....…..40
Figure 4.4 Configuration de la méta-base…………………………………………………………....….41
Figure 4.5 Création d’une relation de médiation………………………………………………………...42
Figure 4.6 Configuration de la méta-base…………………………………………………………..........42
Figure 4.7 Gestion des comptes……………………………………………………………….….........…43
Figure 4.8 Fenêtre utilisateur……………………………………………………….………...….........….43
Figure 4.9 Fenêtre de mapping étendu ……………………………………………………….………….44
Figure 4.10 Fenêtre de mapping de transition …………………………………………………...............44
Figure 4.11 Fenêtre de génération des opérations de jointure …………………………………...…........45
Figure 4.12 Fenêtre de génération des chemins de calcul ……………………………………….............45 Figure 4.13 Fenêtre de génération des requêtes de médiation…………………………………….….....46
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 10
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Introduction générale ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 11
Introduction générale
1. Contexte
De nos jours, les systèmes multi-source sont de plus en plus développés.
Ils sont définis comme l’intégration de plusieurs sources hétérogènes et distribuées.
Parmi ces systèmes d’informations, nous distinguons les entrepôts de données, les systèmes
d’informations basés sur le web, les systèmes de bases de données fédérées, ou encore les
systèmes de médiation.
Notre travail se focalise principalement sur les systèmes de médiation dans un contexte
relationnel. Il s’agit d’automatiser la génération de requêtes de médiation calculant une relation
du schéma global à partir d’un ensemble de sources de données.
2. Organisation du mémoire
Ce mémoire est organisé autour de quatre chapitres :
Le chapitre I donne des généralités sur les systèmes d’intégration des Données.
Le chapitre II décrit les bases de données relationnelles et le langage Java.
Le chapitre III décrit les différentes étapes de génération des requêtes de médiation.
Le chapitre IV présente l’implémentation d’un prototype de génération automatique des requêtes
de médiation.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 12
Chapitre I ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Intégration des Données Hétérogènes:
Etat de l’art ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 13
1. Introduction
L’accès «transparent» aux ressources et de manière plus générale à l’information constitue
un des challenges actuels majeurs de l’informatique.
L’avènement du Web et des réseaux informatiques tout comme l’accroissement des données et
des services produits font que les utilisateurs finaux se trouvent confrontés à des problèmes de
localisation et d’accès à l’information pertinente qu’ils requièrent. L’hétérogénéité, la quantité, la
dispersion et la « volatilité » des ressources constituent autant de verrous que les systèmes
d’intégration doivent lever.
Les systèmes d’intégration de données permettent aux utilisateurs d’accéder, à travers un schéma
global unifié, à plusieurs sources de données ayant chacune un schéma local. Bien que les
systèmes actuels puissent surmonter la difficulté principale d’intégration qui est l’hétérogénéité
des sources (XML, HTML, fichiers plats, etc.), leur mise en œuvre pose un certain nombre de
problèmes, tant en ce qui concerne la génération des liens sémantiques entre le schéma de
médiation et les sources de données (requêtes de médiation) qu'en ce qui concerne l'adaptation de
l'accès aux besoins des utilisateurs ou la mesure de la qualité des données obtenues.
Ces problèmes sont d’autant plus cruciaux lorsque les sources sont nombreuses et hétérogènes.
Tout système d’intégration doit fournir les solutions aux problèmes suivants : (1) Comment
fournir une vue globale intégrée des données représentées à travers différentes conceptualisations
? (2) Comment identifier et spécifier le mapping entre des données sémantiquement liées? (3)
Comment mettre à jour les données de différentes bases étant donnée une telle vue globale
intégrée ? [BOUSSIS 08].
2. Systèmes d’intégration de données
Les systèmes d’intégration de données offrent des architectures d’interopérabilité sur une
fédération de sources de données distribuées, autonomes et hétérogènes. Les entrepôts de
données, les systèmes de médiation et les architectures P2P sont des exemples d’infrastructures
qui permettent l’intégration de données, c'est-a-dire l’accès à des données produites par des
sources autonomes. A travers des schémas virtuels, des métadonnées et des correspondances
sémantiques, ils permettent d’accéder à ces sources de données de façon uniforme et
transparente, en transformant, par réécriture, les requêtes d’un utilisateur en sous requêtes
envoyées aux sources de données les plus appropriées. L’hétérogénéité des données extraites des
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 14
sources nécessite leur réconciliation, en d’autres termes, leur mise en correspondance par rapport
au schéma global, avant de les présenter à l’utilisateur.
2.1 Définition et Composante
Un système d'intégration de données fournit une vue unifiée de données provenant de sources
multiples et hétérogènes. Il permet d'accéder à ces données à travers une interface uniforme, sans
se soucier de leur structure ni de leur localisation [BAR 03].
Un système d'intégration se compose de deux parties [RAH 05] (Voir figure 1.1):
- Une partie (1) externe et correspond aux utilisateurs du système intégré (décideurs) ou
autres systèmes.
- Une partie (2) interne et comprend des sources d’informations et une interface uniforme
qui permet à la partie externe d’interroger d'une manière transparente les sources de
données, comme s’il n’y avait qu’une source unique.
Figure 1.1: Système d’intégration d’information
2.2. Classification des systèmes d’intégration
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 15
Plusieurs approches et systèmes d’intégration ont été proposés dans la littérature, souvent
classifiés, à travers des critères différents, une vue générale est présentée dans [HUL 97].
[BOUSSIS 08] a proposé une classification des systèmes d’intégration de données en se basant
sur quatre critères orthogonaux :
2.2.1 - Localisation de données intégrées.
2.2.2 - Nature de correspondance (mapping).
2.2.3 - L’automaticité du processus d’intégration.
2.2.4 -Langages de représentation de données intégrées
2.2.1 - Localisation de données intégrées.
Ce critère spécifie si les données des sources locales sont dupliquées au niveau du système
intégré ou pas. Les données du système intégré peuvent être virtuelles : (architecture médiateur)
ou matérialisées : (architecture d’un entrepôt de données).
2.2.1.1. Systèmes Multibases
Les systèmes multibases sont des systèmes dits faiblement couplés. On les caractérise de
cette manière car ils n’offrent pas une vision unifiée des données. Il n’existe pas de schéma
global permettant un accès transparent aux différentes sources de données.
La coopération est seulement assurée par l’intermédiaire d’un langage commun : le langage
multibase de type SQL notamment.
2.2.1.2. Systèmes Fédérés
A l’inverse des systèmes multibases, les systèmes fédérés sont dits fortement couplés. Ils se
caractérisent par l’existence d’un schéma unifié appelé schéma fédéré qui constitue l’interface
d’accès au système intégré. L’intégration se situe au niveau des schémas.
2.2.1.3. Systèmes Médiateurs
L’approche d’intégration par médiation constitue, sans doute aujourd’hui, la solution la plus
courante pour relier différentes sources qui ne correspondent pas nécessairement à des bases de
données.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 16
La notion de médiateur a été initialement proposée par [WIE92].Il définit un médiateur comme
suit: «A mediator is a software module that exploits encoded knowledge about some sets or
Subsets of data to create information for a higher layer of applications ». Un médiateur doit être
vu comme une couche logicielle permettant d’accéder, de manière transparente pour
l’utilisateur, à différentes ressources (Bases de données, fichiers) réparties et hétérogènes.
Pour cet accès, le médiateur exploite des connaissances (métadonnées) qui sont utiles à différents
services (interrogation, localisation des ressources notamment).
L’approche par médiation est fondée sur la définition de vues [ROU 02]. Les données ne sont
pas stockées dans le système de médiation mais résident dans leurs sources d’origine (comme
pour les systèmes fédérés). L’utilisateur a une vision unifiée des données sources :
l’interrogation se fait par l’intermédiaire d’un schéma global. Il n’a pas connaissance des
schémas locaux.
L’architecture générale d’un système de médiation est présentée en figure 1.2.
Une requête globale est posée via le schéma global et celle-ci est ensuite décomposée en sous
requêtes, traduites pour être exécutées sur les différentes sources concernées.
Le médiateur est chargé de localiser les données pertinentes pour répondre à la requête (en
utilisant les métadonnées).
L’interrogation effective des sources se fait par des adaptateurs (ou « wrappers ») qui
constituent une interface d’accès aux différentes sources.
Ces adaptateurs traduisent les sous requêtes exprimées dans le langage de requête spécifique de
chaque source. Les résultats sont ensuite renvoyés au médiateur qui se charge de les intégrer
avant de les présenter à l’utilisateur. Par analogie à l’architecture des systèmes fédérés, on peut
considérer que le schéma global du médiateur correspond au schéma fédéré et que l’adaptateur
inclut les schémas d’export et les schémas pivots.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 17
Figure 1.2 : Architecture matérialisée vs architecture virtuelle.
Notre étude s’inscrit principalement dans le contexte des systèmes de médiation.
2.2.1.4. Entrepôts de Données
Un entrepôt de données (Data Warehouse) se définit comme « une collection de données
intégrées, orientées sujet, non volatiles, historiées, résumées et disponibles pour l’interrogation et
l’analyse ». Les entrepôts de données sont conçus dans un but bien particulier : rassembler
l’ensemble des informations d’une entreprise dans une base unique, pour faciliter l’analyse et la
prise de décision rapide.
2.2.1.5. Médiateurs / Entrepôt de données (Architecture Mixte/Hybride)
Avec le développement du Web et des technologies de l'information ces dernières années,
d'autres approches d'intégration, tels que les systèmes hybrides (Approche mixte), ont été
proposes. Ces systèmes combinent, à la fois, l’approche Médiateur et l’approche Entrepôt.
Il s’agit, par exemple, d’un système médiateur qui intègre plusieurs sources de données externes
et qui exploite un entrepôt de données contenant des données conformes au schéma global du
médiateur.
2.2.1.6. Systèmes P2P (Pair à Pair)
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 18
L'émergence de systèmes pair à pair (Peer-to-Peer) de partage de fichiers a conduit les
chercheurs à considérer l'architecture P2P dans le contexte de l'intégration et le partage de
données.
Les architectures pair à pair se présentent actuellement comme une solution viable pour
permettre le partage de ressources à l'échelle de l'Internet. En effet, aussi bien d'un point de vue
commercial que scientifique, les architectures pair à pair suscitent un véritable engouement.
Le paradigme du P2P garantit un fonctionnement à large échelle. Un très grand nombre de pairs
peut interagir dans le réseau, de manière à permettre le partage d’une grande quantité de
ressources. Aussi appelé d’égal à égal, chaque participant à un système P2P peut être à la fois
client et serveur. Le fonctionnement du système ne repose sur aucune coordination centralisée.
Ainsi, le comportement global du réseau résulte uniquement des interactions locales entre les
pairs qui se connectent et se déconnectent.
Les systèmes pair à pair sont caractérisés par quatre grands principes : 1- Auto organisation des
pairs, 2- Gestion décentralisée, 3- Tolérance aux pannes, 4- Autonomie des pairs.
2.2.2. Mapping de données / Nature du mapping
La méthode la plus ancienne pour définir un schéma intégré et la correspondance schéma
global/schémas locaux, consiste à utiliser le concept classique de "vue SQL" existante dans les
bases de données. GaV (Global-as-View), LaV (Local-as- View), GLaV (Generalized -Local-
as-View), BGLaV (Global-Local-as-View) et BaV (Bothas-View) représentent les méthodes de
mapping connues. GaV et LaV en sont les principales, GLaV , BGLaV et BaV sont des
approches mixtes.
Dans l'approche GAV, la transformation d'une requête sur le schéma global en requête sur le
schéma local est une simple opération faite par le gestionnaire de vues. Dans le cas d’une
approche LAV, la requête sur le schéma global doit être reformulée suivant les schémas des
sources locales. D'un autre coté, dans une architecture GAV, une modification sur l'ensemble
des sources locales ou sur leur schéma entraîne une reconsidération complète du schéma global.
Dans l'architecture LAV, chaque source est spécifiée de manière indépendante. Un changement
local de schéma est pris en compte en mettant à jour la vue locale. De plus, si les données des
sources locales n'ont pas le même format (relationnel, semi structuré . . .), il est difficile de
définir le schéma global comme vue des sources de différents formats. En utilisant une approche
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 19
LAV, chaque source peut être décrite séparément par un mécanisme de vue spécifique à son
format [GARD 05].
Figure 1.3 : Comparaison des architectures GAV et LAV
2.2.3. Processus d’intégration / Automaticité du mapping
Un troisième critère important permet de caractériser l’automaticité de génération du système
intégré. La notion de passage à l’échelle, étant, de plus en plus, un aspect essentiel, on peut
caractériser cette automaticité par l’automaticité d’intégration d’une nouvelle source
(éventuellement convenablement préparée) au sein d’un système intégré.
On peut distinguer plusieurs niveaux d’automaticité :
Manuel
Semi automatique
Automatique
2.2.4. Langages de représentation de données intégrées :
Selon ce quatrième critère, les systèmes d’intégration sont structurés en fonction du langage
de représentation des connaissances, exprimant le schéma global. En effet, un langage de
représentation de données doit permettre de représenter la sémantique, la structure des données
et des informations additionnelles (ontologies, requêtes).
Génération automatique des requêtes de médiation dans un contexte relationnel
________
3. Système de médiation
3.1 Introduction :
Parmi les systèmes d’intégration
systèmes de médiation.
3.2 Définition :
Un système de médiation est un système qui permet d’interopérer sur un ensemble de sources
hétérogènes et distribuées. Ses composants essentiels sont : le schéma global appelé schéma de
médiation, les mappings du schéma global avec les s
requêtes et les fonctions de composition des résultats. Les mappings du schéma global avec les
sources sont des requêtes, appelées requêtes de médiation, dont l’expression varie selon
l’approche choisie :
1) approche descendante (Global As View ou GAV)
défini par une requête sur les sources.
2) approche ascendante (Local As View ou LAV)
défini par une requête sur le schéma global.
La figure suivante illustre l’architecture d’un système de médiation :
Figure
Génération automatique des requêtes de médiation dans un contexte relationnel
________
3. Système de médiation
Parmi les systèmes d’intégration de données que nous avons présentés
Un système de médiation est un système qui permet d’interopérer sur un ensemble de sources
hétérogènes et distribuées. Ses composants essentiels sont : le schéma global appelé schéma de
médiation, les mappings du schéma global avec les sources, les fonctions de réécriture de
requêtes et les fonctions de composition des résultats. Les mappings du schéma global avec les
sources sont des requêtes, appelées requêtes de médiation, dont l’expression varie selon
(Global As View ou GAV) où chaque objet du schéma global est
défini par une requête sur les sources.
(Local As View ou LAV) où chaque objet d’une source de données est
défini par une requête sur le schéma global.
La figure suivante illustre l’architecture d’un système de médiation :
Figure 1.4. Architecture d’un système de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
20
s, nous distinguons les
Un système de médiation est un système qui permet d’interopérer sur un ensemble de sources
hétérogènes et distribuées. Ses composants essentiels sont : le schéma global appelé schéma de
ources, les fonctions de réécriture de
requêtes et les fonctions de composition des résultats. Les mappings du schéma global avec les
sources sont des requêtes, appelées requêtes de médiation, dont l’expression varie selon
où chaque objet du schéma global est
où chaque objet d’une source de données est
Architecture d’un système de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 21
3.3 Problématique :
Plusieurs problèmes de conception émergent lors de l’utilisation de ces médiateurs.
L’une des principales difficultés rencontrée dans un système de médiation est la définition du
schéma global et la définition des mapping (requêtes de médiation) qui relient le schéma global
aux sources de données.
L’écriture manuelle des requêtes de médiation donne, sans doute, le résultat le plus pertinent au
regard des besoins des utilisateurs. Cependant, il est difficile de l’entreprendre en raison du
grand nombre de sources de données qui peuvent être impliquées (des centaines ou des milliers)
et du volume important de méta-données les décrivant (description des schémas des sources et
du schéma global, assertions de correspondance linguistique, assertions intra-source et inter-
source, etc.).
La question principale est de savoir comment automatiser la génération de requêtes de
médiation ?
3.4 Objectifs :
Au vu des articles de recherche étudiés, deux catégories de travaux se distinguent. Celle qui
vise à interroger les sources de données distribuées et hétérogènes et à la définition de requêtes
de médiation, et celle qui vise à intégrer les données et à construire le schéma global.
Le travail mené dans ce mémoire est concerné par la première catégorie. A partir de la
description d’un ensemble de sources de données distribuées et hétérogènes et de méta-données,
Il s’agit de produire un ensemble de requêtes de médiation possibles. Un outil est développé,
permettant de générer, automatiquement, des requêtes de médiation dans un environnement
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 22
Chapitre II ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Java et Bases de données relationnelles
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 23
1. Introduction
Un médiateur est basé sur l'interaction avec un ou plusieurs systèmes de gestion de bases de
données (SGBD) ; dans notre contexte, il s’agit des systèmes de gestion de bases de données
relationnelles (SGBDR).
Java fournit un ensemble d'outils très flexibles pour l'accès aux SGBDR via des API. Les classes
de base de l'API sont incluses dans le package java.sql et sont distribuées dans le cadre du JDK
standard.
2. Java est un langage orienté objet
Java est un langage orienté objet développé par la société Sun. La syntaxe générale est très
proche de celle du C, mais Java n'est pas une surcouche du C et la syntaxe est beaucoup plus
claire que celle du C++.
Les avantages de Java sont nombreux. Le byte-code, tout d'abord, qui assure à Java une
portabilité complète vers de très nombreux systèmes. L'importance des API de base qui offre
tous les services de base, notamment pour la construction des interfaces graphiques. La 3ème
force de Java, c'est son adaptabilité dans de nombreux domaines, autant pour le web que pour les
systèmes embarqués.
3. Bases de données relationnelles [Dev09]
3.1 Notion de base de données
3.1.1 Description générale
Définition 1 -Base de données- Un ensemble organisé d’informations avec un objectif
commun.
3.1.2 Base de données informatisée
Définition 2 -Base de données informatisée- Une base de données informatisée est un
ensemble structuré de données enregistrées sur des supports accessibles par l’ordinateur,
représentant des informations du monde réel et pouvant être interrogées et mises à jour par une
communauté d’utilisateurs.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 24
3.2 Modèles des bases de données
3.2.1 Modèle hiérarchique
Les données sont classées hiérarchiquement, selon une arborescence descendante. Ce modèle
utilise des pointeurs entre les différents enregistrements. Il s'agit du premier modèle de SGBD.
3.2.2 Modèle réseau
Comme le modèle hiérarchique, ce modèle utilise des pointeurs vers des enregistrements.
Toutefois la structure n'est plus forcément arborescente dans le sens descendant.
3.2.3 Modèle relationnel
Une base de données relationnelle est une base de données structurée suivant les principes de
l’algèbre relationnelle.
3.2.4 Modèle déductif
Les données sont représentées sous forme de tables, mais leur manipulation se fait par le
calcul de prédicats.
3.2.5 Modèle objet
Les données sont représentées sous forme d'objets, c'est-à-dire de structures appelées classes présentant
des données membres. Les champs sont des instances de ces classes.
3.3 Système de gestion de base de données (SGBD)
La gestion et l’accès à une base de données sont assurés par un ensemble de programmes qui
constituent le Système de gestion de base de données (SGBD). Un SGBD doit permettre l’ajout,
la modification et la recherche de données. Un système de gestion de bases de données héberge
généralement plusieurs bases de données, qui sont destinées à des logiciels ou des thématiques
différentes.
Actuellement, la plupart des SGBD fonctionnent selon un mode client/serveur. Le serveur (sous
entend la machine qui stocke les données) reçoit des requêtes de plusieurs clients et ceci de
manière concurrente. Le serveur analyse la requête, la traite et retourne le résultat au client. Le
modèle client/serveur est assez souvent implémenté au moyen de l’interface des sockets; le
réseau étant Internet.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 25
3.4 Bases de données relationnelles:
3.4.1 Le modèle relationnel
Dans ce modèle, les données sont représentées par des tables, sans préjuger de la façon dont
les informations sont stockées dans la machine. Les tables constituent donc la structure logique
du modèle relationnel. Au niveau physique, le système est libre d’utiliser n’importe quelle
technique de stockage (fichiers séquentiels, indexage, adressage dispersé, séries de pointeurs,
compression, …) dès lors qu’il est possible de relier ces structures à des tables au niveau logique.
Les tables ne représentent donc qu’une abstraction de l’enregistrement physique des données en
mémoire.
Le succès du modèle relationnel auprès des chercheurs, concepteurs et utilisateurs est dû à la
puissance et à la simplicité de ses concepts. En outre, contrairement à certains autres modèles, il
repose sur des bases théoriques solides, notamment la théorie des ensembles et la logique des
prédicats du premier ordre.
Les objectifs du modèle relationnel sont de:
• proposer des schémas de données faciles à utiliser ;
• améliorer l’indépendance logique et physique ;
• mettre à la disposition des utilisateurs des langages de haut niveau ;
• optimiser les accès à la base de données ;
• améliorer l’intégrité et la confidentialité ;
• fournir une approche méthodologique dans la construction des schémas.
De façon informelle, on peut définir le modèle relationnel de la manière suivante :
• les données sont organisées sous forme de tables à deux dimensions, encore appelées
relations, dont les lignes sont appelées n-uplets ou tuples en anglais ;
• les données sont manipulées par des opérateurs de l’algèbre relationnelle ;
• l’état cohérent de la base est défini par un ensemble de contraintes d’intégrité.
Au modèle relationnel est associée la théorie de la normalisation des relations qui permet de se
débarrasser des incohérences au moment de la conception d’une base de données relationnelle.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 26
3.4.2. Algèbre relationnelle
L’algèbre relationnelle est un support mathématique cohérent sur lequel repose le modèle
relationnel.
On peut distinguer trois familles d’opérateurs relationnels :
Les opérateurs unaires (Sélection, Projection) :
Ce sont les opérateurs les plus simples, ils permettent de produire une nouvelle table à
partir d’une autre table.
Les opérateurs binaires ensemblistes (Union, Intersection Différence) :
Ces opérateurs permettent de produire une nouvelle relation à partir de deux relations de
même degré et de même domaine.
Les opérateurs binaires ou n-aires (Produit cartésien, Jointure, Division) :
Ils permettent de produire une nouvelle table à partir de deux ou plusieurs autres tables.
3.4.3. Langage SQL
3.4.3.1 Introduction
Le langage SQL (Structured Query Language) peut être considéré comme le langage d’accès
normalisé aux bases de données. Il est aujourd’hui supporté par la plupart des produits
commerciaux, que ce soit par les systèmes de gestion de bases de données tels que Microsoft
Access ou par les produits plus professionnels tels que Oracle. Il a fait l’objet de plusieurs
normes ANSI/ISO dont la plus répandue aujourd’hui est la norme SQL2 qui a été définie en
1992.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 27
3.4.3.2Catégories d’instructions
Les instructions SQL sont regroupées en catégories en fonction de leur utilité et des entités
manipulées. Nous pouvons distinguer cinq catégories, qui permettent :
1. la définition des éléments d’une base de données (tables, colonnes, clefs, index,
contraintes, …),
2. la manipulation des données (insertion, suppression, modification, extraction, …),
3. la gestion des droits d’accès aux données (acquisition et révocation des droits),
4. la gestion des transactions,
5. et enfin le SQL intégré.
3.4.3.2.1 Langage de définition de données
Le langage de définition de données (LDD, ou Data Definition Language, soit DDL en
anglais) est un langage orienté au niveau de la structure de la base de données. Le LDD permet
de créer, modifier, supprimer des objets. Il permet également de définir le domaine des données
(nombre, chaîne de caractères, date, booléen, …) et d’ajouter des contraintes de valeur sur les
données. Il permet enfin d’autoriser ou d’interdire l’accès aux données et d’activer ou de
désactiver l’audit pour un utilisateur donné.
Les instructions du LDD sont : CREATE, ALTER, DROP, AUDIT, NOAUDIT, ANALYZE,
RENAME, TRUNCATE.
3.4.3.2.2 Langage de manipulation de données
Le langage de manipulation de données (LMD, ou Data Manipulation Language, soit
DML en anglais) est l’ensemble des commandes concernant la manipulation des données dans
une base de données. Le LMD permet l’ajout, la suppression et la modification de lignes, la
visualisation du contenu des tables et leur verrouillage.
Les instructions du LMD sont : INSERT, UPDATE, DELETE, SELECT, EXPLAIN, PLAN,
LOCK TABLE.
Ces éléments doivent être validés par une transaction pour qu’ils soient pris en compte.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 28
3.4.3.2.3 Langage de protections d’accès
Le langage de protections d’accès (ou Data Control Language, soit DCL en anglais) s’occupe de
gérer les droits d’accès aux tables.
Les instructions du DCL sont : GRANT, REVOKE.
3.4.3.2.4 Langage de contrôle de transaction
Le langage de contrôle de transaction (ou Transaction Control Language, soit TCL en anglais) gère
les modifications faites par le LMD, c’est-à-dire les caractéristiques des transactions et la validation et
l’annulation des modifications.
Les instructions du TCL sont : COMMIT, SAVEPOINT, ROLLBACK, SET TRANSACTION
3.4.3.2.5 SQL intégré
Le SQL intégré (Embedded SQL) permet d’utiliser SQL dans un langage de troisième
génération (C, Java, Cobol, etc.) :
• déclaration d’objets ou d’instructions ;
• exécution d’instructions ;
• gestion des variables et des curseurs ;
• traitement des erreurs.
Les instructions du SQL intégré sont : DECLARE, TYPE, DESCRIBE, VAR, CONNECT,
PREPARE, EXECUTE, OPEN, FETCH, CLOSE, WHENEVER.
4. Java et les bases de données relationnelles
Java nous propose le JDBC (Java DataBase Connectivity) qui est un API très efficace et très
flexible permettant de se connecter à diverses structures de stockage.
4.1 JDBC et les architectures client serveur
4.1.1 Architecture client-serveur 2/tiers
Dans une architecture client-serveur 2/tiers, un programme client accède directement à une
base de données sur une machine distante (le serveur) pour échanger des informations, via des
commandes SQL JDBC automatiquement traduite dans le langage de requête propre au SGBD.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 29
Le principal avantage de ce type d’architecture est qu’en cas de changement de SGBD, il n’y a
qu’à mettre à jour ou changer le driver JDBC du coté client. Cependant, pour une grande
diffusion du client, cette architecture devient problématique, car une telle modification nécessite
la mise à jours de chaque client.
4.1.2 Architecture 3/tiers
Dans une architecture 3/tiers, un programme client n’accède pas directement à la base de
données, mais à un serveur d’application qui fait lui-même les accès à la base de données.
Il y a plusieurs avantages à cette architecture. Tout d’abord, il est possible de gérer plus
efficacement les connexions au niveau du serveur d’application et d’optimiser les traitements.
De plus, contrairement à l’architecture 2 /tiers, un changement de SGBD ne nécessite pas une
mise à jour des drivers sur tous les clients, mais seulement sur le serveur d’application.
Figure 2.1: Architecture client-serveur 2/tiers
Figure 2.2 : Architecture client-serveur 3/tiers
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 30
4.2 API JDBC [Oliv05]
4.2.1 Structure générale
Pour effectuer un traitement avec une base de données, il faut :
1. Charger un pilote en mémoire,
2. Etablir une connexion avec la base de données,
3. Récupérer les informations relatives à la connexion,
4. Exécuter des requêtes SQL et/ou des procédures stockées,
5. Récupérer les informations renvoyées par la base de données (si nécessaire),
6. Fermer la connexion,
4.2.2 Bibliothèques nécessaires
Pour instancier les objets nécessaires au dialogue avec une base de données, il faut
importer les bibliothèques suivantes :
• Java.sql.* ;
• Sun.jdbc.odbc.* ;
4.2.3 Charger un pilote en mémoire
4.2.3.1 Différents types de pilotes
Il existe quatre types de pilotes JDBC :
1. Type1 (JDBC-ODBC bridge) : le pont JDBC-ODBC qui s’utilise avec ODBC est un pilote
ODBC spécifique pour la base à accéder. Cette solution fonctionne très bien sous Windows.
C’est la solution idéale pour des développements avec exécution sous Windows d’une
application locale.
Cette solution « simple » pour le développement possède plusieurs inconvénients :
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 31
• La multiplication du nombre de couches rend l’architecture complexe (bien que transparentes
pour le développeur) et détériore les performances,
• Lors du déploiement, ODBC et son pilote doivent être installés sur tous les postes où
l’application va fonctionner,
• La partie native (ODBC et son pilote) rend l’application moins portable et dépendante d’une
plateforme.
2. Type 2 : un pilote écrit en java appelle l’API native à la base des données.
Ce type de pilote convertit les ordres JDBC pour appeler directement les APIs de la base de
données. Il est de ce fait nécessaire de fournir au client l’API native de la base de données.
ils sont généralement écrits en C ou en C++.
3. Type 3 : un pilote écrit en Java utilise un protocole réseau spécifique pour dialoguer avec un
serveur intermédiaire.
Ce type de pilote utilise un protocole réseau propriétaire spécifique à une base de données. Un
serveur dédié reçoit les messages par ce protocole et dialogue directement avec la base de données.
Ce type de driver peut être facilement utilisé par une applet, mais dans ce cas, le serveur
intermédiaire doit obligatoirement être installé sur la machine contenant le serveur Web.
4. Type 4 : un pilote Java natif.
Ce type de pilote, écrit en java, appelle directement le SGBD par le réseau. Ils sont fournis par
l'éditeur de la base de données. Ce type de driver est la solution idéale, tant au niveau de la
simplicité que des performances et du déploiement.
Liste de quelques pilotes :
• Pour une base Oracle : oracle.jdbc.driver.OracleDriver
• Pour une base Access : sun.jdbc.odbc.JdbcOdbcDriver
• Pour une base PostgreSQL : postgresql.Driver
• Pour une base MySQL : org.gjt.mm.mysql.Driver
4.2.3.2 Principe
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 32
Le pilote JDBC connaît les méthodes pour se connecter à une base de données, c’est
pourquoi celui-ci est essentiel.
Ce pilote est généralement disponible dans un package jar. Le chemin doit être ajouté à la
variable d’environnement CLASSPATH pour permettre au programme de l’utiliser.
La première étape est de charger le pilote en utilisant la méthode Class.forName(String driver).
Cette classe permet ainsi au programme de rester totalement indépendant de la base de données
utilisée en conservant le nom du pilote dans un fichier de propriétés.
La méthode Class.forName(String driver) peut lever une exception de type
ClassNotFoundException s’ il y a une erreur lors du chargement du driver.
Voici un exemple avec le pilote de Sun utilisé pour se connecter à une base de données via ODBC
(sun.jdbc.odbc.JdbcOdbcDriver) :
4.2.4 Etablir une connexion
4.2.4.1. Définir la base de données
En premier lieu, il faut définir la base de données.
Voici comment paramétrer une source de données ODBC :
1. Ouvrir le Panneau de configuration
2. Sélectionner l'Administrateur de source de données ODBC,
3. Cliquer sur l'onglet DSN Système,
4. Cliquer sur le bouton Ajouter,
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 33
5. Sélectionner dans la liste le pilote Microsoft Access driver (*.mdb), puis cliquer sur le
bouton Terminer.)
6. Indiquer un nom pour la source de données, une description.
7. Cliquer sur le bouton Sélectionner pour définir la localisation de la base, puis sur Ok, et
fermer la fenêtre de l'administrateur de source ODBC.
Le nom de la base de données étant celui déclaré dans le panneau de configuration ODBC, c'est-
à-dire le nom du DSN. La syntaxe de l'URL peut varier légèrement selon le type de la base de
données.
Il s'agit généralement d'une adresse de la forme:
4.2.4.2. Utilisation de l’interface Connection
La connexion à une base de données se fait par le biais de l’instanciation d’un objet de
l’interface Connection.
Elle représente une session de travail avec une base de données.
L’interface Connection utilise les méthodes getConnection(…) de la classe DriverManager
pour établir la connexion avec la base de données. Pour cela, on passe l’URL de la base de
données en paramètre à la méthode.
Figure 2.3 : Fenêtre administrateur de source de données ODBC
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 34
Les méthodes getConnection(…) peuvent lever une exception de la classe
java.sql.SQLException.
La création d'une connexion simple se fait grâce à la méthode suivante :
4.2.5 Traitement des requêtes SQL
Pour traiter une requête SQL, ils y a plusieurs objets capables d'envoyer celle-ci à la base de
données :
• Statement : objet utilisé pour l'exécution d'une requête SQL statique retournant les résultats
qu'elle produit.
• PreparedStatement : utilisé lorsqu'il est nécessaire d'exécuter une requête plusieurs fois,
avec des paramètres différents.
• CallableStatement : objet utilisé pour appeler une procédure stockée.
Des instances de ces objets sont disponibles grâce à l'instance de Connection.
4.2.6 Gestion des transactions
Il existe deux façons de gérer les transactions dans une application Java:
• Grâce à l'API JDBC, en local pour chaque client, avec les méthodes appropriées.
• Grâce à l'API JTA (Java Transaction API), partagée entre plusieurs clients.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 35
4.2.7 Fermeture de connexion
Après toutes les actions effectuées sur la base de données, il faut fermer les instances qui
permettent la connexion à celle-ci.
Cette action est effectuée par l'appel de la fonction close () des objets Statement,
PreparedStatement , CallableStatement , Connection , ResultSet.
Exemple :
4.2.8 Informations de la structure de la base de données
4.2.8.1 Objet DatabaseMetaData
Il est aussi possible d'accéder aux informations de la structure de la base de données grâce à la
méthode de l'interface Connection :
4.2.8.2 Objet ResultSetMetaData
On peut facilement récupérer l'ensemble de la structure liée à une requête SQL.
Pour cela, il faut appeler la méthode : getMetaData() de l’objet ResultSet. Cette méthode
retourne un objet de type : ResultSetMetaData.
5. Conclusion
A travers ce chapitre, nous avons rappelé des notions classiques sur les bases de données
relationnelles, ainsi que l’API Java les manipulant. La plupart de ces concepts seront exploités
pour l’implémentation de l’outil de génération automatique des requêtes en Chapitre IV.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 36
Chapitre III ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 37
1. Introduction
Un des principaux problèmes rencontrés dans la conception d’un système de médiation est le
problème de définition de requêtes calculant une relation de médiation. En raison du grand
nombre de sources de données qui peuvent être impliquées (des centaines ou des milliers) et du
volume important de métadonnées les décrivant (description des schémas des sources et du
schéma global, assertions de correspondance linguistique, assertions intra-source, . . . etc.), il est
difficile d’envisager une écriture manuelle des requêtes de médiation. La question principale est
de savoir comment automatiser la génération de requêtes de médiation ?
En réponse à cette problématique, nous adoptons l’approche proposée par [SOUKANE 05] en
vue de la génération automatique de requêtes de médiation, pour le contexte relationnel.
Les schémas de médiation sont supposés, déjà définis, ainsi que l’ensemble de métadonnées.
On se place dans une approche GAV (Global As View) où chaque objet du schéma global est
défini par une requête sur les sources de données.
On peut résumer le processus de génération automatique de requêtes de médiation, calculant une
relation Rm du schéma de médiation, par les étapes suivantes :
1- Identification des relations sources pertinentes pour la définition d’une requêtes de
médiation Q du schéma de médiation, et génération des relation de mapping Ti qui sont
obtenues par la projection des relations sources sur leurs attributs communs avec la
relation Rm .
2- Identification des opérations relationnelles possibles entre les relations de mapping Ti en
fonction de leur schéma et de leurs clés, et génération du graphe d’opérations.
3- Recherche des chemins de calcul à partir du graphe d’opération pour calculer la relation
de médiation Rm.
4- Génération de requêtes de médiation déduites à partir des chemins de calcul de la relation
de médiation Rm.
Dans un premier temps, on suppose que nous sommes dans un environnement «semi
hétérogène», les conflits sémantiques liés à l’hétérogénéité des données sont supposés résolus.
Ensuite, dans le cas d’un environnement hétérogène, la notion de type étendu, pour chaque
attribut source, est introduite.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 38
2. Méta données utilisées
Avoir une bonne connaissance du schéma global et de chaque schéma local est nécessaire
dans la définition de requêtes de médiation pour répondre, au mieux, aux besoins des utilisateurs.
Nous présentons l’ensemble de métadonnées exploitées par le processus de génération de
requêtes de médiation. Certaines de ces connaissances sont prédéfinies par le concepteur du
système de médiation telles que : la description des schémas de relations, les clés des relations,
les dépendances fonctionnelles, les contraintes référentielles entre relations, et d’autres sont
ajoutées dans la base de connaissances au fur et à mesure de leur découverte automatique, au
cours du processus de génération de requêtes de médiation telles que : les correspondances
linguistiques entre les concepts des sources et les concepts du schéma de médiation, et les
correspondances linguistiques entre les relations de sources différentes.
La base de connaissances notée A est constituée de trois catégories de métadonnées à savoir :
2.1 Métadonnées au niveau des sources
Les métadonnées définies au niveau des sources décrivent le schéma de chaque source de
données, l’ensemble des relations sources appartenant à chaque schéma source, les clés des
relations, les dépendances fonctionnelles éventuelles, les attributs de chaque relation, les
assertions intra-source et inter-source entre les relations.
2.2 Métadonnées au niveau de la médiation
Les métadonnées définies au niveau de la médiation caractérisent le schéma de médiation,
l’ensemble des relations de médiation appartenant à ce schéma de médiation, les clés des
relations, les dépendances fonctionnelles éventuelles, et les attributs de chaque relation.
- Un schéma de médiation est constitué d’un ensemble de relations de médiation.
- L’ensemble d’assertions définies sur une relation de médiation est composé, essentiellement, de
dépendances fonctionnelles qui relient l’attribut clé aux attributs non clés.
2.3 Métadonnées entre la médiation et les sources
Les métadonnées entre la médiation et les sources sont des correspondances linguistiques
reliant un attribut d’une relation de médiation à un attribut d’une relation source. En d’autres
termes, un attribut A d’une relation de médiation Rm est relié par une correspondance
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 39
linguistique à un attribut B d’une relation source Ri. Cette assertion est notée a = Rm.A Ri.B
où A et B sont deux attributs équivalents liés par une correspondance linguistique (synonymie,
abréviations, équivalence linguistique des noms).
Ces métadonnées permettent de résoudre les conflits sémantiques au niveau du schéma liés à
l’utilisation d’une terminologie différente pour designer deux concepts identiques. Par exemple,
l’attribut prix dans la relation de médiation Rm et l’attribut prix-produit dans la relation source Ri
sont reliés par une correspondance linguistique (équivalence des noms) sous la forme de
a = Rm.prix Ri.prix-veh pour désigner qu’il s’agit bien du même concept.
Ces métadonnées n’existent pas au préalable dans la base de connaissances, elles sont
recherchées, automatiquement, et ajoutées au fur et à mesure de leur découverte au cours du
processus de génération de requêtes de médiation.
3. Recherche des relations de mapping
3.1 Recherche des mapping étendus
La première étape de la génération de requêtes de médiation consiste à identifier les relations
sources pertinentes au calcul de la relation de médiation Rm, et à générer des relations de
mapping Ti qui sont obtenues par la projection des relations sources sur leur attributs communs
avec la relation Rm.
Pour une relation de médiation donnée Rm, la recherche des relations de mapping s’effectue en
considérant, successivement, les relations de chaque source de données. Pour chaque relation
source Ri, chaque attribut B de Ri est comparé aux attributs de la relation de médiation en se
basant sur les correspondances linguistiques définies entre un attribut d’une relation source et un
attribut d’une relation de médiation.
Lorsque l'ensemble des attributs communs noté E, entre la relation de médiation et la relation
source, est différent de l'ensemble vide, les clés primaires et étrangères sont recherchées en se
basant sur les dépendances fonctionnelles, les contraintes référentielles et sur les assertions inter-
source. Les relations obtenues sont alors appelées relations de mapping étendu.
L'ensemble des relations de mapping étendu associées à une relation de médiation sur l'ensemble
des sources S est noté Me. L'algorithme suivant illustre le principe de la recherche des relations de
mapping étendu.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 40
3.2 Recherche des mapping de transition
Une fois les relations de mapping étendu Ti générées, le but est de trouver des
opérations relationnelles pour les combiner, lorsqu' il n'y pas d'attributs communs entre deux
relations de mapping étendu Ti et Tj, aucun opérateur relationnel ne peut leur être appliqué. Cela
revient donc à chercher en plus des relations de mapping étendu, une ou plusieurs relations dans
les sources pouvant être utilisés pour combiner les deux relations de mapping. Nous désignons
ces relations par des relations de transition.
La recherche des relations de mapping de transition pour une relation de médiation particulière
revient à chercher, pour chaque paire de relations de mapping étendu (Ti, Tj) entre lesquelles
aucune assertion n'est définie, s'il existe, parmi les assertions définies dans la base de méta-
connaissances A une séquence d'assertions permettant de lier la relation Ri(respectivement Rj) à
d'autres relations sources hormis les relations contributives. Ri et Rj sont les relations sources qui ont
conduit à dériver Ti et Tj.
La recherche des séquences d'assertions est effectuée par une procédure qui est appelée par
l'algorithme de recherche des transitions. Cette procédure prend en entrée les relations source Ri et
Rj et la base de connaissances A. Elle cherche, pour toute assertion a contenue dans la base A, s'il
existe un lien entre la relation d'origine Ri avec d'autres relations. S'il existe, la procédure concatène
l'assertion a identifiée à la séquence d'assertions courante notée SeqCourante, elle continue à
Algorithme 1 : Algorithme de recherche de mapping étendu
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 41
chercher des assertions jusqu'à ce qu'elle identifie une séquence d'assertions pertinente
permettant de lier la relation origine Ri à la relation cible Rj. RechercheSéquence est une procédure
complexe et récursive, elle cherche toutes les séquences possibles entre Ri et Rj.
Une fois les séquences d'assertions calculées, l'algorithme de recherche de transitions prend en
entrée les séquences d'assertions pertinentes contenues dans l'ensemble SéqTrouvée, il déduit, pour
chaque séquence pertinente, la (les) relation(s) de transition. Ces relations sont obtenues par la
projection des relations sources intermédiaires sur leurs attributs clés.
L'ensemble des relations de mapping de transition associées à une relation de médiation sur
l'ensemble des sources S est noté Mt.
Ci-dessous est donné le principe de l'algorithme de recherche de mapping de transition et le
principe de la procédure de recherche de séquence.
Algorithme 3 : procédure de recherche de séquence d’assertions
Algorithme 2 : Algorithme de recherche de mapping de transition
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 42
4. Recherche du graphe d’opération
Étant donné l'ensemble de relations de mapping étendu Me, et l'ensemble de relations de
mapping de transition Mt générés par la recherche des relations de mapping, le but de cette étape
est de trouver les opérations relationnelles susceptibles de combiner chaque paire de relations en
tenant compte des métadonnées.
La recherche de ces opérations est guidée par des règles d'intégration spécifiées sur les
connaissances. Ces règles d'intégration permettent, pour une relation de médiation
particulière, de déterminer l'ensemble des jointures candidates, et ce pour chaque paire de
relations de mapping. Une opération de jointure déterminée entre deux relations de mapping peut
combiner soit une relation de mapping étendu avec une autre relation de mapping étendu,
soit une relation de mapping étendu avec une relation de transition, ou encore une relation de
transition avec une autre relation de transition. L'ensemble de ces opérateurs est représenté par un
graphe d'opérations noté GRM où chaque nœud correspond à une relation de mapping, et chaque
arc entre deux nœuds correspond à une jointure candidate déterminée à l'aide d'une règle
d'intégration.
Règle 1 : Si les deux relations appartiennent à la même source et que leurs schémas ne sont pas
disjoints, et où l'une des relations référence l'autre, alors l'opération candidate est une jointure
naturelle déterminée par la règle suivante :
Règle 2 : Si les deux relations n'appartiennent pas à la même source de données, on ne pourra
pas disposer de contraintes référentielles auquel cas on utilisera la correspondance linguistique
entre deux attributs, où l'un des deux attributs est clé dans l'une ou l'autre des relations. Dans ce cas, la
règle d'intégration est la suivante :
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 43
Compte tenu de ces règles d’intégration, nous présentons ci-dessous le principe de l'algorithme de
recherche du graphe d’opération.
5. Recherche des chemins de calcul et définition des requêtes de médiation
Les règles d’intégration permettent, pour une relation de médiation et pour l’ensemble de
relations de mapping associées, de déterminer l’ensemble des opérations de jointures candidates,
et ce pour chaque paire de relations de mapping. L’ensemble de ces opérations est représenté
dans le graphe d’opérations décrit précédemment, où chaque nœud correspond à une relation de
mapping, et chaque arc entre deux nœuds correspond à un opérateur candidat déterminé à l’aide
d’une règle d’intégration.
La génération de requêtes de médiation se fait en recherchant des chemins de calcul dans le
graphe d’opérations GRM.
Un chemin de calcul CRM associé à la relation de médiation Rm est un sous-graphe connexe et
acyclique du graphe GRM où chaque attribut de la relation de médiation est équivalent à un
attribut figurant dans le sous-graphe. En d’autres termes, chaque attribut de la relation de
médiation figure dans au moins une des relations de mapping du sous graphe. Il peut arriver que
tous les attributs de Rm figurent tous dans une seule relation de mapping. Dans ce cas, le chemin
de calcul est constitué d’un seul nœud représentant une relation de mapping.
Algorithme 4 : Algorithme de recherche du graphe d’opérations
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 44
L’algorithme de recherche des chemins de calcul est un processus récursif complexe qui consiste
à chercher dans le graphe de jointures GRM tous les chemins possibles permettant de calculer la
relation de médiation Rm.
Il prend, en entrée, le graphe d’opérations et la relation de médiation. Il teste tout d’abord pour
une jointure donnée reliant deux relations de mapping si tous les attributs de la relation de
médiation figurent dans les deux relations, si oui un chemin de calcul est déjà identifié, sinon il
ajoute la jointure J au chemin de jointures courant ChemCourant et il continue à chercher dans
le graphe une jointure ayant un lien avec le chemin de jointures courant jusqu’à ce qu’il trouve
un chemin de calcul pertinent où tous les attributs de Rm figurent. Un lien entre une jointure
donnée et un chemin courant est établi si l’extrémité droite ou gauche de la jointure est égale à
l’une des extrémités du chemcourant.
Le processus de recherche des chemins de calcul est réitéré jusqu’à ce tous les chemins possibles
soient identifiés.
6. Prise en compte de l’hétérogénéité
Lors du processus de génération de requêtes de médiation, deux types de conflits liés à
l’hétérogénéité des sources sont distingués à savoir :
- les conflits sémantiques liés au schéma,
- les conflits sémantiques liés aux données.
Algorithme 5 : Algorithme de recherche des chemins de calcul
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 45
A- les conflits sémantiques liés au schéma,
L’utilisation d’une terminologie différente pour désigner deux concepts identiques entraîne la
présence de conflits sémantiques liés au schéma. Par exemple, dans une relation de médiation
produit (Num-produit, désignation, prix) et dans la relation produit (Num-produit, désignation,
prix-produit), les attributs prix et prix-produit ont deux terminologies différentes mais une
sémantique identique.
B- les conflits sémantiques liés aux données.
La provenance de données de diverses origines, leur saisie à des moments distincts par des
personnes différentes qui n’ont pas la même perception du réel, et qui utilisent des conventions
différentes entraîne ce type de conflits. Par exemple, différence d’unité de mesure, de précision,
d’échelle, de format de date, etc.
6.1 Les métadonnées utilisées
En plus des métadonnées décrites dans la base de connaissances initiale, il existe :
- Un dictionnaire linguistique automatique pour détecter et résoudre automatiquement les conflits
liés au schéma,
- Un type étendu d’un attribut pour détecter les conflits sémantiques liés aux données,
- Une librairie de fonctions de transformations pour transformer les données hétérogènes et
garantir leur conformité mutuelle et leur conformité par rapport au schéma global.
6.2 Exploitation des métadonnées
L’approche présentée ici consiste à revisiter chaque étape principale de l’algorithme de
génération de requêtes de médiation afin de détecter et de résoudre les conflits liés à
l’hétérogénéité des sources au cours du processus de génération de requêtes de médiation.
On ajoute trois procédures : Compare, CheckType et Search qui exploitent les métadonnées
précédentes à savoir le dictionnaire linguistique, le type étendu, et la librairie de fonctions de
transformations pour l’identification et la résolution des conflits liés à l’hétérogénéité des
données. Ces procédures sont appelées au cours de la génération de requêtes de médiation.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 46
Nous présentons le principe et la spécification de chaque procédure.
La procédure Compare
Elle prend comme paramètres d’entrée un attribut A de la relation de médiation Rm et un
attribut B d’une relation source R. Elle teste tout d’abord la correspondance linguistique des
attributs A et B en utilisant le dictionnaire linguistique. Si A et B sont sémantiquement
équivalents(A B), elle appelle la procédure CheckType (algorithme 7) sinon elle retourne
faux.
La procédure CheckType
Elle est appelée pour détecter les conflits sémantiques liés aux données entre les attributs A
et B. Elle exploite le type étendu des attributs. Elle prend comme paramètres d’entrée le type
étendu de l’attribut A et le type étendu de l’attribut B.
Algorithme 6 : La procédure Compare
Algorithme 7 : La procédure CheckType
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 47
La procédure Search
Elle prend comme paramètres d’entrée l’élément ei à traiter (ex : unité), sa valeur en entrée
(ex : francs) et sa valeur en sortie (ex : euros), elle exploite la librairie de fonctions et cherche
une fonction de transformation f qui a une valeur de paramètre d’entrée (valeur_in) égale à la
valeur de l’élément ej et qui a une valeur de paramètre de sortie (valeur_out) égale à la valeur de
l’élément ei. Si cette fonction existe, la procédure Search retourne la fonction f, la procédure
CheckType retourne vrai et l’ensemble de fonctions CF, Compare retourne vrai et l’ensemble de
fonctions de transformation CF, sinon CheckType et Compare retournent faux.
7. Conclusion
Lors de la conception d’un système de médiation, la définition de requêtes de médiation est
l’une des tâches les plus complexes à effectuer manuellement, surtout lorsque le nombre de
sources et le volume de métadonnées qui les décrivent sont importants. Cette complexité se
multiplie avec présence de données hétérogènes dans les sources. Ainsi, l’automatisation de la
génération de ces requêtes constitue, sans aucun doute, une avancée importante pour les
systèmes de médiation. Le chapitre suivant va donner l’implémentation des différents
algorithmes vus précédemment.
Algorithme 8 : La procédure Search
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 48
Chapitre IV ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Implémentation
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 49
1. Introduction
L’ensemble des algorithmes spécifiés dans le chapitre III ont été implémentés et composés
pour former un outil de génération des requêtes de médiation dans le contexte relationnel.
L’implémentation du notre prototype de génération automatique des requêtes de médiation a été
réalisée en Java (JDK 1.6), sous l’IDE NetBeans 6.8 et la méta-base est stockée sous Microsoft
Access.
2. Architecture générale
Notre prototype de génération automatique des requêtes de médiation comporte,
essentiellement, une Meta-Base et sept modules : comme le montre la figure 4.1.
� 1) interface graphique utilisateur.
� 2) interface graphique administrateur.
� 3) recherche des relations de mapping.
� 4) recherche des relations de transitions.
� 5) recherche des opérations de jointures.
� 6) recherche des chemins de calcul.
� 7) génération de requêtes de médiation.
Figure 4.1 : Architecture du prototype de génération automatique des requêtes de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 50
L’interface graphique administrateur permet de mettre à jour (ajout, suppression et modification)
toutes les métadonnées utilisées pour la génération des requêtes de médiation.
L’interface graphique utilisateur permet d’interagir avec les cinq autres modules, et de montrer
au fur et à mesure les résultats de chaque module du processus de génération des requêtes.
Tous les modules communiquent avec la méta-base, les résultats produits sont également stockés
dans cette dernière.
3. Description de la méta-base
La méta-base exploitée par le processus de génération des requêtes est constituée de :
� Métadonnées au niveau de la médiation : la description du schéma global
(Schéma_Médiation) comporte les schémas des relations de médiation, les clés des
relations. Chaque relation (Relation_Médiation) est constituée d’un ensemble d’attributs
de médiation (Attribut_Médiation), et pour chaque attribut d’une relation son type étendu
(Element_Médiation).
� Métadonnées au niveau des sources : la description du schéma local (Schéma_Source)
à chaque sources de données comporte les schémas des relations sources, les clés des
relations. Chaque relation (Relation_Source) est constituée d’un ensemble d’attributs
source (Attribut_Source), et pour chaque attribut d’une relation, son type étendu
(Element_Source).
� Métadonnées au niveau intermédiaire : ce niveau décrit les assertions intra-source
(Contrainte_Ref) définies entre deux attributs d’une même source, les assertions inter-
source (Corresp Ling (S-S)) définies entre deux attributs de sources différentes, les
correspondances linguistiques (Corresp Ling (S-M)) définies entre un attribut médiation
et un attribut source, et les fonctions de transformations (Fonction) qui transforment la
valeur d’un élément du type étendu d’un attribut source en une autre valeur.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 51
4 La description des différents modules
4.1 La recherche des relations de mapping étendu
Ce module permet d’identifier les relations sources pertinentes au calcul de la relation de
médiation, et de générer, en sortie, les relations de mapping étendu. Les fonctionnalités de ce
module se trouvent dans la classe MappingEtendu.
Il récupère les méta-données relatives à un schéma de médiation, a partir de l’accès via JDBC à
la Méta-Base.
Il appelle la classe Compare qui a pour objectif de mettre en conformité les données hétérogènes
par rapport au schéma global, cette classe prend en paramètres d’entrée un attribut de médiation
et un attribut source, et pour chaque attribut son type étendu, elle compare tout d’abord
l’équivalence linguistique entre les deux attributs, et ensuite elle compare terme à terme chaque
élément du type étendu de l’attribut de médiation avec chaque élément du type étendu de
l’attribut source, elle accède à la table Fonction de la méta-base par la classe Connexion Meta-
base, elle retourne en paramètre de sortie un ensemble de fonctions de transformations CF.
Diagramme 1 : La recherche des relations de mapping étendu
Figure 4.2 : La description du Méta-Base
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 52
4.2 La recherche des relations de transition
Ce module identifie des relations sources intermédiaires pour établir des liens entre les
relations de mapping étendu.
Les fonctionnalités de ce module se trouvent dans la classe MappingTransition.
Il prend en paramètre d’entrée l’ensemble de relations de mapping étendu généré par la classe
MappingEtendu. Il appelle la classe RechercheSeq qui a pour objectif de calculer la séquence
d’assertions entre chaque paire de relations de mapping étendu.
La classe MappingTransition accède, via un accès JDBC, à la méta-base des tables
Contrainte_Ref et Corresp Ling (S-S), elle retourne en sortie un ensemble de séquences
d’assertions pertinentes entre chaque relation de mapping étendu.
Lorsque deux relations de mapping étendu n’appartiennent pas à la même source, la classe
MappingTransition appelle la classe Compare pour gérer les conflits liés à l’hétérogénéité des
données qui génère en sortie un ensemble de fonctions de transformations CF.
Le diagramme de classe suivant montre les fonctionnalités de ce module :
4.3. La recherche des opérations de jointures
Ce module identifie les jointures candidates pour combiner les relations de mapping.
Il génère en sortie un graphe d’opérations de jointures.
Les fonctionnalités de ce module se trouvent dans la classe GrapheOperations.
Il prend comme paramètres d’entrée l’ensemble de relations de mapping étendu Me et
l’ensemble de relations de mapping de transition Mt, il récupère via un accès JDBC les tables
Contrainte_Ref et Corresp Ling (S-S).
Diagramme 2 : La recherche des relations de transition
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 53
Cette classe appelle aussi la classe Compare pour détecter et résoudre les conflits liés à
l’hétérogénéité des données qui génère un ensemble de fonctions de transformations.
Diagramme 3 : La recherche des opérations de jointure
4.4 La recherche des chemins de calcul
Ce module a pour objectif d’identifier les chemins de jointure au calcul d’une relation de
médiation.
Il génère en sortie un ensemble de chemins de calcul.
Les fonctionnalités de ce module se trouvent dans la classe RechercheChemin.
Il prend comme paramètres d’entrée la relation de médiation et le graphe d’opérations généré par
la classe GrapheOperations.
La classe RechercheChemin énumère tous les chemins de jointures possibles depuis le graphe de
jointures et génère en sortie un ensemble de chemins.
Le diagramme de classe suivant montre les fonctionnalités de ce module :
Diagramme 4 : La recherche des chemins de calcul
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 54
4.5 La recherche des requêtes de médiation
Ce module a pour objectif de générer les requêtes de médiation relatives à une relation de
médiation particulière. Il génère en sortie des requêtes SQL.
Les fonctionnalités de ce module se trouvent aussi dans la classe RechercheChemin.
Cette classe déduit des requêtes SQL à partir des chemins de calcul.
Le diagramme de classe suivant montre les fonctionnalités de ce module :
5 Scénario de fonctionnement
Le prototype implémenté génère les requêtes de médiation, qui à partir des schémas sources
et de médiation, produit un ensemble de requêtes potentiel calculant cette relation. Pour ce faire,
l’administrateur doit configurer d’abord la Méta-Base, pour que l’utilisateur puisse générer les
requêtes de médiation.
5.1 Administrateur
La fenêtre suivante regroupe les tâches effectuées par l’administrateur.
Diagramme 5 : La génération des requêtes de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 55
� 1 : Ce bouton permet d’accéder à une autre fenêtre pour configurer la connexion aux bases de données (médiation et sources de données), comme le montre la figure 4.4.
� 2 : Ce bouton permet d’ouvrir une autre fenêtre pour ajouter, supprimer ou modifier une relation de médiation, comme le montre la figure 4.5.
� 3 : Ce bouton affiche une fenêtre où l’administrateur procède à la configuration de la méta-Base, comme le montre la figure 4.6.
� 4 : Ce bouton permet d’afficher une fenêtre qui contient des informations sur la session administrateur qu’il peut modifier, comme le montre la figure 4.7.
5.1.1 Configuration des connexions aux bases de données
L’administrateur configure les connexions en spécifiant leur pilote, adresse URL, login, et leur mot de passe, pour le schéma de médiation et pour les sources de données.
Figure 4.3 Interface Administrateur
Figure 4.4 Configuration de la méta-base
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 56
5.1.2 Fenêtre de création d’une relation de médiation
5.1.3 La configuration de la méta-base
Cette fenêtre permet de configurer la Méta-Base en suivant les étapes :
� 1 : permet de charger automatique les informations sur le schéma médiation via la Méta-Base.
� 2 : charge automatiquement les informations sur les sources. � 3 : permet d’ouvrir la fenêtre de configuration du type étendu d’un attribut. � 4 : pour ouvrir la fenêtre de configuration des contraintes linguistiques inter-sources. � 5 : pour ouvrir la fenêtre de configuration des contraintes linguistique source-médiation. � 6 : pour ouvrir la fenêtre de configuration des contraintes référentielles. � 7 : pour ouvrir la fenêtre de configuration de la liste des fonctions.
Figure 4.6 Configuration de la méta-base
Figure 4.5 Création d’une relation de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 57
5.1.4 Fenêtre de gestion des Comptes
5.2 Partie Utilisateur
La fenêtre principale de l’utilisateur de notre prototype se présente comme suit :
L’utilisateur peut consulter la base de méta connaissances pour demander la génération des requêtes de médiation selon les étapes suivantes :
Figure 4.7 Gestion des comptes
Figure 4.8 Fenêtre utilisateur
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 58
5.2.1 Fenêtre de génération des relations de mapping étendu
L’utilisateur peut choisir le schéma et la relation de médiation comme le montre la figure 4.9
5.2.2 Fenêtre de génération des relations de mapping transition
Figure 4.9 Fenêtre de mapping étendu
Figure 4.10 Fenêtre de mapping de transition
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 59
5.2.3 Fenêtre de génération des opérations de jointure
5.2.4 Fenêtre Génération des chemins de calcul
Figure 4.11 Fenêtre de génération des opérations de jointure
Figure 4.12 Fenêtre de génération des chemins de calcul
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 60
5.2.5 Fenêtre Génération des requêtes de médiation Une fois les chemins de calcul générés, le but est de déduire une requête de médiation qui calcule la relation de médiation. Chaque chemin de calcul peut dériver une requête SQL, comme le montre la figure 4.13.
6 Conclusion
Le processus de génération de requêtes de médiation pour le contexte relationnel tente de
trouver toutes les requêtes de médiation possibles au calcul d’une relation du schéma de
médiation. Ceci rend le processus de génération automatique ardu, complexe et difficile à
maîtriser.
Nous avons vu, à travers ce chapitre, qu’il est possible de générer, dans des temps raisonnables,
des requêtes de médiation, malgré la difficulté de la tâche.
Pour arriver à ces résultats, nous sommes confrontés avec la complexité et l’indispensabilité des
API manipulant les métas donnés en java. Le prototype réalisé a été implémenté en Java utilisant
NetBeans IDE6.8. L’ensemble des classes développées comptent plus de 2500 lignes de code.
Cette petite expérience nous a montré la faisabilité de l’automatisation des différentes phases de
génération des requêtes de médiation, dans un contexte relationnel.
Figure 4.13 Fenêtre de génération des requêtes de médiation
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 61
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Conclusion générale ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 62
Conclusion et Perspectives
Le problème de définition des requêtes de médiation est un problème complexe en raison de la
grande diversité des sources hétérogènes et distribuées qui peuvent intervenir dans un système de
médiation et du grand volume de métadonnées qui les décrivent, mais aussi en raison des conflits
liés à l’hétérogénéité des données qui peuvent exister entre deux sources de données.
Face à cette problématique, nous avons réalisé, pour le contexte relationnel, un outil de
génération automatique des requêtes de médiation.
Etant donné le schéma d’une relation de médiation, de dépendances fonctionnelles définies sur
cette relation, d’assertions de correspondance linguistique existant entre les sources et le schéma
de médiation, et d’assertions intra-source et inter-source reliant les relations sources entre elles,
cet outil peut produire un ensemble de requêtes potentiel calculant cette relation, tenant en
compte des conflits liés à l’hétérogénéité des sources, et s’appuyant sur un ensemble de
connaissances regroupées dans une base de méta-connaissances.
La conception du prototype réalisé est modulaire, ce qui lui permet d’être amélioré par de
nouvelles fonctionnalités dont :
- Adaptation du système de génération de requêtes de médiation au contexte XML et Objet
- Implémenter un gestionnaire de coûts et de statistiques pour tester les performances de
l’outil en vue de son passage à l’échelle.
- Intégrer des ontologies locales au niveau des sources et une ontologie de domaine au
niveau du médiateur pour faciliter l’ajout de nouvelles sources . . . etc.
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 63
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Bibliographie ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 64
Bibliographie [BAR 03] Xavier BARIL. Un modèle de vues pour l’intégration de sources de données XML :
VIMIX. Thèse de Doctorat en Informatique, de l’Université des sciences et techniques du
Languedoc. Décembre 2003.
[RAH 05] Ahmed RAHNI. AMIDHA : Une approche médiateur d’intégration de sources de
données hétérogènes et autonomes. Mémoire de stage effectué à l’ENSMA, Université de
Poitiers. Juillet 2005.
[HUL 97] R. Hull. Managing semantic heterogeneity in databases: A theoretical perspective.
Proceedings of the Sixteenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of
Database Systems, pages 51–61, May 1997.
[BOUSSIS 08] Amel Boussis , Intégration de sources de données à base ontologique dans un
environnement P2P, Thèse de magistère. L'institut national d'informatique 2008.
[WIE92] Wiederhold G. Mediators in the architecture of future information systems. IEEE
computers, March 1992.
[ROU 02] Wiederhold G, Mediators in the architecture of future information systems. IEEE
computers, 25(3), p 38J49, March
[GARD 05] Georges Gardarin, Tuyet-Tram Dang-Ngoc "Intégration de données hétérogènes
distribuées", Cours N°8, 2005.
[SOUKANE 05] Assia soukane, « génération automatique des requêtes de médiation dans un environnement hétérogène », Thèse de doctorat,université de versailles saint-quentin yvelynes Décembre 2005 [Oliv05] : JDBC connexion à une base de données ; Olivier Corgeron; version n°02 16 mai 2005.
Webographie [Dev09] : url : http://laurent-audibert.developpez.com/Cours-BD/html/
Titre : Base de Données et Langage SQL Auteur : Laurent Audibert, décembre 2009
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 65
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Glossaire ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 66
Glossaire XML [ eXtensible Markup Language]
XML est un langage de balises analysable, destiné à une diffusion à grande échelle sur le Web, lisible par l’homme, flexible et adaptable.
HTML [ Hyper Text Markup Language]
C’est un standard web reconnu par tous les navigateurs, permettant la mise en forme d’un texte.
P2P [Peer to Peer]
Communication de pair à pair, les deux machines qui communiquent
sont sur un pied d'égalité elles peuvent être toutes les deux client ou serveur.
SQL [Structured Query Language]
SQL est un langage de requêtes de base de données, ce langage permet de poser des requêtes complexes à une base de données le supportant, par exemple : DB2, Oracle,…
GAV [Global-as-View]
C’est une approche de médiation descendante où chaque objet du schéma global est
défini par une requête sur les sources.
LAV [ Local as View]
C’est approche de médiation ascendante où chaque objet d’une source
de données est défini par une requête sur le schéma global.
SGBD [System de Gestion de Base de Données]
C’est un système qui permet de stocker et manipuler les données.
SGBDR [System de Gestion de Bases de Données Relationnelles]
Système de Gestion de base de données Relationnel. RDB ou RDBMS en anglais. Un
SGBDR est un système ou les données sont organisées en fonction de leur utilisation
(données fixes dans une table, données variables dans une autre, etc.).
Génération automatique des requêtes de médiation dans un contexte relationnel
________ 67
API [Application Programming Interface]
Interface de programmation d'applications, contenant un ensemble de fonction courantes
de bas niveau, bien documentées, permettant de programmer des applications de « Haut
Niveau ».
JDK [Java Development Kit]
Environnement de développement de Sun permettant de produire du code Java
Et servant de référence.
ANSI/ISO [American National Standard Institute/ International Standard Organization]
ANSI : Organisme de normalisation américain, constitué de producteurs, de consommateurs
et de groupes d'intérêt général, et qui est le représentant US à l'ISO.
ISO : Organisation internationale de standardisation.
JDBC [Java Data Base Connectivity]
C’est une API Java composée d’interfaces, comme DriverManager et Connection, pour interagir avec les bases de données relationnelles : exécuter des requêtes SQL et récupérer les résultats.
ODBC [Open Data Base Connectivity]
C’est une interface d’accès aux base de données SQL, conçue par Microsoft.
DSN [Data Set Name]
Il permet de faire un lien avec une base de données ODBC.
IDE [Integrated Development Environment]
Environnement de développement intégré, réunissant tous les outils nécessaires
à la création d'applications.