Upload
api-3750267
View
316
Download
1
Embed Size (px)
Citation preview
1
Michèle RaphalenV 1.1 octobre 2002
Systèmes d’information décisionnels
DESS ASIR
Université de Bretagne Sud / UFR SSI
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen2
Plan• Entrepôts de données
- définition et objectifs- architecture- alimentation, restitution
• Systèmes d’information décisionnels vs systèmes d’informationopérationnels
- modélisations multidimensionnelles- schéma en étoile, flocon- MOLAP, ROLAP, MROLAP
• Optimisation- agrégation- indexation- fragmentation- parallélisme
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen3
Bibliographie (1)� Inmon W.H. “ Building the data warehouse ”
Wiley Computer publishing, 1996� Bracket M.H.“ The data Warehouse challenge - taming data chaos ”
Wiley Computer publishing, 1996� Kimball R.“ Entrepôts de données ”
International Thomson publishing, 1997� Kimball R. et all.“ The data warehouse lifecycle toolkit : expert methods for designing,
developping and deploying a data warehouse ”Wiley Computer publishing, 1998
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen4
Bibliographie (2)� Goglin J.F.“ La construction du data warehouse ”
Hermes, 1998� Kimball R. et all.“ Concevoir et déployer un data warehouse ”
Eyrolles, 2000� Franco J.M., De Lignerolles S. “ Piloter l’entreprise grâce au data warehouse ”
Eyrolles, 2000� Morin A., Bosc P., Hébrail G., Lebart L.“ Bases de données et statistique ”
Dunod, 2002� Actes du colloque “ Entrepôts de données et décisionnel ”
IFSIC/IRISA, Rennes, novembre 2001� Documentation Oracle, “ Data warehousing fundamentals ”, Vol. 1, 2, 3
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen5
Système d’information décisionnel
• Pilotage� décider, anticiper en fonction de l’information disponible
� capitaliser sur les expériences
� améliorer les performances de l’entreprise· compétition
– intégrer dans le système décisionnel de données externes caractérisant le marchéde la concurrence
· personnalisation– proposer aux clients des produits adaptés à leurs profils
augmentation du rendement des actions commerciales et marketing
adaptation des services fournis
fidélisation de la clientèle
...
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen6
Système d’information décisionnel
Système d’information
opérationnel
Système d’information
décisionnelApplicationsde production
Applicationsd’aide à la décision
Traitements factuels
OLTP
Traitements ensemblistes
OLAP
asynchronisme
BD dédiée
2
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen7
Système d’information décisionnel
• Ensemble de données organisées� de façon spécifique� facilement accessibles� appropriées à la prise de décision
· pilotage de l’entreprise� vision transversale aux structures fonctionnelles ou organisationnelles
Client
Service commercial Facturations
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen8
Système d’information décisionnel
• Problème posé� sélectionner l’information juste et utile
� stocker l’information correctement
� restituer l’information
contrôler, homogénéiser, organiser, intégrer les données
pour en avoir une vision « orientée métier »
� navigation dans les données
• Support : entrepôt de données
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen9
Système d’information décisionnel : ED
Entrepôt de données (Data Warehouse - DWH)Infrastructure pour l’acquisition, l’agrégation, la synthèse de données factuellesdistribuées et hétérogènes.
Bases de production
Données internes
Données externes
Alimentation
ETLRestitution
AcquisitionContrôle
Stockage Accès
Datamarts, cubes
TableursTableaux de bord (EIS)OLAPRequêteursFonctions d ’agrégationData miningSimulationPrédictionSegmentationCorrélationClassificationRéseaux de neurones...
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen10
Système d’information décisionnel : ED
• Acquisition / Contrôle
� Collecter les données utiles· Identifier les données à extraire· Planifier les extractions
� Contrôler l’intégrité et la qualité des données· Maîtriser la codification de l’information
� Préparer les données· Transformer les caractéristiques des données issues du système
opérationnel dans la forme requise pour l’entrepôt– correspondance des formats,– nettoyage, consolidation (données manquantes, aberrantes, doublons)– agrégation
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen11
Système d’information décisionnel : ED
• Acquisition / Contrôle
� Accès au référentiel des données· Localisation et structure des sources· Structure cible· Règles de transformation· Règles de sécurité
� Charger les données dans l’entrepôt
Outils spécifiques pour le processus d’acquisition
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen12
Système d’information décisionnel : ED• Stockage
� Support du stockage : SGBD· Accès décisionnel· Optimisations pour accélérer les accès et les regroupements
ensemblistes
� Structuration des données· Partitionnement physique des tables
– Horizontal, vertical
� Doit permettre d’évoluer en fonction des besoins de l’entreprise· Évolution matérielle et logicielle
3
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen13
Système d’information décisionnel : ED• Accès
� Groupes d’utilisateurs
· Simple visualisation des données (tableaux de bord)
· Navigation dans les données structurées le long de dimensions : OLAP
· Accès libre sur des données faiblement structurées, sans chemind’accès prédéfinis
· Analyses plus sophistiquées : Data mining
– Segmentation, modèles de prévision, simulations, analyses d’impact…
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen14
Système d’information décisionnel : ED
Mise en oeuvre
Bases de
productionAcquisition
ContrôleStockage Accès
Infrastructure opérationnelle
Infrastructure technique
Application 1
Application n...
Définition du périmètre- acteurs concernés ?- périodicité des analyses ?- enjeux des retombées sur l ’activité de l ’entreprise ?
- administration du SGBD- administration des données
Choix technologiques- quelle utilisation ?- quelle architecture ?- quels volumes traités ?- capacité du réseau ?- localisation des données sources ?
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen15
Système d’information décisionnel : ED• Infrastructure technique
� choix des composants matériels
� choix des composants logiciels
en général, en conformité avec l’existant
• Infrastructure opérationnelle� administration des données (gestion des flux de données, contrôle de la qualité)
� gestion des utilisateurs (support + administration des droits d’accès)
� exploitation du SID (gestion des performances, de la sécurité)
• Applications
spécification mesuresdéploiementmise en oeuvreconception
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen16
Système d’information décisionnel : ED
• Définition d’un ED (Bill Inmon)
Collection de données· orientées sujet
· intégrées
· historisées
· non volatiles
organisées pour le support d’un processus d’aide à ladécision.
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen17
Système d’information décisionnel : ED• Données orientées sujet
� Structuration par thèmes, vs processus fonctionnels
� Collection d’un ensemble d’informations sur un sujet transversal(ex : le client)
� Intégration de différents sujets dans une structure commune, évitant dedupliquer l’information
� Orientation sujet supportée par les datamarts
� Développement progressif et itératif du SD sujet/sujet
marketing ventes analyses financièresmarketing ventes analyses financières
clientclient client clientclient
client
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen18
Système d’information décisionnel : ED
• Données orientées sujet : exemples
� Client
� Produit
� Appels téléphoniques
� Réservations de passagers
� Sinistres
4
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen19
Système d’information décisionnel : ED• Données intégrées
� Provenant de différents systèmes opérationnels
� Constituant un ensemble unique d’information consolidée,homogénéisée
� Codification unique et pertinente de la même information· Conventions de nommage
· Structures de codage (ex : date, sexe, …)
· Qualification des mesures
· Intégration de sémantique
Phase de nettoyage des données délicate, longue, coûteuse(60% du coût)
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen20
Système d’information décisionnel : ED
• Données intégrées
� Unification de codage
� Problème des données manquantes· Ex : le produit X n’a pas été vendu dans un magasin Y durant la période P
M, F
0, 1
H, F
homme, femme
M, F
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen21
Système d’information décisionnel : ED• Données intégrées
� Inconsistances
numV
124
couleurV
AzurVermillon
Vert
numV
1234
couleurV
BleuBleu
RougeVert
numV
112234
couleurV
AzurBleu
VermillonBleu
RougeVert
U
ruby
rougebleu
B clair
vert
B foncé
azur
vermillon
…
précision
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen22
Système d’information décisionnel : ED• Données intégrées
� Définition de la granularité des données (niveau d’agrégation)
niveau de détail BD production (système opérationnel)
�
niveau de détail entrepôt (système décisionnel)
Dupont01/10/2002 14H00 – 14H05 local02/10/2002 18H00 – 18H10 local02/10/2002 20H30 – 20H42 distant03/10/2002 08H00 – 08H03 local03/10/2002 21H00 – 21H08 distant04/10/2002 16H00 _ 16H15 local05/10/2002 07H30 – 07H40 local05/10/2002 12H12 – 12H15 local06/10/2002 19H45 – 19H57 distant06/10/2002 14H00 – 14H05 local06/10/2002 15H00 – 15H04 local…
Octobre 2002DupontNombre d’appels : 50Nombre d’appels locaux : 35Nombre d’appels distants : 15Durée moyenne d’un appel : 11 mn…
SELECT fns d’aggrégat (MIN, MAX, SUM, COUNT, AVG, …) FROM …GROUP BY …
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen23
Système d’information décisionnel : ED• Données historisées (référentiel de temps)
� Suite de clichés des données à différentes dates
· Date = attribut de la donnée
minute, heure, jour, semaine, mois, …
· Analyse des tendances
� Détermination de la périodicité des rafraîchissements de données
D (t0)
D (ti)
D (tn)
purge
archivage
INSERTUPDATEDELETE
SELECT …
rafraîchissements
1er chargement
BDproduction
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen24
Système d’information décisionnel : ED• Données non volatiles (cf historisation)
� Conservation de l’information pendant une certaine durée (5 ans)
� Stabilité des résultats« la même requête doit toujours donner le même résultat »
� Volumétrie très importante
INSERTUPDATEDELETE
SELECT …
rafraîchissements
1er chargement
BDproduction
purge
archivage…
5
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen25
Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub
• Sujets
� Comportement de la clientèle
� Comportement du réseau
� Suivi du marché : lignes, services, …
• Historique� 1 an pour le comportement de la clientèle
� 1 mois pour le comportement du réseau
� 5 ans pour le suivi du marché
• Sources� Fichiers des nouveaux clients fournis par les agences régionales
� Fichier général de la facturation de l’entreprise
� Sources externes : INSEEUFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen26
Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub
• Données factuelles
• Indicateurs de décision
01/10/200202/10/200202/10/200203/10/2002…
08H5009H4510H3021H50…
+33 297…+ 353 1 …+49 2445..+44 1752…
FranceIrlandeAllemagneGrande Bretagne …
05:3008:4503:3410:23…
6 8 12 14 16 18 21 L M M J V S D
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen27
Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub
• Sujet : Comportement de la clientèle
� Répartition des appels sur la semaine, sur la journée
� Nombre d’appels par mois et par région
� Nombre moyen de numéros composés représentant 30% d’une facture
� Durée moyenne d’une communication locale
� Durée moyenne d’une communication internationale
� …
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen28
Système d’information décisionnel : ED Système opérationnel Système décisionnel
Production - Bases de donnéesOLTP
Décision - Entrepôts de donnéesOLAP
Données
DétailléesFactuellesMises à jourAccessibles de façon individuelle
Résumées, agrégéesHistoriséesNon sujettes à MAJAccessibles de façon ensembliste
Utilisateurs Agents opérationnels (informaticiens) Décideurs
Fonction Opérations journalières Support de décision
Conception BD Orientée application Orientée sujet
Traitements RépétitifsRequêtes « simples »
Heuristiques, ad hocRequêtes complexes
Volume 100M à 100G 100G à 100T
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen29
Les données dans un ED : structure
synt
hèse
hist
oriq
ue
Données détaillées
Données détailléeshistorisées
Données agrégées
Données fortementagrégées
mét
adon
nées
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen30
Les données dans un ED : structure• Données détaillées
� Socle de l’entrepôt
� Niveau d’insertion des données issues de la production
� Correspondent aux évènements les plus récents
� Peuvent être déjà synthétisées· détail entrepôt � détail données bases de production
� Difficulté du choix de la granularité de l’information· Plus le niveau de détail est fin, plus les données de l’entrepôt seront
accessibles selon différents points de vue. Distribution : étude du « panier de la ménagère »
stockage du ticket de caisse
� Comparaison éventuelle avec des périodes antérieures· historisation
6
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen31
Les données dans un ED : structure
• Données agrégées
� Constituent les éléments d’analyse des utilisateurs
� Correspondent à des synthèses de données
� Possibilité de naviguer dans les données, pour aller vers de plusen plus de détails
· Structures multidimensionnelles
Ventes d’un produit
Par région -> département -> ville
Par période -> mois -> semaine
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen32
Les données dans un ED : structure
- faible volume de données- accès fréquent- données facilement accessibles- délais de réponse courts
- important volume de données- accès non systématique- délais de réponse aux requêtes plus longs
Dril
l dow
n / z
oom
Dril
l up
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen33
Les données dans un ED : structure
• Optimisation : performance d’accès aux données
� Pré-calculer les agrégations correspondant aux chemins d’accès lesplus souvent utilisés dans les requêtes
� Stocker physiquement les résultats dans l’entrepôt
· Vues matérialisées
� Donner la possibilité d’accéder directement aux données détailléesavec des temps de réponse acceptables
· Index
· Cluster
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen34
Les données dans un ED : métadonnées• Métadonnées : « données sur les données » {informations relatives à l’entrepôt et aux processus associés}
� Sémantique des données de l’entrepôt
� Localisation de la donnée dans les systèmes de production
� Procédures de chargement
� Historique des mises à jour
� Règles de calcul et processus de transformation des données
� Utilisation de la donnée dans les différentes applications
� Profils/Rôles des utilisateurs de l’entrepôt…
Intégration dans un référentiel (« data warehouse repository »)
Outils pour catalogues de métadonnées
back
roo
mfr
ont r
oom
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen35
Les données dans un ED : métadonnées• Métadonnées
� Représentation : modèles de données
{MCD, MLD, MOD}
� Prévoir la gestion du référentiel
ADMINISTRATION DE DONNEES
client
contrat
produitachète
signe
client
contrat
produitachète base
clients
base produits
base contrats
éventuelle transformation
de modèle
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen36
Les données dans un ED : métadonnées• Métadonnées : gestion du contrôle de l’information
� Fiabilité de l’information
� Cohérence de l’information
· Plusieurs sources pour une même entité (ex : le client)
· Redondance, synonymie, duplication
� Définition unique d’une donnée calculée
· Périmètre de calcul
� Historique des données
· Possibilité d’évolution des données au cours du temps
� Gestion de la réplication et de la distribution de l’information
· Données maîtres-esclaves, snapshots
7
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen37
Les données dans un ED : métadonnées• Référentiel fédérateur
� Gestion des données· Description· Règles d’alimentation· Règles de fabrication
� Gestion des flux· Description· Règles de chargement· Règles de transformation
� Gestion de la confidentialité· Profils, rôles· Règles d’accès aux traitements, d’accès aux données
� Gestion des espaces privés des utilisateurs· Administration, échanges
� Gestion des nomenclatures· Organisation réseau· …
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen38
Alimentation de l’ED (Data Staging)
• Sources hétérogènes, diffuses, complexes
• Processus optimisé, automatisé� Réorganisation de l’information selon les besoins des utilisateurs
· Agrégats, introduction de redondances, …� Industrialisation du processus de migration périodique de données
Approche de programmation par « paramétrage de flux »
clientcampagnes
réseau distribution
ventes…
Sources internes
Gestion commerciale : Unix - OracleGestion financière : IBM/MVS – DB2Gestion marketing : Windows NT – Access…Sources externes
Mailings : fichiers ASCIIDonnées INSEE : Excel…
pertinence et qualité garanties a priorisource cible
ETML
découvrir extraire transformer transporter charger
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen39
Alimentation de l’ED : Outil d’extraction
• Acceptation d’un ensemble de sources variées
• Lecture sélective des données� Filtrage des attributs utiles
• Rafraîchissement de l’entrepôt : extractions différentielles� Chargement de l’entrepôt avec les données modifiées ou ajoutées depuis la
dernière extraction uniquement· Mécanisme de marquage des données : examen de la date de dernière mise à jour· Constitution du flux d’extraction par filtrage sur la date,
en parcourant le journal des transactions de la base source
• Mécanisme de surveillance de l’intégrité des opérations d’extraction� Annulation du processus d’alimentation en cas de panne
(extraction multi-sources)
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
« C
hang
ed d
ata
capt
ure
»
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen40
Alimentation de l’ED : Outil d’extraction
• Indépendance décisionnel / opérationnel� Couche de stockage des données avant transformation
ODS (Operationnal Data Store) / PSA (Persistant Storing Area)
• Nécessité de journalisation des opérations� Mesures de temps d’exécution
� Dysfonctionnements
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen41
Alimentation de l’ED : transformation
• Application de règles aux flux de données entrants (contrôle, épuration)� Traitement des données manquantes� Traitement des données aberrantes (hors-plage, intégrité référentielle, ...)
• Mapping de données� Mapping 1 – 1, 1 – n, n – 1, n – m
• Dédoublonnage� Rapprochement de données, pour la détection de doublons
Tris : SELECT attribut, count (*) FROM source GROUP BY attribut ORDER BY 1;
• Synchronisation des clés� Gestion des différences d’identifiants lors de fusion de fichiers
arbitrage : choix d’un identifiant existant ou d’un nouvel identifiant� Construction de tables de correspondance des clés (look up)
• Gestion des rejets� Journalisation, avec motifs des rejets
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen42
Alimentation de l’ED : transfert
• Transfert de fichiers� FTP, …
� Utilisation « minimum » des systèmes sources
� Maîtrise des flux sur le réseau
• Transfert base à base� Adapté à de petits transferts
· peu d’optimisation (absence de compression, …), lenteur
� Peu sécurisé (sensibilité aux ruptures de ligne réseau)
� Peu de facilités de transformations
� Facilité d’administration
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
source cibletransformations
source cibletransformations
à la volée
8
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen43
Alimentation de l’ED : transfert
Pull Push
ED ED
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen44
Alimentation de l’ED : chargement
• Gestion de gros volumes de données
risques de dégradation des performances� chargement incrémental ou complet
� réduction de la périodicité des chargements
� gestion judicieuse des index
� partitionnement des objets
� organisation logique des objets permettant des mises hors servicepartielles (tablespaces)
� utilisation de segments de rollback spécifiques
� gestion de tables dupliquées (table de chargement -> table de consultation)
� parallélisation des tâches de chargement
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen45
Alimentation de l’ED : outils
• Critères� extraction
· multi-sources· incrémentales + actualisation complète
� réplication· synchrone, asynchrone
� manipulation aisée de gros volumes de données· compression/décompression
� outils d’audit· rejets lors des phases de filtrage, nettoyage, ...
� outils de transformation des données· conversion, gestion des dimensions, calculs d’agrégats
Catégories : Générateurs de code, Outils de déploiement rapide, Extracteurs ERP, Intégrés
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen46
Modélisation des données
• Transactionnel� minimisation des redondances
· mises à jour en ligne
· intégrité des données– 3NF, clés, références
� conception orientée processus fonctionnel� requêtes prévisibles, réalisées au travers de packages
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen47
Modélisation des données• Décisionnel
� redondances envisageables· pas de mises à jour en ligne (chargements uniquement)
· pas de problème d’intégrité des données (contrôles réalisés à l’acquisition)
� définition de modèles lisibles, intuitifs� requêtes ensemblistes, portant sur de gros volumes de données
· projections, restrictions, regroupements, agrégations· adaptation du modèle pour des requêtes « ad hoc »
– techniques d ’optimisation basées sur les chemins d’accès
� modèle évolutif· calqué sur le développement incrémental de l’ED
lisibilité, performances (chargement + exécution des requêtes), évolutivité, administration
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen48
Modélisation des données• Modélisation normalisée
produitidProduitnomProduitcodePaysidFournisseurprixHTcaractéristiques...
expéditeur
idExpéditeurnomExpéditeurcodePays...
client
idClientnomClientadresseClientcodePays...
commande
idCommandeidClientidExpéditeurdateCommremise...
ligneCommande
idCommandenoLigneidProduitquantité...
TVAidTVAtaux
gamme
fournisseur
idFournisseurnomFournisseurcodePays…
payscodePaysnomPays
Sémantique faible prixHT --> CA, marge, ...
Modèle « complet »marge d ’autonomie pour les utilisateurs
Risque de perte de contrôlevisions différentes du CA
9
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen49
Modélisation des données
• Modélisation normalisée
� requêtes
· � �
· nombreuses tables et jointures mises en oeuvre
� risques de dégradation des performances
ventes
dépenses
ventes
stock
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen50
Modélisation des données
• Modélisation dénormalisée
� pré-calcul de certains agrégats + dénormalisation
� redondances maîtrisables au chargement
� introduction de sémantique
� nombre plus restreint de tables
� complétude moindre
� avantages :· nombre de tables moindre => diminution du nombre de jointures
� inconvénients· tables plus volumineuses
· fréquences d’accès très variables aux contenus des tables
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen51
Modélisation des données• Modélisation dénormalisée
produit
idProduitnomProduitnomPaysidFournisseurgammecaractéristiquestotVentesAn1totVentesAn2stock...
expéditeur
idExpéditeurnomExpéditeurnomPays...
clientidClientnomClientadresseClientnomPays...
commande
idCommandeidClientmontantHTmontantTTCidExpéditeurdateCommremise...
ligneCommande
idCommandenoLigneidProduitprixHTprixTTC...
fournisseur
idFournisseurnomFournisseurnomPays…
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen52
Modélisation des données
• Modélisation dimensionnelle
� faits : mesures d’indicateurs de performances, au travers de dimensionsd’analyse
· CA, marges, …
� dimensions· temps : série ordonnée et « continue »
consolidation en jours, mois, trimestre, semestre, année
· géographie
· produit
· marché
· projet
Aide à
l’interprétation des faits
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen53
Modélisation des données• Modélisation dimensionnelle (étoile, flocon, constellation)
produit
idProduitnomProduitnomPaysgammeprixHTcaractéristiques...
période
jj mm aaaajour-semainesemaine-moismois-année…
fournisseur
idFournisseurnomFournisseurdépartement…
ventes
idClientidProduitidFournisseurjj mm aaaa
CAmarge...
client
idClientnomClientadresseClientrégion...
table des faits(métriques)
dimensions
dim
ensi
ons
NB : les dimensions doivent être indépendantesUFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen54
Modélisation des données• Modélisation dimensionnelle
� regroupement d’indicateurs dans des tables de faits· indicateurs partageant le même ensemble de dimensions
· indicateurs ne pouvant pas être déduits d’autres indicateurs
� identifiant de la table de faits· clé multiple, concaténation des clés des différentes dimensions d’analyse
� requête type· CA, pour une gamme de produit, par année et par région
� modèle « naturellement » orienté sujet (datamarts)
� chemins d’accès prévisibles· table de faits très volumineuse, tables de dimensions plus petites
· accès aux faits par sélections successives, via les dimensions
� manque de complétude
10
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen55
Modélisation des données• Modélisation dimensionnelle : modèle en flocon
� affinage des tables de dimension· normalisation des dimensions
· hiérarchie à l’intérieur d’une dimension
produit
idProduitidFamille
nomProduitnomPaysprixHTcaractéristiques...
périodejj mm aaaaidJouridSemaineidMois
fournisseur
idFournisseurnomFournisseurdépartement…
ventesidClientidProduitidFournisseurjj mm aaaa
CAmarge...
client
idClientidClasseidRégion
nomClient
familleidFamilleidGamme
nomFamille
gamme
idGamme
nomGammeprixMinprixMax
classe
idClasseidSegment
nomClasse…
segment
idSegment
nomSegment…
région
idRégionnomRégion
jouridJournom
semaineidSemaine…
annéeidAnnée…
mois
idMois…
trimestre
idTrimestre…
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen56
Modélisation des données• Modélisation dimensionnelle : datamarts
� tables de faits· gérées au niveau des datamarts· gestion commune de la granularité, avec des mécanismes de conversion
� tables de dimensions· gérées comme des tables de référence communes à plusieurs datamarts· intégrées à la partie commune de l’entrepôt
Navigation entre les différents modèles, au travers des dimensions (constellation)
DM
DM
DM
partie commune
syst
èmes
op
érat
ionn
els
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen57
Modélisation des données : OLAPReprésentation sous forme de cube
idProduit
P1P1P1P1P1P1P2P2P2P2P2P2P3P3P3P3P3P3P3
idRégion
ESNOONNSENSENOSNOSE
idPériode
S1S1S1S1S2S2S1S1S1S2S2S2S1S1S1S2S2S2S2
ventes
10102015302540102010152550201020201015
produit
iProduitnomProduit...
période
idPériodenomPériode…
région
idRégionnomRégion…
ventes
idProduitidRégionidPériodeCA
20 40 50 110
10 20 30
10 10 10 30
55 70 80 205
15 20 35
P1E
P2 P3
O
N
S 25 10 20 55
25 15 40
15 10 25
55 50 65 170
30 20 50
45 50 70 165
10 45 15 70
10 25 20 55
110 120 145 375
45 40 85
S1
S2
produit
régi
on
période
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen58
Modélisation des données : OLAP• Hypercube
� règles de calculs d’agrégats induites par les hiérarchies sur les axesd’analyse
� navigation dans l’information au travers des axes· visualisation des informations aux différents niveaux d’agrégation
CA / période / région / produit
dimension (axe)
dimension (axe)
dimension (axe)
(x1, x2, x3)
x1
x2
x3
(x1, x2, �x3)
(�x1, x2, x3)
(x1, �x2, x3)
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen59
Modélisation des données : OLAP• Hypercube : navigation
� drill up / drill down : zoom avant / arrière sur un axe d’analyse
55 70S1
S2 55 50
80
65
P3P2P1
20 15S1
S2 10 15
20
30
P1-3P1-2P1-1
205S1
S2 170
P1-P3 P2-1 P3-3P3-2P3-1P2-2
60 10
40 10
30
30
20
15
30
20
110 120S1-S2 145
P3P2P1
20 30S1-T1
S1-T2 35 40
40
40
P3P2P1
25 30S2-T1
S2-T2 30 20
35
30
drill up
drill up
drill down
drill down
produittemps • reach through : drill down depuis le cube
jusqu’au socle de l’entrepôt, et éventuellement jusqu’aux bases de production
• drill through : visualisation sous l’angle de plusieurs dimensions
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen60
Modélisation des données : OLAP• Hypercube : navigation
� rotate
55 70S1
S2 55 50
80
65
P3P2P1
30 35S1
S2 40 50
110
55
NOE
30
25
S
10 45E
O 45
15
40
P3P2P1
45 50N
S 10 25
70
20
11
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen61
Modélisation des données : OLAP• Hypercube : navigation
� slice
20 40 50 110
10 20 30
10 10 10 3055 70 80 205
15 20 35
P1E
P2 P3
ONS 25 10 20 55
25 15 40
15 10 2555 50 65 170
30 20 50
45 50 70 165
10 45 15 70
10 25 20 55110 120 145 375
45 40 85S1
S2
produit
régi
on
période
20 40 50 110
10 20 30
10 10 10 3055 70 80 205
15 20 35
P1E
P2 P3
ONS 25 10 20 55
25 15 40
15 10 2555 50 65 170
30 20 50
45 50 70 165
10 45 15 70
10 25 20 55110 120 145 375
45 40 85S1
S2
produit
régi
on
période
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen62
Modélisation des données : OLAP• Hypercube : navigation
� scope
20 40 50 110
10 20 30
10 10 10 3055 70 80 205
15 20 35
P1E
P2 P3
ONS 25 10 20 55
25 15 40
15 10 2555 50 65 170
30 20 50
45 50 70 165
10 45 15 70
10 25 20 55110 120 145 375
45 40 85S1
S2
produit
régi
on
période
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen63
Modélisation des données : OLAPmécanismes d’agrégation
• Agrégats sur différents niveaux de la hiérarchie d ’une dimension� ville -> département -> région -> pays
France.Bretagne.Morbihan.Vannes
� produit -> famille -> gammeLiquide.Eau.Vittel
� socle de l’entrepôtventes / produit / ville
ventesville produit
gamme
famille
pays
région
département
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen64
Modélisation des données : OLAPmécanismes d’agrégation
calcul : ventes / gamme / région
• solution 1� recalculer les agrégats
· nombreuses jointures + regroupementSELECT f (ventes.indicateur), idGamme, idRegion, ...
FROM ventes * ville * département * région * produit * famille * gamme
GROUP BY idGamme, idRegion ;
· long temps de réponse
ventesville produit
gamme
famille
pays
région
département
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen65
Modélisation des données : OLAPmécanismes d’agrégation
calcul : ventes / gamme / région
• solution 2� pré-calculer autant de niveaux de ventes que de niveaux d’agrégation
· très grande volumétrie
ventesville produit
gamme
famille
pays
région
département
ventes0ville produit
gamme
famille
pays
région
département ventes1
ventes11
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen66
Modélisation des données : OLAPmécanismes d’agrégation
calcul : ventes / gamme / région
• solution 3� créer n tables de faits, structurées à l’identique
· chaque table sert de socle à partir duquel les agrégats souhaités sont calculés
· le niveau de la table de fait de niveau le plus proche du niveau d ’agrégation est identifié(aide du dictionnaire)
· les agrégats sont calculés à la volée
NB : nécessite du tuning de l’activité des utilisateurs
transparent aux utilisateurs
ventesville produit
gamme
famille
pays
région
département
ventes0ville produit
gamme
famille
pays
région
département ventes1
ventes3
ventes2
12
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen67
Technologies OLAPMOLAP, ROLAP, HOLAP
• MOLAP : Multidimensionnal OLAP� structure de stockage multidimensionnelle� pré-agrégation au chargement des données
avantages� performance des temps de réponse� adapté aux faibles volumes de données
inconvénients� temps de calcul très important en phase de chargement� surcoût de stockage lié à la redondance� quantité importante de cellules creuses� dégradation en cas de gros volumes de données� bases « propriétaires »
optimisation� division du cube en sous-cubes� gestion des cellules creuses
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen68
Technologies OLAPMOLAP, ROLAP, HOLAP
• ROLAP : Relational OLAP� structure de stockage relationnelle� correspondance cube <-> table réalisée au moyen du dictionnaire
avantages� appui sur BD standards� cohabitation décisionnel / transactionnel (homogénéisation des outils d’administration)� support de gros volumes de données
inconvénients� temps de réponse plus lents qu’avec MOLAP� peu adapté aux petits volumes de données
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen69
Technologies OLAPMOLAP, ROLAP, HOLAP
• HOLAP : Hybrid OLAP� structure de stockage multidimensionnelle et relationnelle
· organisation des données de l’entrepôtdonnées détaillées sur la base relationnelle,agrégats sur la base multidimensionnelle
· partitionnement selon les dimensionsdonnées « actuelles » dans la base multidimensionnelledonnées anciennes dans la base relationnelle
avantages� « le beurre et l’argent du beurre »
inconvénients� cohabitation de deux mondes => administration complexe
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen70
Modélisation des données : dimensions• dimensions conformes
� dimensions ayant des significations identiques dans plusieurs tables de faits
� définition des dimensions conformes· étape importante de la construction d’un ED (ensemble intégré)
ex : client, produit, lieux géographiques, promotions, temps, ...
� conception des dimensions conformes· niveau de détail le plus fin possible
· prévoir des clés différentes des clés du système opérationnel
� représentation des dimensions conformes· table principale : clé valide + attributs A JOUR décrivant la dimension, issus de plusieurs
systèmes opérationnels
� liens inter datamarts· cohérence des interfaces utilisateurs et des contenus
· cohérence de l’interprétation des attributs entre les différents datamarts
CP dimension temps : jours+attributs descriptifs des calendriers de l’entreprise
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen71
Modélisation des données : dimensions• dimensions conformes
faitsfaits faits
dimension
dimension dimension
dimensiondimension
dimension
dimension
datamart
datamart
datamart
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen72
Modélisation des données : dimensions
• attributs dimensionnels� décrivent les informations rapportées aux utilisateurs
� doivent répondre à des critères de qualité· littéraux (mots entiers)
· descriptifs (pas de codes)
· complets (sans données manquantes)
· documentés (cf métadonnées : origine, interprétation de chaque attribut)
· indexés (B-arbre, bitmap)
• standard de la dimension temps• dimensions de vérification
� traçabilité des enregistrements des tables de faits
13
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen73
Modélisation des données : dimensions• dimensions changeantes
� évolution des valeurs des attributs dimensionnels
� mises en œuvre possibles
cléClient nomClient0 adrClient0 client à t0
changement d’adresse à t1
cléClient nomClient0 adrClient1
cléClient nomClient0 adrClient0 adrClient1
cléClient version0 t0 – t1 nomClient0 adrClient0cléClient version1 t1 – nomClient0 adrClient1
cas 1
cas 2
cas 3
corrections d’erreurs
gestion des changements légers
suivi précis des changements d’attributs,partitionnement historique,adapté aux évolutions rapides
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen74
Modélisation des données : dimensions
• dimensions fourre-tout
� regroupement d’attributs et d’indicateurs inclassables,
non intégrables aux dimensions évidentes de manière cohérente
!!! Éviter de- intégrer les indicateurs et attributs dans les tables de faits
- faire une dimension par valeur
- supprimer les données correspondantes
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen75
Modélisation des données : faits
• faits conformes� appartiennent au même contexte dimensionnel
� permettent de réaliser des analyses sur des données issues de plusieursdatamarts
� doivent présenter les mêmes unités de mesure
� doivent être définis sur des périodes cohérentesex : CA, recettes, bénéfices, coûts, ...
• placement des tables de faits� niveau le plus bas des dimensions qui les composent
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen76
Modélisation des données : faits
• familles de tables de faits� tables de faits transactionnels
· correspondent à la vision la plus détaillée
· permettent des analyses de comportement très fines
· permettent d’isoler les dimensions
ex : transaction à un GAB– date et heure, lieu, compte, type de transaction
· fait == montant de transaction
� tables des instantanés périodiques· correspondent à une vision synthétique, sur une période
· s’appuient sur les tables de transaction
ex : instantané journalier GAB– montant des retraits/jour, montant des dépôts/jour, nb consultations, …
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen77
Modélisation des données : faits
• familles de tables de faits� tables des agrégats
· contiennent des récapitulatifsdans un but essentiel d’optimisation des performances
· familles de tables de faits dérivés de la table de faits la plus détailléedans les DM
� tables de faits sans faits· servent à décrire des évènements ou des couvertures d’évènements
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen78
Modélisation des donnéesconversion schéma entité/relation -> schéma décisionnel
• scinder le schéma entité/relation en autant de sous schémas que de processusmétier
• dans chaque sous schéma, sélectionner les relations n-n contenant des faitsnumériques et additifs (autres que les clés) et en faire des tables de faits
• dé-normaliser toutes les autres tables en tables dotées de clés uniques, reliéesdirectement aux tables de faits (<= tables dimensionnelles)
• si une table dimensionnelle est reliée à plusieurs tables de faits, elle estreprésentée dans tous les schémas correspondants et correspond à une dimensionconforme.
14
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen79
Optimisation : agrégation
• élaborer plusieurs séries d’agrégats, représentant plusieurs niveauxde regroupement le long des dimensions
� basé sur les requêtes types des utilisateurs (<= tuning)
• créer les agrégats à l’extérieur du SGBD� phase ETML
• possibilité de� créer de nouveaux agrégats� mettre des agrégats hors service� supprimer des agrégats obsolètes
de manière transparente pour les utilisateursRecommandations :
bonnes performances : volume des tables d’agrégats = = volume des tables de détail
performances dégradées : volume des tables d’agrégats < 25% volume des tables de détail
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen80
Optimisation : agrégation• navigateur d’agrégats
clientémetteur de requêtes
navigateur d’agrégats
SGBDdonnées
+agrégats
métadonnées
SQL
SQL « agrégats »traduction « tirant parti »des agrégats
résultatsagrégés
résultatsagrégés
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen81
Optimisation : agrégation
• règles� stocker les agrégats dans leurs propres tables de faits,
indépendamment des tables de base· ne pas mélanger les niveaux de détail (évite les erreurs de double comptage)
· permet une meilleure administration des agrégats� constituer une « famille de schémas », regroupant la table de faits de base
et les tables d’agrégats dérivées· permet au navigateur de repérer les tables liées les unes aux autres
� réduire les tables dimensionnelles associées aux tables d’agrégatspar rapport aux tables dimensionnelles associées aux faits de base
· ne garder que les attributs dimensionnels relatifs aux niveaux supérieurs auxniveaux d’agrégation
� veiller à ce que le code SQL fasse référence aux tables de faits de base etaux tables dimensionnelles associées
· les agrégats n’ont pas à être connus des utilisateurs …
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen82
Optimisation : indexation• accélération des accès aux données
• index B-arbre� attributs à forte cardinalité� chemins de longueur identique de la racine vers n’importe quelle feuille� taux de remplissage d’au moins 50% garanti pour chaque nœud
B-arbre+ généré automatiquement sur la clé primaire d’une table
22 54
10 14 22 31 39 54
1 3 8 10 11 12 14 16 18 20 22 35 36 37 3924 30 31 5441 45 49 50
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen83
Optimisation : indexation
• index bitmap� attributs à faible cardinalité
� utilisés couramment pour les attributs dimensionnels
idProduit gamme … ventes
P1P2P3P4P5P6P7P8P9
112132312
101020153025401020
bitmapgamme=1
110100010
bitmapgamme=3
bitmapgamme=2
001001001
000010100
bitmapgamme=1
bitmapgamme=2
bitmapgamme=3
B-arbre sur gamme
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen84
Optimisation : indexation
• indexation des tables de faits� B-arbre sur la clé
� prévoir des index sur les attributs de jointure (optimiseur de requêtes)
� prévoir des index en cas de filtrage sur les valeurs des faits
• indexation des tables dimensionnelles� B-arbre sur la clé
� prévoir des index (B-arbre ou bitmap) sur les attributs dimensionnelsle plus souvent utilisés
• chargement� supprimer les index� charger� reconstruire les index
15
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen85
Optimisation : fragmentation
• partitionnement horizontal
• partitionnement vertical
A1 AnA2
BpB2A1 AnA2
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen86
Optimisation : fragmentation
• partitionnement des tables volumineuses� tables de faits (le plus souvent selon la date), tables dimensionnelles
� accès par les requêtes aux partitions nécessaires à leur résolution uniquement
• partitionnement des index associés
NB : partitionnement transparent aux utilisateurs
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen87
Optimisation : parallélisme
• utilisation optimale des ressources� répartition des traitements sur un ensemble de processeurs
T1 : a1*b1+c1/d1 T2 : a2*b2+c2/d22 processeurs : p1 et p2
p1 r11 = a1*b1 r22 = c2/d2 r2 = r21+r22p2 r12 = c1/d1 r1 = r11+r12 r21 = a2*b2
parallélisme MIMD
p1 a1 b1 c1 d1p2 a2 b2 c2 d2
parallélisme SIMD, vectoriel
* + /
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen88
Optimisation : parallélisme
• architectures� SMP (Symmetric MultiProcessing)
� NUMA (Non Uniform Memory Access)
Tous les processeurs • ont la même priorité• partagent un unique espace d’adressage mémoire
CPU CPU
mémoire
…
…
CPU CPU
mémoire mémoire
CPU CPU
…
… …Tous les processeurs • ont la même priorité• partagent un unique espace d’adressage mémoire
Organisation en grappes, chaque processeur a une mémoire primairedes mémoires secondaires distantes
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen89
Optimisation : parallélisme
• architectures� clusters
� MPP (Massively Parallel Processing)
…
CPU CPU
mémoire
… CPU CPU
mémoire
… mémoire distribuée,bon mécanisme de reprise après panne,« scalable ».
Configurations à 2, 4, 8 noeuds
CPU
mémoire
CPU
mémoire
CPU
mémoire
CPU
mémoirechaque processeur a sa mémoire privée,tous les processeurs sont interconnectés
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen90
Optimisation : parallélisme
• avantage� gain de performance pour les très gros SGBD
• inconvénient� nécessité d’adaptation des logiciels au parallélisme
· veiller à répartir équitablement les tâches, à ne pas faire d’opérationscontradictoires sur les données
performances
processeurs
MPP
NUMA
SMP
Cluster
16
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen91
Optimisation : parallélisme• problématique des SGBD
� consultation· accès en lecture sur de gros volumes de données
� maintenance· chargements, mises à jour· sauvegardes
• solutions� partager les tâches utilisateurs sur les processeurs
· attention aux tâches « batch »� diviser les tâches en sous-tâches se déroulant en parallèle
- SELECT * FROM E
- jointures par hachageregroupement de tuples des tables dans des paquets, définis par un fonction dehachage et qui composent des fragments pouvant être traités en parallèle.
SELECT * FROM E1
SELECT * FROM E2
…
fragments
UFR SSI / UBSDESS ASIR
Systèmes d’information décisionnels Michèle Raphalen92
Optimisation : parallélisme• solutions
� partager les données· solution pour les sauvegardes :
lancer les sauvegardes de différents tablespaces en parallèle� coordination des verrouillages et déverrouillages
· protocoles à 2 ou 3 phases, avec échange de messages
� parallélisation des entrées/sorties· répartition des données sur les différents contrôleurs
– réduction des contentions– lectures distribuées sur les contrôleurs
à condition que les données soint équitablement réparties …– adapté au partitionnement
· au minimum– séparer tables, index, journaux, dictionnaire, …