Introduction Aux Entrepôts de Données

Embed Size (px)

DESCRIPTION

Introduction aux entrepôts de données, datawarehouse

Citation preview

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 1

    Introduction aux entrepts de donnes

    (2) Bernard ESPINASSE

    Professeur Aix-Marseille Universit (AMU) Ecole Polytechnique Universitaire de Marseille

    Septembre 2013

    Introduction et dfinition dun entrept de donnes Architecture fonctionnelle dun entrept Modlisation d'un entrept de donnes Implantation dun ED Alimentation dun entrept de donnes Exploitation dun entrept Domaines dapplication des entrepts, succs stories

    Introduction au entrepts de donnes - Bernard ESPINASSE - 2

    Bibliographie Ouvrages : ! Benitez-Guerrero E., C. Collet, M. Adiba, Entrepts de donnes : Synthse et

    analyse , Rapport de recherche IMAG NIMAG-RR - 99-1017-I, 1999. ! Franco J-M., Le Data Warehouse (Le Data Mining) . Ed. Eyrolles, Paris,

    1997. ISBN 2-212-08956-2 ! Gardarin G., Internet/intranet et bases de donnes , Ed. Eyrolles, 1999,

    ISBN 2-212-09069-2. ! Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan

    Kaufmann Publishers, 2004. ! Kimball R., M. Ross, Entrepts de donnes : guide pratique de modlisation

    dimensionnelle , 2dition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1. Cours : ! Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2 ! Cours de P. Marcel, Univ. de Tours ! Cours de G. Gardarin, Univ. de Versailles ! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble ! Cours de G. Gamper, Univ. Bolzano.

    Introduction au entrepts de donnes - Bernard ESPINASSE - 3

    Plan 1. Introduction et dfinition dun entrept de donnes (ED)

    2. Architecture fonctionnelle dun ED

    3. Modlisation d'un ED

    4. Implantation d'un ED

    5. Alimentation dun ED

    6. Exploitation dun ED

    7. Domaines dapplication des entrepts et succes stories

    Introduction au entrepts de donnes - Bernard ESPINASSE - 4

    1. Introduction et dfinition dunentrept de donnes

    ! Dfinition dun entrept de donnes ! Entrept de donnes versus bases de donnes oprationnelles ! Entrept de donnes versus infocentre ! Processus gnral de construction et exploitation dun entrept

    PROJET

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 5

    Dfinition dun entrept de donnes (Data Warehouse) Dfinition de Inmon (1992) : Lentrept de donnes (ED) est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour le support d'un processus d'aide la dcision

    Introduction au entrepts de donnes - Bernard ESPINASSE - 6

    Caractristiques des donnes dun ED Orientes sujet : un ED rassemble et organise des donnes

    associes aux diffrentes structures fonctionnelles de lentreprise, pertinentes pour un sujet ou thme et ncessaire aux besoins danalyse

    Intgres : les donnes rsultent de lintgration de donnes provenant de diffrentes sources pouvant tre htrognes

    Historises : les donnes dun ED reprsentent lactivit dune entreprise durant une certaine priode (plusieurs annes) permettant de danalyser les variations dune donne dans le temps

    Non-volatiles : les donnes de lED sont essentiellement utilises en interrogation (consultation) et ne peuvent pas tre modifies (sauf certain cas de rafrachissement).

    Introduction au entrepts de donnes - Bernard ESPINASSE - 7

    De lentrept laide la dcision Entreposage des donnes : avant dtre charges dans lentrept, les donnes

    slectionnes doivent tre : extraites des sources (internes : BD oprationnelles, externes : BD et fichiers

    notamment issus du Web) soigneusement pures afin dliminer des erreurs et rconcilier les diffrentes

    smantiques associes aux sources)

    Exploitation des donnes de lED : systmes dcisionnels A partir des donnes dun ED diverses analyses peuvent tre faites, notamment par

    des techniques On-Line Analitical processing (OLAP) ou de fouille de donnes (Data Mining) et de visualisation.

    Notons que les informations et connaissances obtenues par exploitation de lED ont un impact direct sur les bnfices de lentreprise (augmentation des ventes par un marketing plus cibl, amlioration de la rotation des stocks, )

    Introduction au entrepts de donnes - Bernard ESPINASSE - 8

    Entrept de donnes versus Bases de donnes oprationnelles

    BD oprationnelles Entrept de donnes Niveau de dtail des

    informations ! Trs dtaill ! Donnes agrges,

    mtadonnes

    Homognit des informations ! Informations homognes

    ! Information pas ncessairement homognes,

    ! intgration de donnes souvent ncessaire

    Fonctions de lentreprise concernes par les

    donnes ! Donnes organises par

    processus fonctionnel ! Donnes orientes sujet

    Comparaison de donnes sur plusieurs annes

    ! Non : Archivage ou mise jour des donnes

    ! Oui : Donnes non volatiles, donnes historises

    Oprations ralises sur les donnes

    ! Consultation, mais surtout mise jour et ajout de donnes

    ! Consultation de donnes uniquement

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 9

    Entrept de donnes versus Infocentre

    Infocentre Entrept = collection de donnes orientes sujet,

    intgres, volatiles, actuelles, organises pour le support d'un processus de dcision ponctuel

    = collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support d'un processus d'aide la dcision

    Introduction au entrepts de donnes - Bernard ESPINASSE - 10

    Processus gnral de construction et exploitation dun ED Processus en 3 phases :

    1 - Construction de la BD dcisionnelle : ! Modlisation conceptuelle des donnes multiformes et multi-sources ! Conception de lentrept de donnes ! Alimentation de lentrept (extraire, nettoyer, transformer, charger) ! Stockage physique des donnes

    2 - Slection des donnes analyser : ! Besoins danalyse de lutilisateur ! Data marts (Magasins de donnes) ! Cubes multidimensionnels ! Tableaux ou tables bidimensionnels

    3 - Analyse des donnes : ! Stastiques et reporting, OLAP, Data Mining

    Introduction au entrepts de donnes - Bernard ESPINASSE - 11

    Processus gnral de construction et exploitation dun ED Processus en 3 phases :

    Introduction au entrepts de donnes - Bernard ESPINASSE - 12

    2. Architecture fonctionnelle dun entrept de donnes

    ! Axes historique et synthtique des donnes ! Entrepts de donnes (ED) et Magasins de donnes (MD) ! Architecture fonctionnelle dun ED ! Composants logiciels dun ED

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 13

    Axes historique et synthtique des donnes dun ED (1) Les donnes dun ED se structurent selon 2 axes : synthtique et historique :

    Axe synthtique

    Donnes dtailles historises

    Axe historique

    Donnes dtailles

    Donnes agrges

    Donnes fortement agrges

    Introduction au entrepts de donnes - Bernard ESPINASSE - 14

    Axes historique et synthtique des donnes dun ED (1) Axe synthtique :

    tablit une hirarchie dagrgation comprenant : les donnes dtailles reprsentant les vnements les plus rcents au

    bas de la hirarchie les donnes agrges synthtisant les donnes dtailles les donnes fortement agrges synthtisant un niveau suprieur les

    donnes agrges Axe historique :

    comprenant les donnes dtailles historises reprsentant les vnements passs

    Ncessaire de stocker des mta-donnes : informations concernant les donnes

    de lED (provenance, structure, mthode utilises pour lagrgation, )

    Introduction au entrepts de donnes - Bernard ESPINASSE - 15

    Entrept et Magasins de donnes (1) L'entrept de donnes - ED (Data Warehouse - DW) :

    ! collecte l'ensemble de l'information utile aux dcideurs partir des sources de donnes (BD oprationnelle, BD externes, Web )

    ! centralise l'information dcisionnelle en assurant l'intgration des donnes extraites, leur prennit dans le temps

    Les magasins de donnes MD (Data Marts - DM) : ! objectif : supporter efficacement des processus d'analyse de type OLAP ! extraire pour chacun une partie de l'information dcisionnelle de

    l'entrept dune partie des donnes utile : ! pour une classe d'utilisateurs ou ! pour un besoin d'analyse spcifique

    ! ils sont orients sujet

    Introduction au entrepts de donnes - Bernard ESPINASSE - 16

    Entrepts et magasins de donnes (2) Les entrepts de donnes :

    ncessitent de puissantes machines pour grer de trs grandes bases de donnes contenant des donnes de dtail historises

    est le lieu de stockage centralis d'un extrait des bases de production. lorganisation des donnes est faite selon un modle facilitant la gestion efficace

    des donnes et leur historisation.

    Les magasins de donnes (Data Marts) : sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en

    uvre plus rapidement (6 mois environs) conus pour laide la dcision partir de donnes extraites dun ED plus

    consquent ou de BD sources existantes les donnes extraites sont adaptes pour laide la dcision (pour classe de

    dcideurs, usage particulier, recherche de corrlation, logiciel de statistiques,...) lorganisation des donnes est faite selon un modle facilitant les traitements

    dcisionnels

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 17

    Entrepts et magasins de donnes (3)

    ODS Operational Data Store : regroupe les donnes intgres rcupres des sources CDW Corporate Data Warehouse : regroupe les vues agrges

    Introduction au entrepts de donnes - Bernard ESPINASSE - 18

    Architecture fonctionnelle dun ED : 3 niveaux

    Source

    Bd entrept

    Entrept

    Donnes externes BD source

    BD lgataires

    BD source Donnes oprationnelles

    Transformation, fusion

    Exploration Analyse Client dcisionnel

    Extraction, filtrage Extraction, filtrage Extraction, filtrage

    Niveau fusion

    Niveau extraction

    Niveau exploitation Prsentation

    Introduction au entrepts de donnes - Bernard ESPINASSE - 19

    Architecture fonctionnelle dun entrept : 3 niveaux Niveau extraction : Extraction de donnes des BD oprationnelles (SGBD traditionnel en OLTP) et de

    lextrieur : approche push : dtection instantane des mises jour sur les BD

    oprationnelles pour intgration dans lED approche pull : dtection priodique des mises jour des BD

    oprationnelles pour intgration dans lED Niveau fusion : Intgration, chargement et stockage des donnes dans la BD entrept

    organise par sujets Rafrachissement au fur et mesure des mises jour

    Niveau exploitation : Rapports, tableaux de bords, visualisation graphiques diverses, Analyse et lexploration des donnes entreposes (OLAP) Requtes complexes pour analyse de tendance, extrapolation, dcouverte de

    connaissance, (Fouille de donnes)

    Introduction au entrepts de donnes - Bernard ESPINASSE - 20

    Composants logiciels dun ED

    Niveau extraction

    Source

    moniteur adaptateur

    Bd entrept

    Entrept

    mdiateur

    Donnes externes BD source

    moniteur adaptateur

    BD lgataires

    BD source

    moniteur adaptateur

    Donnes oprationnelles

    Transformation, fusion

    Exploration Analyse Client dcisionnel

    Extraction, filtrage Extraction, filtrage Extraction, filtrage

    Niveau fusion

    Niveau exploitation

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 21

    Niveau extraction : sources dinformations htrognes Les donnes sources alimentant lED sont : ! gnralement modifies quotidiennement ! fortement htrognes :

    ! issues de diffrentes sources : BD relationnelles, BD objets, BD rseaux, fichiers (flat files), documents HTML, bases de connaissances,

    ! issues de diffrents environnements Exemple dhtrognit (Goglin 88):

    Source dinformation Environnement gestion commerciale progiciel sybase/unix gestion marketing progiciel SQL server/NT gestion financire, paye mainframe DB2/IBM suivi de production oracle/NT contrle qualit oracle/NT gestion du temps progiciel oracle/unix gestion des stocks progiciel oracle/HP fichier mailings fichier ASCII rfrences nationales document excel

    Ncessit de composants dalimentation pour lhomognisation et lintgration de donnes

    Introduction au entrepts de donnes - Bernard ESPINASSE - 22

    Niveaux extraction : Moniteur et Adaptateur de sources Le moniteur (source monitor) : composant logiciel dtectant les mises jour effectues sur la source dinformation et reprerant les donnes envoyer lED pour sa mise jour ultrieure :

    ! Utilisation de triggers si les SGBD en disposent

    ! Sinon interrogation priodique de chaque base locale ou son journal afin de rcuprer les mises jour effectues durant la dernire priode

    Ladaptateur de source (source wrapper) : composant logiciel traduisant les requtes et les donnes depuis le modle dune source dinformation locale vers le modle de lED et vice-versa :

    ! Les bases locales prexistent et sont souvent relationnelles, voire hirarchiques ou rseaux ou parfois des fichiers

    Introduction au entrepts de donnes - Bernard ESPINASSE - 23

    Niveau fusion : Mdiateur Le mdiateur (mediator) : composant logiciel capable de :

    donner une vision intgre des diffrentes sources dinformation

    dextraire par des requtes des parties de ces vues intgres :

    ! avant dtre dverses dans lED, les donnes doivent tre nettoyes, transformes, rorganises et souvent filtres

    ! les donnes, en provenance de sources multiples, doivent gnralement tre intgres ou fusionnes

    ! cette fusion en gnral assure par union ou jointures de sources multiples, des slections et agrgats

    le mdiateur sappuie principalement sur le SGBD de lED

    Introduction au entrepts de donnes - Bernard ESPINASSE - 24

    Niveau exploitation : Moteur OLAP et Outils de fouille Moteur OLAP : composant logiciel permettant sur les donnes de lED ou des Magasins de donnes : dexcuter des requtes interactives complexes danalyser interactivement les donnes selon des axes danalyse et niveaux

    de dtail particuliers : changement de points de vue, de niveau de dtail visualiser des rsultats de ces analyses deffectuer les oprations OLTP classiques

    Outils de fouille de donnes (Data Mining) : composants logiciels permettant sur les donnes de lED ou des Magasins de donnes : lextraction automatique de proprits caches lextraction automatique de connaissances : connaissances valides,

    nouvelles, comprhensibles, pertinentes, implicites, )

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 25

    Dictionnaire et mta-donnes Le dictionnaire contient des informations (mta donnes) sur :

    ! toutes les donnes de lED. ! sur chaque tape lors de la construction de lED; ! sur le passage dun niveau de donnes un autre lors de lexploitation

    de lED

    Le rle de ces mta-donnes est ainsi de permettre : ! la dfinition des donnes ! la fabrication des donnes ! le stockage des donnes ! laccs aux donnes ! la prsentation des donnes

    Introduction au entrepts de donnes - Bernard ESPINASSE - 26

    3 - Modlisation d'un entrept de donnes

    ! Problmatique de la modlisation multidimensionnelle ! concept de fait ! concept de dimension ! paramtres de hirarchies de dimension

    Introduction au entrepts de donnes - Bernard ESPINASSE - 27

    Problmatique de la modlisation multidimensionnelle Les analyses dcisionnelles (OLAP) sont directement relies une

    modlisation de l'information conceptuelle :

    ! proche de la perception qu'en a l'analyste

    ! base sur une vision multidimensionnelle des donnes

    Cest la modlisation multidimensionnelle :

    considre un sujet analys comme un point dans un espace plusieurs dimensions

    les donnes y sont organises de faon mettre en vidence le sujet analys et les diffrentes perspectives de l'analyse.

    Introduction au entrepts de donnes - Bernard ESPINASSE - 28

    Modlisation multidimensionnelle (1) Soit les donnes relatives aux ventes de 1999 dune entreprise de distribution :

    On peut distinguer diffrentes perspectives pour observer ces donnes : une dimension relative la catgorie des produits une dimension relative la rgion

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 29

    Modlisation multidimensionnelle (2) Considrons plusieurs tables des ventes de chaque anne entre 1997 et 1999 On peut alors observer les donnes dans un espace 3 dimensions : la dimension catgories produit la dimension rgions la dimension temps

    Chaque intersection de ces dimensions reprsente une cellule comportant le montant des ventes :

    La modlisation multidimensionnelle a donn naissance aux concepts de fait et de

    dimension [Kimball 1996] Introduction au entrepts de donnes - Bernard ESPINASSE - 30

    Modlisation multidimensionnelle : concept de fait Un fait : modlise le sujet de l'analyse est form de mesures correspondant aux informations de l'activit analyse. ces mesures sont numriques et gnralement valorises de faon continue,

    on peut les additionner, les dnombrer ou bien calculer le minimum, le maximum ou la moyenne.

    Exemple : le fait de Vente peut tre constitu des mesures d'activits suivantes : quantit de produits vendus et montant total des ventes

    VENTE

    quantitmontant

    F

    mesure d'activit

    fait

    Introduction au entrepts de donnes - Bernard ESPINASSE - 31

    Modlisation multidimensionnelle : concept de dimension Le sujet analys, le fait, est analys suivant diffrentes perspectives ou axes

    caractrisant ses mesures de lactivit : on parle de dimensions. Une dimension : modlise un axe d'analyse se compose de paramtres correspondant aux informations faisant varier les

    mesures de l'activit. Ex: Dans l'exemple prcdent, le fait Vente peut tre analys suivant diffrentes perspectives correspondant trois dimensions : la dimension Temps, la dimension Geographie et la dimension Categorie :

    TEMPS

    annetrimestresaisonmoisjour

    GEOGRAPHIE

    rgiondpartementville

    CATEGORIE

    typeProduitgammenomProduitcouleur

    Introduction au entrepts de donnes - Bernard ESPINASSE - 32

    Modlisation multidimensionnelle : hirarchie des paramtres dune dimension en OLAP les mesures dun fait sont gnralement analyses selon les

    dimensions qui le caractrisent ncessaire de dfinir pour chaque dimension ses diffrents niveaux de dtail

    dfinissant ainsi une (ou plusieurs) hirarchie(s) de paramtres La hirarchie de paramtre dune dimension : dfinis des niveaux de dtail de l'analyse sur cette dimension

    Ex: Dimension temps : H1 : jour ! mois ! trimestre ! anne ; H2 : jour ! mois ! trimestre ! anne ; H3 : jour ! mois ! saison ! anne ;

    Dimension gographie : ville ! dpartement ! rgion (chaque ville appartient un dpartement qui est situ dans une rgion)

    Dimension catgorie : couleur ! nomProduit ! gamme ! typeProduit (chaque produit appartient une gamme de produit qui appartient un type de produit)

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 33

    4 - Implantation d'un entrept de donnes

    ! Stratgies dimplantation dun ED ! Schma en toile (star schema) ! Schma en flocon (snowflake schema) ! Schma en constellation (fact constellation schema)

    Introduction au entrepts de donnes - Bernard ESPINASSE - 34

    Stratgies dimplantation dun ED 3 stratgies : 1 - Usage dun SGBD Relationnel (systmes ROLAP) ! les SGBDR reprsentant plus de 80% des SGBD : ils sont principalement

    envisags pour le dveloppement dED mais doivent tre adapts ! Ils doivent cependant tre adapts car ils nont pas les caractristiques

    adquates pour rpondre aux besoins des ED. 2 - Usage dun SGBD Multidimensionnel (systmes MOLAP) ! Un SGBD Multidimensionnel (SGBDM) est un SGBD capable de stocker et

    traiter des donnes multidimensionnelles ! A ce jour pas encore de cadre technologique commun pour le dveloppement

    de tels systmes : chaque produit est spcifique 3 - Usage dun SGBD Hybride (systmes HOLAP) ! Tire profit des avantages des technologies ROLAP et MOLAP :

    ! un ROLAP pour stocker, grer les donnes dtailles ET ! un MOLAP pour stocker, grer les donnes agrges

    Introduction au entrepts de donnes - Bernard ESPINASSE - 35

    Schma dun entrept de donnes Niveau logique ROLAP :

    3 grands types de schmas :

    schma en toile (star schema)

    schma en flocon (snowflake schema)

    schma en constellation (fact constellation)

    le schma en toile est souvent utilis pour l'implantation physique

    Introduction au entrepts de donnes - Bernard ESPINASSE - 36

    Schma en toile (1) Caractristiques :

    structure simple

    une table centrale : la table des faits :

    objets de l'analyse

    taille trs importante

    nombreux champs

    des table priphriques : les tables de dimensions :

    dimensions de l'analyse

    taille peu importante

    peu de champs

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 37

    Schma en toile (2) Ex 1 : Vente de mdicaments dans des pharmacies

    Schma en toile modlisant les analyses des quantits et des montants des mdicaments dans les pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique Table de faits : Vente Tables de dimension : Temps, Catgorie, Gographie

    TEMPS

    annetrimestresaisonmoisjour

    GEOGRAPHIE

    rgiondpartementville

    CATEGORIE

    typeProduitgammenomProduitcouleur

    VENTE

    annergiontypProduitquantitmontant

    F

    Introduction au entrepts de donnes - Bernard ESPINASSE - 38

    Schma en toile (3) Ex 2 : Ventes darticles dans un supermarch

    BASKET

    basketIdpayment

    DATE

    dateIddaymonthquarteryear

    PRODUCT

    productIdproductNamebrandbrandGroupsubCategorypricepriceRange

    SALE

    basketIdcustomerIdpromotionIdstoreIddateIdproductIdquantitprix

    F

    CUSTOMER

    customerIdincomeincome rangegenderageage range

    PROMOTION

    promotionIdstartDateendDatediscountType

    LOCATION

    storeIdstoreNamecityregioncountry

    Introduction au entrepts de donnes - Bernard ESPINASSE - 39

    Schma en toile (4) Associ Ex 2 : un fait :

    il a t achet 3 exemplaires 1 euro (SALE) du produit pid3 par le client cid1 la date did3 dans le magasin mid2 (store) dans le chariot cid8 (basket) correspondant la promotion prid1

    un lment de la dimension location : store id mid2 store name rondpoint city blois region centre country France

    Introduction au entrepts de donnes - Bernard ESPINASSE - 40

    Schma en toile (5) Normalisation de la table de faits :

    ! normalisation en Boyce-Codd Normal Form (BCNF) Rappel : une relation R est en BCNF si :

    "x ! y DF dfinie sur r , x contient une cl de R soit : chaque attribut non cl dpend fonctionnellement de la seule cl de

    la relation

    Normalisation des tables de dimensions : elles reprsentent une ou plusieurs hirarchies elles contiennent des donnes redondantes

    faut-il les normaliser ? la table des faits constitue l'essentiel du stockage pas/peu de mises jour des dimensions la perte d'espace n'est donc pas significative

    ! tables de dimensions : NON normalises

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 41

    Schma en flocon (1) Un modle en flocon : une volution du schma en toile avec :

    une dcomposition des dimensions du modle en toile en sous hirarchies. le fait est conserv et les dimensions sont clates conformment sa hirarchie des

    paramtres cela conduit une normalisation des tables de dimensions :

    ! structure hirarchique des dimensions ! un niveau infrieur identifie un niveau suprieur

    Avantage de cette modlisation :

    ! formaliser une hirarchie au sein d'une dimension. ! maintenance des tables de dimensions simplifie ! rduction de la redondance

    Inconvnient de cette modlisation : ! induit une dnormalisation des dimensions gnrant une plus grande

    complexit en termes de lisibilit et de gestion. ! navigation coteuse

    Introduction au entrepts de donnes - Bernard ESPINASSE - 42

    Schma en flocon (2) Ex 3: Vente de mdicaments dans des pharmacies

    Chaque dimension du schma en toile prcdent est dnormalise

    TEMPSjournomMoisnomSaison

    VENTE

    jourvillenomProduitquantitmontant

    FSAISON

    nomSaison

    MOISnomMoisnumeroMoistrimestre

    TRIMESTREtrimestreanne

    ANNEE

    anne

    GEOGRAPHIEvilledpartement

    DEPARTEMENTdpartementcodePostalrgion

    REGION

    rgion

    CATEGORIEnomProduittypeproduitnomGamenomCouleur

    GAMME

    nomGamme

    COULEUR

    nomCouleur

    TYPE

    typeProduit

    Introduction au entrepts de donnes - Bernard ESPINASSE - 43

    Schma en constellation Un modle en constellation : fusionne plusieurs modles en toile qui utilisent des dimensions communes. comprend en consquence plusieurs faits et des dimensions communes ou non

    Ex : Vente de mdicaments dans des pharmacies

    une constellation est constitue de 2 schmas en toile :

    ! l'un correspond aux VENTEs effectues dans les pharmacies et ! l'autre analyse les PRESCRIPTIONs des mdecins

    les dimensions Temps et Gographie sont partages par les faits PRESCRIPTION et VENTE.

    TEMPSannetrimestresaisonmoisjour

    VENTEannetypeproduitrgionquantitmontant

    F

    GEOGRAPHIE

    rgiondpartementville

    CATEGORIE

    typeproduitgammenomProduitcouleur

    PRESCRIPTIONannecatgoriergionnbMdicamenthonoraires

    FMEDICAMENTS

    catgoriemolculeeffetsSecondairesposologie

    Introduction au entrepts de donnes - Bernard ESPINASSE - 44

    Pr-agrgation

    Agrgation des faits selon une ou plusieurs dimensions

    2 moyens de les reprsenter :

    1. une table des faits spars/ddis avec les tables pour les dimensions correspondantes

    2. dans la mme table des faits, en codant les niveaux hirarchiques dans les tables de dimensions

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 45

    5 - Alimentation dun Entrept de donnes

    ! Processus gnral dalimentation dun ED ! Prparation des donnes ! Intgration des donnes ! Agrgation des donnes ! Personnalisation des donnes (customisation)

    Introduction au entrepts de donnes - Bernard ESPINASSE - 46

    Processus dalimentation dun ED Le processus dalimentation dun ED (ou entreposage des donnes)

    consiste :

    ! rassembler de multiples donnes sources souvent htrognes ! les homogniser

    Homognisation faite selon des rgles prcises

    Ces rgles :

    ! sont mmorises sous forme de mta-donnes (information sur les donnes) stockes dans le dictionnaire de donnes

    ! permettent dassurer des tches dadministration et de gestion des donns entreposes.

    Introduction au entrepts de donnes - Bernard ESPINASSE - 47

    Processus dalimentation dun ED Aprs avoir conu le modle des donnes, comment alimenter lED ?

    ! problmatique de lETL (Extracting Transforming and Loading) 4 tapes :

    1. Slection des donnes sources

    2. Extraction des donnes

    3. Nettoyage et Transformation

    4. Chargement

    Introduction au entrepts de donnes - Bernard ESPINASSE - 48

    ETL tools (Extract Transform Load) Support et/ou automatisation des tches suivantes :

    TACHES SUPPORT Extraction accs aux diffrentes sources Nettoyage recherche et rsolution des

    inconsistances dans les sources Transformation entre diffrents formats, langages, etc.

    Chargement des donnes dans lentrept Rplication des sources dans lentrept

    Analyse Ex : dtection de valeurs non valides ou inattendues

    Transfert de donnes haut dbit pour les trs grands entrepts Test de qualit Ex : pour correction et compltude

    Analyse des mta donnes aide la conception

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 49

    1 - Tche de slection des donnes sources Quelles donnes de production faut-il slectionner pour alimenter lED? ! Toutes les donnes sources ne sont forcment pas utiles

    Ex : Doit-on prendre ladresse complte ou sparer le code postal ?

    ! Les donnes slectionnes seront rorganises pour devenir des informations.

    ! La synthse de ces donnes sources a pour but de les enrichir. ! La dnormalisation des donnes cre des liens entre les donnes et

    permet des accs diffrents

    Introduction au entrepts de donnes - Bernard ESPINASSE - 50

    2 - Tche dExtraction des donnes

    Un extracteur (wrapper) est associ chaque source de donnes :

    ! Il slectionne et extrait les donnes

    ! Il les formate dans un format cible commun

    ! Utilisation dinterfaces comme ODB, OCI, JDBC.

    ! Le format cible est en gnral le modle Relationnel

    Introduction au entrepts de donnes - Bernard ESPINASSE - 51

    3 - Tche de Nettoyage et Transformation des donnes Objectifs du nettoyage :

    ! rsoudre le problme de consistance des donnes au sein de chaque source

    ! une centaine de type dinconsistances ont t rpertories ! 5 30 % des donnes des BD commerciales sont errones

    Types dinconsistances : ! prsence de donnes fausses ds leur saisie :

    ! fautes de frappe ! diffrents formats dans une mme colonne ! texte masquant de linformation (e.g., N/A) ! valeur nulle ! incompatibilit entre la valeur et la description de la colonne ! duplication dinformation,

    ! persistance de donnes obsoltes ! confrontation de donnes smantiquement quivalentes mais syntaxiquement

    diffrentes

    Introduction au entrepts de donnes - Bernard ESPINASSE - 52

    3.1 Tche de Nettoyage des donnes ! fonctions de normalisation ! fonctions de conversion ! usage de dictionnaires de synonymes ou dabrviations

    Dfinition de table de rgles : valeur source remplac par Valeur cible

    Mr M monsieur M Masculin M

    M M Msieur M

    Exemple de conversions :

    nettoyage = jointure + projection

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 53

    3.2 Tche de Transformation des donnes Objectifs :

    Suppression des incohrences smantiques entre les sources pouvant survenir lors de lintgration :

    ! des schmas : ! problme de modlisation : diffrents modles de donnes sont utiliss ! problmes de terminologie : un objet est dsign par 2 noms diffrents, un

    mme nom dsigne 2 objets diffrents ! incompatibilits de contraintes : 2 concepts quivalents ont des

    contraintes incompatibles ! conflit smantique : choix de diffrents niveaux dabstraction pour un mme

    concept ! conflits de structures : choix de diffrentes proprits pour un mme

    concept ! conflits de reprsentation : 2 reprsentations diffrentes choisies pour les

    mmes proprits dun mme objet ! des donnes :

    ! Equivalence de champs ! Equivalence denregistrements : fusion denregistrements

    Introduction au entrepts de donnes - Bernard ESPINASSE - 54

    4 - Tche de Chargement des donnes Objectif :

    charger les donnes nettoyes et prpares dans lED

    Cest une opration : ! qui risque dtre assez longue ! plutt mcanique et la moins complexe.

    Il est ncessaire de dfinir et mettre en place : ! des stratgies pour assurer de bonnes conditions sa

    ralisation ! une politique de rafrachissement.

    Introduction au entrepts de donnes - Bernard ESPINASSE - 55

    6 Exploitation dun entrept de donnes

    Stratgies dimplantation dun ED: Exploitation dun ED Visualisation autour dun ED

    Introduction au entrepts de donnes - Bernard ESPINASSE - 56

    Principales applications autour dun ED

    Ralisation de rapports divers (Reporting) Ralisation de tableaux de bords (Dashboards) Analyse en ligne diverses (OLAP) Fouille de donnes (Data Mining) Visualisations autour dun ED (visualizations)

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 57

    Exploitation dun ED (1) Rapports (Reporting) : ! Pour des les utilisateurs qui ont besoin d'un accs rgulier des informations

    d'une manire presque statique Ex: les hpitaux doivent envoyer des rapports mensuels des agences nationales

    ! Un rapport est dfini par une requte (plusieurs requtes) et une mise en page (diagrammes, histogrammes, etc)

    ! Les rapports peuvent tre excuts automatiquement ou manuellement

    ! J. Gamper, Free University of Bolzano, DWDM 2012-13 61

    !"#$%%&'()*'+,-.#/0%+1*',2

    ! !"#$%&'()#'-#3+1#4-01-#56+#,007#)#%")*+,%-,.."//#*+#',3+18)*'+,#',#),#,+0$/&-/&,&'.-1,2! 0929:#&+()'5'5 Trait en dtail plus loin

    Fouille de donnes (Data Mining) : ! Recherche de connaissance, sous forme de modle de comportement,

    cachs dans les donnes ! Domaine jeune lintersection de lIntelligence Artificielle, les Statistiques, les BD ! Nombreuses techniques de fouille : rgression linaire, induction darbres de

    dcision, algorithmes gnriques, rseaux de neurones, ! Les techniques de fouille sont en pleine volution et sont de plus en plus

    intgres dans les ED -> Trait en dtail plus loin

    Introduction au entrepts de donnes - Bernard ESPINASSE - 60

    Exploitation dun ED (4) Visualisation autour dun ED Facilitent lanalyse et linterprtation de donnes convertissent des donnes complexes en images, graphiques en 2 et 3

    dimensions, voire en animations Sont de plus en plus intgres dans les ED

    J. Gamper, Free University of Bolzano, DWDM 2012-13 68

    !"#$%%&'()*'+,-.#/'-0)&'1)*'+,

    ! 23)%4'()%35-5,*)*'+,#+6#(+7%&58#35-0&*

    ! 9+&+3:#-'15:#),;#6+37#45&%#*+#

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 61

    6 Domaines dapplication des entrepts et succs stories

    Les domaines privilgis : ! Domaine bancaire ! Domaine de la grande distribution ! Domaine des tlcommunications ! Domaines de lassurance et de la pharmacie ! Domaine de la sant,

    Succs stories : ! Casino, Walmart, Camaieu, ! FranceTlcom,

    Introduction au entrepts de donnes - Bernard ESPINASSE - 62

    Domaines privilgis : Bancaire Domaine bancaire : un des premiers utilisateurs des ED ! Pour une banque, il est important de pouvoir regrouper les informations

    relatives un client afin de rpondre ses demandes de crdit par exemple

    ! Des mailing cibls doivent aussi tre rapidement labors partir de toutes les informations disponibles sur un client lors de la commercialisation dun nouveau produit

    ! Lutilisation de cartes de crdit ncessite des contrles posteriori, par exemple pour la recherche de fraudes : la mmorisation des mouvements peut rendre de grands services

    ! Les changes dactions et de conseils de courtages sont facilits par une mmorisation de lhistoire et une exploitation par des outils dcisionnels avancs par exemple pour dterminer des tendances de marchs

    Introduction au entrepts de donnes - Bernard ESPINASSE - 63

    Domaines privilgis : Grande distribution Domaine de la grande distribution fortement demandeur dED : ! intressant de regrouper les informations de ventes pour dterminer les

    produits succs, mieux suivre les modes, dtecter les habitudes dachats, les prfrences des clients par secteur gographique

    ! La fouille de donnes (Data Mining) a permis de dvelopper des techniques sophistiques dexploitation de donnes qui aident mettre en vidence les rgles de consommation

    ! Explorer le panier de la mnagre est devenu un exercice dcole : il sagit de trouver partir de lenregistrement des transactions quelles sont les habitudes dachats, plus prcisment quels sont les produits achets en mme temps

    Apports constats dans la grande distribution : ! augmentation des ventes grce un meilleur marketing ! amlioration des taux de rotation de stocks ! limination des produits obsoltes ! rduction des rabais, remises, ristournes ! meilleure ngociation des achats

    Introduction au entrepts de donnes - Bernard ESPINASSE - 64

    Domaines privilgis : Tlcommunications Domaine trs concurrentiel des tlcommunications : utilise beaucoup les ED ! grande masse de donnes concernant les abonns et les appels est enregistre ! Plusieurs mois de description dtaille des appels comprenant, pour chaque

    appel appelant, appel, heure et dure sont disponibles chez les oprateurs En respectant les lois de scurit et libert, que peut-on faire de telles donnes ? Couples ou non avec des informations comptables, lexploitation de ces donnes regroupes en ED par des techniques danalyse et dexploration permet :

    ! Danalyser le trafic ! De mieux cerner les besoins des clients, ! De classer les clients par catgories, ! De comprendre pourquoi certains changent doprateurs et mieux

    rpondre leur besoins

  • Introduction au entrepts de donnes - Bernard ESPINASSE - 65

    Domaines privilgis : Assurance et de la pharmacie Domaines de lassurance et de la pharmacie : trs friands de techniques dcisionnelles ! Lexercice de base de lassureur est de dterminer le facteur de risque dun

    assur ! Celui dun producteur pharmaceutique est de dtecter limpact dun

    mdicament ! Plus gnralement, le suivi des informations relatives la liaison produit-

    client sur un ED est souvent synonyme de gains importants : meilleure connaissance des produits, dtection des dfauts, meilleure connaissance des clients, dtection de rejets, ciblage du marketing, etc

    ! Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour le suivi des produits, des clients, des concurrents : notion mergente de Data Webhouse

    Introduction au entrepts de donnes - Bernard ESPINASSE - 66

    Succs story dans la grande distribution (1) Exemple du groupe Casino : Projet : ! un des premiers entrepts en France ! plusieurs millions de dollars conomiss en sapercevant que les stocks de

    coca-cola faisaient souvent dfaut... ! 1994 : 80 Go et 50 utilisateurs ! 2002 : + de 10 To, 1500 utilisateurs, 25000 requtes/jour

    Solution : Teradata Exemple du groupe Walmart : Projet : ! le plus gros entrept de donnes du monde, en 2006 : 0.5 Po de donnes ! distributeurs, magasins, clients (> 108 ), produits (> 109 )... ! un des plus secret galement...

    Solution : Teradata Wal-Mart, for example, discovered that people who buy Pampers often buy beer, so they

    moved Pampers and beer close together. The result was that sales of both increased (Computer Business Review, October 1996).

    Introduction au entrepts de donnes - Bernard ESPINASSE - 67

    Succs story dans la grande distribution (2) Exemple du groupe Camaieu: Projet : ! plusieurs systmes de production (magasin, logistique, comptable, etc.)

    Solution : ! 1996 : agrgs dans un entrept de donnes, via lETL Sunopsis ! base Oracle dcoupe en rfrentiels mtier (datamarts achat, marketing...) ! consultation des datamarts via le systme de reporting de Business Objects ! 2003 : ajout d'un cube OLAP intgr la base relationnelle Oracle9i :

    ! meilleure ergonomie, ! permet des requtes complexes avec prise en compte de plusieurs

    niveaux au sein de la BD (types d'articles, collections, produits, zones gographiques, )

    ! base de composants Java (BI Beans) livre par l'diteur au sein de son environnement de dveloppement (JDeveloper).

    Introduction au entrepts de donnes - Bernard ESPINASSE - 68

    Succs story dans les tlcommunications Exemple de France Tlcom : Le projet : ! 12 BD sources ! rcupration des donnes : 1,5 anne ! donnes rgionales et nationales ! parfois chez des prestataires de services ! parfois au prix dun intense lobbying ! en 2003 : environ 5 annes de travail

    Solution : ! entreposage : SQL server ! DW de 3 bimestres, vid priodiquement ! 1,2 million dindividus ! 1 fait = 1 client ! 250 colonnes ! intgration faite la main priodiquement

    Exploitation : progiciel de DM dvelopp spcifiquement