43
Cours Les entrepôts de données Data Warehouses Prof. CHRAYAH Mohamed

Les entrepôts de données

Embed Size (px)

DESCRIPTION

Cours / présentation Data WarehousesPar: CHRAYAH Mohamed

Citation preview

Cours Les systmes dcisionnels

CoursLes entrepts de donnesData WarehousesProf. CHRAYAH Mohamed Les entreprises passent l re de linformation.

Dfi : Transformer leur systme dinformation quiavait une vocation de production un SI dcisionnelDont la vocation de pilotage devient majeure.Definition dun Data warehouse (DW) La Data warehouse (entrept de donnes) est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support d un processus d aide la dcision (Inmon, 94). 1-Donnes orientes sujet Donnes structures par thmes (sujets majeurs de lentreprise) et non suivant les processus fonctionnels. Le sujet est transversal aux structures fonctionnelles et organisationnelles de lentreprise. On peut accder aux donnes utiles sur un sujet. Lintgration des diffrents sujets se fait dans une structure unique. Definition dun Data warehouse (DW) 1-Donnes orientes sujet Il n y a pas de duplication des informations communes plusieurs sujets. La base de donnes est construite selon les thmes qui touchent aux mtiers de lentreprise (clients, produits, risques, rentabilit, ). Les donnes de base sont toutefois issues des Systmes dInformation Oprationnels (SIO).Definition dun Data warehouse (DW) 2 Donnes intgres

Les donnes, issues de diffrentes applications de production, peuvent exister sous toutes formes diffrentes. Il faut les intgrer afin de les homogniser et de leur donner un sens unique, comprhensible par tous les utilisateurs. Elle doivent possder un codage et une description unique.Definition dun Data warehouse (DW) 3 Donnes non-volatiles Une information est considre volatile quand les donnes sont rgulirement mises jour comme dans les Systmes dInformation Oprationnels. Dans un SIO, les requtes portent sur les donnes actuelles. Il est difficile de retrouver un ancien rsultat. Dans un DW, il est ncessaire de conserver lhistorique de la donne. Ainsi, une mme requte effectue deux mois dintervalle en spcifiant la date de rfrence de la donne, donnera le mme rsultat. Definition dun Data warehouse (DW) 4 Donnes historises Dans un SIO, les transactions se font en temps rel, et les donnes sont mises jour constamment. L historique des valeurs de ces donnes n est gnralement pas conserv car il est inutile. Dans un DW, la donne nest jamais mise jour. Les donnes du DW s ajoutent aux donnes dj engranges.=> ajout de couches de donnes successives, la manire des strates gologiquesDefinition dun Data warehouse (DW) 4 Donnes historises

Le DW stocke donc lhistorique des valeurs que la donne aura prises au cours du temps. Un rfrentiel de temps est alors associ la donne afin dtre capable didentifier une valeur particulire dans le temps. Les utilisateurs possdent un accs aux donnes courantes ainsi qu des donnes historises. Definition dun Data warehouse (DW) 5 Support d un processus d aide la dcision

Un DW est un systme d information ddi aux applications dcisionnelles dont les principales contraintes sont : des requtes complexes plusieurs niveaux d agrgation la ncessit de disposer d informations synthtiques ( reporting de gestion, analyse des ventes, gestion de la masse salariale, etc) le stockage des donnes sous une forme multi-dimensionnelle des mises jour priodiquesDefinition dun Data warehouse (DW) Objectifs dun Data warehouse permet le dveloppement d applications dcisionnelles et de pilotage de l entreprise et de ses processus joue un rle de rfrentiel pour l entreprise puisqu il permet de fdrer des donnes souvent parpilles dans diffrentes bases de donnes offre une vision globale et oriente mtier de toutes les donnes que manipule l entreprise permet de faire face aux changements du march et de l entreprise offre une information comprhensible, utile , rapide et jour Architecture dun Data warehouseDataWarehouseExtraireTransformerChargerMettre jourOLAP AnalyseRequtesRapportsData miningMonitor&IntegratorMeta-donnesSourcesOutils Front-End Data MartsBD oprationnelles autressourcesStockageOLAP Server 1 Les Bases de Donnes Bases de donnes internes: Bases de production de lentreprise Bases cres par les utilisateurs Bases de donnes externes lentreprise qui ncessitent leur identification, leur rapatriement et leur intgration. Donnes achetes des fournisseurs de donnes Donnes rcupres sur Internet Architecture dun Data warehouse2 Oprations sur les donnes

EXTRACTION Extraire les donnes de leur environnement dorigine (bases de donnes relationnelles, fichiers plats, ). Utiliser une technique approprie pour n extraire que les donnes ncessaires : donnes cres ou modifies depuis la dernire opration dextraction. Architecture dun Data warehouse2 Oprations sur les donnesTRANSFORMATION Une mme donne peut avoir une structure ou une valeur diffrente en fonction de la base (production, externe, utilisateurs) dont elle provient. On peut tre confront des redondances (un mme client peut apparatre avec diffrents attributs et proprits selon la source consulte). Il faut supprimer certaines donnes aberrantes qui risqueraient de fausser les analyses. Il faut donc purer et transformer les donnes. Architecture dun Data warehouse2 Oprations sur les donnesCHARGEMENT/RAFRAICHISSEMENT Effectuer sur les donnes des oprations de calcul et dagrgation. Remplacer certaines bases si aucune solution dextraction satisfaisante nest possible. Mettre en place des procdures de chargement et de restauration (en cas de problme). Typiquement, la frquence du chargement est quotidienne et il est effectu en tout dbut de matine. Si la disponibilit du systme ne peut tre interrompue, envisager la mise en place de systmes redondants. Architecture dun Data warehouse2 Oprations sur les donnes LES OUTILS On peut automatiser tout ou partie des oprations dcrites. Des outils sont disponibles : Extract dETI, SIS de MICROSOFT, SAS/Warehouse Administrator de SAS Le dveloppement doutils spcifiques est envisageable mais risque d alourdir les tches. Architecture dun Data warehouse3 Dictionnaire de Donnes

Le dictionnaire de donnes regroupe les mta-donnes. Une mta-donne reprsente une donne sur les donnes. Il sagit de lensemble des informations qui permettent de qualifier une donne, notamment par sa smantique, sa rgle de calcul, sa provenance, sa qualit, etc les mta-donnes permettent de prciser de quelle table provient la donne, quelles dates et heures elle en a t extraite, ltat de la base cet instant, etc...Architecture dun Data warehouse3 Dictionnaire de Donnes

Une mta-donne permet de remonter la chane et de reconstituer lensemble dvnements et donnes qui ont servi obtenir linformation associe. Le dictionnaire de donnes contient toutes les informations permettant dexploiter les donnes. Cest un rfrentiel destin aux utilisateurs et ladministrateur du DW. A ce jour, il nexiste pas de normes en ce qui concerne la structure et la gestion des dictionnaires de donnes. Chaque outil propose sa solution et son approche. Architecture dun Data warehouse4 LES DATA MARTS

Un data mart (magasin de donnes) est un DW focalis sur un sujet particulier, souvent au niveau dpartemental ou mtier. C est donc un mini DW li un mtier particulier de l entreprise (finance, commercial, ). Un DW est souvent volumineux (plusieurs centaines de Go voire quelques To ) avec des performances inappropries (temps de rponse trop longs). Un Data mart, quant lui, comporte moins de 50 Go, ce qui permet des performances acceptables. La cration dun data mart peut tre un moyen de dbuter un projet de DW (projet pilote).Architecture dun Data warehouseDIMENSION

On entend par dimensions les axes avec lesquels on veut faire l'analyse. Il peut y avoir une dimension client, une dimension produit, une dimension gographie (pour faire des analyses par secteur gographique).

Une dimension est tout ce qu'on utilisera pour faire nos analyses.Modlisation dun Data warehouseFAITLes faits sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent des informations oprationnelles et qui relatent la vie de l'entreprise. On aura des tables de faits pour les ventes (chiffre d'affaire net, quantits et montants commands, quantits factures, quantits retournes, volumes des ventes, etc.) par exemple ou sur les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du stock, taux de roulement d'une zone, etc. Un fait est tout ce qu'on voudra analyser.

Modlisation dun Data warehouseLe modle en toileModlisation dun Data warehouseN CdeDate Cde

CommandeN ClientNom ClientAdresse ClientVille

ClientCode produitNom ProduitDescription ProduitCatgorieDescription catgoriePrix unitaire

ProduitCode vendeurNom VendeurVille VendeurQuota

VendeurN CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total

TABLE DE FAITS

DateClef dateDateMoisAnne

Nom VilleRgionPays

VilleLe modle en toile

Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures .Plusieurs tables de dimension : descripteurs des dimensions.

Avantages : Facilit de navigation Performances : nombre de jointures limit . Gestion des agrgats Fiabilit des rsultatsInconvnients : Toutes les dimensions ne concernent pas les mesures Redondances dans les dimensions Alimentation complexe.Modlisation dun Data warehouseProprits des mesuresAdditivit : somme sur toutes les mesuresExemple : CA ; Quantit vendue, ...Semi-additivit : somme sur certaine mesures :Exemple : nbre de contacts clients, Etats des stocks, ...Non-additivit : pas de somme , recalculerExemple : encours moyen fin de mois, plus grand CA pour lensemble des magasinsModlisation dun Data warehouseLa table de fait contient se qu'on appelle des " mesures .Les tables de dimension contiennent les lments qu'utiliseront les dcideurs pour voir la table de faits.On n'utilise JAMAIS la cl d'un systme de production comme cl de dimension.Chaque ligne de la table de faits doit avoir une relation avec chacune des tables de dimensionsIl n'existe de relations qu'entre les dimensions et les tables de faits.Modlisation dun Data warehouseModlisation dun Data warehouseOn vous demande de crer un data Mart (une toile) pour l'analyse de l'activit des reprsentants d'une entreprise de vente d'imprimantes. Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. Les employs font ils leur travail, quelle est la zone de couverture des vendeurs, ou sont les endroits o les vendeurs sont le moins efficaces, quelle est la moyenne de ventes des reprsentants, etc., etc. L'entreprise possde un systme de gestion de ressources humaines, un systme de gestion des ventes et des feuilles de routes avec des informations concernant les vendeurs : kilomtres parcourus, litres d'essence utilise, frais de voyage, ventes, promesses de ventes, etc.Modlisation dun Data warehouseN CdeDate Cde

CommandeN ClientNom ClientAdresse ClientVille

ClientCode produitNom ProduitDescription ProduitCatgorieDescription catgoriePrix unitaire

ProduitCode vendeurNom VendeurVille VendeurQuota

VendeurN CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total

TABLE DE FAITS

DateClef dateDateMoisAnne

Nom VilleRgionPays

VilleLe modle floconnModlisation dun Data warehouseN CdeDate Cde

CommandeN ClientNom ClientAdresse ClientVille

ClientCode produitNom ProduitDescription ProduitcatgoriePrix unitaire

ProduitCode vendeurNom VendeurVille VendeurQuota

VendeurN CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total

TABLE DE FAITS

DateClef dateDateMois

Nom VilleRgion

VilleCathegorieCatgorieDescriptionMOISMoisAnne

ANNEEAnne

RegionRgionPays

Pays

Pays

La modlisation en flocon tant une variante de la modlisation en toile.

Le principe de la modlisation en flocon est de crer des hirarchies de dimensions, de telle manire avoir moins de lignes par dimensionsModlisation dun Data warehouse Modle floconn = Modle en toile + normalisation des dimension

Lorsque les tables sont trop volumineusesAvantages : rduction du volume, permettre des analyses sur la dimension hirarchise.Inconvnients : navigation difficile ; nombreuses jointures.Modlisation dun Data warehouseConstellation

Une constellation est une srie d'toiles ou de flocons relies entre eux par des dimensions. Il s'agit donc d'toiles avec des dimensions en commun. Unenvironnement dcisionnel idal serait une place ou il seraitpossible de naviguer d'toile en toile, de constellation enconstellation et de Data Mart en DataMart la recherchede l'information si prcieuse.Modlisation dun Data warehouse LOLAP ou Online Analytical Processing est une technique informatique d'analyse multidimensionnelle, qui permet aux dcideurs, d'avoir accs rapidement et de manire interactive une information pertinente prsente sous des angles divers et multiples, selon leurs besoins particuliers. A titre dexemple on peut reprsenter de faon graphique des informations contenues dans une base de donnes, sous la forme d'un cube plusieurs dimensions, lequel cube permet d'analyser ces donnes sous diffrents angles, grce l'organisation de celles-ci en axes d'analyses et en variables analyser.

Le Concept OLAPOLAP et Data Warehouse Il est important de distinguer les capacits dun data warehouse de celles dun systme OLAP. Contrairement un data warehouse qui se base le plus souvent sur une technologie relationnelle, OLAP utilise des vues multidimensionnelles de donnes agrges afin de permettre un accs rapide des informations stratgiques pour une analyse plus fine. " Les 12 rgles OLAP:Vue multidimensionnelle.Transparence du serveur OLAP a diffrents types de logiciels.Accessibilit a de nombreuses sources de donnes. Performance du systme de Reporting.Architecture Client/serveur.Dimension gnriques.Gestion dynamique des matrices creuses.Support multi-utilisateurs.Calculs a travers les dimensions.Manipulation intuitive des donnes.Souplesse et facilit de constitution des rapports.Nombre illimit de niveaux dagrgation et de dimensions

Le Concept OLAPAnalyse MultidimentionnelleLes serveurs OLAP ont t conus pour sintgrer dans un environnement client/serveur afin den retirer les possibilits offertes.4000800010007000120004000TEMPSPRODUITCLIENTAnalyse Multidimentionnelle 1- obtenir des informations dj agrges selon les besoins de lutilisateur.2- simplicit et rapidit daccs3- capacit manipuler les donnes agrges selon diffrentes dimensions4- un cube utilise les fonctions classiques dagrgation : min, max, count, sum, avg, mais peut utiliser des fonctions dagrgations spcifiques.

Analyse Multidimentionnelle

LES DIMENSIONS

LES VARIABLES

Lutilisateur formulera alors ses requtes en prcisant les indicateurs a analyser(le chiffre daffaire),les dimensions sur lesquelles ces analyseurs doivent tre projetes (le produit et le client) et la population a observer (le mois mars 2010) Analyse MultidimentionnelleNavigation dans les donnes:DRILL-DOWN,DRILL-UP Le drill-down/up dsigne la facult daller du niveau global vers le niveau dtaill ,et inversement. Ce mcanisme est totalement bas sur la notion de hirarchieSLIDE AND DICE Dsigne la possibilit de faire pivoter dynamiquement les axes du tableau danalyse croise.DATA SURFING La possibilit laisse a lutilisateur de circuler librement, de manire intuitive et ergonomique dans un modle dimensionnel, lutilisateur peut alors modifier dynamiquement ses axes danalyse ou appliquer un nouveau filtre a ses donnes.Analyse MultidimentionnelleLES DIFFERENTS OUTILS OLAP

Deux versions d'OLAP s'affrontent actuellement:

Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de donnes multidimensionnelle. Les outils ROLAP (Relational OLAP) d'autre part, qui reprsente leur quivalent sur une base de donnes relationnelle.

Les outils MOLAP

LES OUTILS ROLAP