View
204
Download
0
Category
Preview:
Citation preview
Institut Suprieur de Gestion, Dpartement Informatique
COURSDATAWAREHOUSE DATAMININGNiveau : 2LFIG
Anne universitaire 2011/2012
PLAN DATAWAREHOUSEContexte Les entrepts de donnes Les entrepts de donnes vs les bases de donnes Les datamarts Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Les oprations OLAP
2
CONTEXTEBesoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients?
Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?3
Quels tunisiens consomment beaucoup de tel produit?
CONTEXTELES DONNES UTILISABLES PAR LES DCIDEURS Caractristiquesy y y
de ces donnes:
y y
Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique4
CONTEXTE
Enjeux :Les ventes locales : amliorer le chiffre daffaires localAmliorer les ventes locales
Les exportations : cibler de nouveaux clients ltrangerAmliorer les ventes lexport
Les dcideurs : anticiper pour mener une politique globalelaborer des indicateurs
PROBLMATIQUEComment rpondre aux demandes des dcideurs?En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes
6
PROBLMATIQUEun ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information
SI SID
un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information en vue d'offrir une aide la dcision
Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse7
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, 2. orientes sujet, 3. non volatiles, 4. historises, 5. rsumes 6. et disponibles pour linterrogation et lanalyse => Pour aider aux prises de dcisions(Inmon 96).8
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, provenant de sources 2. orientes sujet, diffrentes et 3. non volatiles, ventuellement 4. historises, htrognes. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).9
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, rorganises autour des 2. orientes sujet, sujets majeurs de lentreprise de 3. non volatiles, faon tre plus 4. historises, facilement manipulables. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).10
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, en lecture seule, 2. orientes sujet, utilises seulement en mode de consultation et 3. non volatiles, ne sont que trs 4. historises, rarement modifies. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).11
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, elles sont enregistres 2. orientes sujet, en considrant leur 3. non volatiles, volution (spatio4. historises, temporelle). 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).12
DATAWAREHOUSEDFINITION
y Collection de donnes : 1. intgres, elles sont rorganises 2. orientes sujet, afin de faciliter les analyses et 3. non volatiles, les processus de prise de 4. historises, dcision. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).13
DOMAINES DUTILISATION DE DATA WAREHOUSE
Banquey y
Risques dun prt, prime plus prcise
Santpidmiologie y Risque alimentaire
Commerce Logistique Assurancey y
Ciblage de clientle y Dterminer des promotionsy
Adquation demande/production Risque li un contrat dassurance (voiture)14
ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES
Quest ce quune base de donnes ?
ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES BD 1. 2.
ou DB (Database)
Ensemble dinformations structures Accessibles par un LMD (DML)Stockage et mise jour de donnes Recherche de donnes multi-critres
3. 4. 5.
Partages par de multiples utilisateurs Assurant la fiabilit et scurit des donnes Gre par un SGBD sur un serveur16
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing Service commercialBD prod
Service FinancierBD prod
Service livraisonBD prod
ClientleH I S T O R I Q U E
Data WarehouseOLAP: On-Line Analytical Processing Clientle
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing- est le modle utilis par les SGBD. - Le mode de travail est transactionnel. - L'objectif est de pouvoir insrer, modifier et interroger rapidement et en scurit la base. Ces actions seffectuent trs rapidement par de nombreux utilisateurs simultanment. Chaque transaction travail sur de faibles quantits d'informations, et toujours sur les versions les plus rcentes des donnes.
OLAP: On-Line Analytical Processing
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing-Les datawarehouses eux reposent sur le systme OLAP (On Line Analytical Processing). -Ce systme travail en lecture seulement. Consulter d'importantes quantits de donnes pour procder des analyses. Les objectifs principaux sont regrouper, organiser des informations provenant de sources diverses, les intgrer et les stocker pour donner lutilisateur une vue oriente mtier, retrouver et analyser linformation facilement et rapidement. (besoin de lhistorique)
OLAP: On-Line Analytical Processing
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, registration, accounting, etc.
OLAP: On-Line Analytical Processing
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, etc.
1. Tche principale des DW
OLAP: On-Line Analytical Processing
2. Analyse des donnes et prise de dcision
ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON
OLTPOrient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives
OLAPOrient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques
Utilisateurs nombreux, Utilisateurs peu nombreux, administrateurs/oprationn manager els Temps dexcution: court Temps dexcution: long
DATAMARTSous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Datamarts du service Marketing
DW de lentreprise
Datamart du service Ressources Humaines 23
INTRT DES DATAMARTS Nouvel
environnement structur et format en fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DWPlus facile comprendre, manipuler y Amlioration des temps de rponsey
Utilisateurs
plus cibls: DM plus facile dfinir
24
ARCHITECTURE FONCTIONNELLE DU DWSources de Alimentation Entrept donnes de donnesMta-donnes
Ciblage
Analyses & data mining
Bases de donnes
Extract Transform Load
Rapports Magasin de donnes
excelEntrepts de donnes Data mining Cube25
Sources de donnes externes
Phase dalimentation
Phase de modlisation
Phase danalyse
Data warehouse 1. Motivations et architecture 2. Conception de la BD support 3. Alimentation du DW 4. Exploitation OLAP 5. Conclusion26
1.MOTIVATIONS DES ENTREPRISES
Besoin des entreprisesy y y
accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...produits succs, modes, habitudes dachat prfrences par secteurs gographiques
Exemples d'applications concernesy
y y
Bancaire : suivi des clients, gestion de portefeuilles
mailing cibls pour le marketing classification des clients, dtection fraudes, fuites de clients27
Tlcommunications : pannes, fraudes, mobiles, ...
ARCHITECTURE OLTP ET OLAPReports & Analysis
Appli. Appli. Appli.
OLAP
ETL
OLTP
DW
DM
Aides la dcision
28
2. CONCEVOIR LE DW
Export de donnes des sourcesy y y
Htrognes et varies Fichiers, BD patrimoniales, Web, Dfinition des vues exportes Intgre les donnes utiles S'appuie sur le modle relationnel Description des sources Description des vues exportes Description du schma global29
Dfinition d'un schma globaly y
Ncessit d'une gestion de mta-donnesy y y
Conception DW
ORGANISATION PAR SUJET Lesy
donnes sont organises par sujets majeurs:Clients, produits, ventes,
Sujety y
= faits + dimensions
Collecte les donnes utiles sur un sujetExemple: ventes
Synthtise une vue simple des vnements analyser
Exemple: Ventes (N, produit, priode, magasin, )
y
Dtaille la vue selon les dimensionsExemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)
30
Conception DW
DW- MODLISATION-Schma entit-relation (classique) - Schma en toile (star schema) - Schma en flocon (snowflake schema) tables de faits : nombreux champs, tables centrales dimensions : peu de champs, permettent dinterprter les faitsTout indicateur est modlis sous la forme dune toile ou dun flocon31
SCHMA EN TOILEStructure simple utilisant le modle entit-relation Une entit centrale (faits) - objet de lanalyse Des entits priphriques (1seul niveau) - dimensions de lanalyse
32
EXEMPLE DE SCHMA EN TOILE
Une table de faits encadres par N tables de dimensionsProduits
PeriodeKey_periode anne trimestre mois jour
Table de faits ventes Key_periode Key_produit Key_magasin units_vendues montant_vente amount of s sales
Key_prod description couleur taille fournisseur
MagasinsKey_mag nom ville dpartement 33 pays
SCHMA EN TOILETuples de la table des faits cls trangres formant une cl primaire des valeurs associes chaque cl primaire
34
EXEMPLE DE SCHNEMA ENFLOCONStimetime_key day day_of_the_week month quarter year item
Sales Fact Table time_key item_key branch_key
item_key item_name brand type supplier_key
supplier supplier_key supplier_type
branch branch_key branch_name branch_type
locationlocation_key street city_key
location_key units_sold dollars_sold avg_sales Measures
citycity_key city province_or_street 35 country
SCHMA EN FLOCONSEvolution du star schema Normalisation des tables de dimensions 1 table Fait Plusieurs niveaux de tables de dimensions
36
SCHMA EN FLOCONS
Raffinement du schma toile avec des tables normalises par dimensionsProduits IDprod description couleur taille IDfour Fournisseurs IDfour description type Adresse
Ventes
37
BILAN CONCEPTIONLe datawarehouse regroupe, historise, rsume les donnes de l'entreprise Le concepteur dfinit schma exports et intgrsy y
des choix fondamentaux ! Ciblage essentiel !
Le datamart cest plus cibl et plus petit. Question?y
Peut-on ajouter des donnes au niveau de l entrept ?
38
Conception DW
LAnalyse MultiDimensionnellObjectif Obtenir des informations dj agrges selon les besoins de lutilisateur : simplicit et rapidit daccs
HyperCube OLAP Reprsentation de linformation dans un hypercube N dimensions
OLAP(On-Line Analytical Processing) Fonctionnalits qui servent faciliter lanalyse multidimensionnelle : oprations ralisables sur lHyperCube39
DW
Base Multidimensionnell
De la relation au Cube
agrgations
40
Modlisation multidimensionnelle Gnralisation des tableurs Notion de Cube de donnes : Data Cube Reprsentation de N attributs extraits d une table sous forme d un cube, N-k attributs composant les dimensions le long desquelles des groupements sont possibles, les k autres tant des mesures rsultant de fonctions d agrgations. Exemple : Dfinition d un cube sur quantit selon les axes NumPro, NumFou et Date partir de la table Ventes: Ventes ( NV, NUMPRO, NUMFOU, DATE, QTE, PRIX)
41
CUBE DE DONNES
Date NumFou 2006
350 600 300 300 500 400 250P1 P2
2005
NumPro
2004
200F1 P3
F2
42
Exploitation multidimensionnelle Intrt d un cube : Possibilit des raliser des coupes par slection selon une dimension. Vue d un cube : Vue dfinie partir d un cube de donnes par agrgation des quantits selon un sous-ensemble des attributs. Pour un cube de dimension k, il existe 2k vues avec NumPro, NumFou, Date une fonction d agrgat. NumPro, Date NumPro, NumFou
NumFou, Date
NumPro
NumFou
Date
43
LE DATA CUBE ET LES DIMENSIONS
Axe d'analyse: La gographie (Pays - rgion - ville)
Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Axes d'analyse: dimensions 44 Variables analyses: indicateurs
Le multidimensionnel Dimensions:
Indicateurs:
Temps Gographie Produits Clients Canaux de ventes.....
Nombre dunits vendues CA Cot Marge.....
45
Analyse multidimensionnelle
Capacit manipuler des donnes qui ont t agr Selon diffrentes dimensionsExemple : analyse des ventes / catgorie de produit + /anne + /zone gographique + /dpartement commercial 3 dim. 4 dim. 1 dim. 2 dim.
+
46
LA GRANULARIT DES DIMENSIONS
Temps
Jours
Mois
Trimestres
Annes
Gographie
Villes
Rgions
Pays
Produits
Numros
Types
Gammes
Marques47
EXEMPLE
Montant des ventes fonction de (Mois, rgion, Produit)Granularit des dimensions : Type Rgion Catgorie Pays
Anne Trimestre Mois Semain Jour48
Produit
Produit
Ville
MagasinMois
LA NAVIGATIONMULTIDIMENSIONNELLEZoom selon une dimension Coupe d un cubeProduits pour une rgion donne
CAFrance Est Lyon Sud Ouest Nice
Temps en semaines
Marseille
49
Rle des axes danalyseFournir, grce aux hirarchies dont ils sont porteurs, des rgles de calcul dagrgats.
85
Somme des fils = valeurs du pre
15
20
50
10
5
10 10
20
3050
agrgation
Rle des axes danalyseFournir pour lanalyse, les mcanismes de cheminements Dans linformation, de la synthse vers le dtail (zoom avant/arrire) 85
Zoom avant/arrire
15
20
50
10
5
10 10
20
3051
La navigation
Oprations sur le cube ButVisualisation/Utilisation dun fragment de lhypercube
3 catgories doprationsCatgorie Restructuration Granularit Ensembliste Concerne Reprsentation Niveau de dtail Extraction52
RestructurationRorientation de la vue multidimensionnelle * slection graphique * flexibilit du schma
-Rotate/Pivot -Switch -Split -Nest -Push53
-Rotate/Pivot
54
-Switch
55
-Split
56
-Nest
57
GranularitNavigation entre les niveaux * groupements * agrgation
Manipulations ncessitant des informations non contenues dans le cube
-Roll-up -Drill down
Cuboids58
-Roll-up Rduction d une dimension du cube en la remplaant par une dimension grain plus large, donc en allant du dtail vers le global. Exemple : CUBE (Produits, Date, Ville) * Oprateur de pliage sur l axe Date : Rollup (Anne Mois), Rollup(Anne) * Possibilit de faire l agrgat total selon une dimension axe date : Rollup ( ) : supprime la dimension date et somme pour toute date59
-Roll-up :-dune vue dtaille une vue globale
60
-Drill-downDpliage : Extension d une dimension du cube en la remplaant par une dimension grains plus fins, donc en allant du global vers le dtail. Exemple : Pour le cube CUBE (Fournisseurs, Anne, Pays) * oprateur de Dpliage sur l axe anne : Drilldown (Anne Mois), Drilldown (Anne Mois Jour)
Eclater les mesures selon les valeurs de la nouvelle donne introdu61
-Drill-down : - dune vue globale une vue dtaille
62
GranularitPour faciliter : Drill-down Roll-up Mmorisation de certaines vues concrtes Mais lesquelles?? Problme de recherche : -Maximiser la rutilisation des rsultats des cubes prcdents pour calculer des cubes plus globaux. -La fonction dagrgation change aussi la nature du pbm
Fonction additive : sum, min, max Fonction algbrique : avg, Fonction holistique : mdiane,
63
Manipulations ensemblistes
Manipulations classiques Extension plusieurs dimensions
-Slection -Projection -Jointure64
-Slection
65
-Projection
66
-Jointure
67
Coupes du cube Coupe (SLICE): Slection de tranches du cube par desprdicats selon une dimension Exemple : * Cube (Produits, Date, Ville) * Coupe selon l axe des dates : Slice (10-02-98), Slice ( >1998 AND 2005 AND < 2006) [Cube] ] ] ].69
Rsum :L'algbre des cubes Roll up :
Agrger selon une dimension
Semaine Drill down :
Mois
Dtailler selon une dimension
Mois Semaine Slice et Dice:
Slection et projection selon 1 axe
Mois = 04-2006 ; Projeter(Rgion, Produit)
Pivot :
Tourne le cube pour visualiser une face
(Rgion,Produit) (Rgion, Mois)
70
Le multidimensionnel
FIN
BILAN GESTIONLa modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnely y y
transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation Combien de datacubes partir de N variables ?
Questions ?y72
Le multidimensionnel
5. IMPLMENTATION
Multidimensional OLAP (MOLAP)y
implmentent les cubes comme des matrices en mmoire implmentent les cubes comme des tables relationnelles certaines donnes en matrices en mmoires, d'autres en tables sur disques
Relational OLAP (ROLAP)y
Hybrid systems (HOLAP ou MROLAP)y
73
Implmentation
Choix d un SGBD Relationnel : ROLAP
* Donnes stockes en tables * Donnes exploites par des fonctions OLAP spciales (Group by et Cube)
* ROLAP : Technique implmentant les fonctions OLAP de typecalcul du cube de donnes au sein d un SGBD relationnel
* 2 Types de schmas relationnels dans les entrepts :74
Schma en toile et Schma en flocon
Excution de requtes (ROL1. 2. Traduction de requte OLAP en requtes SQL Dtermination des vues matrialises questionner * de niveau adquat * de cot moindre
75
MOLAPTechnologie de bases de donnes multidimensionnelles * structure de stockage = tableaux *MOLAP : Technique implmentant les fonctions OLAP de type calcul du cube de donnes directement en mmoire virtuelle , avec des structures de donnes persistantes adaptes * SGBD multidimensionnel : SGBD ddi aux calculs de cubes - implmentation de type tableau : CUBE [1:M, 1:N, 1:P]76
MOLAPCorrespondance directe avec la vue MD Gestion de la faible densit (sparsity) * structure dindex = dimensions peu denses * donnes = tableaux des dimensions denses Problme dextensibilit
* MROLAP : Couche multidimensionnelle au dessus d un SGBD relationnel
77
ROLAP VERSUS MROLAPSQL+Cube SQL+Cube
Analyseur Optimiseur Oprateurs relationnels Oprateurs dcisionnels Cache SGBD
Oprateurs dcisionnelsSQL
Cache Cube
Analyseur Optimiseur Oprateurs relationnels Cache SGBD
78
Implmentation
HOLAPCombinaison des technologies ROLAP et MOLAP * donnes dtailles dans BDR * donnes agrges dans BDMD
SGBD Relationnel avec des oprateurs et algorithmes adquats : -GROUP BY CUBE -StarJoin, Index Bitmap
79
MOLAP
ROLAP
HOLAP
Stockage multidim. natif
Stockage Relationnel Restitution multidimension. Optimisation du volume stock par mise en uvre de mcanismes de calculs dynamiques dagrgats
Stockage multidimension Et relationnel Restitution Multidimension. avec gestion dynamique du dcrochage vers la base de dtail relationnel
80
EVOLUTION DES SGBD
Utilisation intensive des calculs d'agrgatsy
Optimisation, concrtisation Fonctions agrgats
Nouvelles fonctions de SQLy y
Rank, Moving Average, Rollup, Cube, ... Pivot, Standard dviation, Covariance, Corrlation
Fonctions statistiques:
81
Implmentation
VUES CONCRTESCREATE MATERIALIZED VIEW (column_list) AS SELECT La vue est pr-calcule par le SGBD y
Pr-calcul des agrgats et jointures
Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager
82
Implmentation
EXEMPLETable:Emp(#emp, job, salary)
Dfinition de la vue:CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp GROUP BY job;
Interrogation de la vue:SELECT job FROM job_avg_sal WHERE avg_sal > 1000083
Implmentation
EXTENSION DE SQL
ROLLUP:SELECT y FROM y GROUP BY ROLLUP(column_list);y
CUBE:SELECT y FROM y GROUP BY CUBE(column_list);y
Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupagey
n, n-1, n-2,0 colonnes
Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupage84
Implmentation
EXEMPLE CUBE
Ani mal Chien Chat Tortue Chien Chat Chien Tortue
Lie u Paris Paris Rome Rome Naples Naples Naples
Qua ntite 12 18 4 14 9 5 1
SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE
Ani mal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -
Lie u Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome
Qua ntite 18 9 27 12 5 14 31 1 4 5 63 30 85 15 18
Implmentation
EXEMPLE ROLLUP
An ima l Chien Chat Tortue Chien Chat Chien Tortue
Li eu Paris Paris Rome Rome Naples Naples Naples
Qu ant ite 12 18 4 14 9 5 1
SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP
Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -
Lieu Paris Naples Paris Naples Rome Naples Rome -
Quantite 18 9 27 12 5 14 31 1 4 5 6386
Implmentation
MTA-DONNES
Standard en mergence CWMy
Common Warehouse Meta-model
Bas sur le mta-modle objet de l'OMG (MOF)y
Mta-mta-modle
MOF
y
Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations
Mta-modle
UML
CWM
EJB
Modle
Dfini en UML Echang en XML (XMi)Instance
Vente numv numpro quantit prixtot
Mta-donnes
Objet
87
Implmentation
LES PACKAGES CWMManagement Analysis ResourcesWarehouse Process Transformation OLAP ObjectOriented(ObjectModel)
Warehouse Operation Data Information Business Mining Visualization Nomenclature RecordOriented Multi Dimensional XML
Relational
Foundation
Business Data Keys Type Software Expressions Information Types Index Mapping Deployment
ObjectModel(Core, Behavioral, Relationships, Instance)88
Chaque package est dfini en UML ...Implmentation
QUELQUES OUTILS OLAP
Oracley y y
Cognosy y y
OLAP API = Datacube Express = Analyse Report = Reporting
Impromptu = Reporting Powerplay = Datacube Query = Requtage ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube
Business Objecty y
Hyperiony y
y
BusinessQuery = Requtage BusinessObject = Requtage + Analyse + Reporting WebIntelligence = Datacube
89
Implmentation
6. LE MARCH DU BIBI= Business Intelligence
90 Data PRO Users Survey
Conclusion
LES DATA TRUCS
Datawarehousey
entrept des donnes historises de l'entreprise magasin de donnes cibl sur un ou plusieurs sujets exploration des donnes afin de dcouvrir des connaissances cube de prsentation d'units selon 3 dimensions entrept des donnes collectes sur le web91
Datamarty
Dataminingy
Datacubey
Datawebhousey
Conclusion
Data Warehouse Usage Three kinds of data warehouse applications
Information processing
supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs multidimensional analysis of data warehouse data supports basic OLAP operations, slice-dice, drilling, pivoting knowledge discovery from hidden patterns supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools.92
Analytical processing
Data mining
Differences among the three tasks
From On-Line Analytical Processing to On Line Analytical Mining (OLAM) Why online analytical mining?
High quality of data in data warehouses DW contains integrated, consistent, cleaned data Available information processing structure surrounding data warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools OLAP-based exploratory data analysis mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions integration and swapping of multiple mining functions, 93 algorithms, and tasks.
Architecture of OLAM
An OLAM ArchitectureMining query Mining result
Layer4 User Interface
User GUI APIOLAM Engine OLAP Engine
Layer3 OLAP/OLAM
Data Cube API Layer2 MDDB Meta DataFilteri ng
MDDB
Filtering&Integrati on
Database APIData cleaning Data integration
Layer1 Data Repository94
Databas es
Data Warehou se
Conclusion Data warehouse
A subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures
A multi-dimensional model of a data warehouse
OLAP operations: drilling, rolling, slicing, dicing and pivoting OLAP servers: ROLAP, MOLAP, HOLAP Efficient computation of data cubes
Partial vs. full vs. no materialization Multiway array aggregation Bitmap index and join index implementations Discovery-drive and multi-feature cubes From OLAP to OLAM (on-line analytical mining)95
Further development of data cube technology
3. Alimenter le DWOutils dalimentation pour extraire transformer stocker dans DWH Donnes sources
96
Alimenter le DW ETL = Extracteur + Intgrateur
Extract + Transform + Load
Extraction
Depuis les bases sources ou les journaux Diffrentes techniques
Push = rgles (triggers) Pull = requtes (queries) Dater ou marquer les donnes envoyes Ne pas perturber les applications OLTP97
Priodique et rpte
Difficult
L'alimentation
Extraction1re Phase : extraction des donnes utiles
{ SGBD { Modles { Mthode daccs { Environnement Matriel + Orientation transactionnelle
-Eviter de perturber les Syst.de production -1 ou +srs passes * donnes en tps rel * donnes mensuelles
98
Extracteur : Accs en natif aux diffrentes sources
Transformer
obtenir un ensemble homogne de donnes donnes comparables, additionnables
Nettoyer /Intgrer/Structurer99
TRANSFORMATION
Accs unifis aux donnesy
Unification des modles
Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche Rowset, SQL limit, SQL complet,
y
Unification des accs
Mapping plus ou moins sophistiquy
Unification des noms
Appeler pareil les mmes choses et diffremment les choses diffrentes Application des "business rules"
y y
Elimination des doubles Jointure, projection, agrgation (SUM, AVG)100
Cleaning des donnes
L'alimentation
Nettoyage des donnesdonnes errones analyse errone! les valeurs aberrantes (noisy data)
-Isoler les pics de certaines valeurs dans une distribution statistiques. -Dfinir un espace compris entre la moyenne et un certain nombre dcart type, et exclure ou plafonner toutes les valeurs > seuil (du type moyenne + 3 carts types).101
Nettoyage des donnes
les valeurs manquantes - exclure les enregistrements incomplets - saisir manuellement ces valeurs manquantes - remplacer ces donnes par la moyenne -utiliser une constante globale unknown
les valeurs nulles : valeur conventionnelle pour une information inconnue ou inapplicable102
Nettoyage des donnes les valeurs redondantes -au niveau dune mme source - au niveau de plusieurs sources - exemple : la rfrence client dans la BD Commerciale et dans BD Marketing
103
Cohrence et Qualit du data warehouse
Intgration/RestructurationSuppression des incohrences smantiques entre les sources - diffrents noms/longueurs/types pour un mme attribut
Systmes oprationnels Application 1 Application 2 Application 3 Application 4 m,f 1,0 x,y homme,femme
Data warehouse m,f m,f m,f m,f104
Intgration/Restructuration (suite) diffrence de normalisation/structure des tables (normalisation/dnormalisation) Le champ adresse est dcoup en n champs cibles: numro , rue , codepostal , pays , particularits ville ,
conversions -105
Intgration/monovariable Agrgation : les donnes des ventes journalires sont agrges pour calculer les montants totaux mensuels et annuels.
Transformation des dates en dures: (ractivit dun client : diffrence entre une date denvoi dun catalogue et une date de commande). Modification des donnes gographiques en coordonnes: (ajouter les coordonnes de longitude et latitude pour intgrer les contraintes de proximit dans le raisonnement).106
Intgration/multivariableLes ratios : Exemple : montant des achats relatifs une famille de produits sera rapport au montant global des achats (degr dimplication du client pour ce type darticles) La frquence : Exemple : nombre de commandes sur les x dernires priodes
107
Intgration/multivariable (suite) Les tendances No 1 2 3 Priode 1 235 200 Priode 2 536 203 Tendance ++ =
Les combinaisons linaires/non linaires
108
Data Cleaning Valeurs manquantes (nulles)
Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Gnres en prsence de bruits Dtecter par une analyse de voisinage
Valeurs errones ou inconsistantes
cart par rapport la moyenne Factorisation en groupes (outliers)
Remplacer par une valeur fixe ou par la moyenne
Inspection manuelle de certaines donnes possibleL'alimentation
109
CHARGEMENT Pasy
de mise jour
Insertion de nouvelles donnes y Archivage de donnes anciennes Dey
gros volumes
Priodicit parfois longue y Chargement en blocs (bulk load) y Mise jour des index et rsums Problmes
Cohabitation avec l'OLAP ? y Procdures de reprises ?y110
L'alimentation
Charger
Donnes pures et transformes
Matrialisation des vues Plus Tris Consolidation Normalisation Vrification des contraintes dintgrit et Partitionnement des donnes (si plusieurs datamarts) Cration des indexes111
PRINCIPAUX ETL (JDNET)Issue du rachat d'Acta, cette solution se propose de rendre accessible en "quasi-temps rel" les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez IBM avec ses entrepts de donnes. Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Acta tait le fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Cognos, Hyperion, Actuate et Brio. Parfois cite comme plate-forme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction / datamining diffrents. transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante. Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes : Siebel, SQL/Teradata et Oracle, Sybase,MQ (IBM, les middleware Teradata, Hyperion Tibco...). Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.
Business ObjectsActaWorks
ETIETI.Extract
Ascential SoftwareDataStage XE
Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.
HummingbirdGenio Suite 5
Computer AssociatesDecisionBase
Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.
InformaticaPowerCenter 5
112
http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
4. GRER L'ENTREPT Basey
relationnelle
Support de larges volumes (qq 100 gigas qq tras) y Historisation des donnes (fentres) y Importance des agrgats et chargements en blocs Basey
spcialise
Base multidimensionnelle y Combinaison des deux Machiney
support parallle113
Multiprocesseurs y Mmoire partage, cluster, bus partag, etc.Le multidimensionnel
PRINCIPAUX SYSTMES (JDNET)HyperionEssbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.
NCRTeradata Database
Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.
Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.
IBMDB2/UDB, Informix XPS et Red Brick
DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).
Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.
OracleOracle 9i
Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.
MicrosoftSQL Server 2000
La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.
Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows
SybaseAdaptive Server IQ
Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft
114
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
Exemple de traitement typiquLes ventes de vis sont plus faibles que prvu Quelles couleurs sont responsables ??
SELECT couleur, SUM(prix) FROM Ventes, Produits WHEREVentes.codeProduit = Produits.codeProduit AND modle = vis GROUP BY couleur115
Exemple de traitement typiquQuelles mois sont responsables ??
SELECT couleur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis GROUP BY couleur, mois
116
Exemple de traitement typiquQuelles vendeurs sont responsables ??
SELECT vendeur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY mois, vendeur117
Exemple de traitement typiquQuelles annes sont responsables ??
SELECT vendeur, anne, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY anne, vendeur118
ProblmatiqueChaudhuri et Dayal 97
Supporter des oprations tableur sur des BD de plusieurs GO. Besoins spcifiques langages de manipulation organisation des donnes mthodes daccs 119
ModleForme proche des abstractions de lanalyste Organisation des donnes selon plusieurs dimensions selon diffrents niveaux de dtail en ensemble Donne = point dans lespace associe des valeurs
120
Recommended