97
Data warehouse 1 © A. EL OUARDIGHI COURS: DATAWAREHOUSE/DATAMINING Pr. A. EL OUARDIGHI [email protected] Cours: Cours Datawarehouse Travaux dirigés Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining Evaluation: 2 Contrôles continus: 1 contrôle continu écrit en Datawarehouse 1 contrôle continu en Datamining 1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse)

Cours Datawarehouse

Embed Size (px)

Citation preview

Data warehouse 1© A. EL OUARDIGHI

COURS: DATAWAREHOUSE/DATAMININ

G

Pr. A. EL OUARDIGHI

[email protected]:

Cours Datawarehouse Travaux dirigés Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining

Evaluation: 2 Contrôles continus:

1 contrôle continu écrit en Datawarehouse 1 contrôle continu en Datamining

1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse)

Data warehouse 2© A. EL OUARDIGHI

Chaîne de l’extraction des connaissances à partir d’une base de données

Zone de préparation des données

Zone de présentation des données

Outils d’accès aux données

Data warehouse 3© A. EL OUARDIGHI

DATA WAREHOUSES

ARCHITECTURES, FONCTIONNALITES

CONCEPTION

ANALYSE MULTIDIMENSIONNELLE

Pr. A. EL OUARDIGHI [email protected]

Data warehouse 4© A. EL OUARDIGHI

PLAN

Partie 1: Notions et architectures d’un DW

Partie 2: OLAP et Analyse multidimensionnelle

Partie 3: Modélisation et Conception d’un DW

Partie 4: Travaux dirigés

Data warehouse 5© A. EL OUARDIGHI

Partie 1: Notions et Architecture d’un DW

Les concepts de datawarehouse

Différence entre OLAP et OLTP

Contenu d'un DW

Architecture d’un DW

Notion de Datamart

Data warehouse 6© A. EL OUARDIGHI

Historique

Phase 1 Système de gestion de bases de données: modèle relationnel Feuille de calcul & tableur

Phase 2 Système interactif d’aide à la décision

Système d’aide aux dirigeants

Phase 3 Entrepôt de données (Datawarehouse)

Exploitation des données (Datamining)

Data warehouse 7© A. EL OUARDIGHI

Systèmes transactionnels vs Systèmes décisionnels

Systèmes transactionnels

Les outils traditionnels de gestion et d’exploitation des données sont du type

transactionnel ou OLTP (On-Line Transaction Processing)

L’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la

sécurité et l’intégrité des données.

Le système transactionnel est développé pour gérer les transactions

quotidiennes

Conserver la cohérence de la BD, c’est l’objectif et la difficulté principale

pour l’informatique de production

Data warehouse 8© A. EL OUARDIGHI

Systèmes transactionnels Ces bases de données supportent habituellement des applications particulières

telles que les inventaires de magasins, les réservations d’hôtel, etc

Le contenu est fait de données actuelles, pas d’archives

Les données sont très détaillées (détails de chacune des transactions)

La mise à jour s’effectue par de nouvelles transactions

Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres

Systèmes transactionnels vs Systèmes décisionnels

Data warehouse 9© A. EL OUARDIGHI

Opérations dans les systèmes transactionnels

Ajout

Effacement

Mise à jour des enregistrements

Requêtes simples Interrogations et modifications fréquentes des données par de nombreux

utilisateurs

Nécessité de conserver la cohérence des données

Les systèmes transactionnels garantissent la cohérence des données

Systèmes transactionnels vs Systèmes décisionnels

Data warehouse 10© A. EL OUARDIGHI

Systèmes décisionnels Le terme décisionnel « Business Intelligence » couvre l'ensemble des

technologies permettant en bout de chaîne d'apporter une aide à la décision.

SI capable d'agréger les données internes ou externes et de les transformer en

information servant à une prise de décision rapide.

SI capable de répondre à certains types de questions: Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans

la région C ?

Comment se comporte le produit X par rapport au produit Y?

Quel type de client peut acheter le produit X?

Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait

redémarrer les ventes du produit X ?

Systèmes transactionnels vs Systèmes décisionnels

Data warehouse 11© A. EL OUARDIGHI

Ces exemples mettent en évidence les faits suivants: Les questions doivent pouvoir être formulées dans le langage de l’utilisateur

en fonction de son secteur d’activité: Service marketing, Service économique, service relation clients…

La prévision des interrogations est difficile car elles sont du ressort de

l’utilisateur. Les questions vont varier selon les réponses obtenus:

Si le produit X s’est vendu moins bien que l’année précédente, il va être utile

de comprendre les raisons: Détailler les ventes par région par type de magasin,

Des questions ouvertes vont nécessiter la mise en place de méthodes

d’extraction d’informations

Systèmes transactionnels vs Systèmes décisionnels

Data warehouse 12© A. EL OUARDIGHI

Des données aux décisions Données

Points de ventes, géographiques, démographiques, …

Informations I vit dans R, I est âgé de A, …

Connaissances Dans X%, le produit Y est vendu en même temps que le produit Z, …

Décisions Lancer la promotion de Y & Z dans R auprès des clients plus âgé que A, ...

Systèmes transactionnels vs Systèmes décisionnels

Data warehouse 13© A. EL OUARDIGHI

Notion de donnée et notion d'information

Date Heure Numéro Destinat Durée Coût

5-3 07:05 00216188 France 04:08 6.305-3 16:12 00216188 Italie 08:10 11.506-3 09:40 00441216 UK 10:20 16.456-3 20:20 04426576 Espagne 16:30 8.40

6 8 10 12 14 16 18 L M M J V S D

Data warehouse 14© A. EL OUARDIGHI

Applications transactionnelles v.s Applications décisionnelles

Les applications transactionnelles sont constituées de traitements

factuels de type OLTP ( On Line Transaction Processing)

Les applications d'aide à la décision sont constituées de

traitements ensembliste de type OLAP: On Line Analytical Processing

Data warehouse 15© A. EL OUARDIGHI

Différence entre OLTP et OLAP

Orientées sujet

Structure évolutive

Résumées, agrégées

Historiques

Pas de mises à jour

Accessibles de façon ensembliste

Servent les managers

Traitées de façon heuristiques

Requêtes complexes

Non sensibles aux performances

Des centaines

100 Go -To

Orientée application

Structure statique

Détaillées

Actuelles

Peuvent être mises à jour

Accessibles de façon individuelle

Servent les agents opérationnels

Traitées de façon répétitive

Requêtes simples

Sensibles aux performances

Des milliers

100 Mo - Go

Conception

Données

Utilisateurs

Utilisation

Nb Utilisat.Taille BD

Data warehouse 16© A. EL OUARDIGHI

Incompatibilités des deux activités

Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des

données dans le même système d’information: leurs objectifs de

performance sont exactement opposés:

Les requêtes complexes et lourdes dégradent les performances des

systèmes transactionnels,

Les données temporelles sont réparties entre données actuelles et

données archivées, rendant la vue historique des données très difficile

ou impossible,

Le support efficace d’une activité OLAP nécessite la constitution

d’un système d’information propre: Le Datawarehouse

Data warehouse 17© A. EL OUARDIGHI

Naissance du Datawarehouse

Data warehouse 18© A. EL OUARDIGHI

Datawarehouse : Définition

« Collection de données orientées sujets, intégrées, non volatiles et

historisées, organisées pour le support du processus d’aide à la

décision »

Base de données dans laquelle sont déposées après nettoyage et

homogénéisation les informations en provenance des différents

systèmes de production de l’entreprise OLTP

Data warehouse 19© A. EL OUARDIGHI

Caractéristiques des données d'un DW

Orientées sujet

Organisées autour de sujets majeurs de l’entreprise

Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières

Vue synthétique des données selon les sujets intéressant les décideurs

Intégrées

Construit en intégrant des sources de données multiples et hétérogènes

BD relationnelles, fichiers, enregistrements de transactions

Les données doivent être mises en forme et unifiées afin d’avoir un état cohérent

Phase la plus complexe (60 à 90 % de la charge totale d’un projet DW)

Data warehouse 20© A. EL OUARDIGHI

Caractéristiques des données d'un DW

Historisées

Fournies par les sources opérationnelles

Matière première pour l'analyse

Stockage de l'historique des données, pas de mise à jour

Un référentiel temps doit être associé aux données

Non volatiles

Conséquence de l’historisation

Une même requête effectuée à intervalle de temps, en précisant la date référence de l’information donnera le même résultat

Stockage indépendant des BD opérationnelles

Pas de mises à jour des données dans le DW

Data warehouse 21© A. EL OUARDIGHI

Contenu d'un DW

Des données agrégées

Correspondent à des éléments d’analyse, par des fonctions de calcul,

représentatifs des besoins utilisateurs

Constituent déjà un résultat d’analyse et une synthèse de

l’information

Des données détaillées

Reflète les événements les plus récents

Les intégrations des données vont être réalisées à ce niveau

Le volume d’informations est plus importants

Data warehouse 22© A. EL OUARDIGHI

Contenu d'un DW

Des méta données Elles constituent une véritable aide en ligne permettant de connaître

les informations contenue dans le DW

Regroupent l’ensemble des informations concernant le DW

Décrivant la structure des données de base ou agrégées

Donnant des explications sur la qualité, le mode de dérivation, la durée de vie, le rafraîchissement, etc...

Les principales informations sont destinées: Aux utilisateurs

Aux équipes responsable des processus de transformation des données du système de production vers le DW

Aux équipes responsables des processus de création des données agrégées à partir des données détaillées

Aux équipes d’administration de la BD

Data warehouse 23© A. EL OUARDIGHI

Données multidimensionnelles

Notion de dimension

C’est une catégorie linguistique selon laquelle les données sont

organisées:

Nom d’un attribut

Valeur d’un attribut

Autre élément linguistique

Data warehouse 24© A. EL OUARDIGHI

Représentation

DuréeMoy Départ. Mois

InfoPhysPhiloDroitInfoPhysPhiloDroitInfoPhysPhiloDroit

5518712891518122225

JanvJanvJanvJanvFévrFévrFévrFévrMarsMarsMarsMars

199819981998199819981998199819981998199819981998

Année

Data warehouse 25© A. EL OUARDIGHI

... Autres représentations

Janv Févr Mars

InfoPhysPhiloDroit

55

187

1289

15

18122225

1998

Data warehouse 26© A. EL OUARDIGHI

... Autres représentations

Droit Philo Phys Info Ja

nv F

évr

Mar

s

30252015105

1998

Data warehouse 27© A. EL OUARDIGHI

... Autres représentations

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

1995 1996 19971998 7 1

85 5

5

12

18

Data warehouse 28© A. EL OUARDIGHI

Extraction de données sources Réalisation d'un transformateur de modèles

Modèle source vers modèle du DW

Règles de transformation entre modèles hétérogènes

Le nettoyage et l’intégration des données Avant l'intégration des données, il convient de les expurger

d'incohérences diverses:

Problèmes de formats ou de description

Problème de codage

Problème de nommage

Problèmes de valeurs manquante

Fonctionnalités d’un DW

Data warehouse 29© A. EL OUARDIGHI

L’agrégation des données Synthèse produisant des indicateurs pour l'aide à la décision

utilisant:

Fonctions statistiques simples: Sum, Min, Max,

Analyse de données

Techniques d'apprentissage

Fonctionnalités d’un DW

Data warehouse 30© A. EL OUARDIGHI

Notion de Datamart

Définition:

« C'est un sous-ensemble de données dérivées du DW ciblé sur un sujet unique».

Caractéristiques: Orienté vers un sujet unique

Ex: comportement de la clientèle

Données fortement agrégées Le DW joue le rôle de source et d'historique pour le Datamart

Organisation multidimensionnelle (cubique) Dont l'une des dimensions indique souvent le temps

Lien dynamique avec le DW Association entre valeur agrégée et valeur détaillée

Interfaces simples et conviviales

Data warehouse 31© A. EL OUARDIGHI

Les domaines d’application du décisionnel

La gestion de la relation client (CRM) est l’un des premiers champs d’application de la Business Intelligence.

Le contrôle de gestion pour l’analyse des coûts, l’analyse de la rentabilité, l’élaboration budgétaire, les indicateurs de performance…

La direction marketing pour le ciblage, le pilotage de gamme, les applications de géomarketing, de fidélisation clients…

La direction commerciale pour le pilotage des réseaux, les prévisions des ventes, l’optimisation des territoires…

Les ressources humaines pour la gestion des carrières, La direction de la production pour l’analyse qualité, la prévision

des stocks, la gestion des flux, la fiabilité industrielle… La direction générale pour les tableaux de bord, indicateurs de

pilotage, gestion d’alertes…

Data warehouse 32© A. EL OUARDIGHI

Exemple: un DW dans les télécoms

Sujets Suivi du marché: lignes installées/ désinstallées, services et options

choisis, répartition géographique, répartition entre public et différents secteurs d'organisations

Comportement de la clientèle

Comportement du réseau

Historique 5 ans pour le suivi du marché 1 an pour le comportement de la clientèle 1 mois pour le comportement du réseau

Sources Fichiers clients élaborés par les agences Fichiers de facturation

Data warehouse 33© A. EL OUARDIGHI

Requêtes

Comportement clientèle Nombre moyen d'heures par client, par mois et par région

Répartition des appels clients sur la journée

Nombre moyen de numéros appelés

Durée moyenne d'une communication urbaine par ville

Durée moyenne d'une communication internationale

Etc …

Data warehouse 34© A. EL OUARDIGHI

Une architecture d’un Datawarehouse possède les caractéristiques suivantes :

Les données sources sont extraites du systèmes de bases de données et de fichiers

Les données sources sont nettoyées, transformées et intégrées avant d’être stockées dans l’entrepôt

L’entrepôt est en lecture seulement et est défini spécifiquement pour la prise de décision

Les usagers accèdent à l’entrepôt à partir d’interfaces et d’applications (clients)

Architectures d’un Datawarehouse

Data warehouse 35© A. EL OUARDIGHI

Architecture d’un Datawarehouse

Architecture centralisée

Il s’agit de la version centralisée et intégrée d’un entrepôt regroupant l’ensemble des données de l’entreprise. Les différentes bases de données sources sont intégrées et sont distribuées à partir de la même plate-forme physique

Data warehouse 36© A. EL OUARDIGHI

Architecture fédérée

Il s’agit de la version intégrée d’un entrepôt où les données sont introduites dans les marchés de données orientés selon les différentes fonctions de l’entreprise

Architecture d’un Datawarehouse

Data warehouse 37© A. EL OUARDIGHI

Architecture trois-tiers

Il s’agit d’une variante de l’architecture fédérée où les données sont divisées par niveau de détail

Architecture d’un Datawarehouse

Data warehouse 38© A. EL OUARDIGHI

Conception

Construction

Administration

Restitution

Les différentes phases du Datawarehouse

Data warehouse 39© A. EL OUARDIGHI

Les différentes phases du Datawarehouse

Conception:

Il s’agit de définir la finalité du DW :

Piloter quelle activité de l’entreprise ;

Déterminer et recenser les données à entreposer ;

Définir les aspects techniques de la réalisation ;

Modèle de données ;

Démarches d’alimentation ;

Stratégies d’administration ;

Définition des espaces d’analyse ;

Mode de restitution, …

Data warehouse 40© A. EL OUARDIGHI

Les différentes phases du Datawarehouse

Construction:

Travail technique:

Extraction des données des différentes BD de production

(internes ou externes)

Nettoyage des données, règles d’homogéinisation des données

sous formes de méta données.

Techniques d’alimentation

Data warehouse 41© A. EL OUARDIGHI

Les différentes phases du Datawarehouse

Administration:

Elle est constituée de plusieurs tâches pour assurer:

La qualité et la pérennité des données aux différents

applicatifs ;

La maintenance;

La gestion de configuration;

L’organisation, l’optimisation du SI;

La mise en sécurité du SI.

Data warehouse 42© A. EL OUARDIGHI

Les différentes phases du Datawarehouse

Restitution:

C’est le but du processus d’entreposage des données.

Elle conditionne le choix de l’architecture du DW et de sa

construction.

Elle doit permettre toutes la analyses nécessaires pour la

construction des indicateurs recherchés.

Data warehouse 43© A. EL OUARDIGHI

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Configurations OLAP

Opérations OLAP

Outils OLAP

Data warehouse 44© A. EL OUARDIGHI

OLAP

« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation ».

OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement.

L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes

L’usager interroge directement les données, en interagissant avec celles-ci

Data warehouse 45© A. EL OUARDIGHI

Modèles conceptuel

Approche multidimensionnelle Souvent représentés par une structure à plusieurs dimensions Une dimension est un attribut ou un ensemble d’attributs:

Temps Géographie Produits Clients

Les cellules contiennent des données agrégées appelées Faits ou Indicateurs: Nombre d’unités vendues Chiffre d’Affaire Coût

Représentations:

Relations,

Cube de données,

hyper cube de données

Data warehouse 46© A. EL OUARDIGHI

Modèle conceptuel

Vue multidimensionnelle:

Data warehouse 47© A. EL OUARDIGHI

Agrégation des données

Plusieurs niveau d’agrégation Les données peuvent être groupées à différents niveaux de granularité

Les regroupements sont pré-calculés,

Par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois.

Granularité : niveau de détail des données emmagasinées dans un Datawarehouse.

Data warehouse 48© A. EL OUARDIGHI

Granularité des dimensions

La granularité des dimensions

Data warehouse 49© A. EL OUARDIGHI

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Configurations OLAP

Opérations OLAP

Outils OLAP

Data warehouse 50© A. EL OUARDIGHI

Les 12 règles OLAP ( Edgar Frank Codd, 1993)

Vue multidimensionnelle: Comme par exemple lorsqu’on souhaite analyser les ventes selon plusieurs

dimension: par produit par région ou par période. Transparence du serveur OLAP à différents types de logiciels

Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les fonctionnalités du système central.

Accessibilité à de nombreuses sources de données Le système OLAP doit donner accès aux données nécessaires aux analyses

demandées. Les outils OLAP doivent avoir leur propre schéma logique de stockage

des données physiques

Data warehouse 51© A. EL OUARDIGHI

Les 12 règles OLAP ( Edgar Frank Codd, 1993)

Performance du système de Reporting L'augmentation du nombre de dimensions ou du volume de la base de

données ne doit pas entraîner de dégradation visible par l'utilisateur.

Architecture Client/Serveur La plus part des données pour OLAP sont stockées sur des gros systèmes et

sont accessibles via des terminaux . Il est donc nécessaire que les outils OLAP soient capables de travailler dans un environnement Client/Serveur.

Data warehouse 52© A. EL OUARDIGHI

Les 12 règles OLAP ( Edgar Frank Codd, 1993)

Dimensions Génériques Toutes les dimensions doivent être équivalentes en structure et en calcul. Toute fonction qui s'applique à une dimension doit être aussi applicable à

une autre dimension.

Gestion dynamique des matrices creuses Le schéma physique des outils OLAP doit s'adapter entièrement au modèle

d'analyse spécifique créé pour optimiser la gestion des matrices creuses

Data warehouse 53© A. EL OUARDIGHI

Les 12 règles OLAP ( Edgar Frank Codd, 1993)

Support Multi-Utilisateurs

Les outils OLAP doivent supporter les accès concurrents, Garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au

même modèle d'analyse.

Opération sur les dimensions

Les opérations doivent pouvoir s'effectuer sur toutes les dimensions.

Manipulation intuitive des données

Toute manipulation doit être accomplie via une action directe sur les cellules

du modèle sans utiliser de menus ou des chemins multiples à travers

l'interface utilisateur.

Data warehouse 54© A. EL OUARDIGHI

Les 12 règles OLAP ( Edgar Frank Codd, 1993)

Souplesse et facilité de constitution des rapports La création des rapports dans les outils OLAP doit permettre aux utilisateurs

de présenter comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation du modèle.

Nombre illimité de niveaux d'agrégation et de dimensions Tout outil OLAP doit gérer au moins 15 à 20 dimensions.

Data warehouse 55© A. EL OUARDIGHI

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Configurations OLAP

Opérations OLAP

Outils OLAP

Data warehouse 56© A. EL OUARDIGHI

Configurations OLAP

Selon le type de base de données accédé, plusieurs configurations sont possibles :

OLAP Multidimensionnelle: MOLAP

OLAP Relationnelle: ROLAP

OLAP Hybride: HOLAP

Data warehouse 57© A. EL OUARDIGHI

MOLAP(OLAP Multidimensionnel)

Caractéristiques MOLAP s’appuis sur une base de données multidimensionnelle Implémentent les cubes comme des matrices en mémoire Nombreuses opérations sur les cubes (Pivot, Slice & Dice, ...)

Exemple Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm

Data warehouse 58© A. EL OUARDIGHI

ROLAP (OLAP Relationnel)

Caractéristiques ROLAP implémentent les cubes comme des tables relationnelles L’utilisateur interroge directement la base de données relationnelle Configuration supportant les gros volumes de données

Exemples Microstrategy, Microstrategy 7i, http://www.microstrategy.fr/Software/OLAP.asp Business Objects, Business Objects, http://www.businessobjects.fr/

Data warehouse 59© A. EL OUARDIGHI

HOLAP (OLAP Hybride)

OLAP Hybride

Architecture mixte: Désigne les outils d’analyse multidimensionnelle qui récupèrent les données dans des bases relationnelle ou multidimensionnelle.

Présente l’avantage de mixer les avantages des deux systèmes MOLAP et ROLAP

Data warehouse 60© A. EL OUARDIGHI

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Composantes OLAP

Configurations OLAP

Opérations OLAP

Data warehouse 61© A. EL OUARDIGHI

Opérations sur la structure des cubes

Pivot (Rotation)

Switch (Permutation)

Split (Décomposition)

Data warehouse 62© A. EL OUARDIGHI

Pivot: Rotation par rapport à l’un des axes de dimensions

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

Janv FévrMars

199619971998 <> <> <> 8

<> <> <> 6

25 22 12 18

Droit Philo Phys Info

25 22

12 1815 9 8 12

7 18 5 5

18

6

8

12

17

25

5

8

15

Pivot

Data warehouse 63© A. EL OUARDIGHI

Swich: Permutation de valeurs de dimensions

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

1996 19971998

25 22 18 12

15 9 12 8

7 18 5 5

Droit Philo Info Phys

Janv

Févr

Mars

7 18

559 12 258

18 24 715

5

257

<>8

<>

<>

<>12

Switch

Data warehouse 64© A. EL OUARDIGHI

Split: Décomposition

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

Janv 7 9 18

Févr 15 <> <>

Mars 25 <> <>

1998 1997 1996Droit

Janv 5 8 15

Févr 12 <> <>

Mars 18 <> <>

1998 1997 1996Info

Janv 18 12 24

Févr 9 <> <>

Mars 22 <> <>

1998 1997 1996Philo

Janv 5 25 7

Févr 8 <> <>

Mars 12 <> <>

1998 1997 1996Phys

Split

Data warehouse 65© A. EL OUARDIGHI

Opérations sur le contenu des cubes

Roll-up (passage au grain supérieur)

Drill-down (passage au grain inférieur)

Slice (Restriction)

Dice (Projection)

Data warehouse 66© A. EL OUARDIGHI

Changement de granule (Roll-up / Drill-down)

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

<> <> <> 10,6

<> <> <> 18

11,3 18 12,3 9,3Janv

Févr

Mars

Droit Philo Phys InfoPériode 11,3 18 12,3 9,3

9,3

18

10,6

1996 19971998

15,6 16,3 8,3 11,6

Droit Philo Phys Info

Trimestre 1

15,6 16,3 8,3 11,6

161610,3

Roll-up (P

ériode)

Roll-up (*.)

Roll-up(Trim

)

13,5

13,513,5

Data warehouse 67© A. EL OUARDIGHI

Restriction (Slice)

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

S’applique sur les valeurs du cube ou les valeurs des dimensions

19971998

15 9

7 18

Droit Philo

Janv

Févr

7 18

9 12

<>

1218

9

Data warehouse 68© A. EL OUARDIGHI

Projection (Dice)

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

Réduit le nombre de dimension

1996 19971998

22,3

14,6

12,6Janv

Févr

Mars

8,713,5

16

<><>

<><>

Dice

Data warehouse 69© A. EL OUARDIGHI

Composition d’opérations (Slice & Dice)

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

19971998

11 13,5

Droit Philo

11 13,59,5 10

Slice

Dice

19971998

15 9

7 18

Droit Philo

Janv

Févr

7 18

9 12

<>

1218

9

Data warehouse 70© A. EL OUARDIGHI

Opérations entre cubes

Jointure

Union

Data warehouse 71© A. EL OUARDIGHI

Jointure (Join)

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

1996

1997

1998

25 65 22 65 12 65 18 65

15 70 9 70 8 70 12 70

7 60 18 60 5 60 5 60

Droit Philo Phys Info

Janv

Févr

Mars

7 60 18 60 5 60 5 60

9 75 12 75 25 75 8 75

18 80 24 80 7 80 15 80

60

75

80

80

70

76

72

70

65

1996 19971998

65

70

60Janv

Févr

Mars

6075

80

80

75

70

80

76

7260

70

65

Data warehouse 72© A. EL OUARDIGHI

Union

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

1996 19971998

22 28 32 27

20 8 27 42

12 23 7 16

Droit Philo Phys Info

Avr

Mai

Juin

12 23

7 167 14 21 12

15 17 717 25

1612

25

2012

25

1216

27

22 28 32 27

20 8 27 42

12 23 7 16

Droit Philo Phys Info

Avr

Mai

Juin

12 23

7 167 14 21 12

15 17 717 25

1612

25

2012

25

1216

27

1996 19971998

25 22 12 18

15 9 8 12

7 18 5 5

Droit Philo Phys Info

Janv

Févr

Mars

7 18

5 59 12 25 8

18 24 7 15

58

15

1712

25

86

18

Data warehouse 73© A. EL OUARDIGHI

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Composantes OLAP

Configurations OLAP

Opérations OLAP

Outils OLAP

Data warehouse 74© A. EL OUARDIGHI

Outils OLAP

Exemples d’outils OLAP

BusinessObjects, BusinessObjects,

http://www.businessobjects.fr/

SAS, SAS,

http://www.sas.com/offices/europe/france/software/technologies/olap/

index.html

HarrySoftware , HarryPilot, HarryCube , http://www.harrysoftware.com/jahia/Jahia/pid/61

Data warehouse 75© A. EL OUARDIGHI

Partie 3: Modélisation et Conception d’un DW

Conception d'un DW

Etude préalable

Modélisation

Alimentation

Data warehouse 76© A. EL OUARDIGHI

Construction d’un Datawarehouse

Caractéristiques: Le Datawarehouse est différent des bases de données de production:

Les besoins pour lesquels on veut le construire sont différents

Il contient des informations historisées, organisées selon les métiers de l’entreprise pour le processus d’aide à décision

Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement, qui se bâtit et ne s’achète pas.

Data warehouse 77© A. EL OUARDIGHI

Construction d’un Datawarehouse

Phases de construction d’un DW: Il y’a trois parties interdépendante qui relève la construction d’un

Datawarehouse:

L’étude préalable qui va définir les objectifs, la démarche à suivre, le retour sur investissement,…

L’étude du modèle de données qui représente le DW conceptuellement et logiquement

L’étude de l’alimentation du Datawarehouse

Data warehouse 78© A. EL OUARDIGHI

Partie 3: Modélisation et Conception d’un DW

La conception d'un DW

Etude préalable

Modélisation

Alimentation

Data warehouse 79© A. EL OUARDIGHI

Etude préalable

Etude des besoins:

Définir les objectifs du DW

Déterminer le contenu du DW et son organisation, d’après:

Les résultats attendus par les utilisateurs,

Les requêtes qu’ils formuleront,

Les projets qui ont été définie

Recenser les données nécessaires à un bon fonctionnement du DW:

Recenser les données disponibles dans les bases de production

Identifier les données supplémentaires requises

Data warehouse 80© A. EL OUARDIGHI

Etude préalable

Etude des besoins:

Choisir les dimensions

Typiquement: le temps, le client, le produit, le magasin...

Choisir les mesures de fait

De préférences des quantités numériques additifs

Choisir la granularité des faits

Niveau de détails des dimensions

L’unité de temps doit-elle être le jour, la semaine?

Récapitulatifs journaliers, mensuels

Data warehouse 81© A. EL OUARDIGHI

Etude préalable

Coûts de déploiement:

Nécessite des machines puissantes, souvent une machine parallèle

Capacité de stockage très importante (historisation des données)

Evaluer la capacité de stockage

Equipes de maintenance et d’administration

Les coûts des logiciels

Les logiciels d’administration du DW

Les outils ETL (Extract-Transform- Loading)

Les outils d’interrogation et de visualisation

Les outils de Datamining

Data warehouse 82© A. EL OUARDIGHI

Partie 3: Modélisation et Conception d’un DW

La conception d'un DW

Etude préalable

Modélisation

Alimentation

Data warehouse 83© A. EL OUARDIGHI

Modèles de données

Niveau conceptuel:

Un DW est basé sur une modélisation multidimensionnelle qui représente les données dans un cube

Un cube permet de voir les données suivant plusieurs dimensions:

Tables de dimensions

La table des faits contient les mesures et les clés des dimensions

Data warehouse 84© A. EL OUARDIGHI

Les schémas de référence

Niveau Logique:

Plusieurs schémas types sont proposés pour représenter un DW:

Schéma en étoile;

Schéma en flocon;

Data warehouse 85© A. EL OUARDIGHI

Schéma en étoile

Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures .

Plusieurs tables de dimension : descripteurs des dimensions.

Data warehouse 86© A. EL OUARDIGHI

Schéma en flocons

Raffinement du schéma étoile avec des tables normalisées par dimensions.

Data warehouse 87© A. EL OUARDIGHI

Fait Additive Additionnable suivant toutes les dimensions

Exemple : CA ; Quantité vendue, ...

Fait Semi-additivité Additionnable seulement suivant certaines dimensions

Exemple : nombre de contacts clients, Etats des stocks, ...

Fait Non-additivité : Non additionnable quelque soit la dimension

Comptage des faits ou affichage 1 par 1

Exemple : plus grand CA pour l’ensemble des magasins

Propriété des mesures

Data warehouse 88© A. EL OUARDIGHI

Dans la grande distribution Quelques tables de faits :

Détaillées et volumineuses Tables de dimensions :

Classiques : produit, fournisseur, temps, établissement (structure géographique, fonctionnelle), ...

Stratégiques : Client, Promotions, .... Dans le secteur des banques

Tables de faits : Nombreuses, dédiées à chaque produit , peu détaillées et peu

volumineuses. Tables de dimensions :

Classiques : produit, temps, établissement (structure géographique, fonctionnelle), ...

Stratégiques : Client, ....

Exemples de DW

Data warehouse 89© A. EL OUARDIGHI

Les grandes surfaces : Dimensions

Temps : 4 ans * 365 = 1460 jours

Magasin : 300

Produit : 200000 références (10% vendus chaque jour)

Promotion : un article est dans une seule condition de promotion par jour et par magasin

Fait 1460 * 300 * 200000 * 1 = 8,76 milliards d’enregistrements

Nombre de champs de clé = 4

Nombre de champs de fait = 4

Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go

Estimer la taille du DW

Data warehouse 90© A. EL OUARDIGHI

Suivi d’appels Téléphoniques : Dimensions

Temps : 3 ans * 365 = 1095 jours

Faits Nombre d ’appel par jour = 100 000 000

Nombre de champs de clé = 5

Nombre de champs de fait = 3

Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To

Estimer la taille du DW

Data warehouse 91© A. EL OUARDIGHI

Partie 3: Modélisation et Conception d’un DW

Conception d'un DW

Etude préalable

Modélisation

Alimentation

Data warehouse 92© A. EL OUARDIGHI

Alimentation

L’alimentation est la procédure qui permet de transférer des données du système opérationnel vers le DW

La conception de cette opération est une tâche complexe

60 à 90 % de la charge totale d’un projet DW

Elle doit être faite en collaboration avec l’administrateur des bases de productions

Il est nécessaire de déterminer:

Quelles données seront chargées

Les transformations et les vérifications nécessaires

La périodicité et le moment de transferts des données

Data warehouse 93© A. EL OUARDIGHI

Alimentation du DW

Alimentation d’un DW (ETL) Extraction (Extract)

Transformation (Transform) Filtrer

Homogénéiser

Nettoyer

Etc …

Chargement (Loading)

Data warehouse 94© A. EL OUARDIGHI

Extraction

Extraction: Depuis les bases sources

Périodique et Répétée

Dater ou marquer les données envoyées

Difficulté:

Ne pas perturber les applications OLTP Différentes techniques d’extraction:

Méthode Push: Le système opérationnel qui au fil des transactions alimente le DW

Méthode Pull : Le système décisionnel cherche périodiquement les données dans les base de production

Data warehouse 95© A. EL OUARDIGHI

Transformation

C’est une suite d’opérations qui a pour but de rendre les données cibles homogènes et puissent être traitées de façon cohérente.

Unification des modèles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d ’attributs Nettoyer ( Valeurs manquantes, aberrantes…)

Data warehouse 96© A. EL OUARDIGHI

Chargement

C’est l’opération qui consiste à charger les données nettoyées

et préparées dans le DW.

C’est une opération qui peut être longue

Mettre en place des stratégies pour assurer de bonnes

conditions à sa réalisation

Définir la politique de rafraîchissement.

C’est une phase plutôt mécanique et la moins complexe

Data warehouse 97© A. EL OUARDIGHI

Outils ETL

Exemples d’outils ETL

BusinessObjects, Data Integrator,

http://www.businessobjects.fr/

Oracle Corporation, Warehouse builder,

http://www.oracle.com/technology/products/warehouse/index.html/

IBM, Websphere Datastage ,

http://www.ascential.com/products/datastage.html