50
1 Data Warehouse and Datamining Entrepôts de Données et Fouille de Données Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011

Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

  • Upload
    wei

  • View
    70

  • Download
    0

Embed Size (px)

DESCRIPTION

Data Warehouse and Datamining Entrepôts de Données et Fouille de Données. Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011. Plan. Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données - PowerPoint PPT Presentation

Citation preview

Page 1: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

1

Data Warehouse and DataminingEntrepôts de Données et Fouille de Données

Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011

Page 2: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

2

Plan

Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 3: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

3

Le contexte

Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données, dégager

des informations qualitatives nouvelles

Qui sont mes meilleurs clients?

A combien s’élèvent mes

ventes journalières?

Quels algériens

consomment beaucoup de

poisson?

Pourquoi et comment le

chiffre d’affaire a baissé?

Page 4: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

4

Les données utilisables par les décideurs

Données opérationnelles (de production) Bases de données (Oracle, SQL Server) Fichiers, … Gestion des RH, gestion des commandes…

Caractéristiques de ces données: Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus

fonctionnels, données surabondantes pour l’analyse Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent

bloquer le système transactionnel Volatiles: pas d’historisation systématique

Page 5: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

5

Problématique

Comment répondre aux demandes des décideurs? En donnant un accès rapide et simple à l’information

stratégique En donnant du sens aux données

Mettre en place un système d’information dédié aux applications décisionnelles:

un Data Warehouse

Page 6: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

6

Le processus de prise de décision

Temps de prise d’une décision

Définir le problème

Rassembler les données

Analyser les données

Établir des solutions

Décider

Champs d’application des systèmes décisionnels

Page 7: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

7

Le processus de prise de décision

Bases de production

Data warehouse

Base multi -dimensionnelle

Prédiction / simulation

Prise de décision

Page 8: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

8

Domaines d’utilisation des DW

Banque Risques d’un prêt, prime plus précise

Santé Épidémiologie Risque alimentaire

Commerce Ciblage de clientèle Déterminer des promotions

Logistique Adéquation demande/production

Assurance Risque lié à un contrat d’assurance (voiture)

Page 9: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

9

Quelques métiers du décisionnel

Strategic Performance Management Déterminer et contrôler les indicateurs clé de la performance de

l’entreprise Finance Intelligence

Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques

Human Capital Management (gestion de la relation avec les employés) Aligner les stratégies RH, les processus et les technologies.

Customer Relationship Management (gestion de la relation client) Améliorer la connaissance client, identifier et prévoir la

rentabilité client, accroitre l’efficacité du marketing client Supplier Relationship Management (gestion de la relation fournisseur)

Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

Page 10: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

10

Plan

Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 11: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

11

Définition

W. H. Inmon (1996):

« Le Data Warehouse est une collection de

données orientées sujet, intégrées, non

volatiles et historisées, organisées pour le

support d’un processus d’aide à la décision »

Page 12: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

12

Les 4 caractéristiques d'un data warehouse

1. Données orientées sujet: Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle

des données

Ass. Vie Ass. Auto Ass. Santé

Client

Police

Page 13: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

13

Les 4 caractéristiques des data warehouse

2. Données intégrées: Normalisation des données Définition d’un référentiel unique

h,f

1,0

homme, femme

h,f

GBP

CHF

USD

EUR

Page 14: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

14

Les 4 caractéristiques des data warehouse

3. Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production

Ajout

Modification

Suppression

Accès

Chargement

Bases de production Entrepôts de données

Page 15: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

15

Les 4 caractéristiques des data warehouse

4. Données datées Les données persistent dans le temps Mise en place d’un référentiel temps

Nom Ville

Med Alger

Ali Cne

Nom Ville

Med Oran

Ali Cne

Image de la base en Mai 2010 Image de la base en Juillet 2011

Code Année Mois

1 2005 Mai

Base de production

Entrepôt de données

Calendrier

Code Année Mois

1 Med Alger

1 Ali Cne

Répertoire

RépertoireRépertoire

Code Année Mois

1 2005 Mai

2 2006 Juillet

Code Nom Ville

1 Med Alger

1 Ali Cne

2 Med Oran

Page 16: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

16

Plan

Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 17: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

17

Datamarts

Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou

d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers

Datamart du service Marketing

Datamart du service Ressources Humaines

DW de l’entreprise

Page 18: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

18

Intérêt des Datamarts

Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier

Moins de données que DW Plus facile à comprendre, à manipuler Amélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définir

Page 19: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

19

Plan

Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 20: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

20

Architecture générale

Data warehouse

RequêtesRapports

VisualisationData Mining

Sources de données

Transformations:Nettoyage

Standardisation…

Zone de préparationZone de

présentation

Datamart

CHARGEMENT

Zone de stockage

EXTRACTION

Page 21: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

21

Plan

Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 22: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

22

Modélisation des DW

Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum

Introduction de nouveaux types de table: Table de faits Table de dimensions

Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon

Page 23: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

23

Table de faits

Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet

étudié selon divers axes d’analyse (les dimensions)

Table de faits des ventes

Clé date (CE)

Clé produit (CE)

Clé magasin (CE)

Quantité vendue

Coût

Montant des ventes

Clés étrangères vers les dimensions

Faits

Page 24: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

24

Table de faits (suite)

Fait: Ce que l’on souhaite mesurer

Quantités vendues, montant des ventes… Contient les clés étrangères des axes d’analyse

(dimension) Date, produit, magasin

Page 25: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

25

Table de dimension

Axe d’analyse selon lequel vont être étudiées les données observables (faits)

Contient le détail sur les faits

Dimension produit

Clé produit (CP)

Code produit

Description du produit

Famille du produitsMarque

Emballage

Poids

Clé de substitution

Attributs de la dimension

Page 26: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

26

La dimension Temps

Commune à l’ensemble du DW

Reliée à toute table de faits

Dimension Temps

Clé temps (CP)

Jour

Mois

Trimestre

Semestre Année

Num_jour_dans_année

Num_semaine_ds_année

Page 27: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

27

Les types de modèles

Modèle en étoile Modèle en flocon

Page 28: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

28

Modèle en étoile

Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages:

Facilité de navigation Nombre de jointures limité

Inconvénients: Redondance dans les dimensions Toutes les dimensions ne concernent pas les

mesures

Page 29: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

29

Modèle en étoileDimension Temps

ID tempsannéemoisjour…

Dimension TempsID temps

annéemoisjour…

Dimension MagasinID magasindescription

villesurface

Dimension MagasinID magasindescription

villesurface

Dimension RegionID région

paysdescription

district vente….

Dimension RegionID région

paysdescription

district vente….

Dimension produitID produit

nomcodeprix

poidsgroupefamille

Dimension produitID produit

nomcodeprix

poidsgroupefamille

Dimension ClientID client

nomprénomadresse

Dimension ClientID client

nomprénomadresse

Table de faits AchatID clientID temps

ID magasinID régionID produit

Quantité achetéeMontant des achats

Table de faits AchatID clientID temps

ID magasinID régionID produit

Quantité achetéeMontant des achats

Page 30: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

30

Modèle en flocon

Une table de fait et des dimensions décomposées en sous hiérarchies

On a un seul niveau hiérarchique dans une table de dimension

La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine

Avantages: Normalisation des dimensions Économie d’espace disque

Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes

Page 31: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

31

Modèle en floconDimension Temps

ID tempsanneemoisjour…

Dimension TempsID temps

anneemoisjour…

Dimension MagasinID magasindescription

villesurface

Dimension MagasinID magasindescription

villesurface

Dimension produitID produitID groupe

nomcodeprix

poids…

Dimension produitID produitID groupe

nomcodeprix

poids…

Dimension ClientID client

nomprénomadresse

Dimension ClientID client

nomprénomadresse

Dimension groupeID groupeID famille

nom…

Dimension groupeID groupeID famille

nom…

Dimension FamilleID famille

nom…

Dimension FamilleID famille

nom…

Dimension Division vente

ID division ventedescription

….

Dimension Division vente

ID division ventedescription

….

Dimension RegionID région

ID division ventepays

description….

Dimension RegionID région

ID division ventepays

description….

Table de faits AchatID clientID temps

ID magasinID régionID produit

Quantité achetéeMontant des achats

Table de faits AchatID clientID temps

ID magasinID régionID produit

Quantité achetéeMontant des achats

Page 32: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

32

Plan

Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 33: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

33

Pays

France

Espagne

Allemagnedattes

poiresoranges

janvier

février

avril

Temps

Produits

Vente de dattes en

Allemagne en avril

AchatPK id_achat

FK id_client

id_produit

QuantitéclientPK id_client

Nom

adresse

ProduitPK id_produit

Libellé

Famille

Base de Données Multidimensionnelles

Page 34: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

34

Plan

Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 35: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

35

Pourquoi Fouiller les Données (1)

De nombreuses données sont collectées et entreposées: Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires

Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants

La pression de la compétition est de plus en plus forte Fournir de meilleurs services, s’adapter aux clients

Page 36: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

36

Pourquoi Fouiller les Données (2)

Les données sont collectées et stockées rapidement (GB/heures) Capteurs Télescopes Puces à ADN générant des expressions de gènes Simulations générant des téraoctets de données …..

Page 37: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

37

Pourquoi Fouiller les Données (3)

Les techniques traditionnelles ne sont pas adaptées

Volume de données trop grands (trop de tuples, trop d’attributs)

Comment explorer des millions d’enregistrements

avec des milliers d’attributs ?

Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles

Rechercher tous les enregistrements

indiquant une fraude

Page 38: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

38

Un Enjeu Stratégique

Identifier lesnouveaux

produits ouservices

Minimiser lesrisques

Identifierles nouveaux

marchés

Déterminerles moyens

pour fidéliserles clients

Anticiper leschangements decomportement

Page 39: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

39

Qu'est-ce que le Data Mining?

Frawley et Piatesky-Shapiro

"l'extraction d'informations originales, auparavant inconnues,

potentiellement utiles à partir de données"

John Page

"la découverte de nouvelles corrélations, tendances et modèles par

le tamisage d'un large volume de données"

Kamran Parsaye

"un processus d'aide à la décision où les utilisateurs cherchent des

modèles d'interprétation dans les données"

Dimitris Chorafas

"torturer l'information disponible jusqu'à ce qu'elle avoue"

Page 40: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

40

Processus d'ECD (KDD)

Page 41: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

41

Techniques de Fouille de Données (1)

Méthodes non-supervisées Extraire des informations nouvelles et originales

(aucun attribut n’est plus important qu’un autre) Analyse du résultat fourni (retenu ou rejeté) Isoler l’information utile Constituer des groupes homogènes d’objets (grouper

des patients qui ont le même comportement).

Page 42: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

42

Techniques de Fouille de Données (2)

Exemples

Réseau de Neurones

Recherche des K Plus Proches Voisins

Recherche d'Associations (Règles Associatives)

Page 43: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

43

Techniques de Fouille de Données (3)

Méthodes supervisées Découverte de règles ou formules (patterns) pour

ranger les données dans des classes prédéfinies Processus en deux étapes

Construction d'un modèle sur les données dont la classe est connue (training data set)

Utilisation pour classification des nouveaux arrivants

Page 44: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

44

Techniques de Fouille de Données (2)

Exemples

Discrimination linéaire

Régression

Arbres de décision

Machines à vecteur de support (SVM)

Page 45: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

45

Domaines d'Application

Médecine: biomédecine, drogue, Sida, séquence génétique, gestion hôpitaux, ...

Finance, assurance: crédit, prédiction du marché, détection de fraudes, …

Social: données démographiques, votes, résultats des élections,

Marketing et ventes: comportement des utilisateurs, prédiction des ventes, espionnage industriel, …

Militaire: fusion de données .. (secret défense) Astrophysique: astronomie, … Informatique: agents, IHM, réseau, DataWarehouse,

Internet (moteurs intelligent, text mining, …)

Page 46: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

46

Plan

Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel

Page 47: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

47

SAP/Business Objects 22,4%

Oracle 14,5%

SAS Institute 14,2%

IBM 12,2%

Microsoft 7,9%

Microstrategy 3,2%

Le marché du décisionnel

Page 48: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

48

Quelques solutions commerciales

Page 49: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

49

Quelques solutions open source

IntégréPentaho (Kettle, Mondrian, JFreeReport, Weka)SpagoBI

ETL Entrepôt de données

OLAP Reporting Data Mining

OctopusKettleCloverETLTalend

MySqlPostgresqlGreenplum/Bizgres

MondrianPalo

BirtOpen ReportJasper ReportJFreeReport

WekaR-ProjectOrangeXelopes

Page 50: Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

50