Upload
wei
View
70
Download
0
Embed Size (px)
DESCRIPTION
Data Warehouse and Datamining Entrepôts de Données et Fouille de Données. Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011. Plan. Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données - PowerPoint PPT Presentation
Citation preview
1
Data Warehouse and DataminingEntrepôts de Données et Fouille de Données
Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011
2
Plan
Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
3
Le contexte
Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles
Qui sont mes meilleurs clients?
A combien s’élèvent mes
ventes journalières?
Quels algériens
consomment beaucoup de
poisson?
Pourquoi et comment le
chiffre d’affaire a baissé?
4
Les données utilisables par les décideurs
Données opérationnelles (de production) Bases de données (Oracle, SQL Server) Fichiers, … Gestion des RH, gestion des commandes…
Caractéristiques de ces données: Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent
bloquer le système transactionnel Volatiles: pas d’historisation systématique
5
Problématique
Comment répondre aux demandes des décideurs? En donnant un accès rapide et simple à l’information
stratégique En donnant du sens aux données
Mettre en place un système d’information dédié aux applications décisionnelles:
un Data Warehouse
6
Le processus de prise de décision
Temps de prise d’une décision
Définir le problème
Rassembler les données
Analyser les données
Établir des solutions
Décider
Champs d’application des systèmes décisionnels
7
Le processus de prise de décision
Bases de production
Data warehouse
Base multi -dimensionnelle
Prédiction / simulation
Prise de décision
8
Domaines d’utilisation des DW
Banque Risques d’un prêt, prime plus précise
Santé Épidémiologie Risque alimentaire
Commerce Ciblage de clientèle Déterminer des promotions
Logistique Adéquation demande/production
Assurance Risque lié à un contrat d’assurance (voiture)
…
9
Quelques métiers du décisionnel
Strategic Performance Management Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques
Human Capital Management (gestion de la relation avec les employés) Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client) Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.
10
Plan
Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
11
Définition
W. H. Inmon (1996):
« Le Data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
12
Les 4 caractéristiques d'un data warehouse
1. Données orientées sujet: Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle
des données
Ass. Vie Ass. Auto Ass. Santé
Client
Police
13
Les 4 caractéristiques des data warehouse
2. Données intégrées: Normalisation des données Définition d’un référentiel unique
h,f
1,0
homme, femme
h,f
GBP
CHF
USD
EUR
14
Les 4 caractéristiques des data warehouse
3. Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production
Ajout
Modification
Suppression
Accès
Chargement
Bases de production Entrepôts de données
15
Les 4 caractéristiques des data warehouse
4. Données datées Les données persistent dans le temps Mise en place d’un référentiel temps
Nom Ville
Med Alger
Ali Cne
Nom Ville
Med Oran
Ali Cne
Image de la base en Mai 2010 Image de la base en Juillet 2011
Code Année Mois
1 2005 Mai
Base de production
Entrepôt de données
Calendrier
Code Année Mois
1 Med Alger
1 Ali Cne
Répertoire
RépertoireRépertoire
Code Année Mois
1 2005 Mai
2 2006 Juillet
Code Nom Ville
1 Med Alger
1 Ali Cne
2 Med Oran
16
Plan
Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
17
Datamarts
Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers
Datamart du service Marketing
Datamart du service Ressources Humaines
DW de l’entreprise
18
Intérêt des Datamarts
Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier
Moins de données que DW Plus facile à comprendre, à manipuler Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définir
19
Plan
Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
20
Architecture générale
Data warehouse
RequêtesRapports
VisualisationData Mining
…
Sources de données
Transformations:Nettoyage
Standardisation…
Zone de préparationZone de
présentation
Datamart
CHARGEMENT
Zone de stockage
EXTRACTION
21
Plan
Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
22
Modélisation des DW
Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum
Introduction de nouveaux types de table: Table de faits Table de dimensions
Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon
23
Table de faits
Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)
Table de faits des ventes
Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
Coût
Montant des ventes
Clés étrangères vers les dimensions
Faits
24
Table de faits (suite)
Fait: Ce que l’on souhaite mesurer
Quantités vendues, montant des ventes… Contient les clés étrangères des axes d’analyse
(dimension) Date, produit, magasin
25
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données observables (faits)
Contient le détail sur les faits
Dimension produit
Clé produit (CP)
Code produit
Description du produit
Famille du produitsMarque
Emballage
Poids
Clé de substitution
Attributs de la dimension
26
La dimension Temps
Commune à l’ensemble du DW
Reliée à toute table de faits
Dimension Temps
Clé temps (CP)
Jour
Mois
Trimestre
Semestre Année
Num_jour_dans_année
Num_semaine_ds_année
27
Les types de modèles
Modèle en étoile Modèle en flocon
28
Modèle en étoile
Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages:
Facilité de navigation Nombre de jointures limité
Inconvénients: Redondance dans les dimensions Toutes les dimensions ne concernent pas les
mesures
29
Modèle en étoileDimension Temps
ID tempsannéemoisjour…
Dimension TempsID temps
annéemoisjour…
Dimension MagasinID magasindescription
villesurface
…
Dimension MagasinID magasindescription
villesurface
…
Dimension RegionID région
paysdescription
district vente….
Dimension RegionID région
paysdescription
district vente….
Dimension produitID produit
nomcodeprix
poidsgroupefamille
…
Dimension produitID produit
nomcodeprix
poidsgroupefamille
…
Dimension ClientID client
nomprénomadresse
…
Dimension ClientID client
nomprénomadresse
…
Table de faits AchatID clientID temps
ID magasinID régionID produit
Quantité achetéeMontant des achats
Table de faits AchatID clientID temps
ID magasinID régionID produit
Quantité achetéeMontant des achats
30
Modèle en flocon
Une table de fait et des dimensions décomposées en sous hiérarchies
On a un seul niveau hiérarchique dans une table de dimension
La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine
Avantages: Normalisation des dimensions Économie d’espace disque
Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes
31
Modèle en floconDimension Temps
ID tempsanneemoisjour…
Dimension TempsID temps
anneemoisjour…
Dimension MagasinID magasindescription
villesurface
…
Dimension MagasinID magasindescription
villesurface
…
Dimension produitID produitID groupe
nomcodeprix
poids…
Dimension produitID produitID groupe
nomcodeprix
poids…
Dimension ClientID client
nomprénomadresse
…
Dimension ClientID client
nomprénomadresse
…
Dimension groupeID groupeID famille
nom…
Dimension groupeID groupeID famille
nom…
Dimension FamilleID famille
nom…
Dimension FamilleID famille
nom…
Dimension Division vente
ID division ventedescription
….
Dimension Division vente
ID division ventedescription
….
Dimension RegionID région
ID division ventepays
description….
Dimension RegionID région
ID division ventepays
description….
Table de faits AchatID clientID temps
ID magasinID régionID produit
Quantité achetéeMontant des achats
Table de faits AchatID clientID temps
ID magasinID régionID produit
Quantité achetéeMontant des achats
32
Plan
Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
33
Pays
France
Espagne
Allemagnedattes
poiresoranges
janvier
février
avril
Temps
Produits
Vente de dattes en
Allemagne en avril
AchatPK id_achat
FK id_client
id_produit
QuantitéclientPK id_client
Nom
adresse
ProduitPK id_produit
Libellé
Famille
Base de Données Multidimensionnelles
34
Plan
Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
35
Pourquoi Fouiller les Données (1)
De nombreuses données sont collectées et entreposées: Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires
Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants
La pression de la compétition est de plus en plus forte Fournir de meilleurs services, s’adapter aux clients
36
Pourquoi Fouiller les Données (2)
Les données sont collectées et stockées rapidement (GB/heures) Capteurs Télescopes Puces à ADN générant des expressions de gènes Simulations générant des téraoctets de données …..
37
Pourquoi Fouiller les Données (3)
Les techniques traditionnelles ne sont pas adaptées
Volume de données trop grands (trop de tuples, trop d’attributs)
Comment explorer des millions d’enregistrements
avec des milliers d’attributs ?
Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles
Rechercher tous les enregistrements
indiquant une fraude
38
Un Enjeu Stratégique
Identifier lesnouveaux
produits ouservices
Minimiser lesrisques
Identifierles nouveaux
marchés
Déterminerles moyens
pour fidéliserles clients
Anticiper leschangements decomportement
39
Qu'est-ce que le Data Mining?
Frawley et Piatesky-Shapiro
"l'extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir de données"
John Page
"la découverte de nouvelles corrélations, tendances et modèles par
le tamisage d'un large volume de données"
Kamran Parsaye
"un processus d'aide à la décision où les utilisateurs cherchent des
modèles d'interprétation dans les données"
Dimitris Chorafas
"torturer l'information disponible jusqu'à ce qu'elle avoue"
40
Processus d'ECD (KDD)
41
Techniques de Fouille de Données (1)
Méthodes non-supervisées Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre) Analyse du résultat fourni (retenu ou rejeté) Isoler l’information utile Constituer des groupes homogènes d’objets (grouper
des patients qui ont le même comportement).
42
Techniques de Fouille de Données (2)
Exemples
Réseau de Neurones
Recherche des K Plus Proches Voisins
Recherche d'Associations (Règles Associatives)
…
43
Techniques de Fouille de Données (3)
Méthodes supervisées Découverte de règles ou formules (patterns) pour
ranger les données dans des classes prédéfinies Processus en deux étapes
Construction d'un modèle sur les données dont la classe est connue (training data set)
Utilisation pour classification des nouveaux arrivants
44
Techniques de Fouille de Données (2)
Exemples
Discrimination linéaire
Régression
Arbres de décision
Machines à vecteur de support (SVM)
…
45
Domaines d'Application
Médecine: biomédecine, drogue, Sida, séquence génétique, gestion hôpitaux, ...
Finance, assurance: crédit, prédiction du marché, détection de fraudes, …
Social: données démographiques, votes, résultats des élections,
Marketing et ventes: comportement des utilisateurs, prédiction des ventes, espionnage industriel, …
Militaire: fusion de données .. (secret défense) Astrophysique: astronomie, … Informatique: agents, IHM, réseau, DataWarehouse,
Internet (moteurs intelligent, text mining, …)
46
Plan
Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel
47
SAP/Business Objects 22,4%
Oracle 14,5%
SAS Institute 14,2%
IBM 12,2%
Microsoft 7,9%
Microstrategy 3,2%
Le marché du décisionnel
48
Quelques solutions commerciales
49
Quelques solutions open source
IntégréPentaho (Kettle, Mondrian, JFreeReport, Weka)SpagoBI
ETL Entrepôt de données
OLAP Reporting Data Mining
OctopusKettleCloverETLTalend
MySqlPostgresqlGreenplum/Bizgres
MondrianPalo
BirtOpen ReportJasper ReportJFreeReport
WekaR-ProjectOrangeXelopes
50