Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1FBR. ISG. 2020
Advanced data warehouse
Mastère Professionnel Data science for business
FBR. ISG. 2020
Fahmi Ben Rejab
CHAPITRE 1
INTRODUCTION
Année universitaire 2020/2021
2FBR. ISG. 2020
HISTORIQUE
GÉNÉRATION DES SGBDGestion de projet Informatique
Mastère Pro. DSB
Hiérarchies, Réseaux
SGBD 1
1960 - 1970 - 1980
Relationnels
SGBD 2
1970 - 1980 - 1990
Avancés
SGBD 3
1980 - 1990 - 2000
Avancés
SGBD 4/5
2000 - 2010
BIG DATA,
2010 - 2020
3FBR. ISG. 2020
HISTORIQUE
APPLICATIONSGestion de projet Informatique
Mastère Pro. DSB
Applications : Paie, Marketing, Financière
(50 tables de quelques milliers de lignes) 50 Mo
Applications : Gestion des risques, ERP, Analyse des ventes
(100 tables de quelques millions de lignes) 2 Go
Intégration de plusieurs systèmes d’information nationaux et internationnaux)
Entrepôts de données (grosses masses de données)
(milliers de tables de quelques millions de lignes) > 100 Go
Fouille de données
(Analyse du comportement des clients, etc.)
BIG DATA, Entrepôt de données avancés
Téraoctets par jour, Pétaoctets par an
(Applications analytique, prise de décision, analyse prédictive)
4FBR. ISG. 2020
HISTORIQUE
APPLICATIONSGestion de projet Informatique
Mastère Pro. DSB
5FBR. ISG. 2020
HISTORIQUE
APPLICATIONSGestion de projet Informatique
Mastère Pro. DSB
Applications : Paie, Marketing, Financière
(OLTP: quelques secondes) (Batch : < 1 heure)
Applications : Gestion des risques, ERP, Analyse des ventes
(Batch : < 1 heure)
Entrepôts de données
(OLTP : < 10 secondes) (OLAP < 1 heure)
( agrégation, ...) (Batch : Quotidien ou mensuel < 1h)
Grosse volumétrie : travail d’optimisation et suivi des activités du DWH nécéssaire
Par expérience, certains traitements ne se terminent pas
Nécessité de modifications techniques et fonctionnelles au bout de quelques jours
Applications : Génome, Astronomie
Analyse climatique, Physique quantique,
Analyse tendancielle
(Temps réel)
6FBR. ISG. 2020
HISTORIQUE
STRUCTURE ET TYPE DE DONNÉEESGestion de projet Informatique
Mastère Pro. DSB
7FBR. ISG. 2020
HISTORIQUE
EXEMPLES DES SGBDGestion de projet Informatique
Mastère Pro. DSB
SGBD 1
COADSYL, SOCRATE ………
SGBD 2
ORACLE 5/6 INGRES, DB2, ...
SGBD 3
ORACLE 7/8, INGRES, DB2, Sybase,Verssant Enjin (O2),
ObjectStore, Orlent, SQLServer, ACCESS,... MySQL, PostGreSQL,
SGBD 4/5
ORACLE 9i, 10g, 11g, 12c
SQLServer, DB2, ... XML, ...
BIG DATA
MapReduce, Hadoop
Teradata, Oracle
8FBR. ISG. 2020
HISTORIQUE
QUELLE QUANTITÉ D’INFORMATION ? SOUS QUELLE FORME ?Gestion de projet Informatique
Mastère Pro. DSB
Taux de croissance annuel de données est de 50 %
Comment accéder à ces données, tirer partie de ces données ?
→ Les bases de données ne suffisent plus !
9FBR. ISG. 2020
HISTORIQUE
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
10FBR. ISG. 2020
HISTORIQUE
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
La majeure partie des applications Bases de Données reposentaujourd’hui sur trois couches :
Graphical User Interfaces GUILa couche la plus externe est celle de qui permet de présenter
les données aux utilisateurs.
La couche applicationLa couche application intermédiaire inclut le programme de l’application
Elle ne stocke pas les données.
la couche Base de DonnéesLa couche la plus interne gère le stockage des données.
11FBR. ISG. 2020
HISTORIQUE
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
12FBR. ISG. 2020
HISTORIQUE
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
• Les applications interrogent les données avec, par exemple, le langage SQL
Select
et les mettent à jour par l’intermédiaire des opérations
Insert, Update et Delete
qui constituent des transactions.
• Celles-ci doivent avoir certaines propriétés ACID (Atomicité, Cohérence, Isolation et
Durabilité)
• Ce type d’application est appelé On-Line Transaction Processing
OLTP
13FBR. ISG. 2020
INTRODUCTION
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
Données volumineuses & Besoins nouveaux
• Rapports,
• Etats,
• Tableaux de Bord (KPI),
• Graphiques,
• Synthèses,
• Groupement,
• Agrégat,
• Résumé
• ...
Les éléments d’un DSS (SID)
14FBR. ISG. 2020
INTRODUCTION
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
▪ Contrairement aux applications OLTP, qui consultent et mettent à jour
les données des BD opérationnelles,
▪ les DSS lisent les données seulement pour avoir de nouvelles
informations à partir des données sources
▪ Bénéfice de cette approche : seules les BD opérationnelles doivent
être créées et maintenues
▪ Un ensemble de méta-données est utilisés pour les 2 systèmes.
▪ Les DSS ne nécessitent que des travaux supplémentaires mineurs.
15FBR. ISG. 2020
INTRODUCTION
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
Cependant, il y a plusieurs désavantages :
Quand le DSS et les application OLTP se partagent les mêmes BD
Un DSS ne peut utiliser que les données actuellement stockées dans les BD donc les analyses
historiques sont souvent impossibles à cause des opérations de mises à jour qui changent les
données historiques.
L’utilisation des BD en mode multi-utilisateurs
Ce qui implique des opérations de verrouillage des données (Locking operations) et donc des
problèmes de performance car les requêtes analytiques demandent l’accès à de très grands
nombre de tuples.
16FBR. ISG. 2020
INTRODUCTION
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
La solution est de séparer
La BD orientée
Transaction
La BD orientée Aide à la
Décision
d’où la naissance du concept
Entrepôt de Données = Data Warehouse
Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles)
17FBR. ISG. 2020
INTRODUCTIONDÉFINITION DU DATA WAREHOUSE
Gestion de projet Informatique
Mastère Pro. DSB
▪ Le Data Warehouse est une collection de données orientées sujet,
intégrées, non volatiles, historisées, organisées pour le support d’un
processus d’aide à la décision
▪ Un système de DWH peut être formellement défini comme un triplet
<BD cible, méta-données, un ensemble d’opérations>
e) Administration
a) Collecte
Finances
Marketing
1.0
Organiser
les données
via ETL
Comptoir
de
données
Contrôle
Qualité
Ressources
humaines
Production
Sources:- Richardson, James, Schlegel, Kurt, Sallam, Rita L., Hostmann, Bill, Gartner Inc, Magic Quadrant for Business Intelligence Platforms, 16 janvier 2009.
b) Intégration
2.0
Gérer les
métadonnées
Entrepôt
central de
données
c) Diffusion
3.0
Diffuser
l’information
stratégique
Analyses
OLAP
d) Présentation
Usager
4.0
Activer
une
requête
1Requêtes
Requêtes
Ré
sulta
ts
Administration
C'est la fonction transversale qui supervise la bonne exécution
de toutes les autres. Elle pilote le processus de mise à jour
des données, la documentation sur les données (les méta-
données), la sécurité, les sauvegardes, la gestion des incidents.
INTRODUCTIONARCHITECTURE DU DATA WAREHOUSE
Gestion de projet Informatique
Mastère Pro. DSB
19FBR. ISG. 2020
INTRODUCTIONDÉFINITIONS
Gestion de projet Informatique
Mastère Pro. DSB
▪ Le DWH intègre des données à partir de sources multiples et hétérogènes
afin de répondre aux requêtes du système d’aide à la décision.
▪ Ce type d’application est appelé On-Line Analytical Processing OLAP
▪ OLAP permet la transformation des données en informations stratégiques
La différence en données, informations, connaissances, sagesse…???
Données
Information présentée
sous forme
conventionnelle,
en vue d'être traitée
Informations
Une information est
une donnée à laquelle
un sens et une
interprétation ont été
donnés
ConnaissancesRègles utilisant les
informations et les
données pour en déduire
d'autres
INTRODUCTIONDÉFINITIONS
Gestion de projet Informatique
Mastère Pro. DSB
INTRODUCTIONDÉFINITIONS
Gestion de projet Informatique
Mastère Pro. DSB
22FBR. ISG. 2020
INTRODUCTIONANALYSE OLAP (ON-LINE ANALYTICAL PROCESSING)
Gestion de projet Informatique
Mastère Pro. DSB
• Techniques OLAP :
apparition en recherche dans les années 70
développement à partir des années 90 dans l’industrie
▪ Réalisation de synthèses, d’analyses et de la consolidation dynamique de données
multidimensionnelles
▪ Manière la plus naturelle d’exploiter un ED étant donné son organisation
multidimensionnelle
23FBR. ISG. 2020
INTRODUCTIONFOUILLE DE DONNÉES (DATA MINING)
Gestion de projet Informatique
Mastère Pro. DSB
• Data Mining
• Recherche de connaissances cachées dans les données (modèle de comportement)
• Domaine jeune à l’intersection de l’Intelligence Artificielle, les Statistiques, les BD
• Méthodes : régression linéaire, arbres de décision, réseaux de neurones, ...
• Intégration croissante dans les entrepôts
24FBR. ISG. 2020
INTRODUCTIONDATA SCIENCE & DATA WAREHOUSE
Gestion de projet Informatique
Mastère Pro. DSB
Data Science & Data WareHouse
• Pour les entreprises, une plateforme Data Warehouse est une façon pratique
de visualiser le passé sans affecter les opérations quotidiennes. En effectuant
des requêtes et des analyses de données au sein de Data Warehouse,
• Les entreprises peuvent améliorer leurs opérations et leur efficience, et ainsi
augmenter leurs revenus et leurs bénéfices.
• Progrès importants sont effectués dans ce domaine (DWH)
25FBR. ISG. 2020
INTRODUCTIONVISUALITION DES INFORMATIONS
Gestion de projet Informatique
Mastère Pro. DSB
• Objectif: Faciliter l’analyse et l’interprétation de données
Synthèse des données de l’entrepôt
→ Conversion des données complexes de l’entrepôt
• en images,
• en graphiques 2D et 3D
• en animations
26FBR. ISG. 2020
INTRODUCTION
DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique
Mastère Pro. DSB
Pourquoi pas des SGBDs pour les entrepôts de données ?
Les 2 systèmes sont performants
• SGBD : calibré pour l’OLTP ; méthodes d’accès index, contrôle de concurrence,
reprise
• Entrepôt : calibré pour l’OLAP ; requêtes OLAP complexes, vue dimensionnelle,
consolidation
Fonctions et données différentes
• Données manquantes : l’aide à la décision (AD) a besoin des données historiques
qui ne se trouvent pas dans les BD opérationnelles
• Consolidation : l’AD a besoin de données consolidées (agrégats) alors qu’elles sont
brutes dans les BD opérationnelles
27FBR. ISG. 2020
INTRODUCTIONCOMPARAISON
Gestion de projet Informatique
Mastère Pro. DSB
Data WareHouse vs. BD opérationnelle
OLTP (On-Line Transaction Processing)
Exécution en temps réel des transactions, pour l’enregistrement des opérations
quotidiennes : inventaires, commandes, paye, comptabilité
OLAP (On-Line Analytical Processing)
Traitement efficace des requêtes d’analyse pour la prise de décision qui
sont par défaut assez complexes (bien qu’a priori, elles peuvent être réalisées par
les SGBD classiques)
28FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSBINTRODUCTION
COMPARAISON
29FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSBINTRODUCTION
ARCHITECTURE MULTI-TIERS
Oracle 12c
30FBR. ISG. 2020
HISTORIQUECONCEPTION LOGIQUE DES DWH
Gestion de projet Informatique
Mastère Pro. DSB
Données multidimentionnellesMontant des ventes en fonction des paramètres produits, mois, région
31FBR. ISG. 2020
INTRODUCTION
DOMAINES D’APPLICATION: INFORMATIQUE DÉCISIONNELLEGestion de projet Informatique
Mastère Pro. DSB
Entrepôt de données
• Outils de veille stratégique et de recueil d’information
(intelligence économique)
• Aide aux décideurs pour prendre les bonnes décisions sur la
base des données disponibles
Exemple :
• Quels sont les 5 produits les plus vendus pour chaque sous-catégorie de produits qui
représente plus de 20% des ventes dans sa catégorie de produits ?
• Quelle est la priorité d’expédition et quel est le revenu brut potentiel des commandes de
livres qui ont les 10 plus grandes recettes brutes parmi les commandes qui n’avaient pas
encore été expédiées ?
32FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Commerce, finance, transport, télécommunications, santé, services,
• gestion de la relation client
• gestion des commandes, des stocks
• prévisions de ventes
• définition de profil utilisateur
• analyse de transactions bancaires
• détection de fraudes
• ...
INTRODUCTION
DOMAINES D’APPLICATION: INFORMATIQUE DÉCISIONNELLE
33FBR. ISG. 2020
OPÉRATIONS Gestion de projet Informatique
Mastère Pro. DSB
Extraction (Extraction) :
Ces opérations permettent de filtrer les données à partir de données
sources (BD, fichiers, sites web...) dans des BD temporaires.
Transformation (Transformation) :
Ces opérations permettent de transformer les données extraites dans un
format uniforme.
Les conflits entre les modèles, les schémas et les données sont résolus
durant cette phase.
Chargement (Load) :
Ces opérations permettent de charger les données dans le DWH.
La BD cible est souvent implantée avec un SGBD relationnel-objet.
Agrégat et Groupement (Agregating and Grouping) :
La BD cible doit permettre de stocker les données opérationnelles et les
données issues de calculs.
34FBR. ISG. 2020
ARCHITECTURE FONCTIONNELLE
DATA WAREHOUSE
Gestion de projet Informatique
Mastère Pro. DSB
Les données d’un entrepôt se structurent suivant
un axe synthétique : établissement d’une hiérarchie d’agrégation incluant
- les données détaillées : les événements les plus récents
- les données agrégées : synthèse des données détaillées
- les données fortement agrégées : synthèse à un niveau supérieur des
données agrégées
un axe historique
incluant les données détaillées historisées représentant les événements passés
→ Stockage des méta-données : informations concernant les données de l’ED
(provenances, structures, méthodes utilisées pour l’agrégation, ...)
35FBR. ISG. 2020
DATA WAREHOUSES ET DATA MARTS
ARCHITECTURE FONCTIONNELLEGestion de projet Informatique
Mastère Pro. DSB
Entrepôts de données
Collecte l’ensemble de l’information utile aux décideurs à partir des sources de
données (BD opérationnelle, BD externes, ...)
Centralisation de l’information décisionnelle
Garantie de l’intégration des données extraites et de leur pérennité dans le
temps
Magasins de données
Orientés sujet
Aide efficace aux processus OLAP
Extraction d’une partie des données utiles :
pour une classe d’utilisateurs ou
pour un besoin d’analyse spécifique
36FBR. ISG. 2020
DATA WAREHOUSES ET DATA MARTS
CALCUL, STOCKAGE, ORGANISATION Gestion de projet Informatique
Mastère Pro. DSB
Entrepôts de données
Puissantes machines pour la gestion de très grandes bases de données de
détail historisées
Lieu de stockage centralisé d’un extrait des bases de production
Organisation des données suivant un modèle facilitant la gestion efficace des
données et leur historisation
Magasins de données
Petits entrepôts avec une infrastructure plus légère, mise en œuvre rapide
Données extraites d’un ED ou de BD existantes pour un besoin d’aide `a la
décision particulier
Organisation des données suivant un modèle facilitant les traitements
décisionnels
37FBR. ISG. 2020
DATA WAREHOUSES ET DATA MARTS
DATA WAREHOUSE VS DATA MARTGestion de projet Informatique
Mastère Pro. DSB
38FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Hiérarchie de dépôts :
Operational Data Store (ODS)
regroupement des données intégrées
récupération des sources
Corporate Data Warehouse (CDW)
regroupement les vues agrégées
DATA WAREHOUSES ET DATA MARTS
VUE LOGIQUE DE DWH
39FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
DATA WAREHOUSES ET DATA MARTS
VUE LOGIQUE DE DWH
40FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
DATA WAREHOUSES ET DATA MARTS
PROBLÈME DES SOURCES HÉTÉROGÈNES
Chaîne de concessionnaires automobilesconcession 1
vehicules(serie, modele, couleur, autoradio, ...)ex :vehicules(’1234’,’Clio 5p, ’rouge’, ’ABS’, ...)
concession 2automobiles(num serie, modele, couleur)options(num serie, option)ex :automobiles(1234, ’Clio’, ’R’)
automobiles(2345, ’Clio’, ’R’)
options(1234, ’ABS)
Pour un même concept :
schémas différents; noms d’attribut différents;
types de données différents
valeurs différentes; sémantiques différentes
41FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
4 étapes :
1. Sélection des données sources
2. Extraction des données
3. Nettoyage et Transformation
4. Chargement
Etapes 1 et 2 : Jusqu’`a 80 % du temps de développement d’un entrepôt
outil : Oracle Warehouse Builder (OWB)
DATA WAREHOUSES ET DATA MARTS
PROCESSUS D’ALIMENTATION D’UN DWH
42FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Quelles données de production faut-il sélectionner pour alimenter l’ED ?
• Définir l’utilité des données sources
• Doit-on prendre l’adresse complète ou séparer le code postal ?
• Réorganiser les données sélectionnées pour qu’elles deviennent des informations
• Faire une synthèse des données sources pour les enrichir
• Dénormaliser les données pour créer des liens entre les données et permettre des accès
différents
PROCESSUS D’ALIMENTATION D’UN DWH1- SÉLECTION
43FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Un extracteur (wrapper) est associé à chaque source de données
• Sélection et extraction des données
• Formatage des données dans un format cible commun en général le modèle
Relationnel
• Utilisation d’interfaces comme ODB, OCI, JDBC
PROCESSUS D’ALIMENTATION D’UN DWH2- EXTRACTION
44FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Résolution des problèmes de consistance des données au sein
de chaque source
Remarque
une centaine de type d’inconsistances ont été répertoriées
5 à 30 % des données des BD commerciales sont erronées
PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION
45FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
• Fonctions d’analyse
• Fonctions de normalisation
• Fonctions de conversion
• Usage de dictionnaires de synonymes ou d’abréviations
• Définition de table de règles
→ Utilisation d’expressions régulières, suppression de doublons,
de valeur nulle, ...
PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION
Levenshtein Algorithm?
Exemple en SQL ORACLE?
46FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION
47FBR. ISG. 2020
Gestion de projet Informatique
Mastère Pro. DSB
Objectif : Stockage des données nettoyées et préparées dans l’ODS
Opération :
• risquant d’être assez longue
• plutôt mécanique
• la moins complexe
Mais il est nécessaire de définir et mettre en place :
• des stratégies pour assurer de bonnes conditions `a sa réalisation
• une politique de rafraîchissement
PROCESSUS D’ALIMENTATION D’UN DWH4- CHARGEMENT
Thank You