Upload
edmond-pastor
View
113
Download
0
Embed Size (px)
Citation preview
DATA WAREHOUSINGDéfis et pistes de solutions
Yazid Grim Gestionaire de produit BI (PCG Canada) Spécialiste en cycle de vie logiciel en BI Spécialiste en produits Microsoft BI 7 ans d’éxperience en BI et DW
(consultation) 10 ans d’éxperience en TI Ingéniorat en Informatique (SI) à l’INI
(2000-2005)
Agenda Mise en contexte: le monde a changé… Rappel: la mission d’un Data Warehouse Les problématiques actuelles du Data
Warehousing Des pistes de solutions Q&R
Le monde a changé…
… Et les entreprises aussi
Le monde a changé + de données
(Internet) + de clients + de compétition + de maturité + de consommation + de régulations
+ d’innovations + personne
compétentes + défis - de frontières - de droit à l’erreur - de limites…
Mission du DW Stockage de données pour du reporting Mémoire « passive » d’entreprise Source pour les analystes Outil de prédiction Nouveau modèle d’affaire (Google,
Facebook, …) …
TEM
PS
Mission du DW
Stocker des données qui seront utilisées pour de la prise de décision
Mission du DW
Stocker des données qui seront utilisées pour de la prise de décision
Données / Utilisateurs / Gestion d’entreprise
Les défis du Data Warehousing
Volumétrie des données
Volumétrie des données
"...notre PME accumule plus 50Go de données par mois dans son DW..."
"...on veut analyser l'achalandage des utilisateurs mais ça représente plus 3 millions de passages par jour"
"...notre infrastructure ne tient plus la route avec des tables de faits de 500 Millions de lignes..."
"...notre process ETL prend plus de 24h..."
Volumétrie des données Architectures matérielles ne peuvent plus supporter
les charges des DW (stockage et traitement) Architectures logicielles désuètes Les SGBD relationnels montrent leurs limites Le paradigme E-T-L ne répond plus au besoin initial Nos méthodes de modélisation n’ont pas été pensés
pour de tels volumes de données
Le BI pour les décideurs n’existe plus…
BI pour tous
BI pour tous Data-Driven businesses
Nouvelles façon de gérer les entreprises Exige que tous les employés prennent des
décisions à leur niveau Offre les outils nécessaires pour ce faire
BI pour tous Les travailleurs en entreprises sont:
Mieux formés Plus responsables Plus instruits Plus désireux d’exceller dans leur travail Plus « branchés »
BI pour tous Real-Time BI / Operational BI
Utilisé dans les grosses entreprises manufacturières et les compagnies financières.
Quand des décisions importantes doivent être prises chaque seconde par beaucoup de personnes…
Brise le modèle asynchrone des ETL classiques
TI vs. Business
TI vs Business
TI vs. Business Processus d’entreprise changent
beaucoup trop vite pour les TI Les méthodes agiles ne règlent que
partiellement le problème BI et DW sont devenus trop important
pour les laisser aller à leur rythme
Ce qui se fait actuellement pour pallier aux problèmes
Éléments de solution
L’infrastructure en tant que service
Cloud Computing
Cloud Computing Permet d’héberger des données et du
traitement dans des environnements spécialisés
Réduit le TCO en infrastructure Met à disposition une capacité de
traitements phénoménale
Plus vite, plus efficace, moins cher
Nouvelle génération de matériel
Nouvelle génération de hardware SSD Nouvelle génération d’OS Nouvelles générations de RAM Nouvelles technologies (SAN, DFS) Nouveaux processeurs
Diviser pour régner
Architectures distribuées
Architectures distribuées Permet de mettre à profit des machines
de faible puissance pour des traitements complexes sur de gros volumes de données
Mets en réseau stockage, RAM et processeur pour gérer la charge
Initiative de Google
L’alternative venue du Web
Le mouvement NoSQL
Mouvement NoSQL Nouvelle génération d’outils de stockage née avec les
grosses compagnies du Web Aux antipodes des règles de CODD Inventés pour répondre aux besoins des géants du Web
(Google, Facebook, Twitter, Ebay,…) Récemment adopté pour des besoins BI en entreprise Principe simple: stocker des fichiers avec un SGF distribué Permet de gérer des Péta Bytes (index de recherche de
Google)
Mouvement NoSQL
Pensé pour les DW
Columnar Databases
Columnar Databases
Columnar Databases Bénéfices:
Taux élevé de compression au niveau colonne (1:4)
On ne lit que ce qu’on a besoin On retrouve l’information de manière
efficace
De plus en plus matures
Outils de visualisation de données
Outils de visualisation Permettent de traiter des volumes
importants de données Plus simples d’utilisation Un marché encore jeune mais avec des
leaders émergents
Outils de visualisation de données Ex: Tableau Software
Conclusion
Questions / Contact
[email protected] www.yazidgrim.com
Widescreen Test Pattern (16:9)
Aspect Ratio Test
(Should appear circular)
16x9
4x3