le Mardi 14 février 2012
Matinée 01
BIG DATA
9h00 – 09h15 - OUVERTURE
Qu’entend-on réellement par Big Data ? Par Olivier Rafal, directeur de recherche chez Pierre Audoin Consultants
Big Data
Concept et perspectives :
la réalité derrière le ‘buzz’
Sommaire
I. Perspectives marchéDéfinition du Big Data
Exemple concret
II. Perspectives technologiquesPourquoi le NoSQL et Hadoop
L’après Big Data
©PAC2012 – Tous droits de reproduction interdits Page 4
PAC en bref:l’analyse du marché informatique depuis 35 ans !
De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC
De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC
PAC est une société de conseil et d’études de marché spécialisée dans le domaine du logiciel et des services informatiques
Plus de 35 ans d’expérience
PAC aide:
- Les fournisseurs de services informatiques à optimiser leurs stratégies en offrant des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique.
- Nous conseillons les DSI et les investisseurs dans l’évaluation des fournisseurs TIC et leurs projets d’investissements.
- Les organisations et les institutions publiques se réfèrent également à nos études ciblées pour développer et mettre en place leurs politiques informatiques.
Plus de 30 pays couverts6 bureaux PAC
Dernières actualités PAC sur notre blog : http://blog.pac-online.com/
©PAC2012 – Tous droits de reproduction interdits Page 5
PAC en bref:suivi particulier de la Business Intelligence
©PAC2012 – Tous droits de reproduction interdits Page 6
PERSPECTIVES MARCHÉ
Le Big Data, c’est au choix…
« Une évolution naturelle »
« Seulement utile aux quelques grands acteurs du
Web »
« On verra quand on aura des Pétaoctets de données à gérer »
« L’avenir de la BI, la réponse à tous les
problèmes »
« Uniquement lié à la technologie Hadoop »
« Réservé aux grands comptes »
« Un buzz orchestré par les fournisseurs de technologies, les
analystes et les médias »
Big Data : une évolution naturelle
©PAC2012 – Tous droits de reproduction interdits Page 9
Big Data : intégrer ces évolutions et contraintes pour
transformer les données en information exploitable dans le
cadre de son business
Explosion du ‘UGC’
Nouvelles sources de données (M2M, Open Data, Science…)
Importance des conversations
Accélération des cycles de
décision
Métriques applicatives
orientées business
Patrimoine informationnel non structuréDémocratisation de la
BI / Découverte
Big Data : les problématiques de M. Jourdain
©PAC2012 – Tous droits de reproduction interdits Page 10
Volumétrie : gestion de stocks, gestion de commandes, transport/logistique/RFID, transactions financières, services grand public…
Variété : CRM / Marketing / SAV, communication financière…
Vélocité : Mode, Jeu, Electronique grand public, gestion des stocks, gestion des commandes…
Þ Mieux connaître son clientÞ Améliorer son offreÞ Agir avant la compétition
Exemple concret de Big Data
©PAC2012 – Tous droits de reproduction interdits Page 11
Kobojo, PME française
Jeux pour les réseaux sociaux Evolutions quotidiennes Indicateurs techniques : 300 à 400
millions de données par jour et par jeu
Au-delà ? Facebook, Twitter…
PERSPECTIVES TECHNOLOGIQUES
Le point de départ
©PAC2012 – Tous droits de reproduction interdits Page 13
Base OLTP
Datawarehouse
Datamart
Contenu non
structuré
?
Big Data : perspectives technologiques
©PAC2012 – Tous droits de reproduction interdits Page 14
Des systèmes traditionnels au NoSQL
Problématique apparue il y a une dizaine d’années chez les gros « producteurs » de données : Finance, Retail, Services online…
Besoin de solutions plus performantes que les SGBDR standards pour ce besoin particulier de volumétrie
Not Only SQL
Consensus sur Hadoop / MapReduce
data
Hadoop / Map
ReduceBase d’analyse
Applications analytiquesdata
data
data
data
Big Data : perspectives technologiques
©PAC2012 – Tous droits de reproduction interdits Page 15
Du NoSQL au futur SQL ?
Maturité du marché Hadoop IBM : InfoSphere BigInsights Oracle : Big Data Appliance (avec Cloudera) Microsoft : exit Dryad, bonjour Hadoop Informatica : Data Integration Platform for Hadoop …
Besoins non couverts par Hadoop transactions ACID SQL comme langage d’interaction Mécanismes de verrouillage non bloquants …
Big Data : perspectives technologiques
©PAC2012 – Tous droits de reproduction interdits Page 16
Quand le Big Data deviendra la norme…
Emergence de nouvelles solutions In-Memory SSD CEP (CloudScale…) Moteurs de stockage (Xeround, GenieDB…) SQL nouvelle génération (VoltDB, Clustrix…) …
Qui préfigure une assimilation progressive !
L’évolution possible
©PAC2012 – Tous droits de reproduction interdits Page 17
Datawarehouse
ETL/ Data
Quality
Contenu
?
Data flux
NoSQL / NewSQL
Applications analytiques
Data flux
Data flux
DB
Contenu Web
Data as a
service
CEP
Moteur de recherches / BI visuelle / text
analytics
MERCI !
Olivier RafalDirecteur de recherches,
Marchés logicielsInformation Management
[email protected]@olivierrafal
Big Data : juste un concept ou une réponse à de réels besoins ?
Attentes et Usages Pour quels types d’entreprise et de besoins ? Remplaçant du datawarehouse traditionnel ? Quid du temps réel et du transactionnel ?
Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM Dominique Girardot, directeur d’Anteo, Groupe SodifranceFrançois Guérin, directeur technique chez Sybase
09h15 – 09h50 - TABLE RONDE
09h50 – 10h10 - Avis d’expert
Pourquoi et comment intégrer les volumineuses données du Web (réseaux sociaux, e-commerce…) dans son système d‘information décisionnel ? Quels services de l’entreprise sont concernés ? Le triptyque “Big Transaction Data- Big Interaction Data- Big
Data Processing (Hadoop)” Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier
Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica
212121
#BigData, au-delà du concept marketing
Bruno LabidoireDirecteur Technique, Europe du Sud
2222
Big DataUne convergence de 3 domaines
OnlineTransactionProcessing
(OLTP)
Online AnalyticalProcessing(OLAP) &
DW Appliances
Données desmédia sociaux
Données scientifiques
Capteurs
BIG TRANSACTION DATA BIG INTERACTION DATA
BIG DATA PROCESSING
Tickets d’appels,Click stream, etc
2323
OnlineTransactionProcessing
(OLTP)
Online AnalyticalProcessing(OLAP) &
DW Appliances
OracleDB2Britton-LeeIngresInformixSybaseSQLServer
EMC GreenplumTeradataRedbrickEssBaseSybase IQNetezzaDataAllegroAsterdataVerticaParaccelHana
BIG TRANSACTION DATA
Big Transaction DataBases relationnelles et analytiques
2424
Le décisionnel proactif
• On peut par exemple définir de nouvelles campagnes potentielles associées à ces média sociaux !
American Express a aidé les PME à augmenter leurs revenus d‘années en années de 28% pendant le week-end suivant Thanksgiving avec “Small Business Saturday” une campagne impliquant 1,5 million de fans Facebook
2525
Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009. .
Les challenges Les données issues des média sociaux peuvent être colossales!
Transactions
Interactions
2626
Réseaux sociauxUn potentiel en pleine croissance
2004 2005 2006 2007 2008 2009 2010 20110
100
200
300
400
500
600
700
800
900
1,000
Facebook LinkedIn Twitter
Consommateur Entreprise
Consommateurs utilisant les principaux Réseaux Sociaux 2004-2011
2727
Réseaux sociauxDes formes multiples
2828
Réseaux sociauxComment profiter de ces grands volumes d’informations ?
CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier
2929
Réseaux sociauxComment profiter de ces grands volumes d’informations ?
CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier
T_Young Tony Y. iDroidBerry 9800 challenged meeting our enterprise security requirements and battery life is also area of concern.
3030
Réseaux sociauxComment profiter de ces grands volumes d’informations ?
CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier
Entity Extraction & Identity ResolutionT_Young = Tony Young
Relationship ResolutionTony Young works @ Informatica
Relationship AnalysisTony’s Sphere of Influence, CIO @ INFA
Sentiment ScoringEnterprise Security -3.5, Battery Life -3.2
3131
Réseaux sociauxComment profiter de ces grands volumes d’informations ?
CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocierData
Warehouses
OperationalApplications
Databases
ApplicationsExternal Data
Providers
Informatica MDM
Client Produit …
3232
Cloud Computing Enterprise Partner Trading Network(B2B)
Big Transaction DataComment profiter des données transactionnelles ?
CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser
Warehouses
Cloud Computing
Application Database Unstructured
Partner Data
SWIFT NACHA HIPAA …
3333
Cloud Computing Enterprise Partner Trading Network(B2B)
Big Transaction DataComment profiter des données transactionnelles ?
CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser
3434
Cloud Computing Enterprise Partner Trading Network(B2B)
Big Transaction DataComment profiter des données transactionnelles ?
CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser
COMPLETENESS CONFORMITY CONSISTENCY
DUPLICATION INTEGRITY ACCURACY
3535
Cloud Computing Enterprise Partner Trading Network(B2B)
Big Transaction DataComment profiter des données transactionnelles ?
CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser
3636
Cloud Computing Enterprise Partner Trading Network(B2B)
Big Transaction DataComment profiter des données transactionnelles?
CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser
3737
Big Data ProcessingQu’apporte Hadoop ?
• Une montée en puissance économique• Fonctionne sur des fermes de serveurs banalisés
• Supporte tous les types de données• Structuré, Semi-structuré et non structuré
• Extensible• Interfaces (APIs) ouvertes permettant d’implémenter une logique
spécifique
3838
Weblogs, Mobile Data, Sensor Data Enterprise
Applications
Semi-structuredUnstructured
Big Data ProcessingConnectivité Hadoop par Informatica
Cloud Applications,Social Data
Databases, Data Warehouses
Analyse de Sentiment
Détection des fraudes
Analyses Predictives
Analyses des risques
Smart Devices
Hadoop Cluster
Connectivité Hadoop (HDFS)
• Load data to Hadoop from any source
• Extract data from Hadoop to any target
393939
Un exemple de mise en œuvre dans le décisionnel
4040
Le décisionnel « classique »
• La qualité des données est globalement égale à celle des systèmes opérationnels
• Les indicateurs sont disponibles à J+1
• Les données clients/prospects peuvent être périmées et induire des tendances incorrectes dans les indicateurs
Il peine à répondre aux demandes métiers de fraîcheur de l’information, rapidité de décision, et gestion proactivedes clients !
4141
Le décisionnel avancé
• Une solution de qualité des données a été mise en œuvre pour détecter (et corriger quand cela est possible) les erreurs dans les données. Ces erreurs sont notifiées aux systèmes opérationnels amonts pour correction.
• Une partie des indicateurs est mise à jour au fil de l’eau (intervalle d’une minute à une heure en fonction du besoin fonctionnel). Les solutions de CDC (Changed Data Capture), bus messages et WebServices supportent cette mise en œuvre.
• Des solutions de vérification d’adresses postales et de croisement avec des bases externes entreprises (D&B) permettent d’améliorer les données clients/prospects.
Le métier accorde une plus grande confiance aux informations du décisionnel et peut réagir plus rapidement, mais il supporte mal une approche proactive !
4242
Le décisionnel proactif• Des « DB Appliances » sont mises en places pour supporter les
volumes de données croissants (WebLog, etc)
• Des solutions de connectivité aux médias sociaux sont mises en place pour enrichir la connaissance du client
• Les clients peuvent être évalués non seulement sur les produits qu’ils ont acquis mais aussi sur leur capacité d’influence (nombre de leurs contacts dans les réseaux sociaux) et sur leur comportement (weblog)
• Les marques concurrentes citées par ces clients peuvent être analysées pour compléter l’analyse concurrentielle
• Etc…
Le métier découvre de nouvelles informations lui permettant une approche proactive et une anticipation des besoins/tendances du marché !
434343
La plate-forme Informatica
4444
Informatica 9.1: Plate-forme de services de données
Applications Partner Data
SWIFT NACHA HIPAA …
UnstructuredDatabases SocialWarehouses NoSQLCloud Computing
SOA/Composite Apps
Data QualityMaster Data Management
Data Integration B2BTest Data Management & Archiving
BusinessIntelligence
GESTION DE TOUTES REGLES
ACCES A TOUTESLES DONNEES
InteractionsTransactions
Web Services
ODBC/ JDBC
SQL BatchSUPPORT TOUS PROJETS
Big DataWarehousing
Data Services
Big Data Archiving
Social Master Data
Management
Cloud Data
Integration
Big Data Collection &
Exchange
DataConsolidation
ComplexEvent
Processing
UltraMessaging
Data Integration Projects
Qualité ConfidentialitéRetention FraicheurAccès
Produit FactureClient SupportRéclamationCommande
4545
10h10 – 10h30 - Avis d’expert
Intégrer les solutions Big Data à l’existant.
Apporter une réelle valeur ajoutée, en lien avec un existant multiforme, décisionnel comme transactionnel
Par
Isabelle Claverie-Berge, expert technique Database Big Data chez IBM
Information Management – Big Data
© 2012 IBM Corporation
Intégrer les solutions Big Data à l'existant
Isabelle Claverie-Bergé, IBM Software, Information Management Architecte
Information Management – Big Data
© 2012 IBM Corporation
Big Data : Une opportunité
48
Explorer/Gerer Analyser/Optimiser
Un Structured Data
Structured Data
TransactionalData
HistoricalData
ReferentialData Sets
CustomerExperience
CustomerInsight
ProfitabilityOptimization
Streaming Data
Acquerir/Observer
NetworkAnalytics
AudienceManagement
AssetOptimization
Mais comment Intégrer les solutions Big Data à l'existant ?
Information Management – Big Data
© 2012 IBM Corporation
Approche TraditionelleStructuré, analytique, logique
Nouvelle ApprocheCreative, Vue holistic , intuition
StructuredRepeatable
LinearMonthly sales reports
Profitability analysisCustomer surveys
Internal App Data
Data
Warehouse
Sources
traditionnelles
StructuréRepetableLineaire
Transaction Data
ERP data
Mainframe Data
OLTP System Data
UnstructuredExploratoryIterativeBrand sentimentProduct strategyMaximum asset utilization
HadoopStreams
Nouvelles Sources
ExploratoireIterative
Web Logs
Social Data
Text Data: emails
Sensor data: images
RFID
Enterprise Integration
Big Data: Un complément à l’approche traditionnelle
Information Management – Big Data
© 2012 IBM Corporation
INT
EG
RA
TIO
N
Marketing
Warehouse Appliances
Database
Content Analytics
Business Analytics
Master Data Mgmt
IBM & non-IBM
InfoSphere MDM
DB2 & non-IBM
Cognos & SPSS
Unica
ECM
Data Growth ManagementInfoSphere Optim
Rules / BPM
iLog & Lombardi
Data WarehouseInfoSphere Warehouse
IBM Big Data Solutions Client and Partner Solutions
Info
rmat
ion
Ser
ver
Connectors Applications Blue Prints
Applications
Data
Processes
Manageability
Big Data Enterprise EnginesBig Data Enterprise Engines
Big Data AnalyticsBig Data Analytics
Text
Image/Video
AcousticFinancial
Times Series
Statistics
Mining
Geospatial
Mathematical
InfoSphere BigInsightsInfoSphere Streams
Productivity Tools & Optimization Productivity Tools & Optimization Workload Management & Optimization
WorkflowJob
SchedulingJob
TrackingProvisioning Data
Ingestion
Management Configuration Manager
Identity & Access Mgmt
ActivityMonitor
Data Protection
Admin Tools
Big Data : Les points d’intégration
Information Management – Big Data
© 2012 IBM Corporation
Cognos
Master Data Management
Applications and Operational AnalyticsEnterprise Data Warehouse
DB2
Data Models
Pre-builtbehavioralattributes
Out-of-the-box analytics
Customer Integration Appliance
Customer Intelligence Appliance
InfoSphere Quality Stage
IBM Retail Data Model
InfoSphere MDM
Customer Identification
UnicaCore Metrics
IBM Global Business Services
Data Privacy
Privacy
Optim for Test Data, Redaction, +++
Managing Growth
Online Archive
Optim Data Archive
Guardium
Built-in Integration into Big Data
OLTP and Big Data Integration
DB2 SAP DB2 solidDBInformix
Data
Quality
Inform
ation
Server
Exemple: Vision client 360°
Information Management – Big Data
© 2012 IBM Corporation52
Exemple: exploration et surveillance pétrolièreVolumes of raw structured
and unstructured data
InfoSphere BigInsights
Event detection and capture of real-time data
InfoSphereStreams
Real-time dashboards
and analytics
Real-time streamingdata (structured and unstructured)
Traditional data sources(ERP, CRM, databases)
Operational BI and Statistical Applications
Netezza
DW
Reservoir and Process Modeling and Simulation ApplicationsStaging Platform
Cleansing and Transformation of many types of data with different formats
Cognos and SPSS
Subject-areasource systems
ODS
Information Management – Big Data
© 2012 IBM Corporation53
THINK
https://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook1
Information Management – Big Data
© 2012 IBM Corporation
10h30 – 10h50 - Avis d’expert
Pourquoi et comment préparer le SI à l’avènement du BIG DATA ?
Quel est l’enjeu métier de cette approche ? Pourquoi l’urbanisation, le management des données et la
création de référentiel sont incontournables dans un tel contexte ?
Pourquoi la qualité des données est-elle au centre du débat ?
Par Stéphane Lextreyt, Sodifrance
Comment préparer le SI à l’avènement du BIG DATA ?
Maîtrisez votre capital Données
BIG DATA : POURQUOI S’Y PRÉPARER ?
Cloud
Déluge informationnel … Où sont les données « métiers » ?
Exploiter les tendances qui se dégagent de l’écosystème environnant
OUI MAIS …Quel crédit accorder à ces données ?
Comment en faire un élément de décision ?
Alors les données doivent être :
FiablesCohérentesCentraliséesPartagées….
Source d’agilitédu SI
UNE APPROCHE GLOBALE ET STRUCTURÉE
Maitriser les données internes au SI
Transformer les données en informations fiables
Partager des informations à forte valeur ajoutée
Capitaliser sur les données Métiers
Maintenir un niveau de qualité élevé
Diminuer significativement le coût de gestion des données
Accroître l’efficacité du SI…
SODIFRANCE, SSII innovante
25 ans d’expérience
Un CA de 68,2 M€ en 2011 (+8,2%)
930 collaborateurs sur 12 implantations en France
Une approche projet : 53 % du CA en engagement de résultats
Un Centre R&D dédié au développement de nos solutions outillées
DATA MANAGEMENT, UNE FORTE EXPÉRIENCE
Une clientèle de grands comptes fidèles ALCARA CREDIT MUTUEL MALAKOFF-MEDERIC
CREDIT AGRICOLE STE GENERALE CNP-ASSURANCES
GMF BPCE YVES ROCHER
MAAF ADP-GSI DIAC
MMA RSI AXA
BNP-PARIBAS AIR France MERIAL
EUROPCAR STACI AREAS
170 projets en Data Management
DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE
Définir la stratégie et la gouvernance
Concevoir l’architecture cible et la trajectoire
Recommander les choix technologiques
Cadrer le projet et la démarche
Sécuriser l’atteinte des objectifs
Conduire le changement
LE CYCLE DE VIE DE A à Z …
Industrialiser la maîtrise et l’évolution du SI
Accélérer l’adaptation de l’entreprise
Ouvrir le SI aux nouvelles applications
Réduire les coûts de maintenance
COMPRENDRE ET MAITRISER L’EXISTANT
Cartographie applicative outillée
Analyse exhaustiveRéférences croiséesFlot de donnéesAlgorithmes
Définition de référentiel MétierUtilisation des données de référencePropagation des données MétiersImpacts applicatifs
Un référentiel vivantRafraichissement permanentSystème de requêtage utilisateur
Large couverture technologiqueMainframeClient/serveurClient léger/Client riche
Références
• AXA• CNP-Assurances• CIMUT• CRÉDIT MUTUEL• EDF• ING• I-BP• MAAF• RSI, …
CIMUT
« Nous avons choisi Mia-Insight pour la pertinence
des analyses fines et précises, irréalisables sans
outillage »Utiliser les données Métiers, Analyser les impacts au niveau applicatif
Références
• ARKEA• APICIL / UPESE• CAISSES D’EPARGNE
• CREDIT AGRICOLE• GROUPAMA• NOVALIS-TAITBOUT• MERIAL, …
MALAKOFF-MÉDÉRIC
« Grâce à ses outils d'analyse
performants, SODIFRANCE nous garantissait un audit
et des recommandations
factuelles et rapides »
LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS
Automatiser la qualité des données
Faire un état des lieuxListes de valeursVolume de données erronéesTaux de doublonsEtablir la Liste des actions à engagerValoriser l’effort de réhabilitation
Impliquer tous les acteursMOAGestionMOE Projets
Pérenniser la démarchePlanifier les actions dans le tempsAuditer de façon récurrenteMesurer les résultatsEngager de nouvelles actions
Toujours être vigilant et proactif
SI2M
« Les résultats de l’audit et le conseil de SODIFRANCE
nous ont permis de faire avancer notre
vision sur l'urbanisation de
notre SI »
Références
• CDC• CNP-Assurances• CIMUT• ENERGY POOL• MALAKOFF-MÉDÉRIC
• SI2M• MMA,…
ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER
Du référentiel métier à l’agilité du SI
Création de référentiels de données partagées
Référentiels « Maitre » / « Esclaves »Fiabilité et cohérence des donnéesAccessibilité des données par toutes les applications
Démarche d’urbanisationApproche par les processus MétiersIdentification du meilleur découpage applicatifCollaboration MOA et MOE
Recherche de la modularité optimale
Transformation des applications en service MétierOuverture multicanal
Bénéfices Métier attendusEfficacité opérationnelleRester Time To Market
Faites de votre référentiel un Référentiel
Références
• AGF• AIR FRANCE• BNP-PARIBAS• CHU DE NICE• GROUPAMA• MALAKOFF-MÉDÉRIC
• MORNAY• VILLE DE LYON• RATP, …
LES DONNÉES DANS TOUS LEURS ÉTATS
Démarche = Méthodologie et Solutions
Capitaliser sur les données Métiers de référence
FiabiliserDédoublonnerNormaliser
Industrialiser les migrations
Solutions AdaptablesAteliers Web collaboratifSuivi temps réelJustifications « Métiers »Usine de migration réutilisable post projet
Maitriser les risquesEngagements sur la qualitéSécurisation du ProjetGouvernance améliorée
MALAKOFF-MÉDÉRIC
« Grâce à l’usine de migration TRANSMIG,
les données du Référentiel Personne
sont fiables et cohérentes.
Aujourd’hui, les coûts d’exploitation sont
réduits et les actes de gestion bien plus
rapides »Augmentez votre capital données
Références
• DCNS• MALAKOFF-MEDERIC
• MERIAL• AEROPORT NANTES • CH LE MANS,….
• …
MERIAL
« La fonction d’archivage Web de TRANSMIG a permis
de restituer une vision des données
historiques que nous n’avions plus
suite à l’arrêt du Mainframe et à la
disparition de l’application
métier »
GARDER LA MÉMOIRE… À PORTÉE DE WEB
Diminuer les coûts de possession
Réponse au Stockage de masseVirtualisation applicative
Mise en place d’unité de stockage
Mise en place de PRA – PCA
Pourquoi Archiver ?Obligations légales
« Photo » du jour de la migration
Justifications CAC
Une solution pour conserver les données historiques
Fonction d’archivage Transmig
Passage des modèles Hiérarchiques
vers relationnels
Quitter les environnements coûteux
(Mainframe…)
Interface Web
Pas de déploiement / pas de licence
ROI important et immédiatRéduire les coûts et améliorer le service
Diagnostic
APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES
DiagnosticDiagnostic Audit Cartographie
Audit Cartographie
CibleCible Cible et stratégie Recueil des besoins Alignement MOA /MOE
Cible et stratégie Recueil des besoins Alignement MOA /MOE
TrajectoireTrajectoire Référentiel maitre / esclaves Méthodologie projet éprouvée Solutions outillées
Référentiel maitre / esclaves Méthodologie projet éprouvée Solutions outillées
Cible Trajectoire
Indicateurs
Qualitécouts
Maintenir
MaintenirMaintenir Accompagnement Formation
Accompagnement Formation
Efficacité et rigueur
RETOUR D’EXPÉRIENCE
Formation – Conduite du changement
Solutions outillées
ExpertiseExperts en urbanisation et Data Management
Conseil & Urbanisation
Conseil
Temps
Périmètre
2009 2012
AuditCartographie
DédoublonnerCharger Projet
MigrerFiabiliser
SynchroniserArchiver
Audit régulier
Audit régulier
Création du Référentiel Personne
Stéphane LEXTREYTConsultant Data [email protected]+33 6 86 89 23 20
10h50 – 11h20 - PAUSE
Pause / Networking
11h20 – 12h00 - Table Ronde
Cloud et Stockage, supports incontournables du Big Data
Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà
Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?
En quoi le cloud incarne-t-il un moyen intéressant ?
Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France& Said Boukhizou, responsable technique chez Datacore
12h00 – 12h10 - Avis d’expert
Témoignage utilisateur : Malakoff-MedericRé-urbaniser le SI autour des données métiers, un enjeu concurrentiel
Les enjeux de la mise en œuvre de référentiel de données Métiers, vecteur d’agilité de l’entreprise
Comment alimenter un référentiel de données tout en synchronisant les applications périphériques contributrices ?
Par Romaric Hatit de Malakoff-Mederic
12h10 – 12h30 - Avis d’expert
Le stockage : innovation et nouvelles réponses Part 1
Par
Said Boukhizou, responsable technique chez Datacore
How Big Data InfluencesStorage Innovations Impact on policies, scale, clouds anddata management
74
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Fast
Real-time► Event-driven
Shared
Not Just Big
75
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Motivation
76
Greater Situational Awareness
Better Decision Making
Competitive Advantage
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.77
WebApps
EnterpriseAppsOffice
Apps
Where does Big Data come from?
Machine Data
Social Media Data
Device explosion
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Applications that are driving Storage Growth
SCM
Social Platfom
ERP
Digital Imaging
eCommerce
Data warehousing/BI
Convert analog - digital records
Regulatory mandates
Content Mgt
File sharing
CRM
Data Protection/DR
Archiving
0% 10% 20% 30% 40% 50%
DEWE
78
Source: IDC’s European Storage Survey 2011 – N=509
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Never at rest► In-demand► Less relevant► Outdated
Multiple, linked sources► Intelligent devices► Outside of IT’s control► Housed separately ► No time to pre-stage
Different formats
All shapes & sizes
Challenging Storage Characteristics
79
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Modernize
Align
Architect
Adapt
Renovation Opportunity
80
Not that difficult
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.81
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Technology Innovations on Your Side
Storage hypervisor layer► Insulates data management from hardware variables► Comprehensive set of advanced functions► Device-dependent
Broad span► Infrastructure-wide► From on-premises to the Cloud► Virtual & physical domains
Accelerates data access
82
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Pool resources
Direct traffic automatically
Cache near apps
Manage centrally
Virtualize Storage for Sharing & Speed
83
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Combine overall capacity
Make disks shareable
Recover inaccessible or isolated disk space► No longer isolated
Hide equipment incompatibilities► Standard server / app connections bridged to
device-specific interfaces
Pooling
84
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.85
Adaptive Layer
Caching Caching
Variable sources / destinations
SharedVirtual Disks
ServerCluster
Storage Hypervisor
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
3-Dimensional Virtualization Strategy
86
DESKTOP HYPERVISOR
USERS
SERVER HYPERVISOR
APPS
STORAGE HYPERVISOR
DISKS
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Allocate space just-in-time► Thin provision small groups of
disk blocks► No waste
Dynamically direct workloads to most appropriate resource
► Auto-tiering ► Determined by access frequency &
business rules (high priority override)
Automation
87
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Auto-Tiering
Hottest Data Gets Most Attention
88
Tier 2 Tier 3Tier 1
Chuns
Tier n
Hot ColdWarm Stale
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Dynamic Optimization of Assets
89
Mail Database Web AppsFile
35%5%
Speed Price / TB
Storage Hypervisor
Price/ Capacity
On-Premises Public Cloud
60%
Private Cloud
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Rapid retrieval Fast updates Memory-access speeds
► Read (anticipate)► Write (coalesce)► Bypass disk latencies
Turbo-charge native disk array performance
Self-tuning
Caching
90
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Users and apps can’t tell► Storage hypervisor makes it transparent
Same principles merely extended► Pooling► Automation► Central management
Off-premises storage appears to be local
91
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Common menus & commands► Across diverse equipment
Single console► Status dashboard► Performance view► Consolidated notifications & alerts
External integration point► Virtualization
Central Management
92
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
One interpretation► Buy more of the same hardware► Always buy it from me and my club
Really about interchangeability► Stick to established interfaces ► Add or swap out equipment as needed► Shop for best value among hardware suppliers► Treat storage as interchangeable chunks
of disk space
Lots of Standardization Talk
93
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Leverage nearby branch or colocation facility
Rent capacity from public cloud
Stage 2 – Beyond Your Walls
94
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Continue operations despite facility problems► Equipment upgrades / maintenance► Air conditioning / ventilation► Construction► Water leaks► Etc.,
Mirror or replicate critical volumes to a secondary site► Auto-failover within metropolitan area► Take advantage of different storage devices
Under a Different Roof
95
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Higher levels of service► Rapidly provision space► Remove storage-related disruptions► Speed up app response
Optimal use of available resources► Take full advantage of existing capacity ► Defer acquisition of more disks
Expected Outcomes
96
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Get ready,Big Data is
almost here!
97
QUESTIONS
98
www.datacore.com
Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
www.datacore.com
12h30 – 12h50 - Avis d’expert
Le stockage : innovation et nouvelles réponses Part 2
Par
Jean-François Ruppé, Solution Architect EMEA chez Quantum
Les solutions Big Data
Jean-François RUPPÉArchitecte Solution
Caractéristiques de nos clients
© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
102
Non-structurée
Sources multiples
Volumétrie
DB
30%-60%
Protection
Performance
Principaux Secteurs d’Activité
103
Média• Post production (effet spéciaux, correction des couleurs, …)• Passage à la HD, 3D
Pétrole et gaz• Exploration sismique• Modélisation 3D
Recherche scientifique• Calculs• Séquençage de génome (décryptage d’informations)
Sécurité / Imaging / Défense• Vidéosurveillance • Capture & traitement des données satellites
Les défis
Gérer efficacement la croissance des données– +100 Millions de fichiers, >100 To de données par environnement– Transfert des données entre différentes chaînes de traitement– Protéger & Archiver à long terme
Adapter les performances aux besoins– De 100 Mo/s à > 600 Mo/s
Séquenceur/calcul sismique : 2 To par « run »/millions de fichiers
Traitement d’images satellite : – 600 Mo/s (FC 4Gb = 512 Mo/s)– 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5% rapide,
63% lent, 32% bandes)
Gourvernement : 4 milliards de fichiers + PRA
© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
104
EN OPTIMISANT LES COUTS !
1. Créer un espace de stockage partagé haute performance– SAN ou LAN en fonction des besoins en performance– Hétérogène Linux, Unix, Windows, MAC
2. Optimiser les ressource stockage– Gestion de différents Tiers : SSD, SAS, SATA, Bandes– Déplacement automatique des données (HSM)
3. Protection des données– Sauvegarde– Externalisation– Réplication
© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
105
SOLUTION LOGICIELLE
© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
106
Accélération des processus
WORKFLOW TRADITIONNEL
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
Stockage local ou disparate Mouvement des données fastidieux Besoin d’une grande quantité de stockage
Evolution des processus
WORKFLOW PARTAGÉ
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
Stockage partagé Accès concurrents Depuis plusieurs types de client
Différents type d’accès
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
CIFS / NFS
LAN
WIN LAN Clients
GatewayServers
LINUX LAN Clients
Storage Area Network(SAN)
WORKFLOW PARTAGÉ
Storage Area Network(SAN)
Haute performances Milliers de clients Load Balancing
CIFS/NFS support
Storage Area Network(SAN)
ESPACE PARTAGE HAUTE PERFORMANCE
Storage Area Network(SAN)
Gestion des données
VAULT
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
REPLICATION
POLITIQUE DE STOCKAGE
TIERS 2
DEDUPLICATION
LOCAL DISTANT
SAUVEGARDE
Architecture StorNext
StorNext File SystemStockage partagé
Gestion des données
Solution “End-to-End”
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
StorNextSAN Clients
CIFS/NFS
GigE TCP/IPInfiniband IP
Stor
Next
DLC
GatewayServers
PRIMARY TIER
TAPE LIBRARY ARCHIVE VAULT
HA MetadataControllers
StorNext Replication
SECONDARY TIERStorNext Storage Manager
Version « Logicielle »
Appliances StorNext
StorNext File SystemStockage partagé
Gestion des données
Solution “End-to-End”
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
StorNextSAN Clients
CIFS/NFS
GigE TCP/IPInfiniband IP
Stor
Next
DLC
GatewayG300
PRIMARY TIER
VAULT
StorNext Replication
SECONDARY TIERStorNext Storage Manager
M330Metadata
Controllers
Q-Series
Q-Series
Scalar
• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de données
• Les résultats sont copiés ou déplacés vers l’archive (rétention à long terme + externalisation)• Temps de traitement global réduit par 3
Cas client : Recherche ADN
GigE TCP/IP
FC
PRIMARY TIER
TAPE LIBRARY ARCHIVE
StorNextPolicyEngine
DIS
TRIB
UTE
D L
AN
CLI
ENTS
MetadataController
80-100TB FC Disk
HA MDC
PB of Tape
FC/iSCSI
DDMServer
FC
StorNext DLCGateway Servers
Séquencement
Questions/Réponses
© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.
12h50 – 13h00 - Conclusion
Une révolution informatique en douceur
Distribution et parallélisation des traitements, autre forme de virtualisation du stockage, système de gestion de fichiers plus universel…
Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?
Par José Diz, Journaliste, Evénements 01
BIG DATA
détour par la ‘SILICON Valley’
José DIZ
Hadoop : kesako?
Google et fortes contributions Yahoo!
Framework open source Java
HDFS : système de gestion de fichiers distribué avec stockage en cluster de serveurs
MapReduce : distribue de façon parallèle les traitements sur chaque nœud au plus près des données.
Hadoop : kesako?
tout type de données structurées non structurées Web, et autres
Croissance linéaire sur du matériel standard (commodité)
Appliquer rapidement des algorithmes simples à de très gros volumes de données
Batch ? Ou plus ?
Des pionniers : Cloudera (CDH)
langage de type SQL
SGDB distribué non relationnel orienté colonnes gestion de configuration pour systèmes distribués
l’interface graphique pour accès via un navigateurworkflo
w
Intégrer Hadoop et SGBD
Service distribué de collecte et d’agrégation pour stockage HDFS
langage de haut niveau
Cloudera : un écosystème
Hortonworks Data Platform (HDP)
Z
ooke
eper
(Coord
inati
on)
Core Apache Hadoop Related Hadoop Projects
HDFS (Hadoop Distributed File System)
MapReduce(Distributed Programing Framework)
Hive(SQL)
Pig(Data Flow)
HCatalog(Table & Schema Management)
Am
bari
(Manaem
en
t)
HB
ase
(Colu
mn
ar
NoS
QL
Sto
re)
Open APIs for:• Data Integration• Data Movement• App Job Management• System Management
Hortonworks – la cohabitation
EDWData Mart
s
BI / Analytic
s
Traditional Data Warehouses, BI & Analytics
Serving Applications
NoSQL RDMS …
Apache Hadoop
EsTsL (s = Store)
Call Cente
r
Social Media
Sensor
Data
Server Logs
…
Traditional ETL
Trad
itiona
l ETL
80-90% of data produced today is unstructured
Gartner predicts 800% data growth over next 5 years
MapR : affinage, spécifique ?
RDBMS NAS
HDFS
Sequential File Processing
OLAP OLTP
Web Services
Map/Reduce
Hbase
Pig Hive
Next Generation Distribution
RDBMS NAS
Sequential File Processing
OLAP OLTP
Web Services
Map/Reduce
Hbase
Pig Hive
HDFS
Big data s’avère lourd et coûteux à déplacer.
MapR : affinage, spécifique ?
MapR Distribution for Apache Hadoop
Hive Pig Oozie Sqoop PlumeHBase
Mahout CascadingNagios
IntegrationGanglia
IntegrationFlume Vaidya
Integration
MapReduce
MapR’s Lockless Storage Services ™
DistributedNameNode HA™ JobTracker HA
Haute disponibilité et continuité :- snapshots, - mirroring, - namecode de stockage distribué- …
Big Data : batch pour BI, et après ?
Complément au-delà du batch Streaming « Temps réel »
Stockage primaire ? Environnement de production principal ? Deux écoles :
Pas pour Cloudera et Hortonworks Certainement pour MapR
Un fourmillement de projets
13h00 – 13h05 - JEU
TIRAGE AU SORT iPad
Et le gagnant est……?
13h05– 14h00 - COCKTAIL DEJEUNATOIRE
Cocktail / Networking
MERCI DE VOTRE PARTICIPATION BON APPETIT!!