42
LA RÉVOLUTION BIG DATA J.-C. Cointot Y. Eychenne

La révolutionbigdata

Embed Size (px)

Citation preview

LA RÉVOLUTION

BIGDATA

J.-C. CointotY. Eychenne

L’ÈRE DE L’INFORMATIONDatafication

Ubiquité

Nouvelles entités communicantes

Réseaux sociaux

Les 3 , 4 . . . 5 VVOLUME VÉLOCITÉ VARIÉTÉ VÉRACITÉ

DONNÉES AU REPOS

Terabytes à exabytes de données existantes à

traiter.

DONNÉES EN MOUVEMENTStreaming data, de

secondes à millisecondes pour répondre.

DONNÉES DE TOUTE FORME

Structurées, destructurées, texte, multimédia.

DONNÉES EN DOUTE

Incertitude due à l’inconsistance, l’incomplétude, l’ambiguïté, la latence, l’approximation ou l’inexactitude des données.

VOLUMENombre de données observées

Mesure de données

Structurées

Semi – structurées

Non structurées

Variété

VélocitéLe stream computing

InconsistanceIncomplétudeAmbiguïtéLatenceMesure

Véracité

VisualisationDe nouveaux outils

RECENSEMENT , SONDAGE

… ET …

BIG DATA

LE BIG DATA – C’EST QUOI ?Les outilsUn stockage de données (Hadoop) à bas coût et traitement parallèle.

Des méthodes d’apprentissage automatique pour la reconnaissance des modèles ou des patterns.

Un outil de modélisation prédictive.

Traitement de flux en temps réel pour permettre de détecter très vite des patterns, des corrélations entre le flux des données entrant et des données historiques.

Module de visualisation.

Si certains de ces outils liés à la définition des modèles restent l’apanage des spécialistes, les Data Scientists, certains outils peuvent être utilisés par tous les acteurs de l’entreprise.

Source IBM – Exemples de visualisation de données

LA CLÉ DU BIG DATA :

L’APPRENTISSAGE AUTOMATIQUEApprentissage automatique : Machine LearningL’apprentissage de l’Intelligence Artificielle

Cette technique permet de traiter une grande combinaison de données d’entrées possibles.Les outils vont, de manière auto-adaptative, apprendre à classer les données en entrée.Ce classement va souvent être associé à un niveau de probabilité sur le niveau de l’exactitude. Il va utiliser un jeu d’exemples et éventuellement une supervision humaine.

Des variantes vont affecter une probabilité d’appartenance à tel ou tel groupe. Une boucle de retour peut ainsi améliorer ce processus d’apprentissage qui devient meilleur au fil du temps et aussi au fil des données traitées.

Exemples d’usage

La correction grammaticale dans les outils de bureautique de Microsoft ou de Google.

Les systèmes de reconnaissance de l’écriture manuscrite.

Le système de reconnaissance de mouvement Kinect de Microsoft.

L’aide au diagnostic médical.

Les outils d’aide à la navigation.

L’analyse des tendances sur les marchés financiers.

La détection de dérives de mesure sur un équipement industriel précurseur à une panne sur ce système.

L’indexation automatique d’image et de vidéo et outil de recherche sur images et vidéos.

Le contrôle des mouvements des robots (robot humanoïde qui marche).

L’APPRENTISSAGE AUTOMATIQUE

DU BIG DATA AU SYSTÈME COGNITIF : IBM WATSONExtraire les modèles

EXPLORE LES DONNÉES

Trouve les modèles

Action !

Utiliser les modèles pour transformer en actions

1. Langage naturel

2. Génère et évalue les hypothèses

3. Le système apprend et s’adapte

TROUVE LES MODÈLES

ANALYTIQUE

QUELS ENJEUX POUR LES ENTREPRISES ?

Du consommateur au consom’acteur

Le consommateur de l’ère de l’Information est un consom’acteurconnecté, informé.

Les entreprises et les marques doivent :

Adopter de nouveaux business models.

Écouter le consom’acteur lorsqu’il s’exprime sur les réseaux sociaux.

Le comprendre, l’accompagner, capter les nouvelles tendances et prévoir en quoi elles vont les impacter.

Produit, Service, Expérience

Rolls Royce passe de la vente de moteur d’avion à la vente de la disponibilité d’heure de vol

Du service à l’« expérience » du client (smartphone, Google, etc.)

L’économie du partage 2.0 (BlablaCar, Uber, AirBnB)

QUELS ENJEUX POUR LES ENTREPRISES ?

UNE RÉVOLUTION ? LES NOUVEAUX GÉANTS DE L’ÉCONOMIE NUMÉRIQUE CONCURRENCENT (PRESQUE) TOUS LES ACTEURS DE L’ÉCONOMIE CLASSIQUE

Nouvelle Economie Région 2014 Market B=Value ($B) Plus grande capitalisation ? 2014

Apple USA 643 Microsoft United States 586,197

Google USA 351 General Electric United States 474,956

Allibaba CHN 261 NTT DoCoMo Japan 366,204

Amazon USA 142 Cisco Systems United States 348,965

Facebook USA 216 Wal-Mart United States 286,153

Amazon USA 142 Intel Corporation United States 277,096

Baidu CHN 82 Nippon Telegraph and Telephone Japan 274,905

eBay USA 69 Exxon Mobil United States 265,894

Priceline USA 57 Lucent Technologies United States 237,668

Yahoo! USA 48 Deutsche Telekom Germany 209,628

UBER USA 40 Microsoft United States 586,197

Salesforce USA 34 General Electric United States 474,956

Yahoo!Japan JPN 32 NTT DoCoMo Japan 366,204

Twitter USA 23 Cisco Systems United States 348,965

LinkedIn USA 27

Netflix USA 202004 data as of 9/17/2004. 2013 Market value as of 12/19/2013. 2012 revenue is TTM.

List excludes Alibaba ($75B), whose private market value would put it in the Top 10.

List also excludes Skype (bought by MSFT in 2011 for $8,5B), YouTube (reported as part of Google) and Paypal (reported as part of eBay)

IMPORTANCE DES MARCHÉS BIFACESAU-DELÀ DES ENTREPRISES DU NUMÉRIQUE

(MODÉLISÉS PAR LE PRIX NOBEL JEAN TIROLE)« To succeed, platforms in industries such as software, portals and media, payment systems and the Internet, must get both sides of the market on board. Accordingly, platforms devote much attention to their business model, that is to how they court each side while making money overall. » Jean Tirole, Jean Charles Rochet, « Platform Competition in Two-Sided Markets » University of Toulouse report, Dec. 3th 2002.

Exemples de Havard Business Review Strategies for Two-Sided Markets by Thomas Eisenmann, Geoffrey Parker and Marshall W. Van Alstyne, 2006.

LE BIG DATA AU CŒUR DE CETTE RÉVOLUTIONL’analytique et le Big Data sont au cœur de leur business model, en plus de produits ou de services leaders de leur marché.

Des nouveaux business models :

Marché biface (J. Tirole) (Google, Yahoo!, Apple).

Freemium (LinkedIn, Spotify, Deezer).

Social selling (Amazon, Booking, Tripadvisor, Netflix, eBay, LeBonCoin).

Site de partage (Uber, BlablaCar, AirBnB).

… l’importance de l’expérience client et d’être pertinent !

ET LES PME ?Les PME peuvent acheter des services qui utilisent le Big Data :

Présence / marketing digitale.

Veille des réseaux sociaux.

Maintenance prédictive.

Gestion intelligence agriculture (drone et Big Data).

Des PME françaises peuvent réussir par le Big Data :

CRITEO ($2.3B NASDAQ).

Exalead (achat 135ème par DS).

Des PME françaises peuvent réussir grâce au Big Data :

Withings : objets connectés de santé et Big Data.

Retency (Big Data pour les magasins).

Crazylog.

TOUTES LES INDUSTRIES N’ONT PAS LE MÊME DEGRÉ DE

MATURITÉ

LES OPÉRATEURS TÉLÉCOMS

Qualité de service

Connaissance client

Business models

LES OPÉRATEURS D’ÉNERGIE

Optimisation des infrastructures

Connaissance client

Smart Grid

LE COMMERCE

Relation client

Marketing direct

Le consom’acteur

LA BANQUE ET L’ASSURANCE

Relation client

Gestion du risque

Gestion de la fraude

LE SECTEUR PUBLICModernisation des services rendus

Amélioration de la relation à l’usager

Maîtrise de la dépense publique

Gestion de la fraude

LA SANTÉ

Recherche

Bien être et Objets connectés

Aide au diagnostic

ET NOUS ?

Consom’acteurs

Employés

Citoyens

QUELS IMPACTS SUR LES MÉTIERS ?Le Data ScientistLa première compétence consiste à être capable de transformer la donnée en information. Ce profil unit des compétences de consulting, de mathématiques et d’analyse.

La seconde compétence relève du management. Il faut pouvoir accompagner ce changement en interne et réussir à faire travailler ensemble les différents départements.

Transformation du rôle de l’expertAvec le Big Data, l’expert doit se remettre en question.

Il doit désormais changer sa façon d’opérer, en ne s’appuyant plus que sur son expérience mais sur les données, les faits.

L’exemple d’Amazon est très parlant. Le e-commerçant avait engagé une équipe d’éditorialistes pour faire de la recommandation de livres mais s’est finalement aperçu que le Big Data, couplé à certains algorithmes, était plus efficace pour doper les ventes de livres en ligne.

UN EXEMPLE DE MÉTHOLOGIE UTILISÉE PAR LES DATA SCIENTISTS :

CRISP - DM

BUSINESSUNDERSTANDING

DATAUNDERSTANDING

DATAPREPARATION MODELING EVALUATION DEPLOYMENT

Compréhension de l’entreprise, ses objectifs de développement.

Compréhension des données, la véracité puis la qualité des données.

La préparation des données est la phase de sélection et de nettoyage des données. En outre, il faudra peut être intégrer et formater les données.

La modélisation : la technique de modélisation est sélectionnée, le modèle est construit et évalué. Cette phase a une boucle de rétroaction à la phase de préparation des données pour refléter l’apprentissage du modèle.

L’évaluation est la phase pour évaluer le modèle et le développement des conclusions. Les prochaines étapes sont déterminées.

Le déploiement, pour appliquer les modèles et les transformer en actions.

DECISIONDATA

DE NOUVEAUX MODÈLES D’ENTREPRISE POUR DE NOUVEAUX MÉTIERS

Savez-vous modéliser ?Marché biface.Les services freemium.Les sites de partage.Révolution de la chaîne logistique.Révolution de l’accès au client (mobile, social).

http://www.businessmodelgeneration.com/

RÔLE DE L’EXPERT : LE BIG DATA COMME

SUPPORT POUR CHAQUE

DOMAINE DU BUSINESS MODEL

GESTION DES FOURNISSEURS

& PARTENAIRES

E-REPUTATION ET MARQUE

GESTION DES VENTES, STOCKS ET PRIX DYNAMIQUES

ANALYTISE POUR GESTION WEB ET MAGASINS

ANALYTISE CLIENT

WEB STORE, PERFORMANCE DE LA PLATEFORME PUB

GESTIONNAIRE DE SEGMENTS,DÉFINITION PRODUIT

QUELS IMPACTS SUR LES MÉTIERS ?Quels métiers concernés ?

Recherche

Vente / marketing

Ressource humaine

Finance

Gestion des risques / fraudes / sécurité

L’INPS, l’institut de sécurité sociale italienne croise les déclarations d’arrêt maladie suspectes, le mercredi, la veille des vacances scolaires ou les déclarations à répétition avec les informations de Facebook, ce qui lui permet de détecter les malades qui font du shopping ou partent en vacances. Ce système est mis à

jour en temps réel.

Le Big Data permet, en puisant dans les données des réseaux sociaux par exemple, d’avoir une connaissance plus large des candidats, de

détecter une facette ou des talents qui ne seraient pas forcément dévoilés lors d’un recrutement classique.

Les secteurs d’activités qui génèrent beaucoup d’informations sont naturellement plus en avance sur le Big Data. C’est le cas, par exemple,

du commerce qui récupère de l’information, depuis toujours, via des tickets de caisse ou des programmes de fidélité.

LES COMPÉTENCES NÉCESSAIRES« By 2015, big data will reach 4.4 million jobs globally, but only one-third of those jobs will be filled. »Source : Gartner « Gartner’s Top Predictions for IT Organizations and Users, 2013 and Beyond : Balancing Economics, Risk, Opportunity ans Innovation » 19 Oct. 2012

EXPERTS MÉTIERConnaissance du domaine

Développe les hypothèses et modèlesPose les bonnes questions

EXPERTS DONNÉESArchitecture, mise en œuvre

informatique

EXPERTS MATHS &STATISTIQUES

Algorithmes

DÉVELOPPEURS OUTILSMasquer la complexité et analyse des limites inférieures de compétences

COMPÉTENCES INTERDISCIPLINAIRES

DÉCIDEURSDécisions

Business models

EXPERTS VISUALISATIONInterprétation des données

Corrélations et capacité à faire passer les messages

COMMENT S’EN SERVIR ?Le Big Data a aussi des limites sociales, le sentiment de Big Brother.

Aujourd’hui, deux tiers des personnes sont d’accord pour partager leurs données mais à condition d’avoir un service en échange.

Par exemple, le service de navigation Waze récolte des informations mais donne en échange des indications pour aider les conducteurs à emprunter le chemin le plus efficace.

Il faut que la relation soit équilibrée et qu’il y ait une véritable transparence sur l’utilisation des données.

LES LIMITES SUR LES DONNÉES

PERSONNELLESLes données à caractère personnel

«Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne.

Constitue un traitement de données à caractère personnel toute opération ou tout ensemble d’opérations portant sur de telles données, quel que soit le procédé utilisé, et notamment la collecte, l’enregistrement, l’organisation, la conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication par transmission, diffusion ou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, ainsi que le verrouillage, l’effacement ou la destruction.»

Cette contrainte est importante pour le Big Data. En effet les données collectées peuvent être corrélées pour extraire une information éloignée de l’objet initial de la collecte de ces données.

Les principaux interdits sont indiqués dans l’Article 8 : «Il est interdit de collecter ou de traiter des données à caractère personnel qui font apparaître, directement ou indirectement, les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses ou l’appartenance syndicale des personnes, ou qui sont relatives à la santé ou à la vie sexuelle de celles-ci.»

L’Article 30 apporte des précisions importantes sur le contrôle de la finalité des traitements et l’origine des données, la possibilité de rapprocher des données et la durée de conservation de ces données.

LES LIMITES SUR LES DONNÉES PERSONNELLES1° Les données sont collectées et traitées de manière loyale et licite.

2° Elles sont collectées pour des finalités déterminées, explicites et légitimes et ne sont pas traitées ultérieurement de manière incompatible avec ces finalités.

3° Elles sont adéquates, pertinentes et non excessives au regard des finalités pour lesquelles elles sont collectées et de leurs traitements ultérieurs.

HAVAS MEDIA

LES FRANÇAIS ET LEURS DONNÉES PERSONNELLES (SEPT 2014)

http://www.havasmediaopendata.com

HAVAS MEDIA

LES FRANÇAIS ET LEURS DONNÉES PERSONNELLES (SEPT 2014)

http://www.havasmediaopendata.com

HAVAS MEDIA

LES FRANÇAIS ET LEURS DONNÉES PERSONNELLES (SEPT 2014)

http://www.havasmediaopendata.com

HAVAS MEDIA

LES FRANÇAIS ET LEURS DONNÉES PERSONNELLES (SEPT 2014)

http://www.havasmediaopendata.com

COMMENT SE PROTÉGER ?Le consommateur (ou l’employé, dans la sphère de l’entreprise) doit apprendre à gérer son identité électronique et sa sphère privée. L’éducation et l’explication auprès des utilisateurs sont importantes pour conserver leur confiance.

Les entreprises doivent mettre en œuvre un niveau de sécurité élevé, maîtriser les risques si les données sont stockées ou utilisées à l’extérieur de l’entreprise et avoir des procédures de gestion de crise dans le cas d’une attaque sur les données Big Data.

Les entreprises doivent développer la confiance de leur client ou prospect en favorisant de nouveaux usages comme l’amélioration ou la visualisation de la performance des services.

LA RÉVOLUTION BIG DATA

… OU PLUTÔT L’ÉVOLUTION !Pour lesConsom’acteursEmployésCitoyensLes EntreprisesEt l ’Etat