80
Conférence “Big Data” Stéphane Traumat http://about.me/straumat

Conférence big data

Embed Size (px)

DESCRIPTION

- Qu'est ce que le big data ? - Exemples d'utilisation - Le web, l'open data et le web sémantique - Les algorithmes - Qu’est ce que ce la change concrètement ? - Notre projet square predict

Citation preview

Page 1: Conférence big data

Conférence “Big Data”Stéphane Traumathttp://about.me/straumat

Page 2: Conférence big data

Qui suis-je ?● Dirigeant de Scub, une entreprise de service numérique qui a pour but de

fournir du conseil et de développer des applications sur-mesure en Java afin de résoudre les problèmes de ses clients.

● Dirigeant de Square Solutions, un éditeur de logiciels qui propose une solution de gestion de la relation client dédiée au monde de l'assurance.

● Directeur de la stratégie du groupe Arrow, groupe informatique spécialisé dans l’IT pour la banque, finance et l’assurance (Londres, Paris, Bruxelles et Luxembourg).

● Cofondateur de Oak Invest, société de conseil et d'investissement spécialisée dans les nouvelles technologies.

● Développeur / Contributeur sur des projets Open Source comme JOnAS, Scub Foundation, Square...

● Conférencier sur des sujets comme l'industrialisation du développement logiciel, le cloud computing ou le web sémantique, j'ai aussi écrit un livre sur le serveur d'applications J2EE JOnAS.

● Vice Président du SPN, un cluster regroupant les entreprises TIC de la région Poitou Charentes (Président en 2010 et 2011).

Page 3: Conférence big data

Agenda

● Qu’est-ce que le Big Data ?● Exemples d’utilisations.● Le web / L’Open Data / Le web sémantique.● Un “nouveau” métier : le Data Scientist.● Les algorithmes utilisés.● Qu’est ce que ce la change concrètement ?● Notre projet Square Predict.● Dangers.● Questions ?

Page 4: Conférence big data

Où en est on ?

Page 5: Conférence big data

Où en est on ? - Gartner Hype Cycle

Page 6: Conférence big data

Où en est on ? - Gartner Hype Cycle

Page 7: Conférence big data

Qu’est-ce que le Big data ?

Page 8: Conférence big data

Big Data : définition

Le Big Data désigne la problématique d’avoir un ensemble de données à traiter tellement volumineux qu’il devient très difficile, voir impossible, de le faire avec les outils existants.

Ceci oblige à repenser complètement la capture, le stockage, l'analyse et la visualisation.

Page 9: Conférence big data

Big Data : l’objectif

L’idée est d’aider les entreprises à réduire les risques, faciliter la prise de décision, créer la différence grâce à l'analyse prédictive et offrir une expérience client plus personnalisée et contextualisée.

D’autant que le volume de données ne va cesser d’augmenter (Mobiles, objets connectés, voitures, drônes, capteurs...).

Page 10: Conférence big data

Big Data : les trois défis

● Volume : à titre d'exemple, chaque jour Facebook génère 10 teraoctets de données.

● Variété : données structurées ou non (réseaux sociaux, open data, web sémantique…).

● Vélocité : la fréquence à laquelle les données sont générées, capturées et partagées (150 000 Tweets par secondes).

Page 11: Conférence big data

Big Data : une nouvelle discipline

Nous ne sommes donc pas face à une nouvelle technologie mais plutôt à une nouvelle

discipline portée par des nouveaux outils issus de géants de l’internet et des logiciels libres.

Page 12: Conférence big data

Big Data : un nouvel objectif

Objectif : Faire en sorte que les décisions soient plus basées sur les données et moins sur les intuitions, l’expérience ou les conseils.

Seuls 32% des dirigeants décrivent leurs décisions comme étant basées sur des données (PricewaterhouseCoopers)

Page 13: Conférence big data

Exemples d’utilisation

Page 14: Conférence big data

Exemples divers

● Netflix a analysé les préférences de ses clients pour concevoir sa propre série “House of Cards”.

● Certaines institutions financières cherchent des clients en regardant ce qu’ils disent sur les réseaux sociaux.

● Les assurances font de l’analyse de texte sur d’anciens formulaires / demandes pour traquer des fraudes.

● 23andme analyse votre ADN et vous indique vos prédispositions.

Page 15: Conférence big data

Où prendre les données ?

Page 16: Conférence big data

Les entreprises et les institutions possèdent des données mais elles sont généralement

limitées.

Si Plus de données = Meilleurs décisions alors les données ont donc une

valeur stratégique importante.

Où prendre les données ?

Page 17: Conférence big data

Où prendre les données ?

Il est possible que l’on ait pas les données pour réaliser le data mining, il faut investir.

C’est ce qu’a fait la banque Signet qui a offert à des clients au hasard des avantages afin d’

avoir assez d’informations sur les comportements.

Il faut donc considérer ces données comme des avoirs stratégiques pour l’entreprise.

Page 18: Conférence big data

Où prendre les données ?

Mais on peut aussi se servir d’Internet !

Page 19: Conférence big data

Le web

Page 20: Conférence big data

Le web : exemple grippe

Page 21: Conférence big data

Le web : exemple tornade

Page 22: Conférence big data

Open Data

Page 23: Conférence big data

L’Open Data : définition

L’Open Data désigne le mouvement visant à rendre accessible à tous via le web les données publiques non nominatives ne relevant ni de la vie privée et ni la sécurité collectées par les organismes publics.

En France : https://www.data.gouv.fr

Page 24: Conférence big data

L’Open Data : exemples

Page 25: Conférence big data

L’Open Data : exemples

Page 26: Conférence big data

L’Open Data : exemples

Page 27: Conférence big data

L’Open Data : exemples

Page 28: Conférence big data

L’Open Data : exemples

Insee : Données carroyées à 200 m sur la population.

● Nombre d’individus en fonction des tranches d’âge.

● Nombre de propriétaires / locataires.● Type de famille.● Revenus fiscaux.● Nombre d'individus par tranches d’âges.

Page 29: Conférence big data

Le web sémantique

Page 30: Conférence big data

Le web sémantique

Le web fonctionne parce que, nous, les humains, sommes extrêmement doués et flexibles dans le traitement de données.

Nous sommes capables de tout lire et d'acquérir de nouvelles connaissances.

Aujourd'hui, Google trouve l'information mais ne la comprend pas ! (même si ça change…)

Page 31: Conférence big data

Le web sémantique

Comment marche le web ?● Les machines stockent le texte.● On peut rechercher dans l'ensemble des

textes grâce à des outils comme Google. ● On clique sur une page pour l'afficher.● L'humain doit lire le texte, chercher

l'information qui l'intéresse et la comprendre.

Page 32: Conférence big data

Le web sémantique : définition

Le web sémantique a pour objectif d’arriver à un web où les informations seraient compréhensibles par les ordinateurs.

Pour faire simple, ceci permettrait aux machines d’apprendre et de faire des déductions par elles mêmes.

Page 33: Conférence big data

Le web sémantique

L’idée est de passer d'un monde où nous publions des données pour les humains à un monde où nous publions aussi des données lisibles et compréhensibles par les machines.

Comment fait on cela ? C’est assez simple !

Page 34: Conférence big data

Le web sémantique

Les informations sont représentées sous forme de Triplets, c'est à dire une association entre sujet, prédicat et objet.● Le sujet représente la ressource à décrire. ● Le prédicat représente un type de propriété

applicable à cette ressource. ● L'objet représente une donnée ou une autre

ressource : c'est la valeur de la propriété.

Page 35: Conférence big data

Paris Population 2243833Paris Latitude 48.856578Bordeaux Population 239157Bordeaux Latitude 44.837912

Le web sémantique

Page 36: Conférence big data

Le web sémantique : exemple

Page 37: Conférence big data

Possibilités

Ceci offre les possibilités suivantes : ● Inférence : tirer une conclusion à partir de

règles de base.● Fusion de graphes : l'on peut fusionner

deux graphes facilement si ces deux graphes ont deux identifiants en commun.

● Recherche de liens : On peut très facilement parcourir un graphe pour trouver, par exemple, ce qui relie deux entreprises ou deux personnes.

Page 38: Conférence big data

Un “nouveau” métier : le Data Scientist

Page 39: Conférence big data

Un “nouveau” métier : le Data Scientist.

Au vu des besoins, un “nouveau métier” va exister : Data Scientist.

Josh Wills le définit de la façon suivante : Une personne qui est meilleure en statistiques que n’importe quel développeur et qui est meilleure en développement que n’importe quel statisticien.

Page 40: Conférence big data

Un “nouveau” métier : le Data Scientist.

CV : ● Statistiques, Probabilité, Machine learning.● Connaissances en développement logiciel.● Connaît le métier de l’entreprise.● Capacité de présentation et d’imagination.

● Java, R, Python...● Hadoop, HDFS…● ETL…● SQL, Excel...

Page 41: Conférence big data

Un “nouveau” métier : le Data Scientist.

Business Intelligence

Data Scientist

Choses que vous savez

Choses que vous ne savez pas

Questions que vous posez

Questions que vous ne posez pas

Page 42: Conférence big data

Les algorithmes utilisés

Page 43: Conférence big data

La classification

La classification consiste à prédire, pour chaque individu d’une population, à quelle classe cet individu appartient.

Exemple : “parmi mes clients, lesquels pourrait répondre à une offre spécifique ?”. Dans cet exemple il y aura deux classes “répondra” et “ne répondra pas”.

Page 44: Conférence big data

La régression

La régression (estimation de valeur) essaye d’estimer ou de prédire, pour chaque individu la valeur numérique de certaines variables de cet individu. Exemple : “A quel point ce client utilisera ce service ?”.

Dans cet exemple, la valeur de l’usage du service sera généré en regardant l’usage du service par d’autres individus similaires. Par rapport à la classification qui prédit si quelque chose va se produire, la régression permet de dire à quel point la chose va se prédire.

Page 45: Conférence big data

La recherche de similarité

La recherche de similarité essaye d’identifier des individus similaires à partir des éléments que l’on a sur eux.

Par exemple, IBM utilise cette technique pour trouver des compagnies similaires à leurs clients les plus rentables afin que leurs commerciaux se concentrent sur eux.

Page 46: Conférence big data

Le Clustering

Le Clustering essaye de classifier des individus par leurs similarités mais sans prendre en compte le but. Par exemple, pour savoir si il y a des segments ou des groupes de clients similaires.

Cela permet de faire de l’exploration afin de voir vers quelles types d’analyses nous devons faire.

Page 47: Conférence big data

Le profilage

Le profilage essaye de caractériser un comportement typique d’un individu, d’un groupe ou d’une population. Par exemple “Quel est l’usage type de leur téléphone de tel segment de clientèle ?”.

Le profilage est souvent utilisé pour la détection d’anomalies (fraudes, intrusions…) Par exemple, si l’on sait quels genres d’achats une personne fait généralement via une carte de crédit, on peut déterminer si tel ou tel achat correspond.

Page 48: Conférence big data

Qu’est ce que ce la change ?

Page 49: Conférence big data

Prenons un scénario : je dirige une chaîne de magasins qui vend des jeux vidéos.

La saison de Noël approche et ma réussite dépend d’une chose principalement : Avoir assez de stocks, au bon endroit, sur les produits qui vont le mieux se vendre.

Nous sommes quelques mois avant noël.

Qu’est ce que ce la change ?

Page 50: Conférence big data

Quel est l’objectif ? Savoir ce qui va se vendre, où et dans quelles quantités.

Je vais utiliser les données suivantes : ● Recherches google.● Tweets qui parlent de jeux vidéos.● Budgets dépensés par l’industrie du jeu.● Tests de remises sur des joueurs “type” qui

sont parmi mes clients.

Qu’est ce que ce la change ?

Page 51: Conférence big data

Qu’est ce que ce la change ?

Page 52: Conférence big data

Grâce à ces données, je vais pouvoir trouver quels sont les jeux qui semblent avoir le plus

de succès et donc piloter mes achats.

Qu’est ce que ce la change ?

Page 53: Conférence big data

Qu’est ce que ce la change ?

Maintenant que je sais quels jeux vont potentiellement le mieux marcher, il va falloir que je sache dans quels magasins !

Je vais utiliser les données suivantes : ● Tests de remises sur des joueurs “type” qui

sont parmi mes clients.● Tweets géolocalisés qui parlent de jeux.● Données INSEE.

Page 54: Conférence big data

Qu’est ce que ce la change ?

Grâce aux analyses que j’ai, je vais pouvoir :● Mieux gérer mes commandes/stocks.● Mieux gérer mes campagnes commerciales.● Re segmenter ma base en fonction des pré

commandes et faire des contacts ciblés.

Page 55: Conférence big data

Un exemple de projet : Square PredictSolution Big Data pour le monde de l’assurance

Page 56: Conférence big data

La problématique

Page 57: Conférence big data

La problématique

Le “online to store” est une réalité en France62% des souscriptions sont liées au digital

Recherche online / Achat offline

48,6 %

Recherche offline / Achat offline

37,8 %

Recherche online / Achat online

10,8 %

Recherche offine / Achat offline

2,7 %

Source: Etude RoPo – Deutsche Bank 2011

Page 58: Conférence big data

La problématique

Les géants de l’assurance l’ont bien compris

Page 59: Conférence big data

La problématique

Page 60: Conférence big data

La problématique

Et si les géants de l’Internet (Google, Facebook…) qui disposent d’énormes

informations (personnelles, géolocalisées, statistiques…) ne renvoyaient plus sur les sites des assureurs et proposaient leurs propres produits d’assurances, mieux ciblés et plus rentables directement ?

Page 61: Conférence big data

La problématique

D’après une étude Accenture auprès de 6.000 assurés dans 11 pays, les 2/3 des consommateurs sont prêts à acheter des produits d’assurance ailleurs, notamment auprès des géants du Web.

Ce serait 400 milliards de dollars de primes d’assurance qui pourraient changer de main.

Page 62: Conférence big data

Notre solution

Page 63: Conférence big data

Notre solution

Square Predict a pour objectifs de permettre aux assurances de valoriser et monétiser leur patrimoine de données en les croisant avec celles disponibles sur internet (réseaux sociaux, web sémantique, open data…).

L’objectif étant de contextualiser la relation client et les évènements afin de réagir de manière plus appropriée.

Page 64: Conférence big data

Notre solution

La plate-forme Square Predict permettra :

● De croiser les données des assureurs avec : ○ L’Open Data.○ Le web sémantique.○ Internet et les réseaux sociaux.

● De réaliser des analyses en temps réel.

Page 65: Conférence big data

Exemples d’utilisations

Page 66: Conférence big data

Exemple n°1

Étude d’impact en temps réel d’une catastrophe naturelle.

Utiliser les données des assurances, des réseaux sociaux et de l’open data pour estimer en temps réel l’impact d’un évènement.

Page 67: Conférence big data

Exemple n°2

Collecter les informations disponibles pour évaluer les risques sur les habitations.

Page 68: Conférence big data

Exemple n°3

Adaptation des forces de la relation clientèle en fonction des évènements.

Détection d’évènements notamment sur les réseaux sociaux et génération d’action en automatique.

Page 69: Conférence big data

Partenaires

Page 70: Conférence big data

Partenaires

Projet soutenu par le Programme d’Investissements d’Avenir (anciennement Grand Emprunt) : budget de 2,76M€.

Les partenaires : ● Un des premiers assureurs mondiaux.● LIPN, LIPADE et le LARIS.● Un cabinet d’éthique.

Page 71: Conférence big data

Exemple concret de résultat

Page 72: Conférence big data

Partitionnement de données

Le Clustering (partitionnement de données) essaye de classifier des individus par leurs similarités mais sans prendre en compte le but.

L’idée est de faire émerger automatiquement des sous-ensembles et sous-concepts éventuellement impossibles à naturellement distinguer.

Page 73: Conférence big data

Données de base

Nous sommes partis des données fournies par l’un de nos partenaires :

● Nombre de Pièces du bien.● Propriétaire / Copropriétaire / Locataire.● Appartement / Maison / RdC.● Résidence Principale / Secondaire.

Page 74: Conférence big data

Enrichissement des données

● Données de l’INSEE permet de compléter les revenus, le nombre de personnes dans le logement, âge de l’habitation, type d’habitation, criminalités…

● Données sémantiques sur la ville, le lieux, la pluviométrie

● ...

Page 75: Conférence big data

Définition des indicateurs

Trois indicateurs ont été prises en compte :

● Taux de sinistre = Nbe sinistres / Nbe de contrats.

● Charge par sinistre = Somme montant sinistres / Nbe sinistres.

● Perte par contrat = Taux sinistres * charge par contrat.

Page 76: Conférence big data

Résultats

Ceci nous a permis de détecter des groupes dont la pertinence a été validée.

Page 77: Conférence big data

Dangers

Page 78: Conférence big data

Dangers

Ils sont nombreux et variés et vous avez certainement devinés un certain nombre donc

je ne vais pas en parler !

Page 80: Conférence big data

Merci !Stéphane Traumathttp://about.me/straumat