Conférence big data

Conférence “Big Data”Stéphane Traumathttp://about.me/straumat

http://about.me/straumat


Qui suis-je ?● Dirigeant de Scub, une entreprise de service numérique qui a pour but de

fournir du conseil et de développer des applications sur-mesure en Java afin de résoudre les problèmes de ses clients.

● Dirigeant de Square Solutions, un éditeur de logiciels qui propose une solution de gestion de la relation client dédiée au monde de l'assurance.

● Directeur de la stratégie du groupe Arrow, groupe informatique spécialisé dans l’IT pour la banque, finance et l’assurance (Londres, Paris, Bruxelles et Luxembourg).

● Cofondateur de Oak Invest, société de conseil et d'investissement spécialisée dans les nouvelles technologies.

● Développeur / Contributeur sur des projets Open Source comme JOnAS, Scub Foundation, Square...

● Conférencier sur des sujets comme l'industrialisation du développement logiciel, le cloud computing ou le web sémantique, j'ai aussi écrit un livre sur le serveur d'applications J2EE JOnAS.

● Vice Président du SPN, un cluster regroupant les entreprises TIC de la région Poitou Charentes (Président en 2010 et 2011).

Agenda

● Qu’est-ce que le Big Data ?● Exemples d’utilisations.● Le web / L’Open Data / Le web sémantique.● Un “nouveau” métier : le Data Scientist.● Les algorithmes utilisés.● Qu’est ce que ce la change concrètement ?● Notre projet Square Predict.● Dangers.● Questions ?

Où en est on ?

Où en est on ? - Gartner Hype Cycle

Où en est on ? - Gartner Hype Cycle

Qu’est-ce que le Big data ?

Big Data : définition

Le Big Data désigne la problématique d’avoir un ensemble de données à traiter tellement volumineux qu’il devient très difficile, voir impossible, de le faire avec les outils existants.

Ceci oblige à repenser complètement la capture, le stockage, l'analyse et la visualisation.

Big Data : l’objectif

L’idée est d’aider les entreprises à réduire les risques, faciliter la prise de décision, créer la différence grâce à l'analyse prédictive et offrir une expérience client plus personnalisée et contextualisée.

D’autant que le volume de données ne va cesser d’augmenter (Mobiles, objets connectés, voitures, drônes, capteurs...).

Big Data : les trois défis

● Volume : à titre d'exemple, chaque jour Facebook génère 10 teraoctets de données.

● Variété : données structurées ou non (réseaux sociaux, open data, web sémantique…).

● Vélocité : la fréquence à laquelle les données sont générées, capturées et partagées (150 000 Tweets par secondes).

Big Data : une nouvelle discipline

Nous ne sommes donc pas face à une nouvelle technologie mais plutôt à une nouvelle

discipline portée par des nouveaux outils issus de géants de l’internet et des logiciels libres.

Big Data : un nouvel objectif

Objectif : Faire en sorte que les décisions soient plus basées sur les données et moins sur les intuitions, l’expérience ou les conseils.

Seuls 32% des dirigeants décrivent leurs décisions comme étant basées sur des données (PricewaterhouseCoopers)

Exemples d’utilisation

Exemples divers

● Netflix a analysé les préférences de ses clients pour concevoir sa propre série “House of Cards”.

● Certaines institutions financières cherchent des clients en regardant ce qu’ils disent sur les réseaux sociaux.

● Les assurances font de l’analyse de texte sur d’anciens formulaires / demandes pour traquer des fraudes.

● 23andme analyse votre ADN et vous indique vos prédispositions.

Où prendre les données ?

Les entreprises et les institutions possèdent des données mais elles sont généralement

limitées.

Si Plus de données = Meilleurs décisions alors les données ont donc une

valeur stratégique importante.



Il est possible que l’on ait pas les données pour réaliser le data mining, il faut investir.

C’est ce qu’a fait la banque Signet qui a offert à des clients au hasard des avantages afin d’

avoir assez d’informations sur les comportements.

Il faut donc considérer ces données comme des avoirs stratégiques pour l’entreprise.


Mais on peut aussi se servir d’Internet !

Le web

Le web : exemple grippe

Le web : exemple tornade

Open Data

L’Open Data : définition

L’Open Data désigne le mouvement visant à rendre accessible à tous via le web les données publiques non nominatives ne relevant ni de la vie privée et ni la sécurité collectées par les organismes publics.

En France : https://www.data.gouv.fr

https://www.data.gouv.fr/fr/

L’Open Data : exemples





Insee : Données carroyées à 200 m sur la population.

● Nombre d’individus en fonction des tranches d’âge.

● Nombre de propriétaires / locataires.● Type de famille.● Revenus fiscaux.● Nombre d'individus par tranches d’âges.

Le web sémantique

Le web sémantique

Le web fonctionne parce que, nous, les humains, sommes extrêmement doués et flexibles dans le traitement de données.

Nous sommes capables de tout lire et d'acquérir de nouvelles connaissances.

Aujourd'hui, Google trouve l'information mais ne la comprend pas ! (même si ça change…)

Le web sémantique

Comment marche le web ?● Les machines stockent le texte.● On peut rechercher dans l'ensemble des

textes grâce à des outils comme Google. ● On clique sur une page pour l'afficher.● L'humain doit lire le texte, chercher

l'information qui l'intéresse et la comprendre.

Le web sémantique : définition

Le web sémantique a pour objectif d’arriver à un web où les informations seraient compréhensibles par les ordinateurs.

Pour faire simple, ceci permettrait aux machines d’apprendre et de faire des déductions par elles mêmes.

Le web sémantique

L’idée est de passer d'un monde où nous publions des données pour les humains à un monde où nous publions aussi des données lisibles et compréhensibles par les machines.

Comment fait on cela ? C’est assez simple !

Le web sémantique

Les informations sont représentées sous forme de Triplets, c'est à dire une association entre sujet, prédicat et objet.● Le sujet représente la ressource à décrire. ● Le prédicat représente un type de propriété

applicable à cette ressource. ● L'objet représente une donnée ou une autre

ressource : c'est la valeur de la propriété.

Paris Population 2243833Paris Latitude 48.856578Bordeaux Population 239157Bordeaux Latitude 44.837912

Le web sémantique

Le web sémantique : exemple

Possibilités

Ceci offre les possibilités suivantes : ● Inférence : tirer une conclusion à partir de

règles de base.● Fusion de graphes : l'on peut fusionner

deux graphes facilement si ces deux graphes ont deux identifiants en commun.

● Recherche de liens : On peut très facilement parcourir un graphe pour trouver, par exemple, ce qui relie deux entreprises ou deux personnes.

Un “nouveau” métier : le Data Scientist

Un “nouveau” métier : le Data Scientist.

Au vu des besoins, un “nouveau métier” va exister : Data Scientist.

Josh Wills le définit de la façon suivante : Une personne qui est meilleure en statistiques que n’importe quel développeur et qui est meilleure en développement que n’importe quel statisticien.


CV : ● Statistiques, Probabilité, Machine learning.● Connaissances en développement logiciel.● Connaît le métier de l’entreprise.● Capacité de présentation et d’imagination.

● Java, R, Python...● Hadoop, HDFS…● ETL…● SQL, Excel...


Business Intelligence

Data Scientist

Choses que vous savez

Choses que vous ne savez pas

Questions que vous posez

Questions que vous ne posez pas

Les algorithmes utilisés

La classification

La classification consiste à prédire, pour chaque individu d’une population, à quelle classe cet individu appartient.

Exemple : “parmi mes clients, lesquels pourrait répondre à une offre spécifique ?”. Dans cet exemple il y aura deux classes “répondra” et “ne répondra pas”.

La régression

La régression (estimation de valeur) essaye d’estimer ou de prédire, pour chaque individu la valeur numérique de certaines variables de cet individu. Exemple : “A quel point ce client utilisera ce service ?”.

Dans cet exemple, la valeur de l’usage du service sera généré en regardant l’usage du service par d’autres individus similaires. Par rapport à la classification qui prédit si quelque chose va se produire, la régression permet de dire à quel point la chose va se prédire.

La recherche de similarité

La recherche de similarité essaye d’identifier des individus similaires à partir des éléments que l’on a sur eux.

Par exemple, IBM utilise cette technique pour trouver des compagnies similaires à leurs clients les plus rentables afin que leurs commerciaux se concentrent sur eux.

Le Clustering

Le Clustering essaye de classifier des individus par leurs similarités mais sans prendre en compte le but. Par exemple, pour savoir si il y a des segments ou des groupes de clients similaires.

Cela permet de faire de l’exploration afin de voir vers quelles types d’analyses nous devons faire.

Le profilage

Le profilage essaye de caractériser un comportement typique d’un individu, d’un groupe ou d’une population. Par exemple “Quel est l’usage type de leur téléphone de tel segment de clientèle ?”.

Le profilage est souvent utilisé pour la détection d’anomalies (fraudes, intrusions…) Par exemple, si l’on sait quels genres d’achats une personne fait généralement via une carte de crédit, on peut déterminer si tel ou tel achat correspond.

Qu’est ce que ce la change ?

Prenons un scénario : je dirige une chaîne de magasins qui vend des jeux vidéos.

La saison de Noël approche et ma réussite dépend d’une chose principalement : Avoir assez de stocks, au bon endroit, sur les produits qui vont le mieux se vendre.

Nous sommes quelques mois avant noël.


Quel est l’objectif ? Savoir ce qui va se vendre, où et dans quelles quantités.

Je vais utiliser les données suivantes : ● Recherches google.● Tweets qui parlent de jeux vidéos.● Budgets dépensés par l’industrie du jeu.● Tests de remises sur des joueurs “type” qui

sont parmi mes clients.



Grâce à ces données, je vais pouvoir trouver quels sont les jeux qui semblent avoir le plus

de succès et donc piloter mes achats.



Maintenant que je sais quels jeux vont potentiellement le mieux marcher, il va falloir que je sache dans quels magasins !

Je vais utiliser les données suivantes : ● Tests de remises sur des joueurs “type” qui

sont parmi mes clients.● Tweets géolocalisés qui parlent de jeux.● Données INSEE.


Grâce aux analyses que j’ai, je vais pouvoir :● Mieux gérer mes commandes/stocks.● Mieux gérer mes campagnes commerciales.● Re segmenter ma base en fonction des pré

commandes et faire des contacts ciblés.

Un exemple de projet : Square PredictSolution Big Data pour le monde de l’assurance

La problématique

La problématique

Le “online to store” est une réalité en France62% des souscriptions sont liées au digital

Recherche online / Achat offline

48,6 %

Recherche offline / Achat offline

37,8 %

Recherche online / Achat online

10,8 %

Recherche offine / Achat offline

2,7 %

Source: Etude RoPo – Deutsche Bank 2011

La problématique

Les géants de l’assurance l’ont bien compris

La problématique

La problématique

Et si les géants de l’Internet (Google, Facebook…) qui disposent d’énormes

informations (personnelles, géolocalisées, statistiques…) ne renvoyaient plus sur les sites des assureurs et proposaient leurs propres produits d’assurances, mieux ciblés et plus rentables directement ?

La problématique

D’après une étude Accenture auprès de 6.000 assurés dans 11 pays, les 2/3 des consommateurs sont prêts à acheter des produits d’assurance ailleurs, notamment auprès des géants du Web.

Ce serait 400 milliards de dollars de primes d’assurance qui pourraient changer de main.

Notre solution

Notre solution

Square Predict a pour objectifs de permettre aux assurances de valoriser et monétiser leur patrimoine de données en les croisant avec celles disponibles sur internet (réseaux sociaux, web sémantique, open data…).

L’objectif étant de contextualiser la relation client et les évènements afin de réagir de manière plus appropriée.

Notre solution

La plate-forme Square Predict permettra :

● De croiser les données des assureurs avec : ○ L’Open Data.○ Le web sémantique.○ Internet et les réseaux sociaux.

● De réaliser des analyses en temps réel.

Exemples d’utilisations

Exemple n°1

Étude d’impact en temps réel d’une catastrophe naturelle.

Utiliser les données des assurances, des réseaux sociaux et de l’open data pour estimer en temps réel l’impact d’un évènement.

Exemple n°2

Collecter les informations disponibles pour évaluer les risques sur les habitations.

Exemple n°3

Adaptation des forces de la relation clientèle en fonction des évènements.

Détection d’évènements notamment sur les réseaux sociaux et génération d’action en automatique.

Partenaires

Partenaires

Projet soutenu par le Programme d’Investissements d’Avenir (anciennement Grand Emprunt) : budget de 2,76M€.

Les partenaires : ● Un des premiers assureurs mondiaux.● LIPN, LIPADE et le LARIS.● Un cabinet d’éthique.

Exemple concret de résultat

Partitionnement de données

Le Clustering (partitionnement de données) essaye de classifier des individus par leurs similarités mais sans prendre en compte le but.

L’idée est de faire émerger automatiquement des sous-ensembles et sous-concepts éventuellement impossibles à naturellement distinguer.

Données de base

Nous sommes partis des données fournies par l’un de nos partenaires :

● Nombre de Pièces du bien.● Propriétaire / Copropriétaire / Locataire.● Appartement / Maison / RdC.● Résidence Principale / Secondaire.

Enrichissement des données

● Données de l’INSEE permet de compléter les revenus, le nombre de personnes dans le logement, âge de l’habitation, type d’habitation, criminalités…

● Données sémantiques sur la ville, le lieux, la pluviométrie

● ...

Définition des indicateurs

Trois indicateurs ont été prises en compte :

● Taux de sinistre = Nbe sinistres / Nbe de contrats.

● Charge par sinistre = Somme montant sinistres / Nbe sinistres.

● Perte par contrat = Taux sinistres * charge par contrat.

Résultats

Ceci nous a permis de détecter des groupes dont la pertinence a été validée.

Dangers

Dangers

Ils sont nombreux et variés et vous avez certainement devinés un certain nombre donc

je ne vais pas en parler !

Points de vue à prendre en compte...

● “La vie privée est peut être une anomalie” - Vint Cerfhttp://techcrunch.com/2013/11/20/googles-cerf-says-privacy-may-be-an-anomaly-historically-hes-right/

● “Nous devons abandonner un peu de notre vie privée pour améliorer le monde” - Tim O’Reillyhttp://readwrite.com/2010/07/22/tim_oreilly_says_you_should_give_up_some_privacy_t

http://techcrunch.com/2013/11/20/googles-cerf-says-privacy-may-be-an-anomaly-historically-hes-right/



http://readwrite.com/2010/07/22/tim_oreilly_says_you_should_give_up_some_privacy_t




Merci !Stéphane Traumathttp://about.me/straumat



Software

Conférence big data