Upload
shi-kezhan
View
988
Download
2
Embed Size (px)
Citation preview
Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Institut des Actuaires
Conférence Big Data
Paris, 13 mai 2014
2F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business &
Decision
KXEN
Innovation
KDD_US
Atos
3F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Agenda
• Qu’est ce que le Big Data
• Qu’est ce que le Data Mining
• Impact sur le métier des actuaires
Qu’est ce que le Big
Data ?
5F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Une définition classique
Introduite par Gartner en 2001Nombre de
variables
Nombre
d’événements
/seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
6F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La valeur des Big Data
• À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures
• Puis on se rend compte que les Big Data sont source de valeur
– Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé majeure de la source de valeur, en produisant de meilleurs modèles
“Invariably, simple models and a lot of data trump more elaborate models based on less data”
• MAIS il faut pour cela des techniques adaptées– Acceptant de grands volumes (!)
– Avec des variables corrélées (variété)
– Sans over-fitting
7F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Big Data pour la Finance & l’Assurance
Facilité à capturer la valeur des Big Data & index de la valeur potentielle
Mc Kinsey, Big Data. 2011
Finance &
Assurance
Qu’est ce que le Data
Mining?
9F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Data Mining & Big Data
• Neural Network,
Data Mining &
Big Data
– 1980 – 2008
– 2004 – 2014 http://www.google.com/trends
https://books.google.com/ngrams
10F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Qu’est ce que le Data Mining
• Situation où
– On ne connait pas de modèle mathématique • Sciences
– On a des données• Beaucoup
• On recherche
– Une fonction solution
• Dans une classe YYYY
– Pas une distribution
• « Modèle »
– (YYYY , algo. d’apprentissage)
11F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Expliquer / Prévoir
– Précision / Robustesse
– Apprendre / Généraliser
– Erreur en apprentissage / Erreur en généralisation
“It wasn’t too long ago that calling someone a data miner was a very badthing. You could start a fistfight at a convention of statisticians with thiskind of talk. It meant that you were finding the analytical equivalent of thebunnies in the clouds, poring over data until you found something.Everyone knew that if you did enough poring, you were bound to find
that bunny sooner or later, but it was no more real than the one that
blows over the horizon.”David J. Leinweber, Stupid data miner tricks (2000)
12F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
Construire un modèle pour expliquer l’index S&P 500
• Avec 1 seule variable: l’année
– Période 1983-92 : modèle polynomial à 1 variable de degré 9 • .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9
– Période 1983-93 : modèle polynomial à 1 variable de degré 10• .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10
– Les modèles obtenus sont absolument « parfaits » : 100%
Leinweber
83 92 83 93
13F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Construire un modèle
– L’ensemble d’apprentissage : le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
14F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La Théorie de l’apprentissage statistique de Vapnik
Un résumé très court !!
: VC dimension de YYYY
( )( )
n
nl
hn
hnnl
hnηε −
+=
21,
( ) ( ) ( )h,nRR empGen εθθ +≤
1971 1982 1995 1998
Over-fitting
15F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts (moins) importants en Data Mining
• Le choix de l’algorithme
– Régression
– Arbres de décision
– Forêts d’arbres
– K-ppv
– Naïve Bayes
– Réseau de neurones
– Support vector machine (SVM)
– …
“Invariably, simple models and a lot of data trump more
elaborate models based on less data”
16F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• La vente en ligne augmente très rapidement
• La fraude aussi
Difficultés
• Taux de fraude très faible– <<1%
• Taux d’alerte très faible – <<1%
• Volumes très grands
• La fraude change très vite
Banque de France. Rapport annuel OSCP, 2012
M€%
17F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Modèle de base (uniquement les variables de transaction)
– Très insuffisant
Précision : 70%
Rappel: 30 %( ) F
VPsappelR =
( ) AVPsrecP =
Rappel Précision
Nb de Cartes en Alerte / Jour
18F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑)
– 37 � 997 ( ~1500 avec scores cartes & marchands+ Agrégats)
• Variables Sociales
Marchand
Marchand
Marchand
Marchand
Carte
Carte
Carte
Carte
Carte Marchand
19F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 2 : segmenter les cartes
• Il y a beaucoup de types de fraude
– Faire une segmentation cartes, avec les agrégats cartes
– Chaque segment est homogène pour un type de fraude
→ 19 segments
– Différents types de fraude
20F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• 19 segments (sur le score carte)
Segment 1 Segment 2
Segment 15 Segment 15
21F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Résultats
• Importance des variables– Variables Initiales
– Agrégats Marchand
– Agrégats Carte
– Variables Sociales• Carte Marchand
Model Recall Precision
Baseline 1,40% 8,18%
Baseline + Agg 9,13% 19,00%
Baseline + Agg + Social 9,09% 40,58%
Seg 19 5,09% 28,21%
Seg 19 + Ag. 7,38% 28,82%
Seg 19 + Agg + Social 16,46% 60,89%
22F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple : Risque (Carte de Crédit)
• Données granulaires
– Nombreuses sources (transaction, appels, …)
– On peut créer de la valeur SI on agrège bein
– Le nombre d’attributs augmente très vite (23 000 +)
• La question– Comment choisir les meilleures variables ?
• Approches1. Utiliser toujours les mêmes variables2. Demander aux experts de choisir 500 variables
• Il faut 10 jours de travail pour 10 variables
3. Utiliser toutes les variables & laisser les données choisir les meilleures• Il faut construire un modèle
Impact sur le métier des
actuaires
24F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Assurance
• Fraude, Connaissance clients, Risque…
– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US)
• Comment procéder en approche Big Data
– Collecter des données
Facile Difficile
“ Precise detection comes from bringing together multiple characteristics to
create an overall picture of the probability of fraud ” (Verisk, 2013)
– Les données ne sont pas produites pour les besoins de l’analyste
• Problèmes de représentativité
25F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Impacts
L’approche Big Data donne un score individuel
• Le score individuel est obtenu par application d’un
« modèle »
– Ce modèle peut être rafraichi automatiquement aussi souvent que nécessaire
• On peut segmenter la population
– Obtenir un modèle par segment
– Établir une politique de prix / segment
• Questions ouvertes
– Comment intégrer les approches
• actuarielle orientée « modèle » et Big Data orientée « données » ?
26F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Conclusion
• Quels impacts sur le métier / la formation ?
– Les écoles du GENES ouvrent des formations• L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son
cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data.
• À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist.
– Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data:
• Enseignement
• Projets de R&D
Questions ?