Transcript
Page 1: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Enjeux mathematiques et Statistiques du”Big Data”

Mathilde Mougeot

LPMA/Universite Paris Diderot, [email protected]

Mathematique en Mouvements, Paris, IHP, 6 Juin 2015

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 1 / 23

Page 2: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Des donnees numeriques en croissance permanente

Facebook http://wikibon.org/blog/big-data-statistics

La production de donnees numeriques double tous les 3 ans, depuis 1980.

Domaines: grande distribution, medical, industrie, astronomie...

Que peut-on faire de ces donnees?

A-t-on besoin d’outils mathematiques pour les analyser?

Quelles sont les difficultes?

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 2 / 23

Page 3: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Premiere application ”Big Data”

Etude de la grippe hivernale aux Etats-Unis, 2003-2008

Quand les mots deviennent des donnees numeriques...

Google: 3 milliards de requetes par jourEtude de la frequence des requetes du moteur de recherche”toux”, ”fievre”, ”medicaments contre la toux et la fievre”....en relation avec la propagation de la grippe en espace et en temps

Modele Predictif Google

Modeles mathematiques (450 millions testes).→ final: combinaisons de la frequence de 45 mots clefs

Interets:

Modele beaucoup plus reactif que l’analyse des donnees collectees parles centres de sante.Reperer en ”temps reel” des zones contaminees a partir des requetes(H1N1)

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 3 / 23

Page 4: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Exemple de donnees collectees

•Donnees transactionnelles17/02/2004 15:02:25 ”fievre toux”; ”grippe”...

• Donnees analytiques agregees:

Frequence d’occurence de mots clefs

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 4 / 23

Page 5: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Un tableau a deux dimensions

− X 1 X 2 . . . X j . . . X p

1 x11 . . . x1j x1p

2...i xi1 . . . xij xip...n xn1 . . . xnj xnp

n observations (ligne), p variables (colonne)

• La Volumetrie -valeurs n, p- depend de la methode de collecte manuelleou exhaustive des donnees.

• Structure identique dans des domaines varies:

- Aeronautique: n vols d’avions (altitude, vitesse, . . .)

- Banque, Marketing: n clients (revenu, credit , . . .)

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 5 / 23

Page 6: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Que peut-on faire de ces donnees?

Deux types de problematiques sont distingues:

→ Exploratoire, segmentation (X ) :Toutes les variables jouent un ”role” identique”Decouvrir” des relations entre les groupes d’individus,

→ Modele predictif: Y = F (X )

Une variable particuliere (variable cible Y) est definiemodele de regression permettant de ”predire” Y sur de nouvellesdonnees

A partir des donnees disponibles

− X 1 X 2 . . . X j . . . Xp Y1 x11 . . . x1j x1p y1...i xi1 . . . xij xip yp...n xn1 . . . xnj xnp yn

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 6 / 23

Page 7: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Enjeux mathematiques et statistiques du ”big data”

Les donnees

Les difficultes du Big Data:

Segmentation: Fleau de la ”dimension”Methode predictive: reduction de dimension

Perspectives metiers, collaborations entre disciplines

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 7 / 23

Page 8: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Segmentation des donnees

On considere deux observations (xi , xk), xi ∈ Rp, xk ∈ Rp

− X 1 X 2 . . . X j . . . Xp

1 x11 . . . x1j x1p...→ i xi1 . . . xij xip...→ k xk1 . . . xkj xkp...n xn1 . . . xnj xnp

• Distance euclidienne `2 entre ces deux observations:

||xi − xk ||2 =√∑p

d=1(xi (d)− xk(d))2

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 8 / 23

Page 9: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Segmentation de donneesillustration

10 Observations matrice des distances

Classification hierarchique Clustering 3 classes

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 9 / 23

Page 10: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Etude de la distance euclidienne en fonction de ladimension p

• Illustrations:n = 100 observations, uniforme, en dimension 1, 2, 3, ...

• Indicateur:maxi 6=j ||xi−xk ||2mini 6=j ||xi−xk ||2

22 435 346 47

p = 1 p = 2 p = 3→ Fleau de la dimension

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 10 / 23

Page 11: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Fleau de la dimension

Illustration: n = 100 observations uniformes (K = 500 repetitions) •

Evolution du rapportmaxi 6=j ||xi−xj ||mini 6=j ||xi−xj || en fonction de la dimension p

→ La distance euclidienne perd sa capacite de discrimination en grandedimension lorsque p augmente→ Problematique pour la segmentation, la discrimination des observations

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 11 / 23

Page 12: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Segmentation de donnees

Faible dimension p=2

Donnees Matrice Classification Classification

des distances hierarchique non supervisee

Grande dimension p=20

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 12 / 23

Page 13: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Reduction de la dimension, selection de variables

Trouver de bonnes representations des donnees initialement codees engrande dimension

Features: ”Faible” nombre de caracteristiques discriminantes (vial’expertise metier)

Compress Sensing: representation parcimonieuse (S) de x commecombinaison lineaire de p vecteurs d’une base donnees fonctionnelles.

Estimation de varietes: On represente x dans un espace de bassedimension a l’aide des vecteurs propres du Lapacien sur la variete,estime a partir d’un graphe de voisinages sur les exemples.

→ outils mathematiques a l’interface de l’analyse harmonique, de lageometrie, des probabilites et des statistiques.

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 13 / 23

Page 14: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Enjeux mathematiques et statistiques du ”big data”

Les donnees

Les difficultes:

Segmentation: Fleau de la ”dimension”Methode predictive: reduction de dimension

Perspectives metiers, collaborations entre disciplines

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 14 / 23

Page 15: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Un tableau a deux dimensions

Existence d’une variable cible, Y

− X 1 X 2 . . . X j . . . Xp Y1 x11 . . . x1j x1p y12...i xi1 . . . xij xip yp...n xn1 . . . xnj xnp yn

Exemples:

- Industrie:Y consommation de carburant, electrique, eau (variablequantitative)

- Banque, Marketing: Y incident bancaire (0,1)

- Medical: taux de glycemie, presence ou non d’une maladie

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 15 / 23

Page 16: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Un modele predictif: le modele lineaire

p=2

modele Y = β0 + β1X

critere:∑

i (Yi − Yi )2

solution: β1 = cov(X , Y )/var(X )

β0 = Y − β1X

p=3

modele:Y = β0 + β2X1 + β2X2

critere:∑

i (Yi − Yi )2

solution: β = ...

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 16 / 23

Page 17: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Le modele lineaire ”classique”

Cadre classique

- n > p: Nb d’observations est superieur au nombre de variables

y1

y2

yn

=

x11 . . . x1p

xn1 . . . xnp

∗β1

β2

βp

+ ε

”Thin matrix”

- XTX inversible, pas de co linearite entre les co-variables

→ Solution Unique: β = (XTX )−1XTY

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 17 / 23

Page 18: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Le modele lineaire en ”grande dimension”

En grande dimension

- n << p: Nb de variables est superieur au nombre d’obs.

y1

y2

yn

=

x11 . . . . . . x1p

xn1 . . . xnp

∗β1

β2

. . .

. . .

βp

+ ε

”Fat matrix”

- XTX , NON inversible (ou forte colinearite avec p < n).

→ Infinite de solutions β.(Pseudo inverse: solution technique)

→ Une solution unique necessite des hypotheses sur β.

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 18 / 23

Page 19: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Le modele lineaire en grande dimension

La resolution du probleme lineaire est obtenue en introduisant descontraintes sur les coefficients, β. Quelques exemples:

• `0, ”Best subset”:E (β, λ) = ||Y − Xβ||2 + λΣj |βj |0solution complexe a calculer ∼ 2p modeles a tester

• `2, ”Ridge”: Σj |βj |2 < S

βridge = (XTX + λI )−1XTY

• `1, ”Lasso”: Σj |βj |1 < Ssolution parcimonieuse, faible nb. de coeff 6= 0

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 19 / 23

Page 20: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

A la conquete du ”Big data”

Les enjeux sont:

Mathematiques: modelisation statistique, optimisation,....Evolution: echantillonage → etude exhaustive sur les donnees.

Informatique: stockage, acces a des donnees volumineuses ettraitement en un temps raisonnable (MapReduce, Hadoop)

Complexite/Algorithmique: Adapter les methodes de traitementstraditionnels a des donnees volumineuses, a des environnementsdistribues.Ex: traitements sur clusters de processeurs, de BDD,...a des donnees non structurees: Extraction (rapide) d’indicateurs clefspour exploiter les donnees Twitter, commentaires faceboook, linkeln.

”Les 3 V” : ”Volume”, ”Variete”, ”Velocite”

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 20 / 23

Page 21: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Apprehender le Big data

Les formations aux Big Data se situent dans les domaines:

Mathematiques, Informatique

Droit: ex. probleme juridique d’exploitation de ces donnees

Sociologie, psychologie.... ”Mise en donnees” (collecte des donneesde performances sportives...)

Des donnees disponibles:

Kaggle, concours en ligne sur des problematiques de Big Data

Les Open Data: mise a disposition de BDD ± volumineuses

Les opportunites metiers du futur:

data scientist specialiste de l’exploration et de l’analyse de grandesbases de donnees.

Start-up: exploitation des donnees du web (gratuites)

Imaginations & Technologies...

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 21 / 23

Page 22: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Classification automatique d’images

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 22 / 23

Page 23: Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration et de l’analyse de grandes bases de donn ees. Start-up: exploitation des donn

Quelques References

Detecting Influenza Epidemics Using Serach Engine Queries, Nature457, 2009.

”Big data”: trois defis pour les Maths.David Larousserie, Le Monde, 27/01/2014

Le Data Scientist, un nouveau metier.David Larousserie, Le Monde, 27/01/2014

Kaggle, le site qui transforme le ”big data” en or.Mathilde Damge. Le monde Economist

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 23 / 23


Recommended