Enjeux math ematiques et Statistiques du Big Data · data scientist sp ecialiste de l’exploration...

Preview:

Citation preview

Enjeux mathematiques et Statistiques du”Big Data”

Mathilde Mougeot

LPMA/Universite Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr

Mathematique en Mouvements, Paris, IHP, 6 Juin 2015

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 1 / 23

Des donnees numeriques en croissance permanente

Facebook http://wikibon.org/blog/big-data-statistics

La production de donnees numeriques double tous les 3 ans, depuis 1980.

Domaines: grande distribution, medical, industrie, astronomie...

Que peut-on faire de ces donnees?

A-t-on besoin d’outils mathematiques pour les analyser?

Quelles sont les difficultes?

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 2 / 23

Premiere application ”Big Data”

Etude de la grippe hivernale aux Etats-Unis, 2003-2008

Quand les mots deviennent des donnees numeriques...

Google: 3 milliards de requetes par jourEtude de la frequence des requetes du moteur de recherche”toux”, ”fievre”, ”medicaments contre la toux et la fievre”....en relation avec la propagation de la grippe en espace et en temps

Modele Predictif Google

Modeles mathematiques (450 millions testes).→ final: combinaisons de la frequence de 45 mots clefs

Interets:

Modele beaucoup plus reactif que l’analyse des donnees collectees parles centres de sante.Reperer en ”temps reel” des zones contaminees a partir des requetes(H1N1)

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 3 / 23

Exemple de donnees collectees

•Donnees transactionnelles17/02/2004 15:02:25 ”fievre toux”; ”grippe”...

• Donnees analytiques agregees:

Frequence d’occurence de mots clefs

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 4 / 23

Un tableau a deux dimensions

− X 1 X 2 . . . X j . . . X p

1 x11 . . . x1j x1p

2...i xi1 . . . xij xip...n xn1 . . . xnj xnp

n observations (ligne), p variables (colonne)

• La Volumetrie -valeurs n, p- depend de la methode de collecte manuelleou exhaustive des donnees.

• Structure identique dans des domaines varies:

- Aeronautique: n vols d’avions (altitude, vitesse, . . .)

- Banque, Marketing: n clients (revenu, credit , . . .)

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 5 / 23

Que peut-on faire de ces donnees?

Deux types de problematiques sont distingues:

→ Exploratoire, segmentation (X ) :Toutes les variables jouent un ”role” identique”Decouvrir” des relations entre les groupes d’individus,

→ Modele predictif: Y = F (X )

Une variable particuliere (variable cible Y) est definiemodele de regression permettant de ”predire” Y sur de nouvellesdonnees

A partir des donnees disponibles

− X 1 X 2 . . . X j . . . Xp Y1 x11 . . . x1j x1p y1...i xi1 . . . xij xip yp...n xn1 . . . xnj xnp yn

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 6 / 23

Enjeux mathematiques et statistiques du ”big data”

Les donnees

Les difficultes du Big Data:

Segmentation: Fleau de la ”dimension”Methode predictive: reduction de dimension

Perspectives metiers, collaborations entre disciplines

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 7 / 23

Segmentation des donnees

On considere deux observations (xi , xk), xi ∈ Rp, xk ∈ Rp

− X 1 X 2 . . . X j . . . Xp

1 x11 . . . x1j x1p...→ i xi1 . . . xij xip...→ k xk1 . . . xkj xkp...n xn1 . . . xnj xnp

• Distance euclidienne `2 entre ces deux observations:

||xi − xk ||2 =√∑p

d=1(xi (d)− xk(d))2

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 8 / 23

Segmentation de donneesillustration

10 Observations matrice des distances

Classification hierarchique Clustering 3 classes

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 9 / 23

Etude de la distance euclidienne en fonction de ladimension p

• Illustrations:n = 100 observations, uniforme, en dimension 1, 2, 3, ...

• Indicateur:maxi 6=j ||xi−xk ||2mini 6=j ||xi−xk ||2

22 435 346 47

p = 1 p = 2 p = 3→ Fleau de la dimension

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 10 / 23

Fleau de la dimension

Illustration: n = 100 observations uniformes (K = 500 repetitions) •

Evolution du rapportmaxi 6=j ||xi−xj ||mini 6=j ||xi−xj || en fonction de la dimension p

→ La distance euclidienne perd sa capacite de discrimination en grandedimension lorsque p augmente→ Problematique pour la segmentation, la discrimination des observations

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 11 / 23

Segmentation de donnees

Faible dimension p=2

Donnees Matrice Classification Classification

des distances hierarchique non supervisee

Grande dimension p=20

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 12 / 23

Reduction de la dimension, selection de variables

Trouver de bonnes representations des donnees initialement codees engrande dimension

Features: ”Faible” nombre de caracteristiques discriminantes (vial’expertise metier)

Compress Sensing: representation parcimonieuse (S) de x commecombinaison lineaire de p vecteurs d’une base donnees fonctionnelles.

Estimation de varietes: On represente x dans un espace de bassedimension a l’aide des vecteurs propres du Lapacien sur la variete,estime a partir d’un graphe de voisinages sur les exemples.

→ outils mathematiques a l’interface de l’analyse harmonique, de lageometrie, des probabilites et des statistiques.

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 13 / 23

Enjeux mathematiques et statistiques du ”big data”

Les donnees

Les difficultes:

Segmentation: Fleau de la ”dimension”Methode predictive: reduction de dimension

Perspectives metiers, collaborations entre disciplines

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 14 / 23

Un tableau a deux dimensions

Existence d’une variable cible, Y

− X 1 X 2 . . . X j . . . Xp Y1 x11 . . . x1j x1p y12...i xi1 . . . xij xip yp...n xn1 . . . xnj xnp yn

Exemples:

- Industrie:Y consommation de carburant, electrique, eau (variablequantitative)

- Banque, Marketing: Y incident bancaire (0,1)

- Medical: taux de glycemie, presence ou non d’une maladie

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 15 / 23

Un modele predictif: le modele lineaire

p=2

modele Y = β0 + β1X

critere:∑

i (Yi − Yi )2

solution: β1 = cov(X , Y )/var(X )

β0 = Y − β1X

p=3

modele:Y = β0 + β2X1 + β2X2

critere:∑

i (Yi − Yi )2

solution: β = ...

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 16 / 23

Le modele lineaire ”classique”

Cadre classique

- n > p: Nb d’observations est superieur au nombre de variables

y1

y2

yn

=

x11 . . . x1p

xn1 . . . xnp

∗β1

β2

βp

+ ε

”Thin matrix”

- XTX inversible, pas de co linearite entre les co-variables

→ Solution Unique: β = (XTX )−1XTY

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 17 / 23

Le modele lineaire en ”grande dimension”

En grande dimension

- n << p: Nb de variables est superieur au nombre d’obs.

y1

y2

yn

=

x11 . . . . . . x1p

xn1 . . . xnp

∗β1

β2

. . .

. . .

βp

+ ε

”Fat matrix”

- XTX , NON inversible (ou forte colinearite avec p < n).

→ Infinite de solutions β.(Pseudo inverse: solution technique)

→ Une solution unique necessite des hypotheses sur β.

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 18 / 23

Le modele lineaire en grande dimension

La resolution du probleme lineaire est obtenue en introduisant descontraintes sur les coefficients, β. Quelques exemples:

• `0, ”Best subset”:E (β, λ) = ||Y − Xβ||2 + λΣj |βj |0solution complexe a calculer ∼ 2p modeles a tester

• `2, ”Ridge”: Σj |βj |2 < S

βridge = (XTX + λI )−1XTY

• `1, ”Lasso”: Σj |βj |1 < Ssolution parcimonieuse, faible nb. de coeff 6= 0

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 19 / 23

A la conquete du ”Big data”

Les enjeux sont:

Mathematiques: modelisation statistique, optimisation,....Evolution: echantillonage → etude exhaustive sur les donnees.

Informatique: stockage, acces a des donnees volumineuses ettraitement en un temps raisonnable (MapReduce, Hadoop)

Complexite/Algorithmique: Adapter les methodes de traitementstraditionnels a des donnees volumineuses, a des environnementsdistribues.Ex: traitements sur clusters de processeurs, de BDD,...a des donnees non structurees: Extraction (rapide) d’indicateurs clefspour exploiter les donnees Twitter, commentaires faceboook, linkeln.

”Les 3 V” : ”Volume”, ”Variete”, ”Velocite”

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 20 / 23

Apprehender le Big data

Les formations aux Big Data se situent dans les domaines:

Mathematiques, Informatique

Droit: ex. probleme juridique d’exploitation de ces donnees

Sociologie, psychologie.... ”Mise en donnees” (collecte des donneesde performances sportives...)

Des donnees disponibles:

Kaggle, concours en ligne sur des problematiques de Big Data

Les Open Data: mise a disposition de BDD ± volumineuses

Les opportunites metiers du futur:

data scientist specialiste de l’exploration et de l’analyse de grandesbases de donnees.

Start-up: exploitation des donnees du web (gratuites)

Imaginations & Technologies...

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 21 / 23

Classification automatique d’images

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 22 / 23

Quelques References

Detecting Influenza Epidemics Using Serach Engine Queries, Nature457, 2009.

”Big data”: trois defis pour les Maths.David Larousserie, Le Monde, 27/01/2014

Le Data Scientist, un nouveau metier.David Larousserie, Le Monde, 27/01/2014

Kaggle, le site qui transforme le ”big data” en or.Mathilde Damge. Le monde Economist

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 23 / 23

Recommended