Enjeux math ematiques et Statistiques du Big Data data scientist sp ecialiste de l’exploration et

  • View
    0

  • Download
    0

Embed Size (px)

Text of Enjeux math ematiques et Statistiques du Big Data data scientist sp ecialiste de...

  • Enjeux mathématiques et Statistiques du ”Big Data”

    Mathilde Mougeot

    LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr

    Mathématique en Mouvements, Paris, IHP, 6 Juin 2015

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 1 / 23

  • Des données numériques en croissance permanente

    Facebook http://wikibon.org/blog/big-data-statistics

    La production de données numériques double tous les 3 ans, depuis 1980.

    Domaines: grande distribution, médical, industrie, astronomie...

    Que peut-on faire de ces données?

    A-t-on besoin d’outils mathématiques pour les analyser?

    Quelles sont les difficultés?

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 2 / 23

  • Première application ”Big Data”

    Etude de la grippe hivernale aux Etats-Unis, 2003-2008

    Quand les mots deviennent des données numériques...

    Google: 3 milliards de requètes par jour Etude de la fréquence des requêtes du moteur de recherche ”toux”, ”fièvre”, ”médicaments contre la toux et la fièvre”.... en relation avec la propagation de la grippe en espace et en temps

    Modèle Prédictif Google

    Modèles mathématiques (450 millions testés). → final: combinaisons de la fréquence de 45 mots clefs

    Intérets:

    Modèle beaucoup plus réactif que l’analyse des données collectées par les centres de santé. Repérer en ”temps réel” des zones contaminées à partir des requêtes (H1N1)

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 3 / 23

  • Exemple de données collectées

    •Données transactionnelles 17/02/2004 15:02:25 ”fièvre toux”; ”grippe”...

    • Données analytiques agrégées:

    Fréquence d’occurence de mots clefs

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 4 / 23

  • Un tableau à deux dimensions

    − X 1 X 2 . . . X j . . . X p 1 x11 . . . x1j x1p 2 ... i xi1 . . . xij xip ... n xn1 . . . xnj xnp

    n observations (ligne), p variables (colonne)

    • La Volumétrie -valeurs n, p- dépend de la méthode de collecte manuelle ou exhaustive des données.

    • Structure identique dans des domaines variés:

    - Aéronautique: n vols d’avions (altitude, vitesse, . . .)

    - Banque, Marketing: n clients (revenu, crédit , . . .)

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 5 / 23

  • Que peut-on faire de ces données?

    Deux types de problématiques sont distingués:

    → Exploratoire, segmentation (X ) : Toutes les variables jouent un ”rôle” identique ”Découvrir” des relations entre les groupes d’individus,

    → Modèle prédictif: Y = F (X ) Une variable particulière (variable cible Y) est définie modèle de régression permettant de ”prédire” Y sur de nouvelles données

    A partir des données disponibles

    − X 1 X 2 . . . X j . . . Xp Y 1 x11 . . . x1j x1p y1 ... i xi1 . . . xij xip yp ... n xn1 . . . xnj xnp yn

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 6 / 23

  • Enjeux mathématiques et statistiques du ”big data”

    Les données

    Les difficultés du Big Data:

    Segmentation: Fléau de la ”dimension” Méthode prédictive: réduction de dimension

    Perspectives métiers, collaborations entre disciplines

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 7 / 23

  • Segmentation des données

    On considère deux observations (xi , xk), xi ∈ Rp, xk ∈ Rp

    − X 1 X 2 . . . X j . . . Xp 1 x11 . . . x1j x1p ... → i xi1 . . . xij xip ... → k xk1 . . . xkj xkp ... n xn1 . . . xnj xnp

    • Distance euclidienne `2 entre ces deux observations:

    ||xi − xk ||2 = √∑p

    d=1(xi (d)− xk(d))2

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 8 / 23

  • Segmentation de données illustration

    10 Observations matrice des distances

    Classification hiérarchique Clustering 3 classes

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 9 / 23

  • Etude de la distance euclidienne en fonction de la dimension p

    • Illustrations: n = 100 observations, uniforme, en dimension 1, 2, 3, ...

    • Indicateur: maxi 6=j ||xi−xk ||2mini 6=j ||xi−xk ||2 22 435 346 47

    p = 1 p = 2 p = 3 → Fléau de la dimension

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 10 / 23

  • Fléau de la dimension

    Illustration: n = 100 observations uniformes (K = 500 répétitions) •

    Evolution du rapport maxi 6=j ||xi−xj || mini 6=j ||xi−xj || en fonction de la dimension p

    → La distance euclidienne perd sa capacité de discrimination en grande dimension lorsque p augmente → Problématique pour la segmentation, la discrimination des observations

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 11 / 23

  • Segmentation de données

    Faible dimension p=2

    Données Matrice Classification Classification

    des distances hiérarchique non supervisée

    Grande dimension p=20

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 12 / 23

  • Réduction de la dimension, sélection de variables

    Trouver de bonnes représentations des données initialement codées en grande dimension

    Features: ”Faible” nombre de caractéristiques discriminantes (via l’expertise métier)

    Compress Sensing: représentation parcimonieuse (S) de x comme combinaison linéaire de p vecteurs d’une base données fonctionnelles.

    Estimation de variétés: On représente x dans un espace de basse dimension à l’aide des vecteurs propres du Lapacien sur la variété, estimé à partir d’un graphe de voisinages sur les exemples.

    → outils mathématiques à l’interface de l’analyse harmonique, de la géométrie, des probabilités et des statistiques.

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 13 / 23

  • Enjeux mathématiques et statistiques du ”big data”

    Les données

    Les difficultés:

    Segmentation: Fléau de la ”dimension” Méthode prédictive: réduction de dimension

    Perspectives métiers, collaborations entre disciplines

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 14 / 23

  • Un tableau à deux dimensions

    Existence d’une variable cible, Y

    − X 1 X 2 . . . X j . . . Xp Y 1 x11 . . . x1j x1p y1 2 ... i xi1 . . . xij xip yp ... n xn1 . . . xnj xnp yn

    Exemples:

    - Industrie:Y consommation de carburant, électrique, eau (variable quantitative)

    - Banque, Marketing: Y incident bancaire (0,1)

    - Médical: taux de glycémie, présence ou non d’une maladie

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 15 / 23

  • Un modèle prédictif: le modèle linéaire

    p=2

    modèle Ŷ = β̂0 + β̂1X

    critère: ∑

    i (Yi − Ŷi ) 2

    solution: β̂1 = cov(X , Y )/var(X )

    β̂0 = Ȳ − β̂1X̄

    p=3

    modèle:Ŷ = β̂0 + β̂2X1 + β̂2X2

    critère: ∑

    i (Yi − Ŷi ) 2

    solution: β̂ = ...

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 16 / 23

  • Le modèle linéaire ”classique”

    Cadre classique

    - n > p: Nb d’observations est supérieur au nombre de variables

     y1 y2

    yn

     = 

    x11 . . . x1p

    xn1 . . . xnp

     ∗  β1 β2

    βp

     + � ”Thin matrix”

    - XTX inversible, pas de co linéarité entre les co-variables

    → Solution Unique: β̂ = (XTX )−1XTY

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 17 / 23

  • Le modèle linéaire en ”grande dimension”

    En grande dimension

    - n

  • Le modèle linéaire en grande dimension

    La résolution du problème linéaire est obtenue en introduisant des contraintes sur les coefficients, β. Quelques exemples:

    • `0, ”Best subset”: E (β, λ) = ||Y − Xβ||2 + λΣj |βj |0 solution complexe à calculer ∼ 2p modèles à tester

    • `2, ”Ridge”: Σj |βj |2 < S β̂ridge = (X

    TX + λI )−1XTY

    • `1, ”Lasso”: Σj |βj |1 < S solution parcimonieuse, faible nb. de coeff 6= 0

    M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 19 / 23

  • A la conquète du ”Big data”

    Les enjeux sont:

    Mathématiques: modélisation statistique, optimisation,.... Evolution: échantillonage → etude exhaustive sur les données. Informatique: stockage, accès à des données volumineuses et traitement en un temps raisonnable (MapReduce, Hadoop)

    Complexité/Algorithmique: Adapter les méthodes de traitements traditionnels à des données volumineuses, à des environnements distribués. Ex: traitements sur clusters de processeurs, de BDD,... à des données non structurées: Extraction (rapi