Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Statistique : Statistiques descriptives
Joseph Salmon
Septembre 2014
Fondamentaux pour le Big Data c© Télécom ParisTech 1/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Plan du cours
Introduction générale
Notion de statistiqueRésumés basiques d'un jeu de donnéesCorrélation
Fondamentaux pour le Big Data c© Télécom ParisTech 2/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Statistique
I On observe des réalisations (y1, . . . , yn) de variablesaléatoires inconnues (éventuellement vectorielles)
I On suppose ici que les variables sont indépendantes etidentiquement distribuées (i.i.d.) selon une loi PY
But de l'estimationComment apprendre certaines caractéristiques de PY à partir de
(y1, . . . , yn) ?
Souvent : on se prépare à observer yn+1.
Cas de la prédiction
Que peut-on attendre de yn+1 ? (en moyenne, ou avec unecertaine probabilité ?)
Fondamentaux pour le Big Data c© Télécom ParisTech 3/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Vocabulaire
I Observations y = y1:n = (y1, . . . , yn) : échantillon de taille n.
I Grandeurs théoriques : dépendant de la loi PY inconnue
Exemple: l'espérance de la variable y sous la loi PY .
I Grandeurs empiriques : calculées à partir des observations yi .Exemple: yn = 1
n
∑ni=1
yi est la moyenne empirique
I Objectif général : apprendre les caractéristiques théoriques dePY à partir de résumés empiriques.
Fondamentaux pour le Big Data c© Télécom ParisTech 4/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Statistique exploratoire et descriptive
I Première analyse sans hypothèse sur la loi PY .
I Analyse qualitative du jeu de données /échantillon
Dé�nition : Statistique
Une statistique est une fonction des observations (y1, . . . , yn).
Fondamentaux pour le Big Data c© Télécom ParisTech 5/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Moyenne
Dé�ntion : Moyenne
yn =1
n
n∑i=1
yi
Notons 1n le vecteur (1, . . . , 1) ∈ Rn. La moyenne est (à facteur1/n près) un produit scalaire dans Rn :
yn = 〈y, 1n/n〉
cf. McKinney (2012) pour les statistiques avec python
Fondamentaux pour le Big Data c© Télécom ParisTech 6/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Médiane empirique
On ordonne les yi : y(1) ≤ y(2) ≤ . . . ≤ y(n)
Dé�ntion : Médiane (NON-UNIQUE !)
Medn(y) =
{ y(b n2 c)+y(b n2 c+1)2
Si n est pair
y( n+12
) Si n est impair
Fondamentaux pour le Big Data c© Télécom ParisTech 7/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Moyenne vs médiane
I Les deux statistiques ne coïncident pas
I Une médiane est plus robuste aux points atypiques (enanglais : outliers)
Fondamentaux pour le Big Data c© Télécom ParisTech 8/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Dispersion
Variance empirique
varn(y) =1
n
n∑i=1
(yi − yn)2 =1
n‖y − yn1n‖
2
Écart-type empirique
sn(y) =√varn(y) ( =
1√n‖y − yn1n‖ )
Fondamentaux pour le Big Data c© Télécom ParisTech 9/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Dispersion
Mean Absolute deviationDéviation médiane absolue :
MADn(y) = Med (|Med(y)− y|) ,
Fondamentaux pour le Big Data c© Télécom ParisTech 10/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Histogramme
Répartition des données dans des � cases �L'aire de chaque case est proportionnelle à la fraction desdonnées qui � tombent � dans la case.
L'histogramme est une approximation de la densité de y
Fondamentaux pour le Big Data c© Télécom ParisTech 11/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fonction de répartition empirique
I Rappel : Fonction de répartition : F (u) = PY (−∞, u]
I Version empirique : proportion des données en-dessous de u
Fn(u) =1
n
n∑i=1
1{yi≤u}
Fondamentaux pour le Big Data c© Télécom ParisTech 12/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Quantiles empiriques
I Inverse de la fonction de répartition empirique.
I Soit due le nombre entier tel que due − 1 < u ≤ due.
Quantiles empiriques
quantile d'ordre p = y(dnpe) = F←n (p) (p ∈ [0, 1])
Fondamentaux pour le Big Data c© Télécom ParisTech 13/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Covariance et corrélation empirique
Covariance empirique
Pour deux échantillons x1:n et y1:n de moyennes et variancesempiriques x = xn, y = yn et varn(x), varn(y) :
covn(x , y) =1
n
n∑i=1
(xi − xn)(yi − yn) c'est-à-dire
covn(x , y) =1
n〈x1:n − xn1n, y1:n − yn1n〉
Corrélation empirique
ρ = corrn(x , y) =covn(x , y)√
varn(x)√
varn(y), c'est-à-dire
ρ =〈x1:n − xn1n, y1:n − yn1n〉‖x − xn‖ ‖y − yn‖
= cos(x1:n − xn1n, y1:n − yn1n)
Fondamentaux pour le Big Data c© Télécom ParisTech 14/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Interprétation pour n = 3 et ‖x‖ = ‖y‖ = 1
Fondamentaux pour le Big Data c© Télécom ParisTech 15/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Exemples de corrélations
Fondamentaux pour le Big Data c© Télécom ParisTech 16/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Exemples de corrélations proches de zéros
Fondamentaux pour le Big Data c© Télécom ParisTech 17/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Exemples de corrélations proches de zéros
Fondamentaux pour le Big Data c© Télécom ParisTech 17/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Exemples de corrélations proches de zéros
Fondamentaux pour le Big Data c© Télécom ParisTech 17/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Exemples de visualisation
Fondamentaux pour le Big Data c© Télécom ParisTech 18/19
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Références I
W. McKinney.
Python for Data Analysis : Data Wrangling with Pandas, NumPy, and
IPython.
O'Reilly Media, 2012.
Fondamentaux pour le Big Data c© Télécom ParisTech 19/19