Chapitre I : Les mthodes statistiques danalyse de donnes
Trois grandes classes de mthodes statistiques sont utilises :
(i) Les mthodes explicatives ;
1
(i) Les mthodes explicatives ;
(ii) Les mthodes descriptives ;
(iii) Les mthodes de prvision.
I. Les mthodes explicatives
Dans les mthodes explicatives, on cherche relier une variable expliquer Y un ensemble de variables explicativesX , , X .
2
X1, , Xk.
Pour cela, on dispose dun tableau individusvariables, tableau dont les lignes reprsentent les valeurs des variables Y, X1, , Xk sur les diffrents individus tudis.
suite I. Les mthodes
explicatives
Il sagit dajuster sur les donnes disponibles le modle :
Y = f(X1, , Xk) + Rsidu o f est le plus souvent, mais pas
3
o f est le plus souvent, mais pas toujours, une fonction linaire, et de quantifier la fiabilit de la prvision de Y partir des X1, , Xk.
Les mthodes statistiques utiliser dpendent de la nature quantitative ou qualitative des variables.
suite I. Les mthodes
explicatives
Variable
expliquer
Variables explicatives
X1, , Xk
Tableau 1
Les mthodes explicatives
4
expliquer
Y
X1, , Xk
Quantitatives Qualitatives Mlange
Quantitative
Qualitative
Rgression simple (k=1)
Rgression multiple (k>1)
Analyse de la varianceAnalyse de la
covariance
Analyse discriminante
Rgression logistiqueModle linaire gnralis
II. Les mthodes descriptives
Les mthodes descriptives sappliquent aux tableaux individusvariables o toutes les variables jouent le mme rle.
Il ny a pas de variable expliquer Y.
5
Il ny a pas de variable expliquer Y.
Il sagit donc de rsumer, de voir , de comprendre le tableau de donnes[X1,,Xk].
Ainsi, lobjectif des mthodes descriptivesest de visualiser et classer les donnes.
suite II. Les mthodes
descriptives
X1 X2 X3 X4
Axe 2
2X3
.4
Figure 1 Mthodes descriptives
6
1
2
3
4
5
Tableau
individus
variables
Axe 1
X1
X2
1
2
5
X4
.3
suite II. Les mthodes
descriptives
La visualisation des donnes consiste associer au tableau IndividusVariablesune carte des individus (les points de la figure 1), et des variables (les flches de
7
figure 1), et des variables (les flches de la figure 1) de telle sorte :
suite II. Les mthodes
descriptives
La position des individus sur la carte traduit des ressemblances entre les individus. Par exemple les individus 1 et
mais
8
2 se ressemblent, mais sont trs diffrents de lindividu 3.
suite II. Les mthodes
descriptives
La position des variables sur la cartereflte les corrlations entre les variables: les variables X1 et X2 sont fortement corrles positivement, les variables X
9
corrles positivement, les variables X3et X4 sont corrles ngativement, et les variables X1, X2 sont faiblement corrles aux variables X3, X4.
suite II. Les mthodes
descriptives
Les projections des individus sur les axes variables refltent les valeurs des variables sur les individus :
Les individus 1 et 2 sont forts sur X , X ,
10
Les individus 1 et 2 sont forts sur X1, X2, alors que lindividu 3 est faible sur ces mmes variables ; lindividu 4 est moyensur X3, mais faible sur X4 et cest le contraire pour lindividu 5.
suite II. Les mthodes
descriptives
Les mthodes de visualisation dpendent de la nature des variables et sont prsentes dans le tableau 2 :
11
suite II. Les mthodes
descriptives
Nature des variables X1, , Xk
Tableau 2
Mthodes descriptives : Mthodes de visualisation
12
Nature des variables X1, , Xk
Quantitatives
Analyse en
composantes
principales (ACP)
Qualitatives
k=2
Analyse
factorielle
des
correspondances (AFC)
k>2
Analyse factorielle
des
correspondances
multiples (AFCM)
suite II. Les mthodes
descriptives
Par ailleurs, les mthodes de classificationont pour objectif de former des classes dindividus et de variables de telle sorte que :
13
que :
suite II. Les mthodes
descriptives
des individus appartenant une mme classe sont proches et des individus appartenant des classes distinctes sont loignes ;
14
loignes ;
des variables appartenant une mme classe sont corrles entre elles, et des variables appartenant des classes distinctes sont faiblement corrles entre elles.
suite II. Les mthodes
descriptives
Sur la figure 1, nous avons form une typologie des individus en deux classes{1,2,5} et {3,4}, et il apparat une typologie des variables en deux classes
15
typologie des variables en deux classes
{X1,X2} et {X3,X4}.
suite II. Les mthodes
descriptives
Les mthodes de classification les plus utilises en gestion sont :
La classification ascendante hirarchique ;
16
hirarchique ;
Les nues dynamiques (nombre dindividus lev).
suite II. Les mthodes
descriptives
Les mthodes descriptives (mthodes de visualisation et mthodes de classification) correspondent ce quon
appelle en France lanalyse de donnes.
17
appelle en France lanalyse de donnes.
III. Les mthodes de prvision
Cette troisime classe de mthodes concerne lanalyse et la prvisiondune srie chronologique.
18
dune srie chronologique.
La description dune srie chronologique consiste rechercher une tendance, ventuellement une composante saisonnire, et identifier les valeurs extrmes.
suite III. Les mthodes de
prvision
La tendance est une courbe lisse passant au milieu des donnes. Elle est le plus souvent dtermine par
19
est le plus souvent dtermine par des mthodes de moyenne mobile, mais on peut aussi utiliser un lissage polynomial ou un lissage robuste bas sur la mdiane mobile.
suite III. Les mthodes de
prvision
Une srie chronologique peut tre dcompose en une tendance Tt, une composante saisonnire St, et
20
une composante saisonnire St, et des rsidus Rt laide dun modle multiplicatif Xt=TtStRt .
suite III. Les mthodes de
prvision
La prvision repose sur la construction dun modle reliant la prsent au pass :
21
prsent au pass :
Xt=f(Xt-1,Xt-2, ...)+Bruit.