Upload
amedee-jacquin
View
106
Download
3
Embed Size (px)
Citation preview
Le modèle linéaire et l'approche multivariée en statistique
I Le modèle linéaire
II Approche multivariée en statistique
III Utilisation
IV Rapprochements
A la base du modèle linéaire : la comparaison de moyennes
Population 2Population 1
M1, M2, 2
Ech
antil
lonn
age
m1,s m2,s
Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes
Construction du test
On suppose que X1N(M1,) X2 N(M2,)
Test de Student
On en déduit (propriété de variables suivant des lois normales indépendantes) que
11 2
1
22 2
2
21
mM t
sn
mM
sn
La comparaison de moyennes, vision intuitive
M1=M2M1≠M2
Dis
trib
utio
n A
Dis
trib
utio
n B
B≠A
Que conclure?
Les statistiques univariées = statistiques paramétriques
On fait des hypothèses sur les lois statistiques des variables mesurées
Il faut vérifier ces hypothèses avant de construire les tests
Il existe des tests non-paramétriques, moins puissants, moins souples
Il existe parfois des solutions (transformation des variables)
Le modèle linéaire
1,1 1,1
,
,
1
1 ,
1.
. . ..
. .
. . ..
.
.
.
..
m
i ji
n n mn
ii
n n
e
e
e
p
p
x xy
x
x p
y
xy
.Y EX P
Variableexpliquée
Variables/facteursexplicatifs Paramètres Erreur
n ob
serv
atio
ns
Prediction?
Exemple : régression à deux variables
1,1 2,11
1, 2,
1, 2
1
1
,
2
1
. . .
.
.
1
. ..
1
i
n
i ii
n nn
x xy
x
e
e
e
a
axy
xy
c
x
.Y EX P
Variableexpliquée
Variables/facteursexplicatifs Paramètres Erreur
22,11,i i iiy x xa a c e
n ob
serv
atio
ns
Les hypothèses du modèle linéaire
Les erreurs, ei, sont des variables aléatoires
Les ei sont indépendants
Les ei suivent des lois normales
Les ei ont des espérances nulles
Les ei ont une variance commune 2
ei ,ei N (0, 2) et les ei sont indépendants
Estimation des paramètres
Trt 1 Trt 2 Trt 3
Régression ANOVA
Observées Prédites Erreurs
Pour déterminer les paramètres du modèle on cherche à minimiser la somme des carrés des erreurs Pourquoi utiliser les carrés?
Quels sont les paramètres sur ces figures?
Estimation des paramètres
L'existence et la multiplicité des solutions dépendent des propriétés algébriques de X
Rang de X et nombre de paramètres
Il existe une formule générale basée sur l'expression matricielle du problème
1. .t tX XP X Y
Tests
Trt 1 Trt 2 Trt 3
Le traitement a un effet significatif si la variabilité due au traitement est suffisamment élevée par rapport à la variabilité résiduelle
variabilité inter Trt
variabilité intra Trt
2 2
trt trt/ (dl mod,dl res)
dl modèle dl résiduelindiv indivtrt trt
y y
Fy y
Sous H0
Notion de degré de liberté ANOVA un facteur, 3 modalités
Degré de liberté total = nb observations-1 = 5+4+4-1=12
Degré de liberté résiduel = dl total – dl modèle=10
Degré de liberté pour le modèle = nb de paramètres à estimer-1 = 3 -1 =2
Trt 1 Trt 2 Trt 3
,i tr rt it tyy e 5 4
4
Degré de liberté
Plus on estime de paramètres plus la variabilité intra (expliquée) augmente / variabilité inter (résiduelle)
2 2
trt trt/ (dl mod,dl res)
dl modèle dl résiduelindiv indivtrt trt
y y
Fy y
A l'extrême si on estime autant de paramètres que d'observation le modèle explique toute la variabilité mais le trt ne peux plus être significatif parce qu'on divise par le dl modèle Attention au sur-paramétrage, importance du nombre de répétitions
PAS DE PANIQUE!!!
Un exemple de sortie : analyse de la densité apparente du sol des pâturages amazoniens
ATTENTION!!!!!!!!!!!
Prévoir le bon dispositif expérimental
Utiliser/prévoir le bon modèle statistique
ANOVA : variable continue = f(facteur discret)
Trt 1 Trt 2 Trt 3
, ittrt ti ra by e Un facteur
1 2, trti trt trt ia b cy e Deux facteurs ....
Supposons le trt1 ayant un effet significatif Quelle information manque-t-il?
Comparaison multiple de moyenne
Décomposition à volonté de la variance
Comparaison de moyenne multiple
Conclusion:C, FM > FP
La notion d'interactionEngrais 1 Engrais 2
Her
bici
de 1
Her
bici
de 2
,
,
engrais
herbicide
engrais
i
h
trt
erbic
i
ide
y a
e
b
c
d
2-1
2-1
2x2-1
total=5
DL
Ecriture conventionnelle du modèle production = engrais herbicide engrais X herbicide
Problème avec cette représentation du plan d'expérience
Régression : variable continue =f(variable continue)
i i ieay x b
2i ii ia b ey x x c
i i ieay f x c
ANCOVA : Analyse de Covariancevariable continue = f(facteur discret,variable continue)
trt trt ii i iy x b xa a b e
Exemple: effet de vers de terre sur la biomasse végétale Ecriture conventionnelle du modèle production = engrais vers engrais X vers
Modèles plus compliqués
Il existe des modèles adaptés à tous les plans d'expérience
Exemple de l'ANOVA hiérarchiséeParcelle 1
SOL 1
Parcelle 4 Parcelle 6 Parcelle 5
Parcelle 3 Parcelle 2
SOL 2
Ecriture du modèle densité = sol parcelle X sol
,sol soli parcelle iy b ea
Le modèle linéaire généralisé
Quel type de variable expliquée n'a pas été traité?
Variable qualitative!!
Pourquoi ne pas utiliser un modèle linéaire classique?
Les résidus ne peuvent pas suivre une loi normale La variance des résidus ne peut être constante
0 ou 1 avec i i i i iy y y xa b e Variable binaire
( ) ii if y xa eb Formulation générale
f : fonction de lienei suivent une distribution adhoc
Estimation et tests
Estimation basée par maximisation de la vraisemblancepar itérations successives
Tests basés sur le chi2
La régression logistique : distribution binomialeprobabilité =logistique(variable continue)
Variable explicative = x
Var
iabl
e qu
alita
tive
Variable explicative= x
Var
iabl
e qu
alita
tive
ln1
p
pax b
( )
1
1ax bp
e
Autres possibilités Plus d'une modalité Plusieurs variables explicatives
0
1
Analyse logit des tableaux de contingence: distribution binomialeOn échantillonne des individus qui sont classés en fonction de plusieurs facteurs discrets Comment ces variables influencent-elles la quantité d'individus trouvés?
1, 2, 3
1 2 3 1, 2
1, 2, 31, 2, 3
2, 3
ln logit( )1
f f ff f f
f f f
f
f
f
f f
f
fa b c dc
P
b
p
p
"Analyse de variance" pour variables discrètes
On peut combiner les variables explicatives discrètes et continues
Attalea speciosa Mart. : Babaçu
Exemple : effet du sexe, du nb de feuille et du milieu sur la maturité sexuelle d'un palmier (Barot et al. 2005)
Résultats
I Le modèle linéaire
II Approche multivariée en statistique
III Utilisation
IV Rapprochements
Statistique exploratoire multidimensionnelleLebart et al. Dunod 2000 3ième édition
Type de données
Exemples?
Relevés faune/flore
Caractérisationd'espèces
Caractérisationdu milieu physique
D'abord un problème de représentation
3 dimensions
n dimensions?
Initialement deux approches
Résumer un jeu de données compliqués
Comment choisir les axes de projections?
Classer des observations : Classification hiérarchique
On regroupe 2 à 2 les observations et les groupes d'observations
Problèmes?
2 dimensions à n dimension
Position des groupes d'observations
Nombre de groupes final
Analyse en Composantes Principales : variables continues
Calcul de distance (p variables)
'2 ' 2
, ,1
, ( )p
i j i jj
d i i x x
i
i'
On choisit F1 de façon à maximiser
21
1 ' 1
( ')p p
Hi i
d i i
F1
F2Puis F2 ...
Analyse en Composantes Principales : variables continues
Obs 1
Obs 2
Obs 3
Obs 4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
V1 V2 V3 . . . .
0.5
0.9
1.9
1.2
0.1
0.4
1.1
0.3
0.5
1.9
1.1
1.9
Projections dans les plans factoriels (nouveau repère)
F1
F2
F3
F1
F2 F1
F3X1
X2
X3
Le cercle des corrélations
Projections des axes initiaux (variables observées)
F1
F2
F3
F1
F2
X1
X2
X3
X1X3
X3 X4
Passer d'une représentation à l'autre
Choix du nombre d'axes factoriel
Axes factoriels
Iner
tie
Iner
tie
Axes factoriels
Axes factoriels
Iner
tie
Analyse Factorielle des Correspondances : variables discrète
Obs 1
Obs 2
Obs 3
Obs 4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
V1 V2 V3 . . . .
0
0
1
1
1
0
1
0
0
1
1
0
Les colonnes et les lignes jouent un rôle symétrique!
Analyse Factorielle des Correspondances : variables discrète
Utilisation de la distance du chi2
Projection des variables et des observation dans le même espaces
F1
F2
+V1
+V2
+V3
+V4Observations
Analyse discriminante
F1
X1
X2
X3
On cherche la combinaison linéaire des variables continues observées qui "discriminent" le mieux les observations en fonction d'un critère discret
Ex : Détermination "automatique" d'espèces
Analyse multi-tableau
Recherche d'une structure commune,Analyse de coinertie
Relevés d'espècesTraits des espèces
Caractéristiques environnementales
I Le modèle linéaire
II Approche multivariée en statistique
III Utilisation
IV Rapprochements
Modèle linéaire
Statistiques multivariées
Tests Statistiques paramétriques Modèles adaptés pour chaque plan d'expérience / d'échantillonnage Séparation des sources de variance à volonté
Pas de tests, statistiques descriptives Statistiques non paramétriques Tient peu compte du plan d'expérience Indispensable pour des données fondamentalement multivariées
Modèle linéaire
Statistiques multivariées
Parfaitement adapté à la méthode expérimentale Tests planifiés d'hypothèses simples On connaît a priori les facteurs clefs
Méthodes exploratoires On connaît mal le système étudié
La réalité est fondamentalement multivariée!!!!
I Le modèle linéaire
II Approche multivariée en statistique
III Utilisation
IV Rapprochements
Le mutltivarié et le modèle linéaire on tendance à
converger
ANOVA après une analyse multivariée
On effectue une expérience On mesure de nombreuses variables dans chaque unités expérimentales On ne sait pas a priori quelle est la variable la plus sensible aux différents traitements ni comment les variables covarient
On effectue une Analyse en Composantes Principales sur l'ensemble de variables
On applique un modèle linéaire classique aux coordonnés suivant les premiers axes factoriels
MANOVA : Analyse de Variance Multivariée
On applique le même modèle d'ANOVA à toutes les variables mesurées Il existe un test composite testant l'effet global des facteurs inclus dans l'ANOVA sur l'ensemble des variables
Tests par randomisation
Test de permutationOn souhaite faire une ANOVA mais la variable ne vérifie pas les hypothèses (normalité, égalité des variance)
Rééchantillonnage
Variab
le
Traitement
0.4
0.8
0.6
0.4
0.3
A
B
A
B
A...
.
.
.
Permutations aléatoires
Fré
que
nce
F
ANOVA X 1000
1000 valeur de F
5 %
F observé
Tests de permutation en analyse multivariée
F1
X1
X2
X3
F1
X1
X2
X3
Variables Traitement
0.4
0.8
0.6
0.4
0.3
A
B
A
B
A
0.4
0.8
0.6
0.4
0.3
.
.
.
.
.
...
.
.
1000 Permutations aléatoires
On regarde dans quel cas la somme des "inerties" par traitement est la plus faible
Observé Permuté
Experience: augmenter la biodiversité dans les pâturages amazoniens
Experience: augementer la biodiversité dans les pâturages amazoniens
S: Solanum rugosum
A: Arachis pintoi
L: Leucaena leucocephala
B: Brachiaria brizanthapasture Poaceae
Herbacée
Ligneuse
Légumineuse
Dsispositif expérimental Toutes combinaisons de 1, 2,3 ou 4 espèces
BLAS
C A LAS BA
BLA B LA
BASSBLLS
L AS BS BLS
C
: 17 parcelles, 10 X 10 m chacune
BétailPas de bétail
Dispositif répété 3 fois, dans 3 pâturages Plusieurs répétitions pour toutes les variables mesurées dans chaque parcelle : macrofaune, sol ...
LA
BL
AS
BA
LAS
T
LSBLS
BAS
BLAS
BLAS
BL
A
BSTe
-3.8
3.5-6.5 2.3
Traitements
P<0.01
ter
for
ver
chi
collar
ara
dip
div
hemiso
gas
ort
C
J
L
-3.5
3.5-6.5 2.2
Pâturages
P< 0.01
2
3T
1
4
-3.3
3-6 1.8
P<0.13
Biodiversité
Possibilité de faire des statistiques univariées sur les mêmes données?
Intérêt de faire des statistiques univariées?