35
Introduction Th´ eorie Exemple Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER ——————— Laboratoire de Biostatistique et Informatique M´ edicale Fac. de M´ edecine de Strasbourg ——————— Mars 2011

Analyse de la variance Comparaison de plusieurs …udsmed.u-strasbg.fr/labiostat/IMG/pdf/ANOVA.pdf · comparer l’expression d’un g ene entre 4 stades de cancer ... ij la valeur

  • Upload
    letruc

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Introduction Theorie Exemple

Analyse de la varianceComparaison de plusieurs moyennes

Biostatistique

Pr. Nicolas MEYER

———————Laboratoire de Biostatistique et Informatique Medicale

Fac. de Medecine de Strasbourg———————

Mars 2011

Introduction Theorie Exemple

Plan

1 Introduction

2 Theorie de l’Analyse de la Variance (ANOVA)

3 Application de l’ANOVA

Introduction Theorie Exemple

Plan

1 Introduction

2 Theorie de l’Analyse de la Variance (ANOVA)

3 Application de l’ANOVA

Introduction Theorie Exemple

Contexte

Precedemment :

Comparaison d’une moyenne a une moyenne de reference

comparaison de deux moyennes observee

par test z ou tQuid des cas ou il y a plusieurs moyennes ?

comparer l’effet de trois traitements A, B et C sur lacholesterolemie

comparer l’expression d’un gene entre 4 stades de cancer

comparer la duree de sejour entre 3 etablissements hospitaliersou plusieurs techniques operatoires

comparer une proteine serique entre tabagiques actifs, ancienstabagiques et non tabagiques

Introduction Theorie Exemple

Contexte

• Soit un facteur F a J classes, de j = 1, . . . , J→ traitement, stades de cancer, hopitaux, techn. chir.

• Soit une variable aleatoire X→ cholesterolemie, niveau d’expression du gene, duree de sejours,

• Comparaison des J moyennes µj

• La question : existe-t-il au moins un groupe qui differe desautres ?

• µ0 = µ1 = · · · = µJ ?

• ou µj 6= µj ′ pour au moins un couple (j , j ′) ?

Introduction Theorie Exemple

Contexte

Donc, comparaison de differents groupes independants

• une mauvaise solution : comparaisons deux a deux entre lesgroupes car :

augmentation du risque α :

si 4 groupes → 6 comparaisons de deux groupesrisque de conclure a tort a au moins une difference= 1− 0,956 = 0,265 au lieu de 0,05

mauvaise estimation de la variance sous H0

si H0 vraie, la meilleure estimation de la variance commune estfaite sur l’ensemble des groupes simultanement

Introduction Theorie Exemple

Plan

1 Introduction

2 Theorie de l’Analyse de la Variance (ANOVA)

3 Application de l’ANOVA

Introduction Theorie Exemple

Theoreme fondamental de la Variance

Les elements de base : soient

une V.A. X , continue, distribuee suivant une loi de Gauss

un facteur F constitue de J groupes avec nj sujets pargroupe et N le nombre total de sujets

xij la valeur de la mesure pour le sujet i du groupe jµ la moyenne generale inconnue (popo) des valeurs de Xµj la moyenne inconnue (popo) des valeurs de X dans legroupe jαj l’ecart entre la moyenne µj du groupe j et la moyennegenerale µ : αj = µj − µxj la moyenne observee dans le groupe j → aj = xj − xun residu εij = xij − µj estime par eij

Introduction Theorie Exemple

Theoreme fondamental de la Variance

Le modele theorique decrivant les donnees est :

xij = µ+ αj + εij

le test de comparaison de moyennes implique sous H0 que lesαj = 0, ∀j .

dans ce cas, le facteur F n’a pas d’effet sur la variable Xsous H1, αj 6= 0 pour au moins un j : alors, le facteur F a uneffet non nul sur la valeur de Xdonnees gaussiennes, sinon realiser une transformation desvaleurs pour normaliser les valeurs

Introduction Theorie Exemple

Decomposition de la variation totale

A partir du modele fondamental :

xij = µ+ αj + εijxij = x + aj + eij pour les valeurs observees

xij − x = (xj − x ) + (xij − xj )

ou (xij − xj ) est un residu eij estimant εij

= modele observe de l’ANOVA, pour un sujet i dans le groupe j .

→ les ecarts entre les observations individuelles et la moyennegenerale sont constitues des ecarts des observations individuelles ala moyenne des groupes et des ecarts de la moyenne des groupes ala moyenne generale.

Introduction Theorie Exemple

Decomposition de la variation totale

Passage d’une unite statistique a l’ensemble des unites :

xij − x = (xj − x ) + (xij − xj )

En elevant au carre et en sommant sur toutes les unites :

nj∑i=1

J∑j=1

(xij − x )2 =nj∑i=1

J∑j=1

(xj − x )2 +nj∑i=1

J∑j=1

(xij − xj )2

soit :

nj∑i=1

J∑j=1

(xij − x )2 =J∑

j=1

[nj (xj − x )2] +nj∑i=1

J∑j=1

(xij − xj )2

Introduction Theorie Exemple

Decomposition de la variation totale

L’equation fondamentale de la variance

nj∑i=1

J∑j=1

(xij − x )2 =J∑

j=1

[nj (xj − x )2] +nj∑i=1

J∑j=1

(xij − xj )2

1 2 3

Cette equation contient plusieurs sources de variations :

une variation totale 1

une variation factorielle i.e. liee au facteur controle 2

une variation residuelle i.e. entre unites statistiques danschacun des groupes 3

Introduction Theorie Exemple

Decomposition de la variation totale

Les moyennes ne different pas : la variabilite inter-groupes estproche de la variabilite intra-groupe

Introduction Theorie Exemple

Decomposition de la variation totale

Les moyennes different : la variabilite inter-groupes est superieure ala variabilite intra-groupe

Introduction Theorie Exemple

Decomposition de la variation totale

Remarque

L’equation ne contient pas de double produit car la somme desdoubles produits est nulle en raison de la nullite de la somme desecarts par rapport a la moyenne

En effet :

2nj∑i=1

J∑j=1

(xij − xj )(xj − x ) = 2nj∑i=1

(xj − x )J∑

j=1

(xij − xj )

= 0

Introduction Theorie Exemple

Decomposition de la variation totale

L’equation fondamentale de la variance

nj∑i=1

J∑j=1

(xij − x )2 =J∑

j=1

[nj (xj − x )2] +nj∑i=1

J∑j=1

(xij − xj )2

1 2 3

Cette equation contient plusieurs sources de variations :

une variation totale 1

une variation factorielle ou liee au facteur controle 2

une variation residuelle = i.e. entre unites statistiques danschacun des groupes 3

Introduction Theorie Exemple

Les sources de variations

Donc :

variation totale = Somme des Carres Totaux (SCET )

=nj∑i=1

J∑j=1

(xij − x )2

variation factorielle = Somme des Carres Factoriels (SCEF )

=J∑

j=1

[nj (xj − x )2]

variation residuelle = Somme des Carres Residuels (SCER)

=nj∑i=1

J∑j=1

(xij − xj )2

Introduction Theorie Exemple

Les sources de variations

On a alors :

SCET = SCEF + SCER

On y associe des degres de libertes :

N − 1 = (J − 1) + (N − J )

Introduction Theorie Exemple

Definition des carres moyens

• Les sommes des carres des ecarts peuvent etre divisees par leurnombres de degre de liberte respectifs

• on obtient alors :

CMT = SCET/(N − 1)

CMF = SCEF/(J − 1)

CMR = SCER/(N − J )

Ces carres moyens ont les proprietes de variances, notamment ence qui concernent leur distribution d’echantillonage.

Introduction Theorie Exemple

Le tableau d’analyse de la variance : premiere partie

Les donnees d’une analyse de la variance sont generalementpresentees dans un tableau de la forme suivante :

Sources Degres Sommes des Carresde variation de liberte carres des ecarts moyens

diff. entre groupes J-1 SCEF CMF

diff. entre unites N-J SCER CMR

(dans les groupes)(= residuelle)

Total N-1 SCET

Introduction Theorie Exemple

Les tests statistiques associes

Comment tester l’ecart entre les moyennes a partir de ceselements ?

plusieurs moyennes et un test, H0 vs H1

des sommes de carres d’ecarts

et leur distributions d’echantillonnage

La solution :

les sommes de carres d’ecart sont assimilables a des variances.

sous H0, les CMF et la CMR sont deux estimationsdifferentes d’une meme (( variance ))

leur rapport est donc egal a 1 sous H0

leur comparaison se fait par leur rapport CMF/CMR

si le rapport est trop grand, on rejette l’hypothese d’egalitedes moyennes

Introduction Theorie Exemple

Les tests statistiques associes

• le rapport CMF/CMR est un rapport de variance, i.e. variancefactorielle / variance residuelle (rappel : le terme de variance estabusif mais utilise partout et donc aussi ici, a partir de maintenant)

• un rapport de variances suit une loi de Fisher F

• donc pour tester l’ecart de plusieurs moyennes : test de Fisher

CMF

CMR→ FJ−1;N−J

• ce qui permet donc de tester les ecarts entre plusieurs moyennessimultanement !

Introduction Theorie Exemple

Le tableau d’analyse de la variance : premiere partie

Le tableau complet d’une ANOVA :

Sourcesde varia-tion

Degres deliberte

Sommesdes carresdes ecarts

Carresmoyens

Test F p-valeur

diff. entregroupes

J − 1 SCEF CMFCMF

CMRp

diff. entreunites

N − J SCER CMR

(residuelle)

Total N − 1 SCET

Introduction Theorie Exemple

Retour sur le concept de l’ANOVA

Plusieurs points :

si plus de deux moyennes : ne pas faire de comparaisons deuxa deux

car estimation commune des variances sur plusieurs groupessous H0

l’eqo . fondamentale de l’ANOVA : somme d’ecartinter-groupes et d’ecarts intra-groupes

si pas de difference, la variabilite inter-groupes ≈ variabiliteintra-groupes

si l’un au moins des groupes s’eloigne des autres : l’ecart desmoyennes (inter-groupes) est superieur a l’ecart intra groupes

Introduction Theorie Exemple

Retour sur le concept de l’ANOVA

Les moyennes ne different pas : la variabilite inter-groupes estproche de la variabilite intra-groupe

Introduction Theorie Exemple

Retour sur le concept de l’ANOVA

Les moyennes different : la variabilite inter-groupes est superieure ala variabilite intra-groupe

Introduction Theorie Exemple

Retour sur le concept de l’ANOVA

on compare donc plusieurs variablesen comparant des variances !

cette comparaison ⇒ test F de Fisher (ou Fisher-Snedecor)(ne pas confondre avec test exact de Fisher)

test de rapport de variances, avec des ddl.

si le rapport CMF/CMR est superieur a la valeur seuil de laloi de F pour J − 1 et N − J ddl, on rejette H0.

Introduction Theorie Exemple

Les calculs de l’ANOVA

• Calculs des moyennes : xj = 1nj

∑i xij

• Soit Tj =∑

i xij la somme des xij dans le groupe j

• Soit T 2j = (

∑i xij )2 le carre de la somme des xij dans le groupe

j

• Calcul des carres moyens :

CMF =

∑j

T2j

nj− (

∑j Tj )2

N

J − 1

CMR =

∑x 2ij −

∑j

T2j

nj

N − J

Introduction Theorie Exemple

Plan

1 Introduction

2 Theorie de l’Analyse de la Variance (ANOVA)

3 Application de l’ANOVA

Introduction Theorie Exemple

Exemple

On veut etudier l’effet de deux medicaments sur le taux delymphocytes d’animaux de laboratoires. On construit un planfactoriel dans lequel il y a trois groupes d’animaux d’effectifs 10animaux par groupe. On garde un des groupes comme temoin etl’on administre les medicaments A et B aux deux autres groupes.

Introduction Theorie Exemple

Exemples

Valeurs observees (103) :

Groupe temoin : 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ;260 ; 478 ;

Groupe traite par A : 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ;255 ; 528 ;

Groupe traite par B : 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ;275 ; 401 ;

Les donnees correspondent au modele d’ANOVA : une variable degroupe, une variable continue dont on veut comparer les moyennes

Introduction Theorie Exemple

Exemple

Descriptif des donnees :

$Descriptif

leuco groupes = 1 groupes = 2 groupes = 3

Effectifs presents 30.000 10.000 10.000 10.000

Proportions de presents 100.000 100.000 100.000 100.000

Effectifs manquants 0.000 0.000 0.000 0.000

Proportions de manquants 0.000 0.000 0.000 0.000

Moyenne 353.667 319.600 409.400 332.000

Ecart-type 87.787 90.546 98.423 41.042

Variance 7706.644 8198.489 9687.156 1684.444

Erreur standard (s.e.m) 16.302 28.633 31.124 12.979

Err. Std (basee sur l’ANOVA) NA 25.541 25.541 25.541

Introduction Theorie Exemple

Exemple

Les valeurs :

n1 = n2 = n3 = 10

x1 = 319.6, x2 = 409.4, x3 = 332.0

T1 = 3196, T2 = 4094, T3 = 3320

T 21 = 31962, T 2

2 = 40942, T 23 = 33202

Introduction Theorie Exemple

Exemple

Resultats de l’analyse de la variance (logiciel R) :

summary(aov(leuco~groupes))

Df Sum Sq Mean Sq F value Pr(>F)groupes 2 47362 23680.9 3.6302 0.04015 *Residuals 27 176131 6523.4---Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Introduction Theorie Exemple

SCE : SCEt = SCEA + SCEe

ddl : (30-1) = (3-1) + (30-3)

Valeurs : 223492,7 = 47361,9 + 176130,8

Carres Moyens : CMA = 47361,9/2 = 23680,9CM_R = 176130,8/27 = 6523,4

Rapport et test(CMA / CMe ) = 23680,9 / 6523,4

= 3,63 --> F calcule

Valeur seuil F a 2 et 27 ddl = 3,354

Fobs < Fseuil d’ou la conclusion : on rejette H0 et au moins un desgroupes a une moyenne differente des deux autres groupes.