Upload
peter-kabore
View
293
Download
0
Embed Size (px)
Citation preview
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 1/28
Réseau et sécurité informatique 3Base de données 3Programmation avancée 3Intelligence artificielle 3
Système d'exploitation avancé 3Génie logiciel 3Analyse numérique 2Analyse financière 2Analyse de données 2Comptabilité analytique d'exploitation 2Économie générale 2Droit informatique 1anglais 1
TIC JAVA
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 2/28
ANOVA et ACP: comparaison
Le principe de l'ACP est de rechercher les facteurs qui rendent le mieux compte desdonnées. Ils forment un système d'axes orthogonaux tel que la variance le long des
axes est maximale. Dans le cas de l'ANOVA, on simplifie les calculs en définissantsoi même les facteurs et ensuite on calcule la variance pour chaque facteur.Evidemment, en pratiquant de cette façon, on perd de l'information puisque l'on neconserve pas l'information sur la répartition des points, on dispose seulement desvaleurs des variances.
Cette similitude entre les deux méthodes se traduit par une distribution identique desvaleurs propres et des variances.
Présentation de la méthode ANOVA
Pour mieux comprendre ce qu'est une analyse de variance, prenons l'exemple d'un auteur qui
veut absolument conserver l'ensemble de ces résultats et les publier et un éditeur dont la principale préoccupation est de gâcher le moins possible de papier.
Prenons l'exemple d'un tableau de chiffres, la méthode ANOVA permet de trancher entre lesdeux protagonistes précédents, en résolvant le problème de savoir si cela vaut la peine degarder ce tableau de chiffres.
Dans ce contexte, il faut aussi savoir qu'un tableau de chiffre ne peut être publié que si l'on estcapable de le commenter. Si l'on considère le tableau de données initiales sur l'orge qui est à3D, il est clair que l'on ne sait pas le commenter. Une solution est de se limiter à 2D, endécomposant le tableau initial en sous tableaux de dimension inférieure.
Décomposition en sous tableaux
Le tableau de données initiales contient 60 données, avec un écart type de 27,5 qui montreque toutes les cases ne sont pas homogènes ce qui mérite de regarder plus en détails les soustableaux. Par exemple, on peut construire la tableau lignée x lieu comme ci-dessous:
Lignée
1 2 3 4 5 6Total1
Manchuria
161,7
247,0
185,4
218,7
165,3
154,6
1132,7
Svan
sota
187,
7
25
7,5
18
2,4
18
3,3
138,
9
143,
8
1093,
6
Velvet
200,1
262,9
194,9
220,2
165,8
146,3
1190,2
Trebi196,9
339,2
271,2
266,3
151,2
193,6
1418,4
Peatland
182,5
253,8
219,2
200,5
184,4
190,1
1230,5
Total2 928, 1360, 1053, 1089, 805, 828,
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 3/28
9 4 1 0 6 4
Le premier commentaire que l'on peut faire sur ce tableau en regardant les sommes des ligneset des colonnes (total1 et total2), c'est que toutes les lignées n'ont pas le même rendement etque selon les lieux les rendements diffèrent aussi.
Le second commentaire concerne la distribution des données. Si elle est homogène, lestableaux 1D suffisent et les seules informations pertinentes à conserver pour l'éditeur, ce sontles deux tableaux Total1 et Total2.
Par contre, si cela est hétérogène, c'est à dire que certaines lignées sont meilleures sur certainslieux, comment quantifier cette information 2D ?
C'est là qu'intervient la méthode ANOVA proposée par Fisher ( Mather K. - Analysestatistique en biologie . ACTA Editions GAUTHIER-VILLARS , PARIS 1965). En effet,Fisher a créé et proposé une mesure objective de cette information 2D, en plus desinformations contenues dans les tableaux 1D. Cette mesure permet de quantifier la partd'information contenue dans le tableau 2D, et de répondre ainsi si l'on revient à l'exemple dedépart à la question que se pose notre éditeur de savoir si oui ou non il doit publier l'intégralité
des résultats que lui présentent l'auteur ou si les tableaux 1D suffisent.
La méthode ANOVA
Le critère objectif qui nous intéresse est la variance dont la formule est la suivante:
Avec:
La variance correspond à une mesure de l'information moyenne contenue dans les données(moyenne car on divise la quantité d'information totale (SC) par le nombre de dégrés deliberté).
Il faut retenir aussi que dans un tableau de données:
SC total= SC lignes + SC colonnes + SC résiduel avec SC résiduel qui quantifie l'informationspécifique au tableau > 1D. Lorsque l'on recherche la variablité résiduelle, il suffit donc decalculer:
SC résiduel=SCtotal-SCcolonnes-SClignes.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 4/28
Les différentes situations
Sortons provisoirement de notre exemple sur l'orge sur lequel nous reviendrons, et intéressonsnous aux différents cas qui peuvent se présenter lorsque l'on analyse les sommes des carrésdes écarts (SC).
Dans le logiciel Excel, on bénéficie d'une fonction SOMME.CARRES.ECARTS() qui nous permet dans le fichier exemple d'observer les différents cas qui peuvent se présenter:
Notons tout d'abord que chaque case de tableaux contient la somme des carrés divisée par lenombre d'observations qui sont additionnéées.
cas1: SC résiduel = 0 (minimal), toute l'information est contenue dans les tableaux 1D,conserver les tableaux 2D n'apporte rien.
cas2: SCrésiduel = 12 (maximal), toute l'information est en 2D, l'information contenue dansles tableaux 1D est nulle.
cas3: SC résiduel >0, impossible de trancher entre le bruit (variabilité liée au hasard) ou à unvéritable effet biologique des facteurs entre eux.
La variabilité résiduelle calculée peut être due soit à un bruit de fond soit à un phénomène biologique (ce phénomène introduisant une intéraction entre les 2 facteurs). Pour trancher entre les 2, la seule solution est de repoduire l'expérience de nombreuses fois afin de vérifier si la variabilité se fait toujours dans le même sens. Si le biais se fait toujours de façonidentique, on pourra conclure que ce n'est pas lié au hasard.
On retiendra que chaque fois que l'on veut mettre en évidence une intéraction entre deuxfacteurs, il faut montrer que c'est reproductible donc refaire l'expérience X fois.
Le cas des données de Mather
Revenons maintenant sur l'analyse des données disponibles sur l'orge. Comme on l' a déjàexplicité, le tableau 3D étant inexploitable tel que, on décompose ce tableau en sous tableaux
de dimensions inférieurs. Dans le fichier Orge.xls, vous trouvez la description de tous lestableaux 2D et 1D que l'on peut construire à partir des données initiales.
Les différentes informations calculées à partir de ces tableaux 1D et 2D sont présentées ci-dessous:
ANOVA Carrés ddl Intéraction ddl Variance F p-value
Lignée 5310,0 4 5310,0 4 1327,5 9,5 0, 000175
Lieu 21 220,9 5 21 220,9 5 4244,2 30,5 0, 000000
Année 3798,5 1 3798,5 1 3798,5 27,3 0,000041
Lignée x Lieu 30 963,9 29 4433,0 20 221,7 1,6 0,153252
Lignée x Année 9400,3 9 291,8 4 73,0 0,5 1,00000Année x Lieu 31 913,3 11 6893,9 5 1378,8 9,9 0, 000070
Total 44 732,4 59 2784,2 20 139,2
Légende:
Carrés: somme des carrés des écarts à la moyenne (SC) totaux
ddl (degré de liberté): correspond au nombre de termes utilisés dans le calcul de SC -1.
Intéraction: somme des carrés des écarts à la moyenne résiduel (SC résiduel)
ddl: degré de liberté résiduel
Variance: variance résiduelle normalisée c'est à dire Intéraction (SC résiduel) / ddl résiduel Ce
critère donne une mesure de l'information moyenne contenue dans chaque cas du tableau.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 5/28
F: valeur de la variable de Fisher: cette mesure permet d'évaluer la part d'information dansnotre tableau de départ. Une petite explication s'impose.
L'information totale contenue dans les données initiales peut se décomposer en 3 termes:information 1D+ information 2D + information résiduelle 3D. Sachant que l'on a admis audépart que le tableau 3D de départ était inexploitable, alors par extrapolation on peut dire que
l'information résiduelle 3D est négligeable. Ainsi, pour tout autre tableau de dimensioninférieure, on pourra considérer qu'une information inférieure à cette information résiduelle3D est elle aussi négligeable.
La variable F correspond à la comparaison entre l'information en cours d'analyse etl'information résiduelle négligeable, ici information 3D.
F = variance que l'on analyse/ variance résiduelle 3D. Sur la base de la valeur de F, on va pouvoir prendre la décision de garder ou non une information.
Si F est inférieur à 1, cela veut dire que la variance étudiée est négligeable, donc on neconservera pas l'information concernée
Si F très supérieur à 1, cela veut dire que la variance étudiée est largement au dessus de ce quiest négligeable donc on conservera l'information concernée.
Si F proche de 1, on utilisera la loi de Fisher qui donne la probablité pour obtenir une tellevaleur par hasard (p-value). Le choix de conserver ou non notre information se fera alors sur la base de la p-value. Plus cette probabilité est faible, moins notre résultat est lié au hasard et
plus notre information est pertinente.
Nous allons voir dans la partie suivante comment utiliser le logiciel GeneANOVA dans cecontexte d'analyse de variance
Analyse de variance: utilisation de GeneANOVA
1- Utilisation de geneANOVA sur les données de Mather
Le fichier de données sur lequel nous travaillons est orge.txt.
Les différentes étapes pour réaliser une analyse de variance (ANOVA) avecgeneANOVA
- Création d'un design: c'est une nouveauté par rapport à l'ACP et cette étape estabsoluement indispensable pour indiquer au programme comment structurer lessous tableaux. Les données initiales sont vues comme un flot linéaire de chiffres etpour que l'analyse de variance puisse se faire correctement, il faut fournir lesinformations nécessaires à la création de tous les sous tableaux de dimensioninférieure.
Dans l'exemple des données sur l'orge, les différentes informations à fournir sont
résumées dans le fichier orge.design. Pour plus de détails pour un premier contactavec le logiciel, la création de ce design sur l'orge est présentée dans le fichier creation_design_orge.htm.
- Les résultats sont présentés et discutés dans le fichier resultat_anova_orge.htm.
2-Utilisation de GeneANOVA sur les données du transcriptome:
Précedemment, nous avons présenté le choix des données sur l'orge (travail deMather) par le fait que le tableau de données présentait la même structure logiqueque les données du transcriptome. Tout ce que nous venons de vous expliquer sur laméthode ANOVA va donc s'appliquer de ce fait au données du transcriptome.Concernant le choix du logiciel pour faire le travail, tous les calculs pourraient êtrefait dans Excel, mais nous avons à notre disposition GeneANOVA qui est totalementdédié à l'analyse du transcriptome, donc profitons en !!
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 6/28
Les données sur lesquelles nous allons travailler sont celles déjà utilisées pour laprésentation de l'ACP (voir plan_experience.htm) sur le métabolisme de laméthionine chez B. Subtilis.
Les différentes étapes pour faire une analyse de variance sur des données dutranscriptome:
- Pour les mêmes raisons que pour l'ACP, il faut préalablement traiter l'informationpar une transformation linéaire qui visent à centrer réduire les données.
- Création d'un design: vous le trouverez décrit en cliquant ici.
- Choix entre ANOVA globale et locale:
• ANOVA globale: dans notre exemple, on choisira un ordre d'intéraction de 3(cela correspond aux tableaux 3D). D' autre part, les seuls tableaux pertinentssont ceux qui contiennent le facteur gène.
• ANOVA locale: on pourra faire 4107 analyses de variance. Pour un gènedonné j (une ligne), on aura l'équation suivante:
○ SCtotale,j = SC soufre,j + SC jour,j +SC rna,j + SC double,j + SCrésiduel,j
- Les résultats obtenus sont présentés et discutés dans le fichier:resultat_anova_subtilis.htm.
Représentation graphique ANOVA locale
Le graphique fourni par geneANOVA a pour abcisse la variance normalisée(soufre/totale) et pour ordonnée log(p-value). Les points (gènes) les plus intéressantsseront ceux qui ont à la fois une p-value significative (p-value tend vers 0 donc log(p-value) tend vers -infini) et une variance normalisée élevée (part importante du soufredans la variance totale).
Exemple de graphique gène soufre où le meilleur gène candidat pour l'analyse del'effet soufre est encadré en rouge.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 7/28
Analyse des données par voisinage:
Deux angles d'approche peuvent être utilisés:
- on repère un gène d'intérêt et on regarde sur le graphique quels sont les autresgènes dans son voisinage proche. Peut-on alors trouver un lien biologique (présentdans un même opéron, actif dans une même chaîne métabolique, situé dans lamême région chromosomique, ...) entre le gène d'intérêt et ses plus prochesvoisins ?
- on prend un groupe de gènes ayant un lien biologique (cf ci-dessus) et on regardesur le graphique comment sont situés ces gènes. Sont-ils groupés dans le mêmesecteur ou au contraire totalement dispersés ?
Ce second angle d'approche est celui privilégié dans le travail sur le métabolisme del'arginine proposé dans l'article, où les différents gènes de la chaîne du métabolismede l'arginine sont étudiés. Dans le même esprit, les gènes de 3 opérons de B.subtilis
ont été étudiés dans l'article (figure 8).
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 8/28
Le cas des plans d'expérience incomplets ou comment traîter les répétitions dans lecas de mesures non apparaillées
Cette partie vise à mettre en garde les personnes qui souhaitent faire de l'analyse de
variance sans avoir préalablement vérifié que leur plan d'expérience est complet.Dans la mesure ou la méthode ANOVA nécessite la création d'un design, cela sousentend obligatoirement d'avoir des chiffres à mettre dans toutes les cases de tous lessous tableaux. L'exemple qui illustre cette difficulté porte sur l'expérience desplateformes présentées dans la partie plan_experience. Dans cette expérience, sil'on veut analyser l'effet du facteur dêpot, cela ne va pas être possible. En effet, lesdifférentes membranes étant faites sur des sites différents, il n'y a aucune cohérencepermettant de retrouver un biais systématique (il n'y a pas de raison à priori pour quele dépot 1 de la condition AX se comporte de façon identique au dépot 1 dans lacondition BX).
Comment traiter l'information dans ce genre de situation ?
- Possibilité 1: on peut être tenté d'additionner 1 et 2 et traiter uniquement les autresfacteurs en repartant d'un tableau réduit. Ce serait une erreur car en effectuant celaon perd des ddl donc de l'information.
A B C D E F G
x
y
- Possibilité 2: on peut analyser malgré tout le tableau complet de départ mais en n'identifiant pas le facteur dêpot lors de l'entrée des paramètres dans l'analyse devariance. Dans ce cas, l'information liée à ce facteur passe dans le bruit.
Les meilleurs résultats pour traiter cette situation des mesures non appareilléesconsiste donc à faire une analyse du tableau complêt sans rentrer le facteur litigieuxdans la liste des facteurs.
Considérons un caractère à plusieurs modalités que l’on observe sur plusieurs échantillons.
Ces échantillons peuvent être :
- Des échantillons selon le sexe (hommes et femmes).
- Des échantillons par tranche d’âge
- Des échantillons représentatifs de régions …
Question :
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 9/28
Est-ce que les différences qui pourraient être observées entre les différents échantillons sont dues aux seules
fluctuations d’échantillonnage ou bien existe-t-il une différence réellement significative entre les échantillons ?
Dans le 1er cas, les échantillons sont comparables, il y a indépendance entre le caractère et l’échantillon.
Dans le 2ème cas, la différence est réelle et suppose un lien entre le caractère et l’échantillon. On peut, par exemple
citer le cas d’une réponse différente selon le sexe ou selon l’âge ou selon tout autre paramètre …
Pour voir des exemples, aller à la section "téléchargement"
Tests paramétriques et non paramétriques : avantages et inconvénients
* Un test paramétrique requiert un modèle à fortes contraintes (normalité des distributions, égalité des
variances).
Les hypothèses seront d'autant plus difficiles à vérifier que les effectifs étudiés seront réduits.
* Un test non paramétrique peut être réalisé sans conditions préalables sur les paramètres de la population dont a
été extrait l'échantillon.
Cependant, les échantillons considérés doivent être aléatoires et simples (individus ayant la même probabilité d’y
être prélevés et de façon indépendante les uns des autres)
Avantages des tests non paramétriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres méthodes ne sont pas satisfaites,
même après d'éventuelles transformations de variables.
2. Les probabilités issues des tests non paramétriques sont des probabilités exactes, quelle que soit la forme
de la distribution de la population dont est tiré l'échantillon.
3. Pour des échantillons de taille très faible (jusqu'à n = 6), la seule possibilité est l'utilisation d'un test non
paramétrique, sauf si la nature exacte de la distribution de la population est précisément connue. Ceci
permet une diminution du coût ou du temps nécessaire à la collecte des informations.
4. Il existe des tests non paramétriques permettant de traiter des échantillons composés à partir
d'observations provenant de populations différentes. De telles données ne peuvent être traitées par les
tests paramétriques sans faire des hypothèses irréalistes.
5. Seuls des tests non paramétriques existent qui permettent le traitement de données qualitatives
(exprimées en rangs, en échelle ordinale ou données nominales).
6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer que les tests paramétriques.
Leur relative simplicité résulte souvent du remplacement des valeurs observées soit par des variables
alternatives, indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par les rangs, c'est-à-
dire les numéros d'ordre des valeurs observées rangées par ordre croissant. C'est ainsi que la médiane est
généralement préférée à la moyenne, comme paramètre de position.
Désavantages des tests non paramétriques
1. Les tests paramétriques, quand leurs conditions sont remplies, sont plus puissants que les tests non
paramétriques.
2. Un second inconvénient réside dans la difficulté a trouver la description des tests et de leurs tables de
valeurs significatives, surtout en langue française. Heureusement, les niveaux de significativité sont
donnés directement par les logiciels statistiques courants (PASW, Statistica...).
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 10/28
Hypothèse nulle et hypothèse alternative
C'est la première étape de toute procédure statistique.
Considérons la comparaison de 2 échantillons A et B, l'hypothèse nulle H0 est une hypothèse de non différence :
il n'y a pas de différence significative entre les échantillons A et B.
L'hypothèse nulle est formulée, en général, de façon à être rejetée; ce qui revient à dire que ce sera l'hypothèse
alternative H1 qui prévaudra : il y a une différence significative entre les échantillons A et B.
Supposons que nous voulions tester l’affirmation selon laquelle deux groupes spécifiques de plantes diffèrent par
leur vitesse de croissance.
Cette prédiction sera une hypothèse de recherche que nous formulons en hypothèse alternative H1 : la vitesse de
croissance des deux populations est différente, alors que H0 sera formulée comme suit : "La vitesse de croissance
pour les deux populations est la même".
Nous avons : H0 : m1 = m2
H1 : m1 m2
Test unilatéral, test bilatéral
La nature de l'hypothèse de recherche détermine comment H1 doit être formulée :
1) Si l’on suppose que les deux groupes diffèrent simplement par leur moyenne : les tests statistiques seront
bilatéraux.
2) Au contraire, si l’on suppose qu'un des groupes spécifiés aura une moyenne supérieure (ou inférieure) à celle de
l'autre groupe : les tests applicables seront alors unilatéraux.
Les Analyses Factorielles
ACP et AFC
Le traitement de tableaux complexes de données englobant un grand nombre de variables nécessite des méthodes
plus élaborées que celles de la statistique univariée ou bivariée appelées analyses factorielles.
Il s’agit de choisir un type d’analyse en vue de décrire, structurer ou expliquer avec ou sans modélisation.
Il s’agit de décrire un phénomène sans avoir d’a priori sur les résultats qui peuvent apparaître.
Exemple : Une population où chacun des sujets est caractérisé par un certain nombre de variables, toutes de
même importance et jouant toutes le même rôle.
Les deux types d’analyse sont :
1) L’analyse en composantes principales (ACP)
2) L’analyse des correspondances (AFC),
Il s’agit de synthétiser l’information en structurant la population par "groupes homogènes".
Les tableaux de départ peuvent contenir tout type de données : qualitatives ou quantitatives ou les deux à la fois. Il
y a deux types de données :
- Données continues : taille, poids, âge, quantité de nourriture, taux d’hormones, quantité de nitrates, valeurs
du pH, etc.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 11/28
- Données discrètes : effectifs, fréquences
Les données qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs ou gris, peuvent être codées en
chiffres à valeurs arbitraires (1 pour le sexe masculin et 2 pour le sexe féminin.)
Les variables quantitatives (continues ou discrètes) peuvent se transformer en variables qualitatives (cours de 1ère
année).
Nous obtenons une relation d’ordre entre les nombres.
On peut, par exemple, créer des tableaux type "absence/présence" d’un caractère (codés 0 et 1), des tableaux
complets avec plusieurs modalités pour chaque variable etc…
Les variables quantitatives continues peuvent être conservées telles quelles.
Pour une ACP, les variables doivent obligatoirement être disposées en colonnes et lesobservations en lignes, alors que pour une AFC, cela est indifférent.
L’intérêt majeur de ces analyses est de fournir une méthode de représentation d’une population décrite par un
ensemble de caractères dont les modalités sont quantitatives pour une ACP, ou qualitatives pour une AFC.
3) Principe de l’analyse factorielle :
Toute analyse factorielle consiste à recoder des données, puis à opérer une simplification de ces données par
ajustement matriciel. Il s’agit donc de passer d’un très vaste tableau de données à un tableau plus petit (résumé du
tableau initial)
4) Etapes d’une analyse factorielle :
- Une première étape consiste à construire un nuage de points dans un espace à n dimensions.
- La deuxième étape consiste à déterminer des sous-espaces sur lesquels on pourra projeter le nuage de
points sans trop le déformer. Afin de dégager les principales tendances, on procède à des ajustements linéaires
successifs du nuage initial pour déterminer l’axe qui restitue au mieux la forme géométrique et massique du nuage
(1er axe d’inertie). On détermine ensuite le plan qui restitue au mieux la proximité entre points et ainsi de suite
pour les dimensions 3, 4, et supérieures (ce traitement mathématique complexe, qui comporte la diagonalisation
de matrices pour la recherche des axes privilégiés, en calculant les vecteurs propres et les valeurs propres de la
matrice, se fait grâce à des logiciels spécialisés (SPSS, Minitab, Scilab, Statistica …).
5) Interprétation :
A l’aide des représentations graphiques, appuyées par les tableaux, on essaiera de :
- Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères
- Révéler des différences entre individus ou groupe d’individus, relativement à l’ensemble des caractères
- Mettre en évidence des individus au comportement atypique (toujours vis-à-vis de l’ensemble des caractères).
Ce comportement atypique peut être dû soit à la présence de données aberrantes soit à d’autres causes qu’il
conviendra de déterminer
- Condenser l’information qui permet de décrire la position d’un individu dans l’ensemble de la population.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 12/28
Commentaire (1)
1. Anto - Le 14/09/2010 à 13:48
Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites pour faciliter l'accès à la
statistique.
Toutefois, je ne suis pas sûr qu'un novice comprenne la nature de l'ACP ou de l'AFC après lecture de
votre article... L'étude par calcul matriciel sur tableur est désuet, c'est donc du côté des logiciels qu'il
vous faut décrire la procédure.
Et... le site préconçu, à termes, vous bridera...
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 13/28
souche A31 A32 B31 B32 C31 C32 D31 D32 E31 E32 F31 F32
Manchuria 81 80,7 146,6 100,4 82,3 103,1 119,8 98,9 98,9 66,4 86,9 67,7
Svansota 105,4 82,3 142 115,5 77,3 105,1 121,4 61,9 89 49,9 77,1 66,7
Velvet 119,7 80,4 150,7 112,2 78,4 116,5 124 96,2 69,1 96,7 78,9 67,4
Trebi 109,7 87,2 191,5 147,7 131,3 139,9 140,8 125,5 89,3 61,9 101,8 91,8
Peatland 98,3 84,2 145,7 108,1 89,6 129,6 124,8 75,7 104,1 80,3 96 94,1
Utilisation de GeneANOVA: résultats
Les résultats obtenus sur les données orge sont présentés dans la tableau ci-dessous:
Légende:
Somme des carrés: sommes des carrés des écarts à la moyenne totale
DDL: nombre de degré de liberté de l'information résiduelle
F: Variable de Fisher
p-value: probabilité que la valeur de F ait été obtenue par hasard (plus cette probabilité est faible, plus la valeur de F est significative).
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 14/28
Colonne selection: on a la possibilité via les cases à cocher ou décocher de supprimer certaines lignes qui ne rentrerons alors plus dans lescalculs. L'effet d'une supression de ligne dépend du rapport entre le bruit et le DDL de cette ligne. Par exemple, prenons l'effet lignée pour lequelnous avons une p-value de 0, 00018. Si vous supprimez la ligne 4 (lignée-année), la p-value de l'effet lignée devient 0, 00005 ce qui est meilleur.On a diminué le bruit moyen par cellule, autrement dit le bruit/DDL. A l'inverse, si on supprime la ligne 5 (lignée-lieux), on obtient une p-valuequi varie peu: 0, 00017 ce qui ne change pas grand chose. Enfin, si on supprime la ligne 6 (année-lieux), on obtient une p-value de 0, 023 ce qui beaucoup moins bon.
En conclusion, selon ce que l'on décide de mettre dans le bruit (que l'on néglige), on peut faire varier la p-value. Globalement, on ne change passon ordre de grandeur mais il faudra être vigilant lors de l'emploi de seuil sur la p-value pour sélectionner des résultats significatifs.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 15/28
Quelques exemples pratiques
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 16/28
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 17/28
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 18/28
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 19/28
Exemples à télécharger
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 20/28
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 21/28
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 22/28
Test d’indépendance
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 23/28
Considérons un caractère à plusieurs modalités que l’on observe sur plusieurs
échantillons.
Ces échantillons peuvent être :
- Des échantillons selon le sexe (hommes et femmes).- Des échantillons par tranche d’âge
- Des échantillons représentatifs de régions …
Question :
Est-ce que les différences qui pourraient être observées entre les différents
échantillons sont dues aux seules fluctuations d’échantillonnage ou bien existe-t-il
une différence réellement significative entre les échantillons ?
Dans le 1er cas, les échantillons sont comparables, il y a indépendance entre le
caractère et l’échantillon.
Dans le 2ème cas, la différence est réelle et suppose un lien entre le caractère et
l’échantillon. On peut, par exemple citer le cas d’une réponse différente selon le
sexe ou selon l’âge ou selon tout autre paramètre …
Pour voir des exemples, aller à la section "téléchargement"
Tests paramétriques et non paramétriques : avantages et
inconvénients
* Un test paramétrique requiert un modèle à fortes contraintes (normalité des
distributions, égalité des variances).
Les hypothèses seront d'autant plus difficiles à vérifier que les effectifs étudiés
seront réduits.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 24/28
* Un test non paramétrique peut être réalisé sans conditions préalables sur les
paramètres de la population dont a été extrait l'échantillon.
Cependant, les échantillons considérés doivent être aléatoires et simples(individus ayant la même probabilité d’y être prélevés et de façon indépendante
les uns des autres)
Avantages des tests non paramétriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres
méthodes ne sont pas satisfaites, même après d'éventuelles transformations
de variables.
2. Les probabilités issues des tests non paramétriques sont des probabilités
exactes, quelle que soit la forme de la distribution de la population dont est
tiré l'échantillon.
3. Pour des échantillons de taille très faible (jusqu'à n = 6), la seule possibilité
est l'utilisation d'un test non paramétrique, sauf si la nature exacte de la
distribution de la population est précisément connue. Ceci permet une
diminution du coût ou du temps nécessaire à la collecte des informations.
4. Il existe des tests non paramétriques permettant de traiter des échantillons
composés à partir d'observations provenant de populations différentes. De
telles données ne peuvent être traitées par les tests paramétriques sans
faire des hypothèses irréalistes.
5. Seuls des tests non paramétriques existent qui permettent le traitement de
données qualitatives (exprimées en rangs, en échelle ordinale ou données
nominales).
6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer
que les tests paramétriques. Leur relative simplicité résulte souvent du
remplacement des valeurs observées soit par des variables alternatives,
indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par
les rangs, c'est-à-dire les numéros d'ordre des valeurs observées rangées
par ordre croissant. C'est ainsi que la médiane est généralement préférée à
la moyenne, comme paramètre de position.
Désavantages des tests non paramétriques
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 25/28
1. Les tests paramétriques, quand leurs conditions sont remplies, sont plus
puissants que les tests non paramétriques.
2. Un second inconvénient réside dans la difficulté a trouver la description des
tests et de leurs tables de valeurs significatives, surtout en langue française.Heureusement, les niveaux de significativité sont donnés directement par
les logiciels statistiques courants (PASW, Statistica...).
Hypothèse nulle et hypothèse alternative
C'est la première étape de toute procédure statistique.
Considérons la comparaison de 2 échantillons A et B, l'hypothèse nulle H0 est une
hypothèse de non différence : il n'y a pas de différence significative entre les
échantillons A et B.
L'hypothèse nulle est formulée, en général, de façon à être rejetée; ce qui revient à
dire que ce sera l'hypothèse alternative H1 qui prévaudra : il y a une différence
significative entre les échantillons A et B.
Supposons que nous voulions tester l’affirmation selon laquelle deux groupes
spécifiques de plantes diffèrent par leur vitesse de croissance.
Cette prédiction sera une hypothèse de recherche que nous formulons en
hypothèse alternative H1 : la vitesse de croissance des deux populations est
différente, alors que H0 sera formulée comme suit : "La vitesse de croissance pour
les deux populations est la même".
Nous avons : H0 : m1 = m2
H1 : m1 m2
Test unilatéral, test bilatéral
La nature de l'hypothèse de recherche détermine comment H1 doit être formulée :
1) Si l’on suppose que les deux groupes diffèrent simplement par leur moyenne :
les tests statistiques seront bilatéraux.
2) Au contraire, si l’on suppose qu'un des groupes spécifiés aura une moyenne
supérieure (ou inférieure) à celle de l'autre groupe : les tests applicables
seront alors unilatéraux.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 26/28
Les Analyses Factorielles
ACP et AFC
Le traitement de tableaux complexes de données englobant un grand nombre de variables nécessite des méthodes plus élaborées que celles de la statistique
univariée ou bivariée appelées analyses factorielles.
Il s’agit de choisir un type d’analyse en vue de décrire, structurer ou expliquer
avec ou sans modélisation.
Il s’agit de décrire un phénomène sans avoir d’a priori sur les résultats qui
peuvent apparaître.
Exemple : Une population où chacun des sujets est caractérisé par un certainnombre de variables, toutes de même importance et jouant toutes le même rôle.
Les deux types d’analyse sont :
1) L’analyse en composantes principales (ACP)
2) L’analyse des correspondances (AFC),
Il s’agit de synthétiser l’information en structurant la population par "groupes
homogènes".
Les tableaux de départ peuvent contenir tout type de données : qualitatives ou
quantitatives ou les deux à la fois. Il y a deux types de données :
- Données continues : taille, poids, âge, quantité de nourriture, taux
d’hormones, quantité de nitrates, valeurs du pH, etc.
- Données discrètes : effectifs, fréquences
Les données qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs
ou gris, peuvent être codées en chiffres à valeurs arbitraires (1 pour le sexe
masculin et 2 pour le sexe féminin.)
Les variables quantitatives (continues ou discrètes) peuvent se transformer en
variables qualitatives (cours de 1
ère
année).Nous obtenons une relation d’ordre entre les nombres.
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 27/28
On peut, par exemple, créer des tableaux type "absence/présence" d’un caractère
(codés 0 et 1), des tableaux complets avec plusieurs modalités pour chaque
variable etc…Les variables quantitatives continues peuvent être conservées telles quelles.
Pour une ACP, les variables doivent obligatoirement être disposées en
colonnes et les observations en lignes, alors que pour une AFC, cela est
indifférent.
L’intérêt majeur de ces analyses est de fournir une méthode de représentation
d’une population décrite par un ensemble de caractères dont les modalités sont
quantitatives pour une ACP, ou qualitatives pour une AFC.
3) Principe de l’analyse factorielle :
Toute analyse factorielle consiste à recoder des données, puis à opérer une
simplification de ces données par ajustement matriciel. Il s’agit donc de passer
d’un très vaste tableau de données à un tableau plus petit (résumé du tableauinitial)
4) Etapes d’une analyse factorielle :
- Une première étape consiste à construire un nuage de points dans un
espace à n dimensions.
- La deuxième étape consiste à déterminer des sous-espaces sur lesquels on
pourra projeter le nuage de points sans trop le déformer. Afin de dégager les
principales tendances, on procède à des ajustements linéaires successifs du
nuage initial pour déterminer l’axe qui restitue au mieux la forme géométrique et
massique du nuage (1er axe d’inertie). On détermine ensuite le plan qui restitue au
mieux la proximité entre points et ainsi de suite pour les dimensions 3, 4, et
supérieures (ce traitement mathématique complexe, qui comporte la
diagonalisation de matrices pour la recherche des axes privilégiés, en calculant les
vecteurs propres et les valeurs propres de la matrice, se fait grâce à des logicielsspécialisés (SPSS, Minitab, Scilab, Statistica …).
5/7/2018 Analyse Anova - slidepdf.com
http://slidepdf.com/reader/full/analyse-anova 28/28
5) Interprétation :
A l’aide des représentations graphiques, appuyées par les tableaux, on essaiera
de :
- Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des
caractères
- Révéler des différences entre individus ou groupe d’individus, relativement à
l’ensemble des caractères
- Mettre en évidence des individus au comportement atypique (toujours vis-à-vis
de l’ensemble des caractères). Ce comportement atypique peut être dû soit à la
présence de données aberrantes soit à d’autres causes qu’il conviendra dedéterminer
- Condenser l’information qui permet de décrire la position d’un individu dans
l’ensemble de la population.
Commentaire (1)
1. Anto - Le 14/09/2010 à 13:48
Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites
pour faciliter l'accès à la statistique.
Toutefois, je ne suis pas sûr qu'un novice comprenne la nature de l'ACP
ou de l'AFC après lecture de votre article... L'étude par calcul matriciel
sur tableur est désuet, c'est donc du côté des logiciels qu'il vous faut
décrire la procédure.
Et... le site préconçu, à termes, vous bridera...