Analyse Anova

5/7/2018 Analyse Anova - slidepdf.com

http://slidepdf.com/reader/full/analyse-anova 1/28

Réseau et sécurité informatique 3Base de données 3Programmation avancée 3Intelligence artificielle 3

Système d'exploitation avancé 3Génie logiciel 3Analyse numérique 2Analyse financière 2Analyse de données 2Comptabilité analytique d'exploitation 2Économie générale 2Droit informatique 1anglais 1

TIC JAVA



ANOVA et ACP: comparaison

Le principe de l'ACP est de rechercher les facteurs qui rendent le mieux compte desdonnées. Ils forment un système d'axes orthogonaux tel que la variance le long des

axes est maximale. Dans le cas de l'ANOVA, on simplifie les calculs en définissantsoi même les facteurs et ensuite on calcule la variance pour chaque facteur.Evidemment, en pratiquant de cette façon, on perd de l'information puisque l'on neconserve pas l'information sur la répartition des points, on dispose seulement desvaleurs des variances.

Cette similitude entre les deux méthodes se traduit par une distribution identique desvaleurs propres et des variances.

Présentation de la méthode ANOVA

Pour mieux comprendre ce qu'est une analyse de variance, prenons l'exemple d'un auteur qui

veut absolument conserver l'ensemble de ces résultats et les publier et un éditeur dont la principale préoccupation est de gâcher le moins possible de papier.

Prenons l'exemple d'un tableau de chiffres, la méthode ANOVA permet de trancher entre lesdeux protagonistes précédents, en résolvant le problème de savoir si cela vaut la peine degarder ce tableau de chiffres.

Dans ce contexte, il faut aussi savoir qu'un tableau de chiffre ne peut être publié que si l'on estcapable de le commenter. Si l'on considère le tableau de données initiales sur l'orge qui est à3D, il est clair que l'on ne sait pas le commenter. Une solution est de se limiter à 2D, endécomposant le tableau initial en sous tableaux de dimension inférieure.

Décomposition en sous tableaux

Le tableau de données initiales contient 60 données, avec un écart type de 27,5 qui montreque toutes les cases ne sont pas homogènes ce qui mérite de regarder plus en détails les soustableaux. Par exemple, on peut construire la tableau lignée x lieu comme ci-dessous:

Lignée

1 2 3 4 5 6Total1

Manchuria

161,7

247,0

185,4

218,7

165,3

154,6

1132,7

Svan

sota

187,

7

25

7,5

18

2,4

18

3,3

138,

9

143,

8

1093,

6

Velvet

200,1

262,9

194,9

220,2

165,8

146,3

1190,2

Trebi196,9

339,2

271,2

266,3

151,2

193,6

1418,4

Peatland

182,5

253,8

219,2

200,5

184,4

190,1

1230,5

Total2 928, 1360, 1053, 1089, 805, 828,

http://genet.univ-tours.fr/index.htm

http://genet.univ-tours.fr/index.htm



9 4 1 0 6 4

Le premier commentaire que l'on peut faire sur ce tableau en regardant les sommes des ligneset des colonnes (total1 et total2), c'est que toutes les lignées n'ont pas le même rendement etque selon les lieux les rendements diffèrent aussi.

Le second commentaire concerne la distribution des données. Si elle est homogène, lestableaux 1D suffisent et les seules informations pertinentes à conserver pour l'éditeur, ce sontles deux tableaux Total1 et Total2.

Par contre, si cela est hétérogène, c'est à dire que certaines lignées sont meilleures sur certainslieux, comment quantifier cette information 2D ?

C'est là qu'intervient la méthode ANOVA proposée par Fisher ( Mather K. - Analysestatistique en biologie . ACTA Editions GAUTHIER-VILLARS , PARIS 1965). En effet,Fisher a créé et proposé une mesure objective de cette information 2D, en plus desinformations contenues dans les tableaux 1D. Cette mesure permet de quantifier la partd'information contenue dans le tableau 2D, et de répondre ainsi si l'on revient à l'exemple dedépart à la question que se pose notre éditeur de savoir si oui ou non il doit publier l'intégralité

des résultats que lui présentent l'auteur ou si les tableaux 1D suffisent.

La méthode ANOVA

Le critère objectif qui nous intéresse est la variance dont la formule est la suivante:

Avec:

La variance correspond à une mesure de l'information moyenne contenue dans les données(moyenne car on divise la quantité d'information totale (SC) par le nombre de dégrés deliberté).

Il faut retenir aussi que dans un tableau de données:

SC total= SC lignes + SC colonnes + SC résiduel avec SC résiduel qui quantifie l'informationspécifique au tableau > 1D. Lorsque l'on recherche la variablité résiduelle, il suffit donc decalculer:

SC résiduel=SCtotal-SCcolonnes-SClignes.

http://genet.univ-tours.fr/gen002200/anova_presentation.htm#anova

http://genet.univ-tours.fr/gen002200/anova_presentation.htm#anova



Les différentes situations

Sortons provisoirement de notre exemple sur l'orge sur lequel nous reviendrons, et intéressonsnous aux différents cas qui peuvent se présenter lorsque l'on analyse les sommes des carrésdes écarts (SC).

Dans le logiciel Excel, on bénéficie d'une fonction SOMME.CARRES.ECARTS() qui nous permet dans le fichier exemple d'observer les différents cas qui peuvent se présenter:

Notons tout d'abord que chaque case de tableaux contient la somme des carrés divisée par lenombre d'observations qui sont additionnéées.

cas1: SC résiduel = 0 (minimal), toute l'information est contenue dans les tableaux 1D,conserver les tableaux 2D n'apporte rien.

cas2: SCrésiduel = 12 (maximal), toute l'information est en 2D, l'information contenue dansles tableaux 1D est nulle.

cas3: SC résiduel >0, impossible de trancher entre le bruit (variabilité liée au hasard) ou à unvéritable effet biologique des facteurs entre eux.

La variabilité résiduelle calculée peut être due soit à un bruit de fond soit à un phénomène biologique (ce phénomène introduisant une intéraction entre les 2 facteurs). Pour trancher entre les 2, la seule solution est de repoduire l'expérience de nombreuses fois afin de vérifier si la variabilité se fait toujours dans le même sens. Si le biais se fait toujours de façonidentique, on pourra conclure que ce n'est pas lié au hasard.

On retiendra que chaque fois que l'on veut mettre en évidence une intéraction entre deuxfacteurs, il faut montrer que c'est reproductible donc refaire l'expérience X fois.

Le cas des données de Mather

Revenons maintenant sur l'analyse des données disponibles sur l'orge. Comme on l' a déjàexplicité, le tableau 3D étant inexploitable tel que, on décompose ce tableau en sous tableaux

de dimensions inférieurs. Dans le fichier Orge.xls, vous trouvez la description de tous lestableaux 2D et 1D que l'on peut construire à partir des données initiales.

Les différentes informations calculées à partir de ces tableaux 1D et 2D sont présentées ci-dessous:

ANOVA Carrés ddl Intéraction ddl Variance F p-value

Lignée 5310,0 4 5310,0 4 1327,5 9,5 0, 000175

Lieu 21 220,9 5 21 220,9 5 4244,2 30,5 0, 000000

Année 3798,5 1 3798,5 1 3798,5 27,3 0,000041

Lignée x Lieu 30 963,9 29 4433,0 20 221,7 1,6 0,153252

Lignée x Année 9400,3 9 291,8 4 73,0 0,5 1,00000Année x Lieu 31 913,3 11 6893,9 5 1378,8 9,9 0, 000070

Total 44 732,4 59 2784,2 20 139,2

Légende:

Carrés: somme des carrés des écarts à la moyenne (SC) totaux

ddl (degré de liberté): correspond au nombre de termes utilisés dans le calcul de SC -1.

Intéraction: somme des carrés des écarts à la moyenne résiduel (SC résiduel)

ddl: degré de liberté résiduel

Variance: variance résiduelle normalisée c'est à dire Intéraction (SC résiduel) / ddl résiduel Ce

critère donne une mesure de l'information moyenne contenue dans chaque cas du tableau.

http://genet.univ-tours.fr/gen002200/Mather/Exemple%201-3.xls

http://genet.univ-tours.fr/gen002200/Mather/Orge.xls



http://genet.univ-tours.fr/gen002200/Mather/Exemple%201-3.xls



F: valeur de la variable de Fisher: cette mesure permet d'évaluer la part d'information dansnotre tableau de départ. Une petite explication s'impose.

L'information totale contenue dans les données initiales peut se décomposer en 3 termes:information 1D+ information 2D + information résiduelle 3D. Sachant que l'on a admis audépart que le tableau 3D de départ était inexploitable, alors par extrapolation on peut dire que

l'information résiduelle 3D est négligeable. Ainsi, pour tout autre tableau de dimensioninférieure, on pourra considérer qu'une information inférieure à cette information résiduelle3D est elle aussi négligeable.

La variable F correspond à la comparaison entre l'information en cours d'analyse etl'information résiduelle négligeable, ici information 3D.

F = variance que l'on analyse/ variance résiduelle 3D. Sur la base de la valeur de F, on va pouvoir prendre la décision de garder ou non une information.

Si F est inférieur à 1, cela veut dire que la variance étudiée est négligeable, donc on neconservera pas l'information concernée

Si F très supérieur à 1, cela veut dire que la variance étudiée est largement au dessus de ce quiest négligeable donc on conservera l'information concernée.

Si F proche de 1, on utilisera la loi de Fisher qui donne la probablité pour obtenir une tellevaleur par hasard (p-value). Le choix de conserver ou non notre information se fera alors sur la base de la p-value. Plus cette probabilité est faible, moins notre résultat est lié au hasard et

plus notre information est pertinente.

Nous allons voir dans la partie suivante comment utiliser le logiciel GeneANOVA dans cecontexte d'analyse de variance

Analyse de variance: utilisation de GeneANOVA

1- Utilisation de geneANOVA sur les données de Mather

Le fichier de données sur lequel nous travaillons est orge.txt.

Les différentes étapes pour réaliser une analyse de variance (ANOVA) avecgeneANOVA

- Création d'un design: c'est une nouveauté par rapport à l'ACP et cette étape estabsoluement indispensable pour indiquer au programme comment structurer lessous tableaux. Les données initiales sont vues comme un flot linéaire de chiffres etpour que l'analyse de variance puisse se faire correctement, il faut fournir lesinformations nécessaires à la création de tous les sous tableaux de dimensioninférieure.

Dans l'exemple des données sur l'orge, les différentes informations à fournir sont

résumées dans le fichier orge.design. Pour plus de détails pour un premier contactavec le logiciel, la création de ce design sur l'orge est présentée dans le fichier creation_design_orge.htm.

- Les résultats sont présentés et discutés dans le fichier resultat_anova_orge.htm.

2-Utilisation de GeneANOVA sur les données du transcriptome:

Précedemment, nous avons présenté le choix des données sur l'orge (travail deMather) par le fait que le tableau de données présentait la même structure logiqueque les données du transcriptome. Tout ce que nous venons de vous expliquer sur laméthode ANOVA va donc s'appliquer de ce fait au données du transcriptome.Concernant le choix du logiciel pour faire le travail, tous les calculs pourraient êtrefait dans Excel, mais nous avons à notre disposition GeneANOVA qui est totalementdédié à l'analyse du transcriptome, donc profitons en !!

http://genet.univ-tours.fr/gen002200/variance_geneanova.htm


http://genet.univ-tours.fr/gen002200/Mather/Orge.txt

http://genet.univ-tours.fr/gen002200/Mather/OrgeDesign.txt

http://genet.univ-tours.fr/gen002200/creation_design_orge.htm

http://genet.univ-tours.fr/gen002200/resultat_anova_orge.htm


http://genet.univ-tours.fr/gen002200/Mather/Orge.txt

http://genet.univ-tours.fr/gen002200/Mather/OrgeDesign.txt

http://genet.univ-tours.fr/gen002200/creation_design_orge.htm

http://genet.univ-tours.fr/gen002200/resultat_anova_orge.htm



Les données sur lesquelles nous allons travailler sont celles déjà utilisées pour laprésentation de l'ACP (voir plan_experience.htm) sur le métabolisme de laméthionine chez B. Subtilis.

Les différentes étapes pour faire une analyse de variance sur des données dutranscriptome:

- Pour les mêmes raisons que pour l'ACP, il faut préalablement traiter l'informationpar une transformation linéaire qui visent à centrer réduire les données.

- Création d'un design: vous le trouverez décrit en cliquant ici.

- Choix entre ANOVA globale et locale:

• ANOVA globale: dans notre exemple, on choisira un ordre d'intéraction de 3(cela correspond aux tableaux 3D). D' autre part, les seuls tableaux pertinentssont ceux qui contiennent le facteur gène.

• ANOVA locale: on pourra faire 4107 analyses de variance. Pour un gènedonné j (une ligne), on aura l'équation suivante:

○ SCtotale,j = SC soufre,j + SC jour,j +SC rna,j + SC double,j + SCrésiduel,j

- Les résultats obtenus sont présentés et discutés dans le fichier:resultat_anova_subtilis.htm.

Représentation graphique ANOVA locale

Le graphique fourni par geneANOVA a pour abcisse la variance normalisée(soufre/totale) et pour ordonnée log(p-value). Les points (gènes) les plus intéressantsseront ceux qui ont à la fois une p-value significative (p-value tend vers 0 donc log(p-value) tend vers -infini) et une variance normalisée élevée (part importante du soufredans la variance totale).

Exemple de graphique gène soufre où le meilleur gène candidat pour l'analyse del'effet soufre est encadré en rouge.

http://genet.univ-tours.fr/gen002200/plan_experience.htm


http://genet.univ-tours.fr/gen002200/Agnieszka/ManipDesign.txt

http://genet.univ-tours.fr/gen002200/resultat_anova_subtilis.htm

http://genet.univ-tours.fr/gen002200/variance_geneanova.htm#variance


http://genet.univ-tours.fr/gen002200/Agnieszka/ManipDesign.txt

http://genet.univ-tours.fr/gen002200/resultat_anova_subtilis.htm



Analyse des données par voisinage:

Deux angles d'approche peuvent être utilisés:

- on repère un gène d'intérêt et on regarde sur le graphique quels sont les autresgènes dans son voisinage proche. Peut-on alors trouver un lien biologique (présentdans un même opéron, actif dans une même chaîne métabolique, situé dans lamême région chromosomique, ...) entre le gène d'intérêt et ses plus prochesvoisins ?

- on prend un groupe de gènes ayant un lien biologique (cf ci-dessus) et on regardesur le graphique comment sont situés ces gènes. Sont-ils groupés dans le mêmesecteur ou au contraire totalement dispersés ?

Ce second angle d'approche est celui privilégié dans le travail sur le métabolisme del'arginine proposé dans l'article, où les différents gènes de la chaîne du métabolismede l'arginine sont étudiés. Dans le même esprit, les gènes de 3 opérons de B.subtilis

ont été étudiés dans l'article (figure 8).

http://genet.univ-tours.fr/gen002200/Agnieszka/Extracting%20biological%20information%20from%20DNA%20arrays.pdf

http://genet.univ-tours.fr/gen002200/bibliographie/Bouquins%20INRA/Statistical%20Design.pdf


http://genet.univ-tours.fr/gen002200/Agnieszka/Extracting%20biological%20information%20from%20DNA%20arrays.pdf




Le cas des plans d'expérience incomplets ou comment traîter les répétitions dans lecas de mesures non apparaillées

Cette partie vise à mettre en garde les personnes qui souhaitent faire de l'analyse de

variance sans avoir préalablement vérifié que leur plan d'expérience est complet.Dans la mesure ou la méthode ANOVA nécessite la création d'un design, cela sousentend obligatoirement d'avoir des chiffres à mettre dans toutes les cases de tous lessous tableaux. L'exemple qui illustre cette difficulté porte sur l'expérience desplateformes présentées dans la partie plan_experience. Dans cette expérience, sil'on veut analyser l'effet du facteur dêpot, cela ne va pas être possible. En effet, lesdifférentes membranes étant faites sur des sites différents, il n'y a aucune cohérencepermettant de retrouver un biais systématique (il n'y a pas de raison à priori pour quele dépot 1 de la condition AX se comporte de façon identique au dépot 1 dans lacondition BX).

Comment traiter l'information dans ce genre de situation ?

- Possibilité 1: on peut être tenté d'additionner 1 et 2 et traiter uniquement les autresfacteurs en repartant d'un tableau réduit. Ce serait une erreur car en effectuant celaon perd des ddl donc de l'information.

A B C D E F G

x

y

- Possibilité 2: on peut analyser malgré tout le tableau complet de départ mais en n'identifiant pas le facteur dêpot lors de l'entrée des paramètres dans l'analyse devariance. Dans ce cas, l'information liée à ce facteur passe dans le bruit.

Les meilleurs résultats pour traiter cette situation des mesures non appareilléesconsiste donc à faire une analyse du tableau complêt sans rentrer le facteur litigieuxdans la liste des facteurs.

Considérons un caractère à plusieurs modalités que l’on observe sur plusieurs échantillons.

Ces échantillons peuvent être :

- Des échantillons selon le sexe (hommes et femmes).

- Des échantillons par tranche d’âge

- Des échantillons représentatifs de régions …

Question :


http://genet.univ-tours.fr/gen002200/variance_geneanova.htm#variance




Est-ce que les différences qui pourraient être observées entre les différents échantillons sont dues aux seules

fluctuations d’échantillonnage ou bien existe-t-il une différence réellement significative entre les échantillons ?

Dans le 1er cas, les échantillons sont comparables, il y a indépendance entre le caractère et l’échantillon.

Dans le 2ème cas, la différence est réelle et suppose un lien entre le caractère et l’échantillon. On peut, par exemple

citer le cas d’une réponse différente selon le sexe ou selon l’âge ou selon tout autre paramètre …

Pour voir des exemples, aller à la section "téléchargement"

Tests paramétriques et non paramétriques : avantages et inconvénients

* Un test paramétrique requiert un modèle à fortes contraintes (normalité des distributions, égalité des

variances).

Les hypothèses seront d'autant plus difficiles à vérifier que les effectifs étudiés seront réduits.

* Un test non paramétrique peut être réalisé sans conditions préalables sur les paramètres de la population dont a

été extrait l'échantillon.

Cependant, les échantillons considérés doivent être aléatoires et simples (individus ayant la même probabilité d’y

être prélevés et de façon indépendante les uns des autres)

Avantages des tests non paramétriques

1. Leur emploi se justifie lorsque les conditions d'applications des autres méthodes ne sont pas satisfaites,

même après d'éventuelles transformations de variables.

2. Les probabilités issues des tests non paramétriques sont des probabilités exactes, quelle que soit la forme

de la distribution de la population dont est tiré l'échantillon.

3. Pour des échantillons de taille très faible (jusqu'à n = 6), la seule possibilité est l'utilisation d'un test non

paramétrique, sauf si la nature exacte de la distribution de la population est précisément connue. Ceci

permet une diminution du coût ou du temps nécessaire à la collecte des informations.

4. Il existe des tests non paramétriques permettant de traiter des échantillons composés à partir

d'observations provenant de populations différentes. De telles données ne peuvent être traitées par les

tests paramétriques sans faire des hypothèses irréalistes.

5. Seuls des tests non paramétriques existent qui permettent le traitement de données qualitatives

(exprimées en rangs, en échelle ordinale ou données nominales).

6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer que les tests paramétriques.

Leur relative simplicité résulte souvent du remplacement des valeurs observées soit par des variables

alternatives, indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par les rangs, c'est-à-

dire les numéros d'ordre des valeurs observées rangées par ordre croissant. C'est ainsi que la médiane est

généralement préférée à la moyenne, comme paramètre de position.

Désavantages des tests non paramétriques

1. Les tests paramétriques, quand leurs conditions sont remplies, sont plus puissants que les tests non

paramétriques.

2. Un second inconvénient réside dans la difficulté a trouver la description des tests et de leurs tables de

valeurs significatives, surtout en langue française. Heureusement, les niveaux de significativité sont

donnés directement par les logiciels statistiques courants (PASW, Statistica...).

http://travuni.e-monsite.com/rubrique,telechargements,1035248.html




Hypothèse nulle et hypothèse alternative

C'est la première étape de toute procédure statistique.

Considérons la comparaison de 2 échantillons A et B, l'hypothèse nulle H0 est une hypothèse de non différence :

il n'y a pas de différence significative entre les échantillons A et B.

L'hypothèse nulle est formulée, en général, de façon à être rejetée; ce qui revient à dire que ce sera l'hypothèse

alternative H1 qui prévaudra : il y a une différence significative entre les échantillons A et B.

Supposons que nous voulions tester l’affirmation selon laquelle deux groupes spécifiques de plantes diffèrent par

leur vitesse de croissance.

Cette prédiction sera une hypothèse de recherche que nous formulons en hypothèse alternative H1 : la vitesse de

croissance des deux populations est différente, alors que H0 sera formulée comme suit : "La vitesse de croissance

pour les deux populations est la même".

Nous avons : H0 : m1 = m2

H1 : m1 m2

Test unilatéral, test bilatéral

La nature de l'hypothèse de recherche détermine comment H1 doit être formulée :

1) Si l’on suppose que les deux groupes diffèrent simplement par leur moyenne : les tests statistiques seront

bilatéraux.

2) Au contraire, si l’on suppose qu'un des groupes spécifiés aura une moyenne supérieure (ou inférieure) à celle de

l'autre groupe : les tests applicables seront alors unilatéraux.

Les Analyses Factorielles

ACP et AFC

Le traitement de tableaux complexes de données englobant un grand nombre de variables nécessite des méthodes

plus élaborées que celles de la statistique univariée ou bivariée appelées analyses factorielles.

Il s’agit de choisir un type d’analyse en vue de décrire, structurer ou expliquer avec ou sans modélisation.

Il s’agit de décrire un phénomène sans avoir d’a priori sur les résultats qui peuvent apparaître.

Exemple : Une population où chacun des sujets est caractérisé par un certain nombre de variables, toutes de

même importance et jouant toutes le même rôle.

Les deux types d’analyse sont :

1) L’analyse en composantes principales (ACP)

2) L’analyse des correspondances (AFC),

Il s’agit de synthétiser l’information en structurant la population par "groupes homogènes".

Les tableaux de départ peuvent contenir tout type de données : qualitatives ou quantitatives ou les deux à la fois. Il

y a deux types de données :

- Données continues : taille, poids, âge, quantité de nourriture, taux d’hormones, quantité de nitrates, valeurs

du pH, etc.



- Données discrètes : effectifs, fréquences

Les données qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs ou gris, peuvent être codées en

chiffres à valeurs arbitraires (1 pour le sexe masculin et 2 pour le sexe féminin.)

Les variables quantitatives (continues ou discrètes) peuvent se transformer en variables qualitatives (cours de 1ère

année).

Nous obtenons une relation d’ordre entre les nombres.

On peut, par exemple, créer des tableaux type "absence/présence" d’un caractère (codés 0 et 1), des tableaux

complets avec plusieurs modalités pour chaque variable etc…

Les variables quantitatives continues peuvent être conservées telles quelles.

Pour une ACP, les variables doivent obligatoirement être disposées en colonnes et lesobservations en lignes, alors que pour une AFC, cela est indifférent.

L’intérêt majeur de ces analyses est de fournir une méthode de représentation d’une population décrite par un

ensemble de caractères dont les modalités sont quantitatives pour une ACP, ou qualitatives pour une AFC.

3) Principe de l’analyse factorielle :

Toute analyse factorielle consiste à recoder des données, puis à opérer une simplification de ces données par

ajustement matriciel. Il s’agit donc de passer d’un très vaste tableau de données à un tableau plus petit (résumé du

tableau initial)

4) Etapes d’une analyse factorielle :

- Une première étape consiste à construire un nuage de points dans un espace à n dimensions.

- La deuxième étape consiste à déterminer des sous-espaces sur lesquels on pourra projeter le nuage de

points sans trop le déformer. Afin de dégager les principales tendances, on procède à des ajustements linéaires

successifs du nuage initial pour déterminer l’axe qui restitue au mieux la forme géométrique et massique du nuage

(1er axe d’inertie). On détermine ensuite le plan qui restitue au mieux la proximité entre points et ainsi de suite

pour les dimensions 3, 4, et supérieures (ce traitement mathématique complexe, qui comporte la diagonalisation

de matrices pour la recherche des axes privilégiés, en calculant les vecteurs propres et les valeurs propres de la

matrice, se fait grâce à des logiciels spécialisés (SPSS, Minitab, Scilab, Statistica …).

5) Interprétation :

A l’aide des représentations graphiques, appuyées par les tableaux, on essaiera de :

- Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères

- Révéler des différences entre individus ou groupe d’individus, relativement à l’ensemble des caractères

- Mettre en évidence des individus au comportement atypique (toujours vis-à-vis de l’ensemble des caractères).

Ce comportement atypique peut être dû soit à la présence de données aberrantes soit à d’autres causes qu’il

conviendra de déterminer

- Condenser l’information qui permet de décrire la position d’un individu dans l’ensemble de la population.



Commentaire (1)

1. Anto - Le 14/09/2010 à 13:48

Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites pour faciliter l'accès à la

statistique.

Toutefois, je ne suis pas sûr qu'un novice comprenne la nature de l'ACP ou de l'AFC après lecture de

votre article... L'étude par calcul matriciel sur tableur est désuet, c'est donc du côté des logiciels qu'il

vous faut décrire la procédure.

Et... le site préconçu, à termes, vous bridera...



souche A31 A32 B31 B32 C31 C32 D31 D32 E31 E32 F31 F32

Manchuria 81 80,7 146,6 100,4 82,3 103,1 119,8 98,9 98,9 66,4 86,9 67,7

Svansota 105,4 82,3 142 115,5 77,3 105,1 121,4 61,9 89 49,9 77,1 66,7

Velvet 119,7 80,4 150,7 112,2 78,4 116,5 124 96,2 69,1 96,7 78,9 67,4

Trebi 109,7 87,2 191,5 147,7 131,3 139,9 140,8 125,5 89,3 61,9 101,8 91,8

Peatland 98,3 84,2 145,7 108,1 89,6 129,6 124,8 75,7 104,1 80,3 96 94,1

Utilisation de GeneANOVA: résultats

Les résultats obtenus sur les données orge sont présentés dans la tableau ci-dessous:

Légende:

Somme des carrés: sommes des carrés des écarts à la moyenne totale

DDL: nombre de degré de liberté de l'information résiduelle

F: Variable de Fisher

p-value: probabilité que la valeur de F ait été obtenue par hasard (plus cette probabilité est faible, plus la valeur de F est significative).



Colonne selection: on a la possibilité via les cases à cocher ou décocher de supprimer certaines lignes qui ne rentrerons alors plus dans lescalculs. L'effet d'une supression de ligne dépend du rapport entre le bruit et le DDL de cette ligne. Par exemple, prenons l'effet lignée pour lequelnous avons une p-value de 0, 00018. Si vous supprimez la ligne 4 (lignée-année), la p-value de l'effet lignée devient 0, 00005 ce qui est meilleur.On a diminué le bruit moyen par cellule, autrement dit le bruit/DDL. A l'inverse, si on supprime la ligne 5 (lignée-lieux), on obtient une p-valuequi varie peu: 0, 00017 ce qui ne change pas grand chose. Enfin, si on supprime la ligne 6 (année-lieux), on obtient une p-value de 0, 023 ce qui beaucoup moins bon.

En conclusion, selon ce que l'on décide de mettre dans le bruit (que l'on néglige), on peut faire varier la p-value. Globalement, on ne change passon ordre de grandeur mais il faudra être vigilant lors de l'emploi de seuil sur la p-value pour sélectionner des résultats significatifs.



Quelques exemples pratiques









Exemples à télécharger







Test d’indépendance



Considérons un caractère à plusieurs modalités que l’on observe sur plusieurs

échantillons.

Ces échantillons peuvent être :

- Des échantillons selon le sexe (hommes et femmes).- Des échantillons par tranche d’âge

- Des échantillons représentatifs de régions …

Question :

Est-ce que les différences qui pourraient être observées entre les différents

échantillons sont dues aux seules fluctuations d’échantillonnage ou bien existe-t-il

une différence réellement significative entre les échantillons ?

Dans le 1er cas, les échantillons sont comparables, il y a indépendance entre le

caractère et l’échantillon.

Dans le 2ème cas, la différence est réelle et suppose un lien entre le caractère et

l’échantillon. On peut, par exemple citer le cas d’une réponse différente selon le

sexe ou selon l’âge ou selon tout autre paramètre …

Pour voir des exemples, aller à la section "téléchargement"

Tests paramétriques et non paramétriques : avantages et

inconvénients

* Un test paramétrique requiert un modèle à fortes contraintes (normalité des

distributions, égalité des variances).

Les hypothèses seront d'autant plus difficiles à vérifier que les effectifs étudiés

seront réduits.





* Un test non paramétrique peut être réalisé sans conditions préalables sur les

paramètres de la population dont a été extrait l'échantillon.

Cependant, les échantillons considérés doivent être aléatoires et simples(individus ayant la même probabilité d’y être prélevés et de façon indépendante

les uns des autres)

Avantages des tests non paramétriques

1. Leur emploi se justifie lorsque les conditions d'applications des autres

méthodes ne sont pas satisfaites, même après d'éventuelles transformations

de variables.

2. Les probabilités issues des tests non paramétriques sont des probabilités

exactes, quelle que soit la forme de la distribution de la population dont est

tiré l'échantillon.

3. Pour des échantillons de taille très faible (jusqu'à n = 6), la seule possibilité

est l'utilisation d'un test non paramétrique, sauf si la nature exacte de la

distribution de la population est précisément connue. Ceci permet une

diminution du coût ou du temps nécessaire à la collecte des informations.

4. Il existe des tests non paramétriques permettant de traiter des échantillons

composés à partir d'observations provenant de populations différentes. De

telles données ne peuvent être traitées par les tests paramétriques sans

faire des hypothèses irréalistes.

5. Seuls des tests non paramétriques existent qui permettent le traitement de

données qualitatives (exprimées en rangs, en échelle ordinale ou données

nominales).

6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer

que les tests paramétriques. Leur relative simplicité résulte souvent du

remplacement des valeurs observées soit par des variables alternatives,

indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par

les rangs, c'est-à-dire les numéros d'ordre des valeurs observées rangées

par ordre croissant. C'est ainsi que la médiane est généralement préférée à

la moyenne, comme paramètre de position.

Désavantages des tests non paramétriques



1. Les tests paramétriques, quand leurs conditions sont remplies, sont plus

puissants que les tests non paramétriques.

2. Un second inconvénient réside dans la difficulté a trouver la description des

tests et de leurs tables de valeurs significatives, surtout en langue française.Heureusement, les niveaux de significativité sont donnés directement par

les logiciels statistiques courants (PASW, Statistica...).

Hypothèse nulle et hypothèse alternative

C'est la première étape de toute procédure statistique.

Considérons la comparaison de 2 échantillons A et B, l'hypothèse nulle H0 est une

hypothèse de non différence : il n'y a pas de différence significative entre les

échantillons A et B.

L'hypothèse nulle est formulée, en général, de façon à être rejetée; ce qui revient à

dire que ce sera l'hypothèse alternative H1 qui prévaudra : il y a une différence

significative entre les échantillons A et B.

Supposons que nous voulions tester l’affirmation selon laquelle deux groupes

spécifiques de plantes diffèrent par leur vitesse de croissance.

Cette prédiction sera une hypothèse de recherche que nous formulons en

hypothèse alternative H1 : la vitesse de croissance des deux populations est

différente, alors que H0 sera formulée comme suit : "La vitesse de croissance pour

les deux populations est la même".

Nous avons : H0 : m1 = m2

H1 : m1 m2

Test unilatéral, test bilatéral

La nature de l'hypothèse de recherche détermine comment H1 doit être formulée :

1) Si l’on suppose que les deux groupes diffèrent simplement par leur moyenne :

les tests statistiques seront bilatéraux.

2) Au contraire, si l’on suppose qu'un des groupes spécifiés aura une moyenne

supérieure (ou inférieure) à celle de l'autre groupe : les tests applicables

seront alors unilatéraux.



Les Analyses Factorielles

ACP et AFC

Le traitement de tableaux complexes de données englobant un grand nombre de variables nécessite des méthodes plus élaborées que celles de la statistique

univariée ou bivariée appelées analyses factorielles.

Il s’agit de choisir un type d’analyse en vue de décrire, structurer ou expliquer

avec ou sans modélisation.

Il s’agit de décrire un phénomène sans avoir d’a priori sur les résultats qui

peuvent apparaître.

Exemple : Une population où chacun des sujets est caractérisé par un certainnombre de variables, toutes de même importance et jouant toutes le même rôle.

Les deux types d’analyse sont :

1) L’analyse en composantes principales (ACP)

2) L’analyse des correspondances (AFC),

Il s’agit de synthétiser l’information en structurant la population par "groupes

homogènes".

Les tableaux de départ peuvent contenir tout type de données : qualitatives ou

quantitatives ou les deux à la fois. Il y a deux types de données :

- Données continues : taille, poids, âge, quantité de nourriture, taux

d’hormones, quantité de nitrates, valeurs du pH, etc.

- Données discrètes : effectifs, fréquences

Les données qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs

ou gris, peuvent être codées en chiffres à valeurs arbitraires (1 pour le sexe

masculin et 2 pour le sexe féminin.)

Les variables quantitatives (continues ou discrètes) peuvent se transformer en

variables qualitatives (cours de 1

ère

année).Nous obtenons une relation d’ordre entre les nombres.



On peut, par exemple, créer des tableaux type "absence/présence" d’un caractère

(codés 0 et 1), des tableaux complets avec plusieurs modalités pour chaque

variable etc…Les variables quantitatives continues peuvent être conservées telles quelles.

Pour une ACP, les variables doivent obligatoirement être disposées en

colonnes et les observations en lignes, alors que pour une AFC, cela est

indifférent.

L’intérêt majeur de ces analyses est de fournir une méthode de représentation

d’une population décrite par un ensemble de caractères dont les modalités sont

quantitatives pour une ACP, ou qualitatives pour une AFC.

3) Principe de l’analyse factorielle :

Toute analyse factorielle consiste à recoder des données, puis à opérer une

simplification de ces données par ajustement matriciel. Il s’agit donc de passer

d’un très vaste tableau de données à un tableau plus petit (résumé du tableauinitial)

4) Etapes d’une analyse factorielle :

- Une première étape consiste à construire un nuage de points dans un

espace à n dimensions.

- La deuxième étape consiste à déterminer des sous-espaces sur lesquels on

pourra projeter le nuage de points sans trop le déformer. Afin de dégager les

principales tendances, on procède à des ajustements linéaires successifs du

nuage initial pour déterminer l’axe qui restitue au mieux la forme géométrique et

massique du nuage (1er axe d’inertie). On détermine ensuite le plan qui restitue au

mieux la proximité entre points et ainsi de suite pour les dimensions 3, 4, et

supérieures (ce traitement mathématique complexe, qui comporte la

diagonalisation de matrices pour la recherche des axes privilégiés, en calculant les

vecteurs propres et les valeurs propres de la matrice, se fait grâce à des logicielsspécialisés (SPSS, Minitab, Scilab, Statistica …).



5) Interprétation :

A l’aide des représentations graphiques, appuyées par les tableaux, on essaiera

de :

- Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des

caractères

- Révéler des différences entre individus ou groupe d’individus, relativement à

l’ensemble des caractères

- Mettre en évidence des individus au comportement atypique (toujours vis-à-vis

de l’ensemble des caractères). Ce comportement atypique peut être dû soit à la

présence de données aberrantes soit à d’autres causes qu’il conviendra dedéterminer

- Condenser l’information qui permet de décrire la position d’un individu dans

l’ensemble de la population.

Commentaire (1)

1. Anto - Le 14/09/2010 à 13:48

Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites

pour faciliter l'accès à la statistique.

Toutefois, je ne suis pas sûr qu'un novice comprenne la nature de l'ACP

ou de l'AFC après lecture de votre article... L'étude par calcul matriciel

sur tableur est désuet, c'est donc du côté des logiciels qu'il vous faut

décrire la procédure.

Et... le site préconçu, à termes, vous bridera...

Documents

Analyse Anova