242
FO: GCP/RAS/163/NET FO : GCP/INT/679/EC MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE ORGANISATION DES NATIONS UNIES POUR L’ALIMENTATION ET L’AGRICULTURE COOPERATION HOLLANDAISE COMMISSION EUROPEENNE

MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

FO: GCP/RAS/163/NETFO : GCP/INT/679/EC

MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE

ORGANISATION DES NATIONS UNIES POUR L’ALIMENTATION ET L’AGRICULTURECOOPERATION HOLLANDAISE

COMMISSION EUROPEENNE

Page 2: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

FO: GCP/RAS/163/NETFO : GCP/INT/679/EC

MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE

de

K. JAYARAMANKerala Forest Research InstitutePeechi, Thrissur, Kerala (Inde)

ORGANISATION DES NATIONS UNIES POUR L’ALIMENTATION ET L’AGRICULTURECOOPERATION HOLLANDAISE

COMMISSION EUROPEENNE

Page 3: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

i

REMERCIEMENTS

L’auteur est profondément reconnaissant au FORSPA d’avoir soutenu la préparation de ce manuel.Il remercie également le Kerala Forest Research Institute d’avoir donné l’autorisation d’entreprendrecette étude et mis à disposition les infrastructures nécessaires. Bon nombre d’exemples illustrant lesdifférentes techniques statistiques décrites dans ce manuel se fondent sur des données publiées pardes chercheurs du Kerala Forest Research Institute. L’auteur exprime aussi sa gratitude à tous sescollaborateurs de l’Institut qui ont coopéré à titre gracieux et tient à remercier en particulier Smt C.Sunanda et M. A.G. Varghese, agrégés en recherche de la Division des statistiques du Kerala ForestResearch Institute, qui ont eu la patience de lire le manuscrit et ont offert de nombreuses suggestionsutiles pour en améliorer le contenu et la forme.

Le présent manuel est dédié à tous ceux qui sont fermement décidés à chercher la VERITE, entranchant le voile du hasard avec le sabre de la raison pure

Mars 1999 K. Jayaraman

Page 4: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

1

NOTE INTRODUCTIVE

(à la version française)

Face aux différents défis que connaît l’Afrique dans son développement, la forêt et les ressourcesligneuses ont une place essentielle à jouer. Il est ainsi indispensable de promouvoir une gestiondurable des arbres et des forêts pour qu’un tel patrimoine puisse au mieux servir les besoins et lesespérances des hommes. Pour tendre vers cette politique où s’intègrent, d’une manière équilibrée,les aspects économiques, sociaux et environnementaux, la Commission européenne et leDépartement des forêts de la FAO ont décidé d’un programme de partenariat qui définit unedémarche commune en faveur de l’Afrique, celle de soutenir l’aménagement durable des forêts.

Un tel objectif appelle à un renforcement des capacités nationales dans la collecte et l’analyse d’uneinformation fiable et actualisée portant sur le secteur forestier. Toutefois, améliorer la qualité desdonnées, s’assurer de leur validité ou élaborer un cadre effectif pour leur collecte et diffusion sontdes difficultés quotidiennes et répétées pour de nombreux services forestiers africains. Cette réalité,cette préoccupation, nos collègues forestiers africains nous l’ont expliquée et soulignée au cours desactivités menées dans le cadre du programme CE-FAO durant les ateliers techniques ou parmi lesrecommandations de leurs rapports. Enfin le résultat des échanges et discussions nous a montré quel’organisation des données et leur valeur passent aussi par une meilleure maîtrise des concepts etprincipes statistiques.

A travers un constat similaire et afin de donner aux forestiers asiatiques les outils nécessaires dansleurs travaux de planification, de collecte des données et d’interprétation des résultats, FORSPA(acronyme de “Forestry Research Support Programme for Asia and the Pacific” ou “Programme desoutien à la recherche forestière pour l’Asie et le Pacifique”) a facilité la rédaction d’un manuel destatistiques.

De ce travail en anglais, il nous est paru important de pouvoir le traduire et d’en proposer uneversion française pour une plus ample diffusion. Celle-ci a pu être produite grâce aux fonds mis àdisposition par la Commission européenne.

Avec le présent document, nous espérons que vous, experts, chercheurs ou spécialistes forestiers,puissiez y trouver les exemples et les techniques utiles à votre activité professionnelle.

Michael MartinChef de la Sous-Division

de la planification et des statistiques forestières

Page 5: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

2

INTRODUCTION

Le présent manuel a été rédigé pour le FORSPA (Bangkok) qui demandait que soit préparé unmanuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière duBhoutan. A cette fin, nous nous sommes rendus au Bhoutan pour examiner la nature des travaux derecherche entrepris dans ce pays et nous avons dressé un plan du manuel en consultation étroite avecles chercheurs. A l’origine, le manuel devait être structuré suivant un plan précis, en fonction de lasérie de travaux de recherche envisagée dans le huitième plan quinquennal pour le Bhoutan, maisnous avons choisi une présentation susceptible d’intéresser une plus vaste gamme de chercheurs quientreprennent des enquêtes similaires. Ce manuel s’adresse aux chercheurs spécialisés dans lesressources naturelles renouvelables, en particulier les forêts, les terres agricoles et l’élevage, etdevrait leur servir de référence pour planifier leurs travaux, collecter et analyser les donnéespertinentes et en interpréter les résultats. Les exemples utilisés pour illustrer les différentes techniquesproviennent principalement du secteur forestier.

Après quelques remarques d’introduction sur la nature de la méthode scientifique et le rôle desstatistiques dans la recherche scientifique, le manuel présente des techniques spécifiques. Ilcommence par décrire les procédures élémentaires d’estimation et de vérification statistique, lesméthodes de planification et d’analyse des expériences, ainsi que quelques techniquesd’échantillonnage classiques, pour ensuite passer à des méthodes statistiques utilisées dans certainesdisciplines spécifiques comme l’amélioration génétique des arbres, la biologie de la faune, ladendométrie et l’écologie – qui sont souvent l’apanage exclusif de la recherche forestière.

En décrivant ces méthodes, nous ne prétendons pas en avoir fait le tour, d’une part parce qu’il esttoujours possible d’utiliser les données de façon plus approfondie en fonction des besoins deschercheurs, et de l’autre, parce que les méthodologies sont constamment perfectionnées. En écrivantce manuel, notre intention était surtout de présenter aux chercheurs quelques-uns des concepts etdes techniques fondamentaux des statistiques, qui trouvent de nombreuses applications dans larecherche forestière et dans des domaines connexes.

Il nous a également été précisé que le manuel devait être rédigé dans un style aussi simple quepossible, et enrichi d’illustrations de manière à offrir aux chercheurs une source de référence facile àconsulter. C’est pourquoi nous nous sommes limités à décrire des plans et des analyses d’expériencesimples, accompagnés d’illustrations appropriées. Pour les techniques plus complexes, nousrenvoyons le lecteur aux ouvrages classiques sur ce sujet. Malgré cette réserve, nous nous sommesefforcés d’insérer dans le manuel tous les éléments requis pour un cours élémentaire de statistiquesappliquées, en indiquant plusieurs domaines d’application et en conseillant d’autres ouvrages à lire.En ajoutant d’autres thèmes, nous n’aurions fait qu’alourdir ce manuel et le rendre trop compliqué.

Toute personne ayant une connaissance élémentaire des mathématiques de base devrait êtrecapable de comprendre les descriptions fournies dans ce manuel. Dans la mesure du possible, on aévité la théorie et le calcul matriciel. Dans le cas contraire, les explications nécessaires sont fournies.Il est conseillé aux débutants de lire les chapitres les uns après les autres dans l’ordre où ils sontprésentés. Les chercheurs plus expérimentés peuvent sauter les premières sections et passerdirectement aux applications décrites dans les suivantes.

Page 6: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

3

NOTATION

Tout au long de cet ouvrage, les noms des variables sont indiqués en italiques. Le symbole

∑ signifie « somme de ». Par exemple, l’expression G y ...1 2 n= + + +y y peut s’écrire G ==∑ yii

n

1

ou simplement G y= ∑ si l’on comprend, d’après le contexte, quels sont les termes à additionner.

Dans le cas d’une sommation comprenant plusieurs indices, les sommes marginales sont notées parun point (.) à la place de l’indice inférieur, comme indiqué ci-dessous :

y = yij i.j

∑ , y = yij .ji

∑ , y = yij ..ij∑

La juxtaposition de deux lettres, comme par exemple ab dans les équations, signifie généralementproduit de a et b, sauf indication contraire expresse ou se comprenant d’après le contexte. Leschiffres à multiplier sont indiqués par des parenthèses, par ex : (4)(5) signifie 4 multiplié par 5. Ladivision est indiquée par une barre transversale (/) ou par une ligne de séparation horizontale entre lenumérateur et le dénominateur.

La numérotation des équations, des tableaux et des figures est fonction des numéros des chapitres.Par exemple, l’équation (3.1) est l’équation 1 du chapitre 3.

On trouvera à l’Annexe 7 certaines notations additionnelles, comme la notation factorielle,combinatoire ou matricielle, avec les définitions correspondantes.

Page 7: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 4 -

1. LA METHODE STATISTIQUE DANS LA RECHERCHE SCIENTIFIQUE

Comme dans toute autre branche de la science, la recherche forestière est basée sur une méthodescientifique familièrement appelée approche induco-déductive. Toute méthode scientifique passe parla formulation d’hypothèses à partir de faits observés, puis par des cycles successifs de déduction etde vérification. Les faits sont des observations qui sont considérées comme vraies, alors qu’unehypothèse est une conjecture provisoire concernant le phénomène à l’examen. Des déductions sontfaites à partir des hypothèses, au moyen d’arguments logiques qui sont eux-mêmes vérifiés par desméthodes objectives. Le processus de vérification peut déboucher sur de nouvelles hypothèses,déductions et vérifications s’enchaînant dans un long processus au cours duquel émergent desthéories, des principes et des lois scientifiques.

Ceci peut être illustré par l’exemple suivant : supposons que l’on observe que les arbres se trouvantaux limites d’une plantation poussent mieux que ceux qui sont à l’intérieur. L’une des hypothèsesprovisoires qui pourraient être formulées à partir de ce fait est « la croissance des arbres est plusrapide à la périphérie de la plantation, parce qu’il rentre davantage de lumière par les côtésouverts ». On peut ensuite en déduire qu’en variant l’espacement entre les arbres, ce qui permet decontrôler la quantité de lumière qui rentre, on peut modifier la croissance des arbres. Ceci conduira àplanifier une expérience d’espacement dans laquelle on plantera des arbres à des espacementsdifférents, pour observer leur croissance. Si, à l’issue de cette expérience, on observe que desarbres plantés à la même distance n’ont pas la même croissance, on sera amené à formuler unedeuxième hypothèse « la variation de la fertilité du sol est la cause des différences de croissance ».Ceci pourrait conduire à planifier un nouvel essai d’espacement avec engrais. Si le chercheurobserve à l’issue de celui-ci que des arbres soumis au même espacement et recevant la même dosed’engrais n’ont pas la même croissance, il peut être incité à conduire un essai d’espacement, avecengrais et variétés. A la fin d’une série d’expériences, on peut en arriver à la conclusion que la loi desfacteurs limitants s’applique, c’est-à-dire que la croissance des plantes cultivées est entravée par lefacteur environnemental le plus limitant.

Les deux principales caractéristiques d’une méthode scientifique sont sa répétabilité et sonobjectivité. Alors que ces conditions sont rigoureusement vérifiées dans le cas de nombreuxprocessus physiques, les phénomènes biologiques sont caractérisés par la variation et l’incertitude.Des expériences répétées dans des conditions similaires ne donnent pas nécessairement les mêmesrésultats, car elles sont soumises à des fluctuations dues au hasard. En outre, il est souvent impossibled’observer l’ensemble complet des individus qui forment la population et, dans de telles situations,les déductions doivent être faites sur la base d’un ensemble d’échantillons d’observations. La sciencedes statistiques est utile pour choisir objectivement un échantillon, faire des généralisations valables àpartir des observations faites sur l’ensemble d’échantillons, mais aussi pour mesurer le degréd’incertitude, ou la fiabilité, des conclusions tirées.

La collecte des données et leur interprétation sont deux aspects pratiques majeurs des investigationsscientifiques. Les données peuvent être obtenues dans le cadre d’une enquête par sondage sur unepopulation existant dans la nature, ou dans le cadre d’un plan d’expérience portant sur unepopulation fictive. Les données collectées sont résumées et des informations utiles en sont extraites àl’aide de techniques d’inférence statistique. En outre, la simulation est une autre méthode, d’uneimportance capitale pour la recherche forestière, qui gagne du terrain depuis quelques années, avec

Page 8: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

La méthode statistique dans la recherche scientifique

- 5 -

l’apparition de l’informatique. Cette méthode est particulièrement utile dans le secteur forestier carles techniques de simulation peuvent remplacer des expériences en champ à grande échelle qui sontextrêmement coûteuses et longues. La méthode consiste à élaborer des modèles mathématiquescaptant la plupart des caractéristiques pertinentes du système examiné, puis à faire des essais surordinateur plutôt qu’en conditions réelles. Nous allons commencer par examiner quelques traitsdistinctifs supplémentaires de ces trois approches – à savoir enquête, expérience et simulation –avant de passer à une description détaillée des techniques concernées, dans les chapitres suivants.

Au sens large, toutes les études in situ impliquant des observations indépendantes sur la naturepeuvent être classées dans la catégorie des enquêtes. Ces enquêtes peuvent être entreprises pourdiverses raisons, par exemple pour estimer les paramètres d’une population, pour comparer despopulations différentes, pour étudier le mode de distribution de certains organismes, ou pourdécouvrir les interactions entre plusieurs variables. Les relations observées dans le cadre de cesétudes sont rarement des relations de cause à effet, mais elles ont une valeur prévisionnelle. Lesétudes portant sur des sciences comme l’économie, l’écologie et la biologie de la faune rentrentgénéralement dans cette catégorie. La théorie statistique des enquêtes repose sur l’échantillonnagealéatoire, qui assigne une probabilité de sélection donnée à chaque unité d’échantillonnage de lapopulation.

Les expériences servent à vérifier des hypothèses dans des conditions que l’on maîtrise. Dans lesecteur forestier, les expériences sont réalisées en forêt, en pépinière ou en laboratoire, à l’aide detraitements déterminés au préalable, sur des unités expérimentales bien définies. L’expérimentationrepose sur les trois principes de la randomisation, de la répétition et du contrôle local, qui sontindispensables pour obtenir une estimation valable de l’erreur et réduire son ampleur. L’allocationaléatoire des unités expérimentales aux différents traitements garantit l’objectivité, la répétition desobservations accroît la fiabilité des conclusions et le principe du contrôle local réduit l’incidence defacteurs extérieurs sur la comparaison des traitements. Les essais sylvicoles en plantations et enpépinières et les essais en laboratoire sont des exemples typiques d’expériences forestières.

Une expérimentation relative à l’état d’un système, faite à l’aide d’un modèle temporel, est appeléesimulation. Un système peut être défini comme un ensemble d’éléments, également appeléscomposantes. Un ensemble d’arbres dans un peuplement forestier, ou des producteurs et desconsommateurs dans un système économique sont des exemples de composantes. Les éléments(composantes) ont certaines caractéristiques, ou attributs, auxquels sont attachées des valeursnumériques ou logiques. Il existe des relations entre les éléments, de sorte que ceux-ci interagissent.L’état d’un système est déterminé par les valeurs numériques ou logiques des attributs des élémentsqui le composent. Les interactions entre les éléments d’un système peuvent être exprimées au moyend’équations mathématiques ; il est donc possible de prévoir l’état du système dans d’autresconditions possibles, au moyen de modèles mathématiques. La simulation revient à tracer l’évolutiond’un système à travers le temps, dans le cadre de diverses hypothèses.

Les enquêtes, les expérimentations et les simulations sont des éléments essentiels de tout programmede recherche scientifique, mais il importe de les incorporer dans un cadre plus large et plusstratégique, pour garantir l’efficacité de l’ensemble du programme. Il est désormais reconnu qu’uneanalyse de systèmes fournit un tel cadre, dont l’objet est d’aider les décideurs à choisir une ligned’action rationnelle ou de prévoir l’issue d’une ou plusieurs lignes d’action qui semblent souhaitables.

Page 9: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

La méthode statistique dans la recherche scientifique

- 6 -

Selon une autre définition plus formelle, l’analyse de systèmes désigne l’organisation ordonnée etlogique des données et de l’information dans des modèles, suivie d’une vérification et d’uneexploration rigoureuses de ces modèles, en vue de les valider et les améliorer (Jeffers, 1978).

Dans le domaine forestier, les recherches vont du niveau moléculaire à l’ensemble de la biosphère.La nature du matériel étudié détermine dans une large mesure les méthodes employées pour lesenquêtes. De nombreux niveaux d’organisation dans la hiérarchie naturelle, par exemple des micro-organismes ou des arbres, peuvent faire l’objet d’expérimentations, alors que d’autres niveaux seprêtent uniquement à des observations passives et à des exercices de modélisation. Quels que soientles objets à l’étude, on constate que le cadre logique de l’approche scientifique et de l’inférencestatistique restent inchangés. Le présent manuel décrit essentiellement les différentes méthodesstatistiques qui permettent en toute objectivité de collecter des données et d’en tirer des déductionsvalables.

Page 10: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 7 -

2. NOTIONS DE STATISTIQUE

2.1. Le concept de probabilité

Le concept de probabilité est au centre des sciences statistiques. En tant que notion subjective, laprobabilité est en quelque sorte le degré de croyance en la survenue d’un événement, dans unintervalle de variation continu entre l’impossibilité et la certitude. En termes généraux, la valeur pattribuée par une personne à la probabilité P(E) d’un événement E représente le prix que cettedernière est prête à payer pour gagner une somme d’argent déterminée, si ledit événement sematérialise. Si le prix que la personne est prête à payer est de x unités pour gagner y unités demonnaie, la probabilité assignée est P(E)= x / (x + y). Des mesures plus objectives de la probabilitése fondent sur les issues également vraisemblables et la fréquence relative qui sont décrits plus loin.En théorie statistique, il existe aussi une définition axiomatique rigoureuse de la probabilité, dont il nesera pas question ici.

Définition classique de la probabilité : Supposons qu’un événement E puisse se produire de xfaçons différentes, sur un total de n façons également vraisemblables. Dans ces conditions, laprobabilité d’occurrence de l’événement E (ou de son succès) est donnée par

pxn

= =P(E) (2.1)

La probabilité de non occurrence de l’événement (ou de son échec) est donnée par

q = P(non E) = n x

nxn

−= − 1 (2.2)

= 1 1− = −p P(E) (2.3)On a donc p + q = 1, ou encore P(E) + P(non E) = 1. L’événement “ non E ” est parfois notéE, E or ~ E

~.

Par exemple, supposons que la couleur des fleurs d’une espèce végétale particulière soit gouvernéepar la présence d’un gène dominant A dans un seul locus du gène, les combinaisons gamétiques AAet Aa donnant des fleurs rouges et la combinaison aa des fleurs blanches. E est l’événement “ obtenirdes fleurs rouges ” dans la descendance par autofécondation d’un hétérozygote, Aa. Supposons queles quatre combinaisons gamétiques AA, Aa, aA et aa aient toutes les mêmes chances d’êtreréalisées. Puisque l’événement E peut être réalisé par trois de ces combinaisons, on a :

p = P(E) = 34

La probabilité d’obtenir des fleurs blanches dans la descendance par autofécondation d’unhétérozygote Aa est

q = P(E) = − = 134

14

Notons que la probabilité d’un événement est un nombre compris entre 0 et 1. Si l’événement nepeut pas se produire, sa probabilité est égale à 0. S’il doit se produire, c’est-à-dire si sonoccurrence est certaine, sa probabilité est égale à 1. Si p est la probabilité qu’un événement seproduise, les chances de réussite sont p:q (lire ‘p contre q’) ; et les chances d’échec sont q:p. Ainsi,

Page 11: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 8 -

dans l’exemple qui précède, les chances d’obtenir des fleurs rouges sont égales à

p q : : := =34

14

31 , ou 3 contre 1.

Interprétation de la probabilité en termes de fréquence : L’inconvénient de la définitionprécédente tient au manque de précision de l’expression ‘également vraisemblable’. Etant donné queces mots semblent être synonymes de ‘également probables’, la définition est circulaire, puisque laprobabilité est définie à partir d’elle-même. C’est la raison pour laquelle certains ont préconisé unedéfinition statistique de la probabilité. Selon cette définition, la probabilité estimée, ou probabilitéempirique, d’un événement est la fréquence relative de l’occurrence de l’événement, sur un grandnombre d’observations. La probabilité proprement dite est la limite de cette fréquence relativelorsque le nombre d’observations augmente indéfiniment. La probabilité de l’événement E estexprimée par la formule : P(E) = lim fn (E) (2.4) n → ∞où fn (E) = (nombre de fois où E s’est produit)/(nombre total d’observations).

Par exemple, une enquête concernant une espèce particulière menacée d’extinction, a donné lessuites de nombres de plantes de cette espèce, indiquées ci-après.x (nombres de plantes de l’espèce menacée) : 1, 6, 62, 610n (nombres de plantes examinées) : 1000, 10000, 100000, 1000000p (proportion de l’espèce menacée) : 0.001, 0.00060, 0.00062, 0.00061Lorsque n tend vers l’infini, la fréquence relative semble tendre vers une certaine limite. Cettepropriété empirique est appelée stabilité de la fréquence relative.

Probabilité conditionnelle, événements indépendants et dépendants : Si E1 et E2 sont deuxévénements, la probabilité que E2 survienne, sachant que E1 s’est produit, est notée P(E2/E1) ou P(E2

sachant E1) et est appelée probabilité conditionnelle de E2 sachant que E1 s’est produit. Sil’occurrence ou la non occurrence de E1 est sans influence sur la probabilité d’occurrence de E2,P(E2/E1) = P(E2) et les événements E1 et E2 sont dits indépendants. Dans le cas contraire, lesévénements sont dits dépendants.

Si E1E2 est l’événement “ réalisation de E1 et de E2 ”, parfois appelé événement composé, on aP(E1E2) = P(E1)P(E2/E1) (2.5)

En particulier , P(E1E2) = P(E1)P(E2) si les événements sont indépendants. (2.6)

Considérons par exemple la ségrégation conjointe de deux caractères, tels que la couleur des fleurset la forme des graines d’une espèce végétale, chacun de ces caractères étant respectivementgouverné par la présence des gènes dominants A et B. Individuellement, les combinaisons AA et Aadonnent des fleurs rouges et la combinaison aa des fleurs blanches, les combinaisons BB et Bbdonnent des graines arrondies alors que la combinaison bb produit des graines ridées.

Soient E1 et E2 les événements ‘obtenir des plantes à fleurs rouge’ et ‘obtenir des plantes à grainesarrondies’ dans la descendance respectivement obtenue par autofécondation d’un hétérozygoteAaBb. Si E1 et E2 sont des événements indépendants, c’est à dire s’il n’y a pas d’interaction entre les

Page 12: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 9 -

deux locus de gène, la probabilité d’obtenir des plantes à fleurs rouges et à graines rondes dans ladescendance autofécondée est,

P(E1E2)=P(E1)P(E2)=34

34

916

=

En général, si E1, E2, E3, …, En sont n événements indépendants ayant les probabilités respectivesp1, p2, p3, …, pn, la probabilité d’occurrence de E1 et E2 et E3 et … En est p1p2p3…pn.

2.2. Distribution de fréquence

Vu la grande utilité pratique de l’interprétation de la probabilité en termes de fréquence, on établitsouvent des distributions de fréquence pour réduire d’importantes masses de données brutes, carcette technique donne des informations sur le mode de réalisation de classes d’événementsprédéfinies. Les données brutes sont des mesures d’un attribut quelconque concernant un grouped’individus. La mesure peut être faite à l’échelle nominale, ordinale, proportionnelle ou par intervalle.L’échelle nominale se réfère à une mesure à son niveau le plus faible, lorsqu’un nombre ou d’autressymboles sont utilisés uniquement pour classer un objet, une personne ou une caractéristique, commepar exemple l’état de santé (sain, malade). L’échelle ordinale est celle dans laquelle, dans un groupede classes d’équivalence connu, la relation “ plus grande que ” convient pour toutes les paires declasses, de sorte qu’un classement complet par ordre de grandeur est possible (ex : situationéconomique et sociale). Si une échelle a toutes les caractéristiques d’une échelle ordinale et si l’onconnaît en outre l’amplitude des distances entre deux nombres quelconques sur l’échelle, on a uneéchelle par intervalle, comme par exemple les échelles de température centigrade ou Fahrenheit. Uneéchelle par intervalle ayant un zéro absolu à son origine forme une échelle proportionnelle. Dans uneéchelle proportionnelle, le rapport de deux points quelconques de l’échelle est indépendant de l’unitéde mesure, ex : hauteur des arbres. On peut se référer à Siegel (1956) pour une analyse détaillée desdifférentes échelles de mesures, de leurs propriétés et des opérations possibles dans chaque échelle.

Indépendamment de l’échelle de mesure, la réduction des données peut se faire par la méthode ditedes fréquences de classe, qui consiste à répartir les données en classes ou catégories et àdéterminer le nombre d’individus appartenant à chacune de ces classes. On appelle distribution defréquence, ou tableau de fréquences, la mise en tableaux de données ventilées par classes, avecles fréquences de classes correspondantes. Le Tableau 2.1 présente une distribution de fréquencedes diamètres à hauteur d’homme (dbh) enregistrés au centimètre le plus proche, de 80 Tecks, surune parcelle-témoin. La fréquence relative d’une classe, généralement exprimée en pourcentage,est égale à la fréquence de la classe considérée divisée par la fréquence totale de toutes les classes.Ainsi, la fréquence relative de la classe 17-19, dans le Tableau 2.1 est (30/80)100 = 37,4%. Lasomme de toutes les fréquences relatives de toutes les classes est bien entendu égale à 100%.

Page 13: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 10 -

Tableau 2.1. Fréquence de distribution des diamètres à hauteur d’homme (dbh) des Tecks, sur uneparcelle.

Classe de dbh(cm)

Fréquence(Nombre d’arbres)

Fréquence relative(%)

11-13 11 13.814-16 20 25.017-19 30 37.420-22 15 18.823-25 4 5.0Total 80 100.0

Le symbole définissant l’amplitude d’une classe, tel que 11-13 dans le tableau ci-dessus, est appeléintervalle de classe. Les chiffres extrêmes 11 et 13 forment les limites de classe ; le plus petitnombre (11) constitue la limite inférieure de classe, et le plus grand la limite supérieure de classe.Les termes de “ classe ” et “ intervalle de classe ” sont souvent utilisés indifféremment l’un pourl’autre, à tort, car l’intervalle de classe est en réalité un symbole de la classe. Un intervalle de classepour lequel l’une des deux limites (supérieure ou inférieure) n’est pas indiquée, au moins en théorie,est dit intervalle de classe ouverte ; l’intervalle de classe “ 23 cm et plus ” est par exemple unintervalle de classe ouverte.

Si les valeurs des dbh sont enregistrées au centimètre le plus proche, la classe d’intervalle 11-13comprend théoriquement toutes les mesures allant de 10,5 à 13,5 cm. Ces nombres sont lesextrémités, ou limites réelles, des classes; le plus petit nombre (10,5) est l’extrémité inférieure de laclasse et le plus grand (13.5) l’extrémité supérieure de la classe. Dans la pratique, les limitesréelles des classes s’obtiennent en ajoutant la limite supérieure d’un intervalle de classe à la limiteinférieure de l’intervalle de classe suivant plus élevé, et en divisant par deux.

Il arrive que les classes soient symbolisées par les extrémités de classe. Par exemple, les symbolesdes différentes classes de la première colonne du Tableau 2.1 pourraient être 10,5-13,5 ; 13,5-16,5 ; etc. Pour éviter toute ambiguïté lorsque l’on utilise ces notations, on évitera que les extrémitésde classe coïncident avec des observations effectives. En effet, à supposer par exemple que l’unedes mesures observées soit 13,5, il serait impossible de savoir s’il faut la ranger dans classed’intervalle 10,5-13,5 ou 13,5-16,5. L’étendue d’une classe d’intervalle, ou amplitude de laclasse, est égale à la différence entre les extrémités inférieures et supérieures. La valeur centrale de laclasse est le point médian de l’intervalle de classe, qui se calcule en additionnant les limites inférieureet supérieure de la classe et en divisant par deux.

Les distributions de fréquence sont souvent représentées graphiquement par un histogramme oupolygone de fréquences. Un histogramme est formé d’une série de rectangles, dont les largeurs, oubases, sont situées sur un axe horizontal (axe x) les centres se trouvant au niveau des valeurscentrales des classes, et les longueurs(ou hauteurs) étant égales aux amplitudes des classesd’intervalle et les surfaces proportionnelles aux classes de fréquence. Si tous les intervalles de classesont la même amplitude, les hauteurs des rectangles sont proportionnelles aux classes de fréquences,auquel cas on prend habituellement des hauteurs numériquement égales aux classes de fréquences. Siles intervalles de classe n’ont pas la même amplitude, ces hauteurs doivent être ajustées. Unpolygone de fréquence est un graphique linéaire mettant en corrélation la fréquence de classe et la

Page 14: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 11 -

valeur centrale d’une classe. Il s’obtient en reliant les points médians des sommets des rectanglesdans l’histogramme.

Figure 2.1. Histogramme illustrant la distribution de fréquence des dbh

Figure 2.2. Polygone de fréquence illustrant la distribution de fréquence des dbh

2.3. Propriétés de la distribution de fréquence

Une fois la distribution de fréquence établie, on peut en tirer un certain nombre de paramètres quiconduisent à une réduction ultérieure des données. Ces paramètres sont les mesures de position, dedispersion, d’asymétrie et d’aplatissement.

2.3.1. Mesures de positionUne distribution de fréquence peut être localisée par sa valeur moyenne qui est caractéristique oureprésentative de la série de données. Etant donné que ces valeurs caractéristiques tendent à segrouper vers le centre, dans une série de données arrangée en fonction de la grandeur, ces moyennessont aussi appelées mesures de la tendance centrale. On peut définir plusieurs types de moyennes,

Frequence

Frequence

Page 15: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 12 -

les plus communes étant la moyenne arithmétique (ou en abrégé la moyenne), la médiane et lemode. Chacune a des avantages et des inconvénients, qui dépendent du type de données et du butpoursuivi.

Moyenne arithmétique : La moyenne arithmétique, ou moyenne, d’une série de N nombres x1, x2,x3, …, xN est notée x (lire ‘x barre’) et définie par

...

Moyenne 321

Nxxxx N++++

= (2.7)

= ==∑ ∑x

Nx

N

jj

N

1

Le symbole x jj

N

=∑

1

caractérise la somme de tous les xj de j = 1 à j = N.

Par exemple, la moyenne arithmétique des nombres 8, 3, 5, 12, 10 est

8 3 5 12 10

5385

7 6+ + + +

= = .

Si les nombres x1, x2, …, xK apparaissent respectivement f1, f2, …, fK fois (c’est à dire s’ilsapparaissent avec les fréquences respectives f1, f2, …, fK) la moyenne arithmétique est

......

Moyenne21

2211

K

KK

fffxfxfxf

++++++

= (2.8)

= ==

=

∑∑∑

f x

f

fx

f

j jj

K

jj

K1

1

où N f = ∑ est la fréquence totale, c’est à dire le nombre total de cas.

La moyenne des données groupées du Tableau 2.1 se calcule comme suit.

*Etape 1. Trouver les centres , ou points médians, des classes. A cette fin, additionner les limitesinférieure et supérieure de la première classe et diviser par 2. Procéder de la même manièreen additionnant l’intervalle de classe, pour chacune des classes suivantes.

*Etape 2. Multiplier les points médians des classes par les fréquences correspondantes, et faire lasomme des résultats pour obtenir fx∑ .

Les résultats de ces étapes peuvent être résumés comme indiqué dans le Tableau 2.2.

Page 16: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 13 -

Tableau 2.2. Calcul de la moyenne à partir des données groupées

Classe dediamètre

(cm)

Point médianx f fx

11-13 12 11 13214-16 15 20 30017-19 18 30 54020-22 21 15 31523-25 24 4 96Total f =∑ 80 fx =∑ 1383

*Etape 3. Remplacer les valeurs dans la formule

= Moyenne∑∑

f

fx

= 138380

17 29= . cm

Médiane : La médiane d’une série de nombres rangés par ordre de grandeur (c.à.d., dans unensemble) est la valeur centrale ou la moyenne arithmétique des deux valeurs centrales.

Par exemple, la médiane de la série de nombres 3, 4, 4, 5, 6, 8, 8, 8, 10 est 6. Celle de la série de

nombres 5, 5, 7, 9, 11, 12, 15, 18 est 12

9 11( )+ = 10.

Dans le cas des données groupées, la médiane, obtenue par interpolation, est donnée par la formule

Médiane = ( )

L

Nf

fm1

12+

∑ c (2.9)

où L1 = extrémité inférieure de la classe médiane (c’est-à-dire de la classe contenant la médiane)N = nombre d’éléments des données (ou fréquence totale)

( )f∑ 1= somme des fréquences de toutes les classes inférieures à la classe médiane

fm = fréquence de la classe médianec = amplitude de l’intervalle de la classe médiane.

Géométriquement, la médiane représente la valeur de x (abscisse) correspondant à la ligne verticalequi divise un histogramme en deux parties d’aires égales.

Le calcul de la médiane des données groupées du Tableau 2.1. se fait de la façon suivante:

*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure etsupérieure de la première classe et diviser par 2. Procéder de la même manière enadditionnant l’intervalle de classe, pour chacune des classes suivantes.

Page 17: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 14 -

*Etape 2. Ecrire les fréquences cumulées et présenter les résultats comme indiqué dans le Tableau2.3.

Tableau 2.3. Calcul de la médiane des données groupées

Classe dedbh(cm)

Pointmédian

x

Fréquencef

Fréquencecumulée

11-13 12 11 1114-16 15 20 3117-19 18 30 6120-22 21 15 7623-25 24 4 80Total f =∑ 80

*Etape 3. Trouver la classe médiane en localisant le (N / 2)-ème terme dans la colonne desfréquences cumulées. Dans cet exemple, N / 2=40. Ce terme rentre dans la classe 17-19,qui est donc la classe médiane.

*Etape 4. Utiliser la formule (2.9) pour calculer la médiane.

Médiane = 165

802

31

303. +

= 17.4

Mode : Le mode d’une série de nombres est la valeur qui apparaît avec la plus grande fréquence,c’est à dire la valeur la plus commune. Le mode peut ne pas exister, et, même s’il existe, il peut nepas être unique.

La série de nombres 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 a pour mode 9. La série 3, 5, 8, 10, 12,15, 16 n’a pas de mode. La série 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 a deux modes 4 et 7 , on dit qu’elleest bimodale. Une distribution ayant un mode unique est appelée unimodale.

Dans le cas de données groupées représentées par une courbe des fréquences, le mode sera lavaleur (ou les valeurs) de x correspondant au(x) point(s) maximum(s) de la courbe.

A partir d’une distribution de fréquence ou d’un histogramme, le mode peut être obtenu en utilisant laformule suivante :

Mode = Lf

f fc1

2

1 2

++

(2.10)

où L1 = Extrémité inférieure de la classe modale (c.à.d. de la classe contenant le mode).f1 = Fréquence de la classe précédant la classe modale.

f2 = Fréquence de la classe suivant la classe modale. c = Amplitude de l’intervalle de la classe modale.

Page 18: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 15 -

Pour calculer le mode à partir des données groupées du Tableau 2.1., on procède comme suit:

*Etape 1. Trouver la classe modale. La classe modale est la classe pour laquelle la fréquence estmaximale. Dans notre exemple, la fréquence maximale est 30, par conséquent la classemodale est 17-19.

*Etape 2. Calculer le mode à l’aide de la formule (2.10.)

Mode = 16 515

15 203. +

+

= 17.79

D’après les directives générales concernant l’utilisation des mesures de position, la moyenne s’utiliseessentiellement dans le cas de distributions symétriques (voir Section 2.3.3) puisqu’elle est fortementinfluencée par la présence de valeurs extrêmes dans les données. La médiane possède l’avantaged’être calculable même dans le cas de classes ouvertes, et le mode est utile dans le cas dedistributions multimodales puisqu’il apparaît comme l’observation la plus fréquente dans une série dedonnées.

2.3.2. Mesures de dispersionLe degré auquel des données numériques tendent à s’écarter d’une valeur moyenne est appelévariation ou dispersion des données. Il existe plusieurs mesures de la variation ou de la dispersiondes données, comme l’étendue, l’écart moyen ou l’écart semi-interquartile, mais la plus commune estl’écart-type.

Ecart-type: L’écart-type d’une série de N nombres x1, x2, …, xN est défini par la formule suivante

( ) type-Ecart 1

2

N

xxN

jj∑

=

−= (2.11)

où x désigne la moyenne arithmétique.

L’écart-type est donc la racine carrée de la moyenne des carrés des écarts des valeurs individuellespar rapport à leur moyenne, ou, comme on l’appelle parfois, l’écart quadratique moyen. L’écart-type se calcule souvent à l’aide de la formule suivante qui est plus simple :

22

type-Ecart

−= ∑∑

N

x

N

x (2.12)

Par exemple, la série de données ci-après représente les diamètres à hauteur d’homme (dbh) de 10Teck prélevés au hasard dans une parcelle : 23.5 ; 11.3, ; 17.5 ; 16.7 ; 9.6 ; 10.6 ; 24.5 ; 21.0 ;18.1 ; 20.7.Ici N = 10, x2∑ = 3266.5 et x∑ = 173.5. Par conséquent

2

105.173

105.3266

type-Ecart

−= = 5.062

Page 19: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 16 -

Si x1, x2, …, xK ont pour fréquences respectives f1, f2, …, fK , l’écart-type peut-être calculé avec laformule

( )N

xxfK

jjj∑

=

−= 1

2

type-Ecart (2.13)

où N f fjj

K

= = ∑∑=1

Une forme équivalente, souvent utile dans les calculs, de l’équation (2.13) est la suivante :22

type-Ecart

−= ∑∑

N

fx

N

fx (2.14)

La variance d’une série de données est le carré de l’écart-type. Le rapport de l’écart-type à lamoyenne, exprimé en pourcentage, est appelé coefficient de variation.

Pour illustrer ces notions, reprenons les données du Tableau 2.1.

*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure etsupérieure de la première classe et diviser par 2. Procéder de la même manière pourchacune des classes suivantes, en additionnant l’intervalle de classe.

*Etape 2. Multiplier les centres des classes par les fréquences correspondantes, et sommer tous cesproduits pour obtenir fx∑ .

*Etape 3. Multiplier les carrés des points médians des classes par les fréquences correspondantes,et faire la somme de tous les produits pour obtenir fx2∑ .

Les résultats de ces calculs peuvent être résumés comme indiqué dans le Tableau 2.4.

Table 2.4. Calcul de l’écart-type à partir des données groupées

Classe dediamètre

(cm)

Pointmédian

x

Fréquencef fx fx2

11-13 12 11 132 158414-16 15 20 300 450017-19 18 30 540 972020-22 21 15 315 661523-25 24 4 96 2304Total 80 1383 24723

Page 20: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 17 -

*Etape 4. A l’aide de la formule (2.14), calculer l’écart-type et en déduire la variance et lecoefficient de variation

2

801383

8024723

type-Ecart

−= = 3.19

Variance = (Ecart-type )2 = (3.19)2

= 10.18

Coefficient de variation = (100)Moyenne

type-Ecart

= 319

17 29..

(100) = 18.45

L’écart-type et la moyenne ont tous deux des unités de mesure, alors que le coefficient de variationn’en a pas. Le coefficient de variation est donc utile pour comparer l’ampleur de la variation decaractères qui ne s’expriment pas dans les mêmes unités de mesures. Cette propriété est utile pourcomparer les variations de deux séries de nombres dont les moyennes diffèrent. Supposons, parexemple, que l’on veuille comparer les variations de la hauteur des plantules et de celle d’arbres plusâgés appartenant à une même espèce. Supposons que les moyennes et les écarts-types respectifssoient les suivants :Hauteur moyenne des arbres = 50 cm, Ecart-type de la hauteur des arbres= 10 cm.Hauteur moyenne des arbres = 500 cm, Ecart-type de la hauteur des arbres= 100 cm.

La valeur absolue de l’écart-type donne à penser que la variation est plus grande dans le cas desarbres, mais la variation relative, indiquée par le coefficient de variation (20%) est la même dans lesdeux cas.

2.3.3. Mesures d’asymétrieCe paramètre mesure le degré d’asymétrie, ou l’écart par rapport à la symétrie, d’une distribution. Sila courbe des fréquences (polygone lisse des fréquences) d’une distribution est plus ‘allongée’ vers ladroite du maximum central que vers sa gauche, on dit que la distribution est désaxée vers la droiteou encore qu’elle a une asymétrie positive. Dans le cas contraire, on dit qu’elle est désaxée vers lagauche ou qu’elle a une asymétrie négative. Un mesure d’asymétrie importante, exprimé sous uneforme adimensionnelle, est donnée par la formule

Coefficient de moment d’asymétrie =βµ

µ132

23= (2.15)

où µ2 et µ 3 sont les deuxième et troisième moments centrés définis par la formule,

( ) ( )µr

j

r

j

N

rx x

Nx xN

=−

=−=

∑ ∑1 (2.16)

Dans le cas de données groupées, ces moments sont donnés par

( ) ( )µ r

j j

r

j

K

rf x x

Nf x x

N=

−=

−=∑ ∑1

(2.17)

Page 21: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 18 -

Dans le cas d’une distribution symétrique, β1 = 0. L’asymétrie est positive ou négative selon que µ 3

est positif ou négatif.

Les données du Tableau 2.1 sont utilisées comme exemple pour illustrer les étapes du calcul de lamesure d’asymétrie.

*Etape 1. Calculer la moyenne.

Moyenne = fxf

∑∑

= 17.29

*Etape 2. Calculer fj (x j - x )2, fj (x j - x )3 et leurs sommes récapitulées dans le Tableau 2.5.

Tableau 2.5. Les étapes du calcul du coefficient d’asymétrie à partir de données groupées

Classe dediamètre

(cm)

Pointmédian

xf x j - x fj(xj - x )2 fj(xj - x )3 fj(xj - x )4

11-13 12 11 -5.29 307.83 -1628.39 8614.2114-16 15 20 -2.29 104.88 -240.18 550.0117-19 18 30 0.71 15.12 10.74 7.6220-22 21 15 3.71 206.46 765.97 2841.7623-25 24 4 6.71 180.10 1208.45 8108.68Total 80 3.55 814.39 116.58 20122.28

*Etape 3. Calculer µ2 et µ 3 à l’aide de la formule (2.17).

( )µ2

2

814 3980

=−∑ f x x

N

= .

= 10.18

( )µ3

3

116 5880

=−∑ f x x

N

= .

= 1.46

*Etape 4. Calculer la mesure d’asymétrie à l’aide de la formule (2.15).

Coefficient de moment d’asymétrie = ( )

( )β1

2

3

1461018

=..

= 0.002.

Page 22: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 19 -

Comme β1= 0.002, la distribution est très légèrement désaxée, ou encore l’asymétrie estnégligeable. L’asymétrie est positive puisque µ 3 est positif.

2.3.4. KurtoseLa kurtose est le degré d’aplatissement d’une distribution, généralement considéré par comparaisonavec une courbe de distribution normale. Si une courbe est plus pointue que la normale, elle est“ leptocurtique ”, si elle a un sommet aplati, on parle de courbe “ platicurtique ”. Une courbe enforme de cloche, ni trop pointue ni trop aplatie est dite “ mésocurtique ”.

Une mesure de l’aplatissement, exprimée sous forme adimensionnelle, est donnée par

Coefficient de moment d’aplatissement = βµµ2 = 4

22 (2.18)

où µ4 et µ2 peuvent être calculés avec la formule (2.16) dans le cas de données non groupées etavec la formule (2.17) dans le cas de données groupées. On dit que la distribution est normale siβ2 = 3. Lorsque β2 est supérieur à 3, la distribution est leptocurtique. Siβ2 est inférieur à 3, elle estplaticurtique.

Reprenons, par exemple, les données du Tableau 2.1. pour calculer le coefficient de moment del’aplatissement.

*Etape 1. Calculer la moyenne

Moyenne = fx

f∑∑

= 17.29

*Etape 2. Calculer fj (x j - x )2, fj (x j - x )4 et leur somme, d’après les données résumées duTableau 2.5.

*Etape 3. Calculer µ2 et µ4 à l’aide de la formule (2.17).

( )µ2

2

814 3980

=−∑ f x x

N

= .

= 10.18

( )µ4

4

80

=−∑ f x x

N

= 20122.28

= 251.53

*Etape 4. Calculer la mesure d’aplatissement à l’aide de la formule (2.18)

Page 23: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 20 -

Coefficient de moment d’aplatissement = ( ) 2β =251531018 2

..

= 2.43.La valeur de β2 est 2,38, chiffre inférieur à 3. La distribution est donc platicurtique.

2.4. Distributions théoriques discrètes

Lorsqu’une variable X peut prendre un ensemble discret de valeurs x1, x2,…, xK avec lesprobabilités respectives p1, p2, …, pK où p p p1 2 1+ + + =... K , on dit qu’une distribution discrètede probabilités a été définie pour la variable X. La fonction p(x) qui prend les valeurs p1, p2, …, pK

pour x = x1, x2, …, xK respectivement, est appelée fonction de probabilité ou fonction defréquence de X. Comme X peut prendre certaines valeurs avec des probabilités données, on ditsouvent que c’est une variable aléatoire discrète.Par exemple, supposons que l’on jette deux dés non pipés et que X désigne la somme des pointsobtenus. La distribution de probabilités sera donnée par le tableau suivant :

X 2 3 4 5 6 7 8 9 10 11 12p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

La probabilité d’obtenir la somme 5 est 4/36 = 1/9 . Cela signifie que si les dés sont jetés 900 fois,on peut s’attendre à ce qu’ils marquent 100 fois la somme 5.

Remarquons l’analogie avec la distribution de fréquence relative, les probabilités jouant ici le rôle desfréquences relatives. On peut donc voir les distributions de probabilités comme des formes limitesthéoriques, ou idéales, des distributions de fréquence, lorsque le nombre d’observations est trèsélevé. C’est la raison pour laquelle les distributions de probabilités s’appliquent très bien auxpopulations, alors que les distributions de fréquence relative concernent des échantillons prélevésdans cette population.

Si les valeurs de x peuvent être rangées dans un ordre, comme dans le cas de nombres réels, onpeut définir une fonction de distribution cumulative,

F x p zz x

( ) ( )=<∑ pour tout x (2.19)

F(x) est la probabilité que X prenne une valeur inférieure ou égale à x.

Nous allons maintenant nous arrêter brièvement sur deux importantes distributions discrètes, quireviennent souvent dans les travaux de recherche forestière, et qui pourront nous être utiles par lasuite.

2.4.1. Distribution binomialeLes distributions binomiales apparaissent dans le cas d’une succession de n expériences, identiqueset indépendantes, dont chacune aboutit à un résultat dichotomique, tel que ‘succès’ ou ‘échec’. Laloi binomiale s’applique si la probabilité d’obtenir x succès à partir de n expériences répétées estdonnée par la fonction suivante :

Page 24: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 21 -

( )p xn

xp p x nx n x

( ) , , , ...,=

− =

−1 0 1 2 (2.20)

où n est un entier positif et 0<p<1. Les constantes n et p sont les paramètres de la distributionbinomiale. Comme l’indique la formule, la valeur de x est comprise entre 0 et n.

Par exemple, si un sylviculteur observe le taux de mortalité des jeunes plants dans des parcellesd’une forêt contenant chacune 100 unités, et enregistre les plants vivants comme des ‘succès’ et lesplants morts comme des ‘échecs’, la variable ‘nombre de plants vivants dans une parcelle ” peutsuivre une loi binomiale.

La moyenne d’une distribution binomiale est np et son écart-type np p( )1− . La valeur de p estestimée à partir d’un échantillon par la formule :

$pxn

= (2.21)

où x est le nombre de succès dans l’échantillon et n le nombre total de cas examinés.Supposons par exemple qu’un entomologiste choisisse au hasard cinq parcelles de 10 m x 10 mdans une plantation où les jeunes plants sont espacés de 2 m x 2 m. Le nombre de plants attaquéspar les termites dans les cinq parcelles contenant chacune 25 jeunes plants est (4, 7, 7, 4, 3). Lavaleur globale de p estimée à partir des cinq parcelles sera :

$ .pxn

= = =∑∑

25125

02

De plus, s’il choisit au hasard dans la plantation une parcelle de la même taille, la probabilité quecelle-ci contienne un nombre donné de plants infestés par les termites peut être obtenue grâce àl’équation (2.20), à condition que l’infestation par les termites suive une loi binomiale. Ainsi, laprobabilité de choisir une parcelle non infectée par les termites est :

( )p(0) =

250

0 2 1 0 20 25. .

= 0.0038

2.4.2. Distribution de PoissonOn dit qu’une variable aléatoire discrète suit une loi de Poisson si la probabilité d’obtenir une valeurspécifique de x est donnée par la relation :

p xex

xx

( )!

, , , , ...= = ∞−λ λ

0 1 2 (2.22)

où λ>0. La variable X prend les valeurs de 0 à ∞.

Dans les études écologiques, on constate que certains organismes rares sont répartis au hasard dansl’espace. Lorsque c’est le cas, on remarque que les observations sur le nombre d’organismestrouvés dans de petites unités d’échantillonnage suivent une loi de Poisson. Une distribution dePoisson est déterminée par l’unique paramètre λ qui est à la fois la moyenne et la variance de ladistribution. L’écart-type est par conséquent λ . A partir d’échantillons, on peut estimer les valeursde λ par

Page 25: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 22 -

$λ = =∑ x

n

ii

n

1 (2.23)

où les x i sont les nombres de cas détectés dans unité d’échantillonnage et n est le nombre d’unitésd’échantillonnage observées.

Prenons l’exemple d’un biologiste qui observe le nombre de sangsues présentes dans 100échantillons prélevés dans un lac d’eau douce. Si le nombre total de sangsues capturées est de 80, lenombre moyen par échantillon se calcule comme suit,

$ .λ = = ==∑ x

n

ii

n

1 80100

08

Si la variable suit une loi de Poisson, la probabilité de prélever au moins une sangsue dans un nouveléchantillon peut être calculée par 1 - p(0), ce qui donne :

1 108

0

0 0 8

− = −−

pe

(0)( . )

!

.

= 0.5507

2.5. Distributions théoriques continues

L’idée de distribution discrète peut s’étendre au cas d’une variable X pouvant prendre un ensemblecontinu de valeurs. Dans le cas théorique, ou limite, d’une population, le polygone des fréquencesrelatives d’un échantillon devient une courbe continue d’équation y = p(x), comme celle de la Figure2.3.

Figure 2.3. Graphique d’une distribution continuep(x)

xa b

L’aire totale comprise entre la courbe et l’axe X est égale à un, et l’aire contenue sous la courbedélimitée par les droites X = a et X = b (zone ombrée sur la figure) représente la probabilité que Xsoit comprise entre a et b, ce que l’on note par P(a<X<b). On dit que p(x) est une fonction dedensité de probabilité, ou en abrégé une fonction de densité, et lorsqu’une telle fonction est donnée,on dit qu’on a défini pour X une distribution continue de probabilité. La variable X prend alors lenom de variable aléatoire continue.

Dans le cas d’une variable aléatoire continue, la fonction de distribution cumulative est donnée par larelation

Page 26: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 23 -

F x f t dtx

( ) ( )=−∞∫ (2.24)

Le symbole ∫ indique l’intégration, analogue de la sommation dans le cas discret. Comme dans le casdiscret, F(X) représente la probabilité que la variable prenne une valeur inférieure ou égale à x. Unepropriété utile de la fonction de distribution cumulative est la suivante,

P( ) ( ) ( )a X b F b F a≤ ≤ = − (2.25)

Nous allons maintenant examiner deux cas de distributions théoriques continues qui apparaissentsouvent dans les travaux de recherche forestière, et qui nous seront utiles par la suite.

Page 27: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 24 -

2.5.1. Distribution normaleUne distribution normale est définie par la fonction de densité de probabilité,

f x e xx

( ) ,= − ∞ < < ∞ <−

1

20

12

2

σ πµ σ

µσ

(2.26)

où µ est un paramètre de position et σ un paramètre d’échelle. La variable X peut varier de -∞ à +∞. Le paramètre µ varie aussi de -∞ à +∞ mais σ est toujours positif. Il n’existe pas de lien entre lesparamètres µ et σ. L’équation (2.26) est une fonction symétrique de la variable µ, comme le montrela Figure 2.4 où est représentée une courbe normale pour µ = 0 et σ = 1. Dans le cas µ = 0 et σ =1, la distribution est appelée courbe standard normale.

Figure 2.4. Graphique d’une distribution normale pour µ = 0 et σ = 1

68.27%95.45%99.73%

x

f(x)

Si l’aire totale comprise entre la courbe et l’axe de la Figure 2.4 est prise comme unité de surface,l’aire sous la courbe délimitée par les droites X = a et X = b, où a<b, représente la probabilité,notée P(a<X<b), que X soit comprise entre a et b. L’appendice 1 donne l’expression de l’aire sousla courbe à l’extérieur de la bande +z et –z.

Dans une distribution normale, la moyenne et l’écart-type sont respectivement µ et σ. La distributionpossède les propriétés d’aire suivantes. Si l’aire totale sous la courbe est prise comme unité d’aire, µ± σ couvre 68.27% de la surface totale, µ ± 2σ 95.45% et µ ± 3σ 99.73 %. Supposons parexemple que dans une grande plantation d’arbres d’un âge donné, la hauteur moyenne des arbressoit de 10 m et l’écart-type de 1 m. Trouver l’écart de la hauteur de chaque arbre par rapport à lamoyenne de la population. Si ces écarts sont distribués normalement, la hauteur d’environ 68% desarbres devrait s’écarter de moins d’un mètre par rapport à la moyenne; pour 95% des arbres l’écartdevrait être inférieur à 2 m, et pour 99% des arbres il devrait être inférieur à 3 m.

A l’origine, la loi normale de distribution devait servir de modèle pour le calcul des erreurs demesure, mais on a constaté qu’elle était la base de la variation dans un grand nombre de caractèresbiométriques. La distribution normale est censée être la résultante des effets additifs d’un grandnombre de variables aléatoires ayant des causes indépendantes.

Page 28: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 25 -

Les estimations de µ et σ à partir d’échantillons d’observations sont données par les formules

$µ = = =∑

xx

n

ii

n

1 (2.27)

( )σ =

−−

∑ x xn

2

1 (2.28)

où x i, i = 1, …, n sont n observations indépendantes faites dans la population.

2.5.2. Distribution Log-normaleSoit X une variable aléatoire. Considérons la transformation de X en Y , définie par Y = ln X. Si lavariable transformée Y suit une loi normale, on dit que la variable X est une variable aléatoire ‘log-normale’. La fonction de densité de probabilité d’une distribution log-normale est donnée par laformule suivante :

f xx

e xx

( ) , ;ln

= < − ∞ < < ∞−

1

20

12

2

σ πσ µ

µσ , (2.29)

Dans ce cas, eµ est un paramètre d’échelle et σ un paramètre de forme. La forme d’une distributionlog-normale est hautement flexible, comme le montre la Figure 2.5 où sont tracées les courbesd’équations (2.29) pour différentes valeurs de σ et pour µ = 0.

Figure 2.5. Graphique d’une distribution log-normale pour µ = 0 et différentes valeurs de σ.

La moyenne et l’écart-type d’une distribution log-normale sont des fonctions complexes desparamètres µ et σ. La moyenne et l’écart-type sont donnés respectivement par :

2

2

Moyenneσ

µ+= e (2.30)

( )( )1=type-Ecart222 −+ σσµ ee (2.31)

A la différence de la loi normale, la moyenne et l’écart-type de cette distribution ne sont pasindépendants. Cette distribution est aussi la résultante des effets cumulés d’un grand nombre d’effetsindépendants ayant pour propriété de se multiplier plutôt que de s’ajouter..Par exemple, si lesdonnées sont obtenues en regroupant les hauteurs d’arbres plantés appartenant à différents groupesd’âge, la distribution peut suivre une loi log-normale, car l’âge a un effet multiplicateur sur lavariabilité des arbres. Il s’ensuit que les arbres les plus jeunes afficheront probablement une faible

Page 29: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Notions de statistique

- 26 -

variation, alors que les plus vieux auront une variation importante, car leur interaction avecl’environnement s’est prolongée pendant plus longtemps.Dans une distribution log-normale, les estimations des paramètres µ et σ sont données par lesrelations

$µ ==

∑1

1n ii

n

ln x (2.32)

( )$ $σ µ=−

−=∑

11

2

1n ii

n

ln x (2.33)

où x i, i = 1, …, n sont n observations indépendantes prélevées sur la population.

Pour une analyse plus approfondie, contenant plusieurs exercices et problèmes, avec leurs solutions,sur des thèmes abordés dans ce chapitre, le lecteur pourra se référer à Spiegel et Boxer (1972).

Page 30: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 27 -

3. INFERENCE STATISTIQUE

3.1. Tests d’hypothèses

Toute investigation de recherche avance à travers des cycles répétés de formulation et de vérificationd’hypothèses concernant le phénomène étudié. Afin de décider objectivement si une hypothèse estconfirmée par un ensemble de données, il faut adopter une procédure rationnelle pour l’acceptationou le rejet de ladite hypothèse. L’objectivité est fondamentale, car l’une des règles de la méthodescientifique est d’arriver à des conclusions scientifiques par des méthodes publiques pouvant êtrerépétées par d’autres chercheurs compétents. Cette procédure objective sera fondée sur lesinformations obtenues lors du travail de recherche et sur le risque d’erreur que nous acceptons deprendre, à propos de la justesse de l’hypothèse.

Les tests d’hypothèses se déroulent généralement en plusieurs étapes, à savoir : i) établissement del’hypothèse nulle ; ii) choix d’un test statistique (avec le modèle statistique qui lui est associé) pour lavérification de l’hypothèse nulle ; iii) spécification du seuil de signification et de la taille del’échantillon ; iv) détermination de la distribution d’échantillonnage du critère de test dans l’hypothèsenulle ; v) définition de la zone de rejet ; vi) calcul de la valeur du critère de test, à l’aide des donnéesobtenues à partir du ou des échantillons et prise de la décision basée sur la valeur du critère de testet de la zone de rejet déterminée au préalable. Il est indispensable de bien assimiler la raison d’êtrede chacune de ces étapes pour comprendre le rôle des statistiques dans la vérification d’unehypothèse de recherche, comme celle que nous allons illustrer par un exemple concret.

i) Hypothèse nulle : La première étape de la procédure de prise de décision est l’établissement del’hypothèse nulle, ordinairement dénotée par H0. L’hypothèse nulle est une hypothèse de différencenulle. Elle est généralement formulée dans le but d’être rejetée. Si elle l’est, l’hypothèse alternativeH1 peut être acceptée. L’hypothèse alternative est la formulation opérationnelle de l’hypothèse derecherche de l’expérimentateur. L’hypothèse de recherche est la prévision dérivée de la théorie encours de vérification. Lorsque nous voulons prendre une décision relative à des différences, nousvérifions H0 par rapport à H1. H1 est l’assertion qui est acceptée si H0 est rejetée.

A titre d’exemple, supposons qu’un aménagiste soupçonne une baisse de la productivité deplantations forestières d’une espèce particulière, dans une unité d’aménagement, du fait que cetteespèce est continuellement cultivée. Ce soupçon constituera l’hypothèse de recherche. Saconfirmation renforcera la théorie selon laquelle le fait de cultiver sans interruption une espèce sur unesurface aboutit à sa détérioration. Pour tester cette hypothèse de recherche, nous la prenonssymboliquement comme hypothèse alternative, H1. H1 étant que le niveau de productivité actuel del’espèce dans l’unité d’aménagement (µ1) est inférieur au niveau de productivité passé (µ0).Symboliquement, µ1 < µ0. L’hypothèse H0 serait µ1 = µ0. Si les données permettent de rejeter H0,H1 peut être acceptée, et l’hypothèse de recherche et la théorie qui la sous-tend sont confirmées. Lanature de l’hypothèse de recherche détermine la formulation de H1. Si l’aménagiste n’est pas sûr dusens de la variation du niveau de productivité due à la culture continue, l’hypothèse H1 devient : µ1 ≠µ0.

Page 31: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 28 -

ii) Choix du test statistique : La discipline des statistiques s’est tellement développée que l’on aaujourd’hui le choix, pour presque tous les plans de recherche, entre plusieurs tests statistiquespouvant servir à éclairer la décision au sujet d’une hypothèse. La nature des données rassembléesdétermine dans une large mesure le critère qui sera utilisé dans le test. Dans l’exemple qui nousoccupe, supposons que les données sur le rendement en bois par unité de superficie, à un âge donné,puissent être dérivées d’un petit nombre de plantations ou parties de plantations récemmentexploitées de taille à peu près similaire, situées dans l’unité d’aménagement. Sur la base de la théoriestatistique pertinente, on pourrait choisir le critère de test suivant :

zx

n=

− µσ

0

/ (3.1)

où x = rendement moyen, à un âge donné, des plantations récemment exploitées dans l’unitéd’aménagement.

σ = écart-type du rendement des plantations récemment exploitées dans l’unité d’aménagement.n = nombre de plantations récemment exploitées, à partir desquelles les données peuvent êtrecollectées.µ0 = rendement moyen des plantations, à l’âge donné, dans l’unité d’aménagement, quelquesdécennies plus tôt, sur la base d’un grand nombre d’observations antérieures.

Le terme “ statistique “ désigne une valeur calculée à partir des observations d’un échantillon. Lecritère de test spécifié dans l’Equation (3.1) est le rapport de l’écart entre la moyenne del’échantillon et la valeur prédéterminée µ0, à la variance de ces écarts, et la question qui se pose estde déterminer quelle est l’amplitude admissible de ces écarts, pour que l’hypothèse nulle soit vraie.

iii) Seuil de signification et taille de l’échantillon : Une fois que l’on a défini l’hypothèse nulleet l’hypothèse alternative, et sélectionné le test statistique approprié, l’étape suivante consiste àspécifier le seuil de signification (α) et à choisir la taille de l’échantillon (n). La procédure de prise dedécision se résume à rejeter H0 au profit de H1, si le résultat du test statistique est une valeurcorrespondant à une probabilité de réalisation, dans l’hypothèse H0, égale ou inférieure à une faibleprobabilité symbolisée par le signe α. Cette faible probabilité est appelée seuil de signification. Lesvaleurs les plus courantes de α sont 0.05 et 0.01. En d’autres termes, si la probabilité associée àl’obtention, dans H0 (c’est-à-dire quand l’hypothèse nulle est vraie) de la valeur spécifique résultantd’un test statistique, est égale ou inférieure à α, nous rejetons H0 et nous acceptons H1, qui est laformulation opérationnelle de l’hypothèse de recherche. Il s’ensuit que α indique la probabilité derejeter par erreur H0.

Etant donné que la décision de rejeter ou d’accepter l’hypothèse H0 est en partie déterminée par lavaleur de α, il est indispensable, pour des raisons d’objectivité, que α soit fixé avant la collecte desdonnées. Le niveau auquel le chercheur choisit de fixer α devrait être fonction de l’importance ou dela signification pratique possible de ses constatations. Dans notre exemple, l’aménagiste peut fortbien choisir un seuil de signification plutôt bas, s’il y a un risque élevé de rejeter à tort l’hypothèsenulle (et, par conséquent, de préconiser ou de recommander sans que cela soit justifié unchangement radical des pratiques de gestion, sur la surface considérée). Dans son rapport,l’aménagiste devrait indiquer le niveau de probabilité effectif associé à ses constatations, afin que lelecteur puisse décider lui-même s’il convient de rejeter ou d’accepter l’hypothèse nulle.

Page 32: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 29 -

On peut commettre deux types d’erreurs lorsque l’on prend une décision à propos de H0. Lapremière, dite Erreur de type I, est de rejeter H0 alors qu’elle est vraie. La seconde, que nousappellerons Erreur de type II, est d’accepter H0 alors qu’elle est fausse. La probabilité decommettre une erreur de type I est donnée par α. Plus α est grand, plus l’on a de chances de rejeterH0 à tort, c’est-à-dire de commettre une erreur de type I. L’erreur de type II est ordinairementreprésentée par le signe β; on a donc P(erreur de type I) = α, P(erreur de type II) = β . Les valeursde α et β sont de préférence spécifiées par le chercheur avant de commencer ses investigations. Cesvaleurs détermineront la taille de l’échantillon (n) qu’il devra prélever pour calculer le critère du teststatistique qu’il a choisi. Une fois que α et n ont été spécifiés, il faut calculer β . Dans la mesure oùles probabilités de commettre les deux types d’erreurs sont inversement proportionnelles, unediminution de α entraînera une augmentation de β pour toute valeur de n. Pour minimiser le risquede commettre les deux types d’erreurs, il faut augmenter n. L’expression 1 - β désigne la puissanced’un test, c’est-à-dire la probabilité de rejeter l’hypothèse H0 alors qu’elle est fausse. Pour revenir ànotre exemple, pour certaines raisons d’ordre théorique, nous dirons que la taille de l’échantillon estde 30 plantations ou parties de plantations de taille similaire choisies au hasard dans la série danslaquelle peuvent être rassemblées des données sur les niveaux de rendement récents de l’unitéd’aménagement.

iv) La distribution d’échantillonnage : Une fois qu’un chercheur a choisi le test statistique quisera utilisé avec ses données, il doit déterminer la distribution d’échantillonnage du critère de test,c’est-à-dire la distribution que l’on obtiendrait si l’on prenait tous les échantillons de même taillepouvant être prélevés dans une même population, chacun d’eux étant tiré au hasard, et si l’onétablissait la distribution de fréquence de la statistique calculée à partir de chaque échantillon. Onpeut aussi dire que la distribution d’échantillonnage est la distribution, dans l’hypothèse H0, de toutesles valeurs possibles que peut prendre une mesure statistique quelconque (par exemple la moyennede l’échantillon), lorsqu’elle est calculée à partir d’échantillons de même taille tirés au hasard. Pourrevenir à notre exemple, s’il y avait 100 plantations d’un âge déterminé, disponibles pour la coupe,

30 plantations pourraient être tirées au hasard, de 10030

= 2.937 x 1025 manières. A partir de

chaque échantillon de 30 unités de plantation, il est possible de calculer une mesure statistique z, àl’aide de l’équation (3.1) . Dans ce cas, une distribution de fréquences relatives établie à l’aided’intervalles de classes donnés pour les valeurs de z constituerait la distribution d’échantillonnage denotre critère de test statistique. Ainsi, la distribution d’échantillonnage d’un paramètre statistiquemontre la probabilité dans l’hypothèse H0 associée aux différentes valeurs numériques possiblesdudit paramètre. La probabilité d’obtenir une valeur particulière du paramètre statistique dansl’hypothèse H0, englobe non seulement la probabilité de cette valeur, mais aussi les probabilités detoutes les valeurs possibles plus extrêmes. Il s’agit donc de la probabilité d’obtenir, dans l’hypothèseH0, une valeur aussi extrême ou plus extrême que la valeur particulière du critère de test.

Il est évident que dans notre exemple, il nous serait impossible de trouver la distributiond’échantillonnage réelle et de vérifier la probabilité d’obtenir des valeurs données, à partir d’une telledistribution. Nous nous reposerons donc sur des théorèmes mathématiques démontrés, qui fontautorité. Ces théorèmes impliquent invariablement des postulats que l’on doit avoir présents àl’esprit, lorsqu’on les applique. Dans le cas présent, il peut être démontré que la distributiond’échantillonnage de z suit une loi normale de moyenne zéro et d’écart type 1 si la taille de

Page 33: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 30 -

l’échantillon (n) est grande. Lorsqu’une variable suit une loi normale, sa distribution est entièrementcaractérisée par la moyenne et l’écart-type. Il est donc possible de déterminer la probabilité qu’unevaleur observée de cette variable soit supérieure à une valeur donnée quelconque. Cette analyse etcet exemple montrent clairement que si l’on connaît la distribution d’échantillonnage d’une certainemesure statistique, il est possible d’établir quelles sont les probabilités d’obtenir certaines valeursnumériques de cette mesure. Nous allons voir dans les sections qui suivent comment on utilise lesprobabilités ainsi formulées pour prendre une décision à propos de l’hypothèse H0.

v) La région de rejet : La distribution d’échantillonnage comprend toutes les valeurs que peutprendre le critère de test dans l’hypothèse H0. La région de rejet est formée d’un sous-ensemble deces valeurs possibles, et est définie de telle manière que la probabilité associée à l’obtention, dansl’hypothèse H0 , d’une valeur du critère de test située dans ce sous-ensemble, soit une probabilité α.En d’autres termes, la région de rejet est constituée d’un ensemble de valeurs possibles qui sont siextrêmes que, si H0 est vraie, la probabilité est très faible (probabilité α) que l’échantillon observédonne une valeur située dans ce sous-ensemble. La probabilité associée à une valeur quelconque setrouvant dans la région de rejet est égale ou inférieure à α.

L’emplacement de la région de rejet dépend de la nature de l’hypothèse H1. Si H1 indique le sensprojeté de la variation, un test unilatéral s’impose, alors que dans le cas contraire, il faudra effectuerun test bilatéral (ou test à deux issues). Les tests à une ou deux issues diffèrent par l’emplacement dela région de rejet, (mais pas par la taille). Dans un test unilatéral (à une issue), toute la région de rejetest située à une extrémité de la distribution d’échantillonnage, alors que dans un test bilatéral (à deuxissues), elle se situe aux deux extrêmes de la distribution d’échantillonnage. Dans notre exemple, sil’aménagiste estime que la productivité des plantations ne peut qu’être stable ou décliner au fil desannées, il fera un test unilatéral. En revanche, s’il n’est pas certain du sens du changement, il auraintérêt à effectuer un test bilatéral (à deux issues).

La taille de la région est exprimée par le seuil de signification α. Si α = 0.05, cela signifie que larégion de rejet représente 5 pour cent de la totalité de l’espace compris sous la courbe dans ladistribution d’échantillonnage. Les régions de rejet unilatérales et bilatérales pour α = 0.05 sontillustrées à la Figure 3.1. Les régions diffèrent par leur emplacement, mais leur taille totale est lamême.

vi) La décision : Si le test statistique donne une valeur qui se trouve dans la région de rejet, il fautrejeter H0. Ce processus décisionnel repose sur un raisonnement très simple. Si, dans l’hypothèsenulle, la probabilité d’obtenir une valeur particulière dans la distribution d’échantillonnage est trèsfaible, l’apparition effective de cette valeur peut s’expliquer de deux manières : premièrement endécidant que l’hypothèse nulle est fausse, et deuxièmement, en décidant qu’un événement rare etimprobable s’est produit. Dans le processus de décision, nous choisissons la première de cesexplications. De temps en temps, c’est bien entendu la seconde qui est la bonne. De fait, laprobabilité que la deuxième explication soit la bonne est donnée par α, car le fait de rejeterl’hypothèse H0 alors qu’elle est vraie est une erreur de type I.

Figure 3.1. Distribution d’échantillonnage de z dans H0 et régions de rejets d’un test unilatéral et d’untest bilatéral

Page 34: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 31 -

Lorsque la probabilité associée à une valeur observée d’un test statistique est égale ou inférieure à lavaleur déterminée au préalable de α, nous concluons que l’hypothèse H0 est fausse. Une telle valeurobservée est qualifiée de significative. L’hypothèse H0, qui fait l’objet du test, est rejetée dans tousles cas où apparaît un résultat significatif. Une valeur significative est une valeur dont la probabilitéd’apparition dans H0 est égale ou inférieure à α.

Pour revenir à notre exemple, supposons que, dans une unité d’aménagement particulière, 30plantations récemment exploitées, à l’âge de 50 ans aient un rendement moyen de 93 m3/ha, avec unécart-type de 10 m3/ha. Si les statistiques antérieures avaient révélé que, quelques décennies plustôt, on obtenait dans cette même unité d’aménagement un rendement moyen de 100m3/ha aumême âge, la valeur du critère de test serait la suivante:

zx

n=

−=

−= −

µσ

0 93 10010 30

3834/ /

.

On verra dans l’Annexe I que la probabilité d’obtenir une telle valeur, si l’hypothèse H0 est vraie, esttrès inférieure à 0.05 qui est le seuil de signification fixé au préalable. On prendra donc la décisiond’accepter l’hypothèse alternative selon laquelle “ la productivité des plantations de l’espèceconsidérée, dans l’unité d’aménagement, a considérablement diminué ”.

Les lecteurs qui souhaitent acquérir une compréhension plus complète des thèmes abordés danscette section peuvent se référer à Dixon et Massey (1951) pour une initiation particulièrement claire,aux deux types d’erreurs, et à Anderson et Bancroft (1952) ou Mood (1950) pour des examensapprofondis de la théorie relative aux tests d’hypothèses. Les sections qui suivent décrivent desprocédures utilisées pour tester certains types d’hypothèses particuliers.

test bilatéraltest unilatéral

Page 35: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 32 -

3.2. Test de comparaisons de moyennes

On a souvent besoin de comparer les moyennes de deux groupes d’observations représentant despopulations différentes pour savoir si les populations diffèrent par leurs positions. Dans ces situations,l’hypothèse nulle sera ‘il n’y a pas de différence entre les moyennes des deux populations ”, soit ensymboles, H0:µ µ1 2= . L’hypothèse alternative est H1 1 2:µ µ≠ c.à.d., µ µ1 2< ou µ µ1 2> .

3.2.1. Echantillons indépendantsPour vérifier l’hypothèse qui précède, on prélève au hasard des échantillons de chaque population,puis on calcule la moyenne et l’écart-type de chaque échantillon. Notons x1 la moyenne et s1

l’écart-type d’un échantillon de taille n1 de la première population, x2 et s2 la moyenne et l’écart-type d’un échantillon de taille n2 de la seconde population. Dans ce contexte, on peut utiliser lecritère de test suivant,

tx x

sn n

=−

+

1 2

2

1 2

1 1 (3.2)

où xx

ni

11

1

=∑

, xx

ni

22

2

=∑

s2 est la variance groupée donnée par( ) ( )

sn s n s

n n2 1 1

22 2

2

1 2

1 12

=− + −

+ −

( )s

xx

nn

ii

12

12 1

2

1

1 1=

∑∑ et

( )s

xx

nn

ii

22

22 2

2

2

2 1=

∑∑

Le critère de test t suit une loi de Student avec n n1 2 2+ − degrés de liberté. Dans ce casparticulier, le degré de liberté est un paramètre associé à la distribution de t qui gouverne la forme dela distribution. Le concept de degré de liberté est mathématiquement assez obscur, mais d’unemanière générale, il peut être considéré comme le nombre d’observations indépendantes dans unensemble de données, ou comme le nombre de comparaisons indépendantes pouvant être faites àpropos d’un ensemble de paramètres.

Ce test repose sur des hypothèses précises, à savoir: i) Les variables entrant en jeu sont continues(ii) La population-mère des échantillons prélevés suit une loi de distribution normale (iii) Leséchantillons sont prélevés de manière indépendante (iv) Les variances des deux populations danslesquelles on prélève les échantillons sont homogènes (égales). L’homogénéité de deux variancespeut être testée à l’aide du test F décrit dans la Section 3.3.

Page 36: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 33 -

Pour illustrer ce cas, nous allons étudier une expérience dont le but est d’évaluer l’effet del’inoculation d’un mycorrhize sur la croissance en hauteur de plantules de Pinus kesiya. Dansl’expérience, 10 plantules, formant le Groupe I, ont été inoculées, et 10 autres (Groupe II) ont étélaissées telles quelles. Le Tableau 3.1 donne les hauteurs obtenues dans les deux groupes deplantules.

Tableau 3.1. Hauteur des plantules de Pinus kesiya des deux groupes.Parcelles Groupe I Groupe II

1 23.0 8.52 17.4 9.63 17.0 7.74 20.5 10.15 22.7 9.76 24.0 13.27 22.5 10.38 22.7 9.19 19.4 10.510 18.8 7.4

Les variances de la hauteur des plantules des deux groupes étant égales, l’analyse peut êtrepoursuivie comme suit :

*Etape 1. Calculer les moyennes et la variance groupée des deux groupes de mesures des hauteurs,à l’aide des formules correspondantes indiquées dans l’équation (3.2),

x1 20 8= . , x2 9 61= .

( ) ( ) ( )( )

s.

12

2 2 22

230 17 4 18820810

10 1=

+ + −

. . . . . +

= 57 24

9.

= 6.36

( ) ( ) ( )( )

s22

2 2 22

85 9 6 7 496110

10 1=

+ + −

. ..

. . . + .

= 24 3

9.

= 2.7

( )( ) ( )( )s2 10 1 6 36 10 1 2 7

10 10 2=

− + −+ −

. .

= 57 24 24 43

18. .+

= 4.5372

Page 37: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 34 -

*Etape 2. Calculer la valeur de t à l’aide de l’équation (3.2)

t =−

+

20 8 9 61

4 5372110

110

. .

.

= 11.75

*Etape 3. Comparer la valeur calculée de t avec la valeur de t donnée par la table au niveau deprobabilité souhaité pour n n1 2 2+ − = 18 degrés de liberté.

Etant donné que nous ne sommes pas sûrs du sens de la variation de la croissance des plantules dueau mycorrhize, nous utiliserons un test bilatéral. D’après la table de l’Annexe 2, les valeurs critiquessont –2.10 et +2.10 de chaque côté de la distribution. Comme dans notre exemple, la valeurcalculée de t (11.75) est supérieure à 2.10, on en déduit qu’il existe des différences significativesentre les hauteurs moyennes des populations de plantules inoculées et non-inoculées représentéespar nos échantillons.

La procédure ci-dessus n’est pas applicable si les variances des deux populations ne sont paségales. Dans ce cas, on adoptera une méthode légèrement différente :

*Etape 1. Calculer la valeur du critère de test t à l’aide de la formule suivante

( )

tx x

sn

sn

=−

+

1 2

12

1

22

2

(3.3)

*Etape 2. Comparer la valeur de t ainsi obtenue avec la valeur pondérée (t’) donnée par la table, auniveau de probabilité voulu. La valeur tabulaire pondérée de t se calcule comme suit.

tw t w t

w w' =

++

1 1 2 2

1 2

(3.4)

où wsn112

1= , w

sn2

22

2= ,

t1 et t2 sont les valeurs tabulaires de t données par la loi de Student avec ( )n1 1− et ( )n2 1−degrés de liberté respectivement, au niveau de probabilité voulu.

Prenons par exemple les données figurant dans le Tableau 3.1. L’homogénéité des variances desdeux groupes peut être vérifiée à l’aide du Test F décrit dans la Section 3.3. Si les deux variances nesont pas égales, le critère de test t peut être calculé comme suit,

( )t =

+

208 9 61

6 3610

2 710

. .

. . = 11.76

( ) ( )t '=

++

(0.636) 2.26 (0.270) 2.260.636 0.270

= 2.26

Page 38: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 35 -

Comme la valeur calculée de t (11.76) est supérieure à la valeur tabulaire (2.26), on peut conclureque la différence des moyennes est significative. Ici, la valeur de t’ est égale à celles de t1 et t2

puisque n1 et n2 sont égaux. Il n’en est pas toujours ainsi.

3.2.2. Echantillons appariésLorsqu’on compare les moyennes de deux groupes d’observations, il arrive que les groupes soientappariés, au lieu d’être indépendants. C’est par exemple le cas, lorsque l’on compare l’état d’unensemble d’individus avant et après un traitement, ou les propriétés de la partie basse et de la partiehaute des tiges de bambous etc... Dans de telles situations, deux ensembles d’observations sontextraits d’un seul ensemble d’unités expérimentales. Les observations peuvent aussi être appariéespour d’autres raisons, notamment lorsqu’elles portent sur des paires de boutures de tiges issues deplantes-mères différentes et sur les membres d’une paire soumise à deux traitements différents, dansle but de comparer l’effet des deux traitements sur les boutures. On notera que les observationsobtenues à partir de ces paires peuvent être corrélées. Le test statistique utilisé pour comparer desmoyennes d’échantillons appariés est généralement appelé test jumelé t.

Soient (x1, y1), (x2, y2), . . ., (xn, yn), les n observations appariées. Supposons que les observationsconcernant la variable x proviennent d’une population de moyenne µ1 et celles qui concernent lavariable y d’une population de moyenne µ2 . L’hypothèse à vérifier est H0 1 2:µ µ= . Si on formeles différences di = xi - yi pour i = 1, 2, …, n (on peut considérer qu’elles appartiennent à unepopulation normale de moyenne zéro et de variance connue), on pourra utiliser le critère de testsuivant :

td

snd

=2

(3.5)

où ( )

sn

dd

nd ii2 2

2

11

=−

∑ ∑

Le critère de test t donné par l’Equation (3.5) suit une loi de Student t avec n − 1degrés de liberté.La valeur de t ainsi obtenue est donc comparable à la valeur tabulaire de t correspondant à n − 1degrés de liberté, au niveau de probabilité souhaité.

Prenons par exemple les données du Tableau 3.2, qui ont été obtenues à partir de carottes desondage (échantillons cylindriques de terrain) prélevées à des niveaux de profondeur différents dansune forêt naturelle. Les données sont des mesures de la teneur en carbone organique, prises à deuxniveaux différents de plusieurs fosses d’observation; il s’agit donc d’observations appariées pourchaque fosse. Le test jumelé t peut être utilisé dans ce cas pour comparer la teneur en carboneorganique du sol à deux profondeurs différentes. La comparaison statistique se déroule commeindiqué ci-après.

*Etape 1. Calculer la différence entre chaque paire d’observations d’après les données du Tableau3.2

Page 39: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 36 -

Tableau 3.2. Teneur en carbone organique mesurée à deux niveaux d’une série de fossesd’observation situées dans une forêt naturelle.

Carbone organique (%)Fosse

d’observationNiveau 1

(x)Niveau 2

(y)Différence

(d)1 1.59 1.21 0.382 1.39 0.92 0.473 1.64 1.31 0.334 1.17 1.52 -0.355 1.27 1.62 -0.356 1.58 0.91 0.677 1.64 1.23 0.418 1.53 1.21 0.329 1.21 1.58 -0.3710 1.48 1.18 0.30

*Etape 2. Calculer la différence moyenne et la variance des différences, à l’aide de l’Equation (3.5)

d = d

n

ii

n

=∑

1 = 1 8110.

= 0.181

( ) ( ) ( )( ) ( )sd

2 2 221

10 10 38 0 47 0 30

18110

=−

+ + + −

. . . . . .

. 2

=1 33789

9.

= 0.1486

*Etape 3. Calculer la valeur de t en remplaçant les valeurs de d et sd2 dans l’Equation (3.5).

t .= =018101486

10

1485..

La valeur calculée de t (1.485) est inférieure à la valeur tabulaire (2.262), pour 9 degrés de liberté,au seuil de signification de 5%. Il n’y a donc pas de différence significative entre la teneur en carboneorganique moyenne des deux couches de terrain.

3.3. Test de comparaison de variances

On a souvent besoin de vérifier si deux échantillons aléatoires indépendants proviennent depopulations de même variance. Supposons que le premier échantillon de n1 observations ait pourvariance s1

2 et que le second échantillon den2 observations ait pour variance s22 , et que les deux

échantillons proviennent de populations distribuées normalement. L’hypothèse nulle à tester est: “ les

Page 40: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 37 -

deux échantillons sont indépendants et prélevés au hasard dans des populations normalementdistribuées de même variance ”, soit en symboles :

H0 12

22:σ σ=

où σ σ12

22, sont les variances de deux populations dans lesquelles sont prélevés les deux échantillons.

L’hypothèse alternative est la suivante :H1 1

222:σ σ≠

Le critère statistique utilisé pour tester l’hypothèse nulle est

Fs

s= 1

2

22 (3.6)

où s12 est le plus grand carré moyen

Dans l’hypothèse nulle, on peut montrer que le critère statistique suit une distribution de F avec

( )n n1 21 1− −, degrés de liberté. La règle de décision est la suivante: si la valeur calculée du critèrestatistique est inférieure à la valeur critique de la distribution de F, au seuil de signification voulu, onaccepte l’hypothèse nulle, à savoir que les deux échantillons sont prélevés dans des populations demême variance. Dans le cas contraire, l’hypothèse nulle est rejetée.

Supposons par exemple que les estimations des variances de deux populations soient s12 2187= . et

s22 1536= . , et soient respectivement basées sur n1=11 et n2 = 8 observations des deux populations.

Pour vérifier si les variances sont égales, on calcule le rapport

Fs

s= = =1

2

22

21871536

1424..

.

et on compare le résultat à la valeur critique de la distribution de F pour 10 et 7 degrés de liberté.On lit dans l’Annexe 3 que cette valeur critique du critère F est 3.14, au seuil de signification de0,05. La valeur calculée étant inférieure à la valeur critique, les variances sont égales.

3.4. Test de proportions

Lorsque les observations consistent à classer les individus dans des catégories particulières, comme‘malade’ ou ‘en bonne santé’, ‘mort’ ou ‘vivant’ etc…, les données sont généralement résumées entermes de proportions. Il peut alors être intéressant de comparer les proportions de l’incidence d’uncaractère dans deux populations. L’hypothèse nulle à formuler dans de telles situations estH :0 P P1 2= , alors que l’hypothèse alternative est H :1 P P1 2≠ (ou P P1 2> ou P P1 2< ), où P1 et P2

sont des proportions représentant les deux populations. Pour tester cette hypothèse, on prélève deuxéchantillons indépendants de grande taille, par exemple n1 et n2, dans les deux populations. Onobtient ainsi deux échantillons de proportions respectives p1 et p2 . Le critère statistique utilisé est lesuivant :

Page 41: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 38 -

zp p

p qn

p qn

=−

+

1 2

1 1

1

2 2

2

(3.7)

où q1 = 1 - p1, q2 = 1 - p2. Cette statistique suit une loi de distribution normale standard.

Prenons pour exemple une expérience sur la formation des racines de boutures de tiges deCasuarina equisetifolia, consistant à observer l’effet de l’immersion des boutures dans dessolutions d’AIB (acide indolylbutyrique), à deux concentrations différentes. Deux lots comprenantchacun trente boutures ont été plongés dans des bains d’AIB, à des concentrations respectives de50 et 100 ppm. Les observations ont permis de déterminer la proportion de boutures pourvues deracines dans chaque lot de 30, à chaque concentration. A la concentration de 50 ppm, la proportionde boutures à racines était de 0.5, contre 0.37, à la concentration de 100 ppm. La question qui nousintéresse ici est de déterminer si les proportions observées reflètent des différences significatives del’effet de l’acide, aux deux concentrations.

Conformément à notre notation, p1 = 0.5 et p2 = 0.37. Par suite q1 = 0.5, q2 = 0.63. De plus n1 = n2

= 30. Le critère statistique vaut donc,

( )( ) ( )( )z =

+

=05 037

05 0530

0 37 0 6330

1024. .

. . . ..

La valeur de z obtenue (1.024) est inférieure à la valeur donnée par la table (1.96) au seuil designification de 5%. Il n’y a donc pas de différence significative entre les proportions de boutures àracines, aux deux concentrations.

3.5. Test de la validité de l’ajustement

Les tests d’hypothèses ont parfois pour but de vérifier si la population dont provient un échantillonsuit une loi de distribution de probabilité déterminée. La distribution escomptée peut être basée surun modèle théorique (loi normale, binomiale ou de Poisson) ou sur un schéma particulier, en raisonde facteurs techniques. Il peut par exemple être intéressant de vérifier si une variable comme lahauteur des arbres suit une loi normale de distribution. Un spécialiste de l’amélioration génétique desarbres peut avoir besoin de savoir s’il existe une déviation significative entre les rapports deségrégation relatifs à un caractère, tels qu’ils sont observés, et ceux de Mendel..Dans de tellessituations, on est amené à vérifier la correspondance entre les fréquences observées et théoriques.Ce type de test a reçu le nom de test de la validité de l'ajustement.

Pour appliquer le test de la validité de l’ajustement, on utilise uniquement les fréquences réellesobservées, à l’exclusion des pourcentages ou proportions. De plus, il est indispensable que lesobservations faites sur un même échantillon ne se chevauchent pas et soient indépendantes. Lesfréquences attendues dans chaque catégorie doivent de préférence être supérieures à 5. Le nombretotal d’observations doit être élevé, en général supérieur à 50.

Page 42: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 39 -

Dans les tests de la validité de l’ajustement, l’hypothèse nulle est “ il n’y a pas de discordance entrela distribution observée et la distribution théorique ”, ou “ la distribution observée est ajustée à ladistribution théorique ”. Le critère de test utilisé est le suivant

( )χ2

2

1=

=∑

O EE

i i

ii

k

(3.8)

où Oi = fréquence observée dans la ième classe, Ei = fréquence attendue dans la ième classe. k = nombre de catégories ou classes.

La statistique χ2 de l’équation (3.8) suit une distribution de χ2 avec k-1 degrés de liberté. Si lesfréquences attendues sont dérivées de paramètres estimés dans l’échantillon, les degrés de libertéssont au nombre de (k-p-1) (où p est le nombre de paramètres estimés). Si, par exemple, on veuttester la normalité d’une distribution, une estimation de µ et σ2 à partir de l’échantillon sera donnéepar x et s2. Les degrés de liberté se réduisent donc à (k-2-1).

Les fréquences escomptées peuvent être calculées d’après la fonction de probabilité de ladistribution théorique appropriée à la situation, ou obtenues par dérivation, en prenant pour base lathéorie scientifique que l’on compte tester, par exemple la loi de Mendel sur l’hérédité. Dans le casoù il n’existe pas de théorie bien définie, on supposera que toutes les classes se retrouvent avec lamême fréquence dans la population. Par exemple, l’hypothèse de départ peut être que le nombred’insectes pris au piège à différents moments d’une journée, ou le nombre de fois où l’on voit unanimal dans différents habitats etc… sont égaux et soumettre ces fréquences au test statistique. Dansces situations, la fréquence attendue est donnée par la formule

kn

E ==groupes des Nombre

observées fréquences des Total (3.9)

Examinons par exemple les données du Tableau 3.3 qui représentent le nombre d’espèces d’insectescapturés, durant des mois différents, dans une zone non perturbée du Sanctuaire naturel deParambikkulam. Pour vérifier s’il y a des différences significatives entre le nombre d’espècesd’insectes trouvés durant des mois différents, on formulera l’hypothèse nulle comme suit : la diversité,exprimée par le nombre d’espèces d’insectes, est la même tous les mois, dans le sanctuaire, et l’onen dérivera les fréquences attendues pendant les différents mois.

Page 43: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 40 -

Tableau 3.3. Calcul de χ2 à partir des données sur le nombre d’espèces d’insectescapturées à Parambikkulam pendant les différents mois.

Mois O E ( )O E E− 2

Janvier 67 67 0.00Février 115 67 34.39Mars 118 67 38.82Avril 72 67 0.37Mai 67 67 0.00Juin 77 67 1.49Juillet 75 67 0.96Août 63 67 0.24Septembre 42 67 9.33Octobre 24 67 27.60Novembre 32 67 18.28Décembre 52 67 3.36Total 804 804 134.84

La valeur obtenue pour χ2 est 134.84. Si l’on se reporte à la table de distribution de χ2 (Annexe 4)pour (12-1) = 11 degrés de liberté et α = 0.05, on trouve pour χ2 la valeur critique de 19.7. Onaccepte donc l’hypothèse nulle et on conclut que le nombre d’espèces d’insectes trouvés est lemême tous les mois.

3.6. Analyse de variance

L’analyse de variance est essentiellement une technique de répartition de la variation totale desréponses observées lors d’une expérience, entre les différentes sources de variation à laquelle ellepeut être attribuée, certaines de ces sources pouvant être déterminées alors que d’autres sontinconnues. Cette technique permet aussi de vérifier si la variation due à une composante particulièrequelconque est significative, par rapport à la variation résiduelle qui peut apparaître entre les unitésd’observations.

L’analyse de variance se fait selon un modèle sous-jacent qui exprime la réponse comme somme dedifférents effets. Etudions par exemple l’Equation (3.10).

y eij i ij= + +µ α , i =1, 2, …, t; j = 1, 2, …, ni (3.10)

où yij est la réponse de la j-ème unité individuelle appartenant à la i-ème catégorie ou groupe, µ

est la moyenne de l’ensemble de la population, α i est l’effet associé à l’appartenance au i-èmegroupe et eij une erreur aléatoire associée à la (ij)-ème observation. Il s’agit d’un modèle d’analyse

de la variance à un critère de classification, qui peut être étendu en ajoutant de plus en plus d’effetsapplicables à une situation particulière. Lorsque plusieurs sources de variations connuesinterviennent, on a un modèle d’analyse de variance à plusieurs facteurs.

Page 44: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 41 -

L’analyse repose sur quelques hypothèses de base à propos des observations et des effets, à savoir:i) Les différents effets des composantes sont additifs ii) Les erreurs eij sont distribuées de manièreindépendante et égale, avec une moyenne nulle et une variance constante.Le modèle (3.10) peut aussi s’écrire :

y eij i ij= +µ (3.11)

où µ µ αi i= +

Si l’on ajoute quelques hypothèses, l’analyse de la variance permet aussi de vérifier les hypothèsessuivantes :

H :0 µ µ µ1 2= = = . . . t

H :1 µ µi j≠ pour au moins un i et j (3.12)

L’hypothèse supplémentaire requise est “ les erreurs sont distribuées normalement ”. Même si delégers écarts sont tolérables, l’interprétation de l’analyse de la variance n’aura de valeur que si ceshypothèses sont réunies.

On notera en outre que les effets pris en compte dans le modèle peuvent être des effets fixes ou deseffets aléatoires. Par exemple, les effets de deux niveaux d’irrigation bien définis sont fixes, puisquel’on peut raisonnablement supposer que chaque niveau a un effet déterminé. En revanche, si l’onchoisit au hasard un ensemble de provenances dans un plus grand ensemble, les effets imputablesaux provenances sont considérés comme aléatoires. Les effets aléatoires peuvent appartenir à unepopulation finie ou infinie. Les effets d’erreurs sont toujours aléatoires et peuvent appartenir à unepopulation finie ou infinie. Un modèle dans lequel tous les effets (autres que l’effet d’erreur qui esttoujours considéré comme aléatoire) sont fixes, est un modèle à effets fixes. Un modèle dans lequelapparaissent les deux types d’effets est un modèle mixte et un modèle dans lequel tous les effets sontaléatoires est un modèle à effets aléatoires. Les modèles à effets fixes ont pour principaux objectifsd’estimer les effets fixes, de quantifier la variation due à ces effets dans la réponse, et enfin detrouver la variation entre les effets d’erreur, alors que les modèles à effets aléatoires visent surtout àestimer la variation de chaque catégorie d’effets aléatoires. La méthode à suivre pour obtenir desexpressions de la variabilité est en général la même pour tous les modèles, même si les méthodes detest sont différentes.

La technique d’analyse de variance est illustrée ci-après, avec un modèle à un critère de classificationne comprenant que des effets fixes. Des cas plus complexes sont abordés aux chapitre 4 et 6, lorsde l’illustration des analyses relatives aux différents plans d’expérience.

3.6.1. Analyses de données classifiées selon un critèreConsidérons un ensemble de données concernant la densité du bois obtenues à partir d’observationsd’un ensemble, choisi au hasard, de tiges appartenant à un ensemble d’espèces de bambous.Supposons que l’on ait t espèces et r observations pour chaque espèce. Les résultats peuvent êtrerassemblés en tableau, selon le modèle ci-après :

Page 45: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 42 -

Espèces1 2 . . i . . ty11 y21 yi1 yt1

y12 y22 yi2 yt2

. .y1j y2j yij ytj

. .y1r y2r yir ytr

Total y1. y2. yi. yt. y..= Total généralMoyenne y1 y2 yi yt y = Moyenne générale

Note: Dans ce tableau, une période (.) en indice dénote la somme sur cet indice.

La théorie qui sous-tend l’analyse de variance est complexe et risquerait de rebuter le lecteurprofane. C’est pourquoi nous avons choisi de présenter une dérivation heuristique des formules.Considérons les r observations concernant une espèce particulière quelconque, par exemple la i-ème. Leurs valeurs peuvent être différentes, ce qui démontre l’influence de nombreux facteursexternes sur les observations de tiges de cette espèce. Cette influence peut-être mesurée par lesécarts des observations individuelles à la moyenne. Il est préférable d’élever les écarts au carré carles écarts simples pourraient s’éliminer lors de la sommation. L’amplitude d’une variation aléatoireaffectant les observations concernant la i-ème espèce est donnée par l’expression

( ) ( ) ( )y y y y y yi i i i ir i12

22 2

− + − + −. . . . . . + = ( )y yij ij

r

−=

∑ .

2

1(3.13)

Pour chaque espèce, la variation produite par les sources externes reflète l’influence des facteursincontrôlés, qui peut être globalement estimée par sommation. La variation totale observée,imputable à des facteurs externes, également connue sous le nom de somme des carrés due auxerreurs (SSE) est donnée par

SSE = ( )y yij ij

r

i

t

−==

∑∑ .

2

11 (3.14)

Outre les fluctuations aléatoires, différentes espèces peuvent avoir différents effets sur la réponsemoyenne. La variation due à la i-ème espèce dans les r observations est donc

( )r y yi . −2

(3.15)La variation due aux différences entre les espèces est donc donnée par la relation

SS due aux espèces = SSS = ( )r y yii

t

. −=∑ 2

1(3.16)

algébriquement équivalente à

SSS =y

r

y

tr

ii

t

ijj

r

i

t

.2

1 11

2

= ==∑ ∑∑

(3.17)

Page 46: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 43 -

Le second terme de l’équation (3.17) est appelé facteur de correction (C.F.).

C F

y

tr

ijj

r

i

t

. .=

==∑∑

11

2

(3.18)

Pour finir, nous devons trouver la variation totale présente dans toutes les observations. Cettedernière est donnée par la somme des carrés des écarts de toutes les réponses à leur moyennegénérale. En symboles,

SSTO = ( )y yijj

r

i

t−

==∑∑

2

11(3.19)

= ( )y y y yij i ij

r

i

t− + −

==∑∑ . .

2

11

= ( ) ( ) ( )( )y y y y y y y yij i i ij i ij

r

i

t− + − + − −

==∑∑ . . . .

2 2

112

= ( )y yij ij

r

i

t−

==∑∑ .

2

11+ ( )r y yi

i

t

. −=∑ 2

1 (3.20)

où ( )( ) ( ) ( )2 2 011 11

y y y y y y y yij i ij

r

i

t

i ij ij

r

i

t− − = − − =

== ==∑∑ ∑∑. . . .

La variation totale des réponses peut donc s’exprimer comme la somme des variations entre lesespèces et des variations au sein d’une espèce. C’est là l’essence même de l’analyse de la variance.

Aux fins des calculs, SSTO s’obtient aussi comme

SSTO = ( )y yij ij

r

i

t−

==∑∑ .

2

11+ ( )r y yi

i

t

. −=∑ 2

1= y

y

trijj

r

i

t ijj

r

i

t

2

11

11

2

==

==∑∑

∑∑−

(3.21)

Si la répartition de la variabilité totale entre ce qui est dû aux différences entre espèces et ce qui estdû aux facteurs externes a une valeur informative, elle n’est guère utile en elle même pour pousserplus avant l’interprétation. En effet, ces valeurs dépendent du nombre d’espèces et du nombred’observations effectuées sur chaque espèce. Pour éliminer l’effet dû au nombre d’observations, onréduit les mesures de la variabilité observée à une variabilité par observation, c’est à dire à lamoyenne de la somme des carrés. Etant donné qu’il y a au total rt observations, dont on tire lasomme totale des carrés, il est évident que l’on peut calculer la moyenne de la somme des carrés endivisant la somme totale des carrés par rt. Au lieu de cela, on la divise par (rt-1), qui est le nombretotal d’observations moins une. Ce diviseur est appelé degré de liberté et indique le nombred’écarts à la moyenne indépendants qui contribuent au calcul de la variation totale. Par conséquent,

Moyenne de la somme des carrés due aux espèces = MSS = SSSt − 1

(3.22)

Page 47: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 44 -

Moyenne de la somme des carrés due aux erreurs = MSE =SSTO SSS

t r-

( )− 1 (3.23)

Le calcul de la moyenne des carrés des espèces et de la moyenne des carrés des erreurs est crucialpour vérifier la signification des différences entre les moyennes des espèces. Ici, l’hypothèse nulle quiest testée est que toutes les moyennes de population des espèces sont égales, c’est à dire :

H . . . 0 1 2:µ µ µ= = = t

Dans cette hypothèse, les deux moyennes des carrés ci-dessus représenteront deux estimationsindépendantes du même effet aléatoire, autrement dit MSS et MSE fournissent une estimation de lamême variance. On peut maintenant tester l’hypothèse “ les effets des espèces sont égaux ” à l’aidedu critère F, où F est le rapport de MSS à MSE. Le critère F suit une distribution F avec (t-1) ett(r-1) degrés de liberté. La signification de F peut être déterminée de la manière habituelle en sereportant à la table de F (Annexe 3). Si la valeur calculée de F est supérieure à la valeur indiquéepar la table, l’hypothèse est rejetée. Cela signifie que les observations concernant au moins une paired’espèces ont mis en évidence des différences significatives.

Les résultats qui précèdent peuvent être récapitulés dans un tableau d’analyse de variance, présentécomme suit

Table 3.4. Tableau d’analyse de variance

Sources de variation Degrés deliberté(df)

Somme descarrés(SS)

Moyenne descarrés

MSSSdf

=

Rapport Fcalculé

Entre espèces t-1 SSS MSS MSSMSE

Au sein d’une espèce(erreur)

t(r-1) SSE MSE

Total tr-1 SSTO

Nous illustrerons ce qui précède à l’aide des données du Tableau 3.5. Celles-ci représentent unensemble d’observations sur la densité du bois, dérivées d’un ensemble, prélevé au hasard, de tigesde cinq espèces de bambous.

Page 48: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 45 -

L’analyse de la variance des données de l’échantillon se fait en plusieurs étapes.

*Etape 1. Calculer les totaux des espèces, la moyenne des espèces, le total général et la moyennegénérale (comme dans le Tableau 3.5) . Ici le nombre d’espèces = t = 5 et le nombred’observations = r = 3.

Tableau 3.5. Densité du bois (g/cc) observée sur un ensemble, prélevé au hasard, de tigesappartenant à différentes espèces de bambous.

Espèces1 2 3 4 5 Général

1 0.58 0.53 0.49 0.53 0.572 0.54 0.63 0.55 0.61 0.643 0.38 0.68 0.58 0.53 0.63

Total 1.50 1.85 1.62 1.67 1.85 8.49Moyenne 0.50 0.62 0.54 0.56 0.62 0.57

*Etape 2. Calculer le facteur de correction C.F à l’aide de l’équation (3.18).

C.F. ( )( )= = .( . )8 49

5 3481

2

*Etape 3. Calculer la somme totale des carrés à l’aide de l’équation (3.21).

SSTO = (0.58)2 + (0.53)2 + . . .+ (0.63)2 - ( )( )( . )849

5 3

2

= 0.0765

*Etape 4. Calculer la somme des carrés relative aux espèces à l’aide de l’équation (3.17).

SSS = ( ) ( ) ( )150 184 184

5 5 3

2 2 2 2. + . + . . . + (8.49).( )( )

= 0.0307

*Etape 5. Calculer la somme des carrés des erreurs grâce à la relation SSE = SSTO - SSSSSE = 0.0765 - 0.0307 = 0.0458

*Etape 6. Calculer la moyenne de la somme des carrés pour les espèces et les erreurs. Celles-cisont données par les équations (3.22) et (3.23).

MSS = 0.03075 1−

= 0.0153

MSE = ( )0.04585 3 1−

= 0.0038

Page 49: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 46 -

*Etape 7. Calculer le rapport F

F = MS Erreur

MS Traitement

= 0 01530 0038

..

= 4.0108

*Etape 8. Résumer les résultats comme dans le Tableau 3.6.

Tableau 3.6. Tableau de l’analyse de la variance des données du Tableau 3.5.

Sources devariation

Degrés deliberté(df)

Sommesdes carrés

(SS)

Carrés moyens

MSSSdf

=

Rapport Fcalculé

Valeurtabulaire de

F

Entreespèces

4 0.0307 0.0153 4.01 3.48

Au seind’uneespèce

10 0.0458 0.0038

Total 14 0.0765

Comparer la valeur calculée et la valeur tabulaire de F, pour 4 et 10 degrés de liberté. Dans notreexemple, la valeur calculée du rapport F (1.73) est inférieure à la valeur tabulaire (3.48), au seuil designification de 5%. On en conclut qu’il n’y a pas de différences significatives entre les moyennes desdifférentes espèces.

3.7. Transformation de données

On a déjà dit dans la section précédente que la validité de l’analyse de variance dépend de certainshypothèses importantes. L’analyse peut aboutir à des conclusions fausses si toutes ces hypothèses nesont pas respectées, ce qui est par exemple relativement courant pour l’hypothèse de la varianceconstante des erreurs. Dans ce cas, l’une des possibilités est d’effectuer une analyse de variancepondérée, en vertu de laquelle chaque observation est pondérée par l’inverse de sa variance. Cecisuppose d’estimer la variance de chaque observation, ce qui n’est pas toujours possible. Souvent,les données subissent certaines transformations d’échelle, de sorte qu’à l’échelle transformée,l’hypothèse de la variance constante est réalisée. Certaines de ces transformations peuvent aussicorriger des écarts des observations par rapport à la normale, du fait qu’une différence de varianceest souvent aussi liée à la distribution de la variable. On dispose de méthodes spécifiques pouridentifier la transformation requise pour tout ensemble de donnée particulier (Montgomery et Peck,1982), mais on peut aussi avoir recours à certaines formes de transformation normalisées suivant la

Page 50: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 47 -

nature des données. Les plus courantes sont la transformation logarithmique, la transformationracine carrée et la transformation angulaire.

3.7.1. Transformation logarithmiqueLorsque les données se présentent sous forme de nombres entiers représentant des catégories degrande étendue, les variances des observations à l’intérieur de chaque groupe sont généralementproportionnelles aux carrés des moyennes du groupe. Pour ce type de données, la transformationlogarithmique est conseillée. La comparaison d’une parcelle témoin de moyennes de groupe avecl’écart-type du groupe mettra en évidence une relation linéaire. Les données issues d’une expérienceréalisée avec différents types d’insecticides fournissent un bon exemple. Pour l’insecticide efficace,les catégories d’insectes dans l’unité expérimentale traitée peuvent être peu étendues, alors que pourles insecticides inefficaces, les catégories peuvent comprendre de 100 à plusieurs milliers d’insectes.Dans le cas de données avec des zéros, il est conseillé d’ajouter 1 à chaque observation avant deprocéder à la transformation. La transformation logarithmique est particulièrement efficace pournormaliser les distributions désaxées vers la droite. Elle est parfois aussi employée pour calculerl’additivité des effets.

3.7.2. Transformation racine carréeLa méthode consistant à convertir les observations originelles à l’ordre de grandeur de la racinecarrée, en prenant la racine carrée de chaque observation, est connue sous le nom de transformationracine carrée. Elle est appropriée lorsque la variance est proportionnelle à la moyenne, ce que l’onpeut voir sur un graphique de variances de groupe et de moyennes de groupes. Une relation linéaireentre la moyenne et la variance est couramment observée lorsque les données sont de petits nombresentiers (ex : catégories de sauvageons par quadrat, adventices par parcelle, vers de terre par mètrecarré de sol, insectes pris au piège etc…) Lorsque les valeurs observées sont comprises dans unefourchette allant de 1 à 10, et surtout lorsqu’elles ont des zéros, la transformation devrait être ,

y + 05. . La transformation du type y + (3 /8) est également employée pour certaines raisonsthéoriques.

3.7.3. Transformation AngulaireDans le cas de proportions dérivées de données de fréquence, la proportion observée p peut êtremise sous une nouvelle forme θ = sin−1 p . Cette méthode est connue sous le nom detransformation angulaire ou de transformation arc-sinus. Toutefois, lorsque presque toutes les valeursdes données sont comprises entre 0,3 et 0,7, cette transformation n’est pas nécessaire. En outre, ellen’est pas applicable aux proportions ou aux pourcentages qui n’ont pas été obtenusexpérimentalement. Ainsi, les pourcentages de marques, de profit, de protéines dans les graines, lateneur en huile des semences etc…ne peuvent pas être soumis à une transformation angulaire. Latransformation angulaire n’est pas valable lorsque dans les données p prend les valeurs 0 ou 1. Onl’améliorera en remplaçant, avant de prendre des valeurs angulaires, 0 par (1/4n) et 1 par [1-(1/4n)], où n est le nombre d’observations sur la base desquelles est estimé p pour chaque groupe.

Pour illustrer la transformation angulaire par un exemple, prenons les données du Tableau 3.7 quireprésentent le pourcentage de racines obtenu après avoir appliqué pendant six mois un traitementhormonal, à des doses différentes, à des boutures de tiges d’une espèce d’arbre. Trois lots,contenant chacun dix boutures, ont été trempés dans une solution hormonale, à des dosages

Page 51: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 48 -

différents. L’hormone a été essayée à trois concentrations et l’expérience comprenait un lot témoinnon traité. Le pourcentage de racines de chaque lot de boutures a été obtenu en divisant le nombrede boutures à racines par le nombre de boutures compris dans un lot.Tableau 3.7. Pourcentage de boutures obtenu au bout de six mois de traitement

TraitementsLot de

bouturesLot témoin AIB, à 10

ppmAIB, à50 ppm

AIB, à100 ppm

1 0 70 60 302 0 80 70 203 0 60 70 10

Les données du Tableau 3.7 ont été transformées à l’échelle angulaire, à l’aide de la fonction,sin−1 p après avoir remplacé les valeurs de “ 0 ” par (1/4n) où n =10. Les valeurs de la fonction

sin−1 p pour différentes valeurs de p peuvent aussi être extraites du Tableau (X) of Fisher et Yates(1963). Les données transformées du Tableau 3.7 sont rassemblées dans le Tableau 3.8.

Table 3.8. Données du Tableau 3.7 transformées à l’échelle angulaire.

TraitementsLots deboutures

Témoin AIB à 10ppm

AIB à50 ppm

AIB à100 ppm

Totalgénéral

1 0.99 56.79 50.77 33.212 0.99 63.44 56.79 26.563 0.99 50.77 56.79 18.44

Total 2.97 171 164.35 78.21 416.53

Afin de voir si les effets des traitements présentent des différences significatives, une analyse devariance à un facteur peut être effectuée selon la méthode indiquée dans la section 3.6 sur lesdonnées transformées. Les résultats de l’analyse de variance sont présentés au Tableau 3.9.

Tableau 3.9. Analyse de la variance des données transformées du Tableau 3.8.

Sources de variation Degrés deliberté(df)

Sommesdes carrés

(SS)

Carrésmoyens

MSSSdf

=

Rapport deF calculé

Valeurtabulaire

de FAu seuilde 5%

Entre les traitements 3 6334.41 2111.47 78.96* 4.07

Dans un mêmetraitement

8 213.93 26.74

Total 11 6548.34

* significatif au seuil de 5%.

Page 52: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 49 -

Avant de conclure cette section, il convient d’ajouter une note de caractère général. Une fois que latransformation a été faite, l’analyse est effectuée avec les données transformées et toutes lesconclusions sont tirées à l’échelle transformée. Toutefois, lors de la présentation des résultats, lesmoyennes et leurs écarts types sont reconverties aux unités originelles. Lors de cette reconversion,certaines corrections doivent être apportées aux moyennes. Dans le cas de données soumises à unetransformation logarithmique, si la valeur moyenne est y, la valeur moyenne des unités originelles seraantilog( )y y+ 115. au lieu de antilog( )y . Avec la transformation racine carrée, la moyenne à

l’échelle initiale serait ( )( )y V y+2au lieu de ( )y

2où ( )V y représente la variance de y . On ne fait

généralement pas ces corrections dans le cas d’une transformation angulaire. Pour la transformationangulaire, la transformation inverse serait p = (sin θ)2.

3.8. Corrélation

Dans beaucoup de systèmes naturels, les changements d’un attribut s’accompagnent de variationsd’un autre attribut, et il existe une relation définie entre les deux. En d’autres termes, il existe unecorrélation entre les deux variables. Par exemple, plusieurs propriétés des sols, comme la teneur enazote, la teneur en carbone organique ou le pH, sont corrélées et varient de façon concomitante. Ona observé une forte corrélation entre plusieurs caractéristiques morphométriques d’un arbre. Dans detelles situations, il peut être intéressant pour un chercheur de mesurer l’importance de cette relation.Si (x i,yi); i = 1, ..., n, est un ensemble d’observations appariées effectuées sur n unitésd’échantillonnage indépendantes, une mesure de la relation linéaire entre deux variables est donnéepar la quantité suivante, appelée coefficient de corrélation linéaire de Pearson, ou simplementcoefficient de corrélation.

( )( ) ( )( ) ( )( )yVxVy)Cov(x,

y de Variancex de Varianceyet xde Covariance

==r (3.24)

où Cov (x,y) = ( )( )1

1nx x y yi i

i

n

− −

=∑ =

1

1

1 1

nx y

x y

ni ii

n ii

n

ii

n

=

= =∑∑ ∑

V(x) = ( )1 2

1nx xi

i

n

=∑ =

1 2

1

1

2

nx

x

nii

n ii

n

=

=∑∑

V(y) = ( )1 2

1ny yi

i

n

=∑ =

1 2

1

1

2

ny

y

nii

n ii

n

=

=∑∑

Page 53: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 50 -

Ce paramètre statistique indique à la fois la direction et le degré de la relation existant entre deuxcaractères quantitatifs x et y. La valeur de r peut varier de –1 à +1, sans atteindre ces valeurs. Si lavaleur de r est nulle, cela signifie qu’il n’y a pas de relation linéaire entre les deux variablesconcernées (il peut toutefois y avoir une relation non-linéaire). La relation linéaire est forte lorsque lavaleur de r approche –1 ou +1. Une valeur négative de r indique que si la valeur d’une variableaugmente, celle de l’autre diminue. Au contraire, une valeur positive indique une relation directe,c’est à dire que l’augmentation de la valeur d’une variable est associée à une augmentation de lavaleur de l’autre. Un changement d’origine, d’échelle, ou d’origine et d’échelle est sans incidence surle coefficient de corrélation. Lorsque l’on ajoute ou soustrait un terme constant aux valeurs d’unevariable, on dit que l’on a changé d’origine, alors que lorsque l’on multiplie ou divise par un termeconstant les valeurs d’une variable, on parle de changement d’échelle.

A titre d’exemple, considérons les données du Tableau 3.10 concernant le pH et la teneur encarbone organique mesurés dans des échantillons de terrain provenant de 15 fosses d’observationcreusées dans des forêts naturelles.

Tableau 3.10. Valeurs du pH et de la teneur en carbone organique observées dans des échantillonsde terrain prélevés dans des forêts naturelles.

Fossed’observation

pH(x)

Carbone organique(%)(y)

(x2) (y2) (xy)

1 5.7 2.10 32.49 4.4100 11.972 6.1 2.17 37.21 4.7089 13.243 5.2 1.97 27.04 3.8809 10.244 5.7 1.39 32.49 1.9321 7.925 5.6 2.26 31.36 5.1076 12.666 5.1 1.29 26.01 1.6641 6.587 5.8 1.17 33.64 1.3689 6.798 5.5 1.14 30.25 1.2996 6.279 5.4 2.09 29.16 4.3681 11.2910 5.9 1.01 34.81 1.0201 5.9611 5.3 0.89 28.09 0.7921 4.7212 5.4 1.60 29.16 2.5600 8.6413 5.1 0.90 26.01 0.8100 4.5914 5.1 1.01 26.01 1.0201 5.1515 5.2 1.21 27.04 1.4641 6.29

Total 82.1 22.2 450.77 36.4100 122.30

Le coefficient de corrélation se calcule en plusieurs étapes.

*Etape 1. Calcul de la covariance de x et y et des variances de x et de y à l’aide de l’équation(3.24).

Cov (x,y) = ( )1

15122 30

15. −

82.1 (22.2)

Page 54: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 51 -

= 0.05

V(x) = 115

4507715

2

. −

(82.1)

= 0.0940

V(y) = 115

36 4115

2

. −

(22.2)

= 0.2367

*Etape 2. Calcul du coefficient de corrélation avec l’équation (3.24).

r = ( )( )

0.05

00940 0 2367. . = 0.3541

3.8.1. Test de signification du coefficient de corrélation.La signification d’une valeur du coefficient de corrélation calculée à partir d’un échantillon doit êtretestée pour confirmer l’existence d’une relation entre les deux variables, dans la populationconsidérée. En général, on définit l’hypothèse nulle comme H0 0: ρ = alors que l’hypothèsealternative est H1 0:ρ ≠ .

Pour n relativement petit, l’hypothèse nulle (ρ = 0 ) peut être testée à l’aide du critère statistique

tr n

r=

2

1 2 (3.25)

Ce critère statistique suit une distribution de Student t avec n-2 degrés de liberté.

Examinons les données du Tableau 3.10, où n = 15 et r = 0.3541. Pour tester si H0 0:ρ = ou si, aucontraire, H1 0:ρ ≠ , on calcule le critère statistique à l’aide de l’Equation (3.25).

t =−

0.3541 15 2

1 (0.3541)2 = 1.3652

Dans la table de l’Annexe 2, la valeur critique de t est 2,160, pour 13 degrés de liberté, au seuil designification α = 0,05. Comme la valeur calculée de t est inférieure à la valeur critique, on conclutque le pH et la teneur en carbone organique mesurés à partir d’échantillons de terrain ne sont pascorrélés de manière significative. Pour simplifier, on pourrait aussi se reporter à l’Annexe 5 qui donneles valeurs au-delà desquelles un coefficient de corrélation observé peut être déclaré significatif, pourun nombre donné d’observations au seuil de signification voulu.

Pour tester l’hypothèse H0 0:ρ ρ= , où ρ0 est une valeur donnée quelconque de ρ, on utilise latransformation Z de Fisher donnée par

zrr

=+−

12

11

ln (3.26)

Page 55: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 52 -

où ln indique le logarithme naturel.

Pour tester l’hypothèse nulle, on choisit le critère statistique

wz z

n

=−

0

13

(3.27)

où z o0

0

12

11

=+−

ln

ρρ

Le critère statistique w suit une loi de distribution normale standard.

Pour illustrer ceci par un exemple, prenons les données du Tableau 3.10, pour n = 15 et r =0.3541. Supposons que l’on veuille tester l’hypothèse nulle H0 0:ρ ρ= = 0.6 ; on commencera parsoumettre les valeurs de r et ρ à la transformation z.

z =+−

12

1 0 35411 0 3541

ln ..

= 0.3701

z0

12

1 0 61 0 6

=+−

ln

.

. = 0.6932

La valeur du critère statistique sera donc

w =−

0 3701 069321

15 3

. . = 1.16495

Etant donné que la valeur de w est inférieure à la valeur critique 1.96, le critère n’est pas significatifau seuil de signification de 5%. On en conclut que le coefficient de corrélation entre le pH et la teneuren carbone organique ne diffère pas de manière significative de 0.6.

3.9. Régression

Le coefficient de corrélation mesure le degré de la relation entre deux variables qui varient de façonconcomitante, avec des effets qui se renforcent mutuellement. Dans certains cas, les changementsrelatifs à une variable sont provoqués par les variations d’une variable connexe, sans qu’il y ait dedépendance mutuelle. En d’autres termes, une variable est considérée comme dépendante desvariations de l’autre variable, dans la mesure où elles dépendent de facteurs externes. Une tellerelation entre deux variables est appelée régression. Lorsque ces relations sont exprimées sous formemathématique, il est possible d’estimer la valeur d’une variable d’après la valeur de l’autre. Parexemple, le rendement de conversion photosynthétique et le coefficient de transpiration des arbresdépendent de conditions atmosphériques comme la température ou l’humidité, sans pour autant quel’on s’attende généralement à une relation inverse. Toutefois certaines variables sont souventdéclarées indépendantes uniquement au sens statistique, même dans des situations où des effetsinverses sont concevables. Par exemple, dans une équation servant à estimer le volume, le volume

Page 56: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 53 -

des arbres est souvent considéré comme dépendant du diamètre à hauteur d’homme, même si lediamètre ne saurait être considéré comme indépendant des effets du volume des arbres au sensphysique. C’est pourquoi, dans le contexte de la régression, les variables indépendantes sont souventappelées variables exogènes (explicative), et la variable dépendante variable endogène (expliquée).

La variable dépendante est habituellement notée y et la variable indépendante x. Dans le cas où il n’ya que deux variables en jeu, la relation fonctionnelle est appelée régression simple. Si la relationentre les deux variables est linéaire, on parle de régression linéaire simple ; dans le cas contraire,la régression est dite non-linéaire. Lorsqu’une variable dépend d’au moins 2 variablesindépendantes, la relation fonctionnelle entre la variable dépendante et l’ensemble des variablesindépendantes est une régression multiple. Dans un souci de simplification, on se limitera ici àexaminer le cas d’une régression linéaire simple. Pour des cas plus complexes, on se référera àMontgomery et Peck (1982).

3.9.1. Régression linéaire simpleLa régression linéaire simple de y en x dans la population peut s’exprimer comme

y x= + +α β ε (3.28)où α et β sont des paramètres, appelés aussi coefficients de régression, et ε est une déviationaléatoire pouvant dériver de la relation attendue. Si la valeur moyenne de ε est zéro, l’équation(3.28) représente une droite de pente β et d’ordonnée à l’origine α. Autrement dit, α est la valeurprésumée de y lorsque x prend la valeur zéro et β représente la variation attendue de ycorrespondant à une variation unitaire de la variable x. La pente d’une droite de régression linéairepeut être positive, négative ou nulle, selon la relation entre y et x.

En pratique, les valeurs de α et β doivent être estimées à partir d’observations des variables y et xeffectuées sur un échantillon. Par exemple, pour estimer les paramètres d’une équation de régressionproposée liant la température atmosphérique et le taux de transpiration des arbres, un certain nombred’observations appariées sur la température et le taux de transpiration sont effectuées sur plusieursarbres, à différents moments de la journée. Notons (x i, yi); i = 1, 2, . . ., n ces couples de valeurs, nétant le nombre de d’observations appariées indépendantes. Les valeurs de α et β sont estimées parla méthode des moindres carrés (Montgomery et Peck, 1982) de sorte que la somme des carrés desdifférences entre les valeurs observées et prévues soit minimale. Le processus d’estimation reposesur les hypothèses suivantes: i) Les valeurs de x sont non aléatoires ou fixes ; ii) Pour tout x, lavariance de y est la même ; iii) Les valeurs de y observées pour différentes valeurs de x sontcomplètement indépendantes. Si l’une de ces hypothèses n’est pas vérifiée, il faut apporter leschangements voulus. Pour les tests d’hypothèses se référant à des paramètres, une hypothèseadditionnelle de normalité des erreurs est nécessaire.

En effet, les valeurs de α et β s’obtiennent grâce à la formule,

$β =−

=

= =

=

∑∑ ∑

∑∑

x yx y

n

xx

n

i ii

n ii

n

ii

n

ii

n ii

n

1

1 1

2

1

1

2 (3.29)

Page 57: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 54 -

$ $α β= −y x (3.30)

L’équation $ $ $y x= +α β représente la droite de régression ajustée, qui peut être utilisée pour estimerla valeur moyenne de la variable dépendante, y, associée à une valeur particulière de la variableindépendante, x. En général, il est plus sûr de limiter ces estimations à la fourchette des valeurs de xdans les données.

On peut obtenir une estimation des erreurs-type de $ $β α and avec la formule suivante :

( )SE

xx

nii

n ii

n$ $β

σ=

=

−∑∑

2

2

1

1

2 (3.31)

( )SE

x

n

xx

n

ii

n

ii

n ii

n$

σ=

=

=

∑∑

2

2

1

2

1

1

2 (3.32)

où ( )

$$

σ 2

2

1=−

=∑ y y

n

ii

n

L’erreur-type d’une estimation, qui est l’écart-type de sa distribution d’échantillonnage, donne uneindication du degré de fiabilité de cette estimation.

Nous illustrerons ce qui précède à l’aide des données du Tableau 3.11 qui présente les valeursappariées du rendement photosynthétique et des radiations, obtenues à partir d’observations desfeuilles d’une essence forestière spécifique. Dans cet exemple, la variable dépendante est lerendement photosynthétique et la variable indépendante est la quantité de lumière. La méthode decalcul de l’ajustement d’une régression linéaire est indiquée ci-dessous.

*Etape 1. Calculer les valeurs du numérateur et du dénominateur de l’équation (3.29) en utilisant lessommes, sommes des carrés et sommes des produits de x et y, dérivées du Tableau 3.11

xyx yn∑ ∑ ∑

− = ( )( )

175591372 18903

15.

. .− = 2.6906

( )x

x

n2

2

∑ ∑− = 12.70 -

( )137215

2.= 0.1508

Page 58: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 55 -

Tableau 3.11. Données sur le rendement photosynthétique en µ mol m-2s-1 (y) et mesure de laradiation en mol m-2s-1 (x), observées sur une essence forestière

X y x2 xy0.7619 7.58 0.58 5.780.7684 9.46 0.59 7.270.7961 10.76 0.63 8.570.8380 11.51 0.70 9.650.8381 11.68 0.70 9.790.8435 12.68 0.71 10.700.8599 12.76 0.74 10.970.9209 13.73 0.85 12.640.9993 13.89 1.00 13.881.0041 13.97 1.01 14.021.0089 14.05 1.02 14.171.0137 14.13 1.03 14.321.0184 14.20 1.04 14.471.0232 14.28 1.05 14.621.0280 14.36 1.06 14.77x∑ = 13.72 y∑ = 189.03 x∑ 2

= 12.70 xy∑ = 175.59

*Etape 2. Calculer les estimations de α et β avec les équations (3.29) et (3.30).

$ ..

β =2 690601508

= 17.8422

$α = 12.60 - (17.8421)(0.9148) = -3.7202

La droite de régression ajustée $ . .y x= − +3 7202 17 8422 peut être utilisée pour estimer la valeur durendement photosynthétique à un niveau de radiation quelconque donné, dans la limite des données.Ainsi, le rendement photosynthétique prévu, pour 1 mol m-2s-1 de lumière sera,

( )$ . .y = − +37202 178422 1 = 14.122

*Etape 3. Estimer σ2 selon la formule définie dans l’Equation (3.32).

( )$

$σ 2

2

1=−

=∑ y y

n

ii

n

= 0.6966

*Etape 4. Estimer les erreurs-type de $ $β α and à l’aide des Equations (3.31) et (3.32).

( ) ( )SE

xx

n

$ $β

σ=

−∑ ∑

2

2

2 =06966

12 7015

2.

. −(13.72)

= 2.1495

Page 59: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 56 -

( )( )SE

xn

xx

n

$$

ασ

=

∑ ∑

22

2

2 = 0 6966

12 7015

12 7015

2

..

. −(13.72)

= 1.9778

3.9.2. Test de signification du coefficient de régressionUne fois que les paramètres de la fonction de régression ont été estimés, l’étape suivante est le testde signification statistique de la fonction de régression. Selon l’usage, on définit l’hypothèse nullecomme H0: β = 0 en opposition à l’hypothèse alternative, H1: β ≠ 0 ou (H1: β < 0 ou H1: β > 0,selon la nature présumée de la relation). Pour effectuer le test, on peut suivre la procédure del’analyse de variance. Le concept de l’analyse de la variance a déjà été expliqué dans la Section 3.6,mais ses applications dans le cadre de la régression sont indiquées ci dessous, à l’aide des donnéesdu Tableau 3.11.

*Etape 1. Dresser un schéma de la table d’analyse de la variance.

Tableau 3.12. Représentation schématique d’une analyse de variance pour une analyse derégression.

Source devariation

Degré deliberté(df)

Sommes descarrés(SS)

Carré moyen

MSSSdf

=

F calculé

Dû à larégression 1 SSR MSR

MSRMSE

Ecart parrapport à larégression

n-2 SSE MSE

Total n-1 SSTO

*Etape 2. Calculer les différentes sommes des carrés, selon la méthode suivante :

Somme totale des carrés = ( )

SSTO yy

n= −

∑∑ 22

(3.33)

= (7.58)2 + (9.46)2 + . . . + (14.36)2 - ( )189 03

15

2.

= 58.3514

Page 60: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 57 -

Somme des carrés dus à la régression = SSR = ( )

xyx yn

xx

n

∑∑∑

∑∑

2

2

2 (3.34)

= ( )2 6906

01508

2..

= 48.0062

Somme des carrés dus à l’écart par rapport à la régression = SSE = SSTO - SSR(3.35)=58.3514 - 48.0062 = 10.3452

*Etape 3. Entrer, comme indiqué dans le Tableau 3.13, les valeurs des sommes des carrés dans latable d’analyse de variance et effectuer les calculs restants.

Tableau 3.13. Analyse de variance pour l’équation de régression relative aux données du Tableau3.11.

Source devariation

Degrés deliberté(df)

Sommes descarrés(SS)

Carré moyen

MSSSdf

=

F calculé à5%

Dû à la régression 1 48.0062 48.0062 60.3244Ecart à larégression

13 10.3452 0.7958

Total 14 58.3514

*Etape 4. Comparer la valeur calculée de F avec la valeur tabulaire correspondant à (1,n-2) degrésde liberté. Dans notre exemple, la valeur calculée (60.3244) est supérieure à la valeurtabulaire de F (4.67) correspondant à (1,13) degrés de liberté, au seuil de signification de5%. La valeur de F est donc significative. Si la valeur calculée de F est significative, lecoefficient de régression β diffère de 0 de manière significative. Exprimée en proportion dela somme totale des carrés, la somme des carrés due à la régression est appelée coefficientde détermination et mesure la quantité de variation de y imputable à la variation de x. End’autres termes, le coefficient de détermination mesure la fraction de la variation de lavariable dépendante expliquée par le modèle. Dans notre exemple, le coefficient dedétermination (R2) est

RSSR

SSTO2 = (3.36)

=48 006258 3514

.

. = 0.8255

Page 61: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 58 -

3.10. Analyse de covariance

Dans l’analyse de la variance, on évalue, en général, la signification d’un élément de variation connu,par rapport à la variation résiduelle inexpliquée. Un contrôle approprié est donc nécessaire pourréduire l’amplitude de la variation non contrôlée. A cette fin, on peut soit élargir le modèle à d’autressources de variations mieux connues, soit exercer un contrôle délibéré sur de nombreuses variablesayant une incidence sur la réponse. A défaut d’un tel contrôle, des différences de groupe réelles neseraient pas détectées en présence d’une variation résiduelle importante. Dans de nombreux cas, lavariation existant au départ entre les unités d’observation est en grande partie responsable desvariations de leurs réponses futures, et il devient nécessaire d’éliminer l’influence des variationsendogènes entre les sujets de la comparaison des groupes étudiés. L’analyse de la covariance estl’une des méthodes employées pour réduire l’amplitude des erreurs inexpliquées. Dans un contexteexpérimental, par exemple, on peut effectuer une analyse de la covariance lorsque l’on disposed’observations sur une ou plusieurs variables corrélées provenant de chaque unité expérimentale,ainsi que d’ observations sur la variable de réponse considérée. Ces variables additionnelles reliéessont appelées covariables ou variables accessoires ou concomitantes. Il est indispensable qu’ellessoient associées à la variable à l’étude. Par exemple, dans les essais de rendement, la variation duvolume sur pied initial due à des facteurs externes, les effets résiduels des plantes antérieurementcultivées sur le site etc…, peuvent faire office de covariables.

L’analyse de covariance est une synthèse des méthodes de l’analyse de la variance et de larégression. Ce concept est étudié plus en détail ici dans le contexte d’une expérience portant surl’étude d’une variable unique notée y et d’une covariable unique notée x. Notons t le nombre degroupes expérimentaux à comparer, chaque groupe étant constitué de r unités expérimentales. Danscette situation, un modèle sous-jacent possible est

y x eij y i ij x ij= + + − +µ α β µ( ) (3.37)

où yij est la réponse observée sur la j-ème unité expérimentale appartenant au i-ème groupe,(i = 1, 2, …, t; j = 1, 2, …, r)µy est la moyenne globale de la population de y,α i est l’effet de l’appartenance au i-ème groupe,β est le coefficient de régression de y en x à l’intérieur du groupex ij est l’observation d’une variable accessoire sur la j-ième unité du ième groupe.µx est la moyenne globale de la covariableeij sont les composantes des erreurs qui sont supposées être distribuées normalement et demanière indépendante avec une moyenne nulle et une variance constante de valeur σ 2 .

L’analyse de la covariance étant essentiellement une extension de l’analyse de la variance, toutes leshypothèses sur lesquelles se fonde cette dernière s’appliquent aussi. Dans une analyse de lacovariance, d’autres hypothèses sont également nécessaires, notamment i) la relation liant lecaractère principal considéré y et la covariable x est linéaire ii) l’importance de la relation entre x et yest la même dans chaque groupe expérimental iii) la variation de la covariable n’est pas la résultantede différences internes au groupe.

Page 62: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 59 -

Les différentes étapes de l’analyse de la covariance sont décrites ci-après.

*Etape 1. Dans l’analyse de la covariance, la première étape consiste à calculer la somme des carrésdue aux différentes composantes, pour la variable y et la covariable x, comme pour uneanalyse de la variance, à l’aide des formules indiquées ci-après :

SS totale de y = SSTO(y) = ( )y C F yijj

r

i

t2

11 ==∑∑ − . . (3.38)

où ( )C F y

y

tr

ijj

r

i

t

. . =

==∑∑

11

2

(3.39)

SS de y dans le Groupe= SSG(y) = ( )y

rC F y

ii

t

.

. .

2

1=∑

− (3.40)

SS de y dus aux Erreurs = SSE(y) = SSTO(y) -SSG(y) (3.41)

SS Totale de x = SSTO(x) = ( )x C F xijj

r

i

t2

11 ==∑∑ − . . (3.42)

où ( )C F x

x

tr

ijj

r

i

t

. . =

==∑∑

11

2

(3.43)

SS de x dans le Groupe = SSG(x) = ( )x

rC F x

ii

t

.

. .

2

1=∑

− (3.44)

SS de x dus aux Erreurs = SSE(x) = SSTO(x) - SSG(x) (3.45)

*Etape 2. Calculer comme suit la somme des produits de x et y.

SP Totale= SPTO(xy) = ( )y x C F xyij ijj

r

i

t

==∑∑ −

11. . (3.46)

où ( )C F xy

y x

tr

ijj

r

i

t

ijj

r

i

t

. . =

== ==∑∑ ∑∑

11 11(3.47)

SP dans le Groupe = SPG(xy) = ( )y x

rC F xy

i ii

t

. .

. .=∑

−1 (3.48)

Page 63: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 60 -

SP dus aux erreurs = SPE(xy) = SSTO(xy) - SSG(xy) (3.49)*Etape 3. L’étape suivante consiste à vérifier si la covariable est affectée par les groupes

expérimentaux. Si les groupes n’ont aucune influence sur x, il ne doit pas y avoir dedifférences significatives entre les groupes par rapport à x. Le coefficient de régression àl’intérieur des groupes est donné par la relation

$ ( )( )

β =SPE xySSE x

(3.50)

On peut tester la signification de $β à l’aide du test F. Le critère de test statistique F est donné par

( )

( ) ( )( )F

SPE xySSE x

SSE ySPE xySSE x

t r

=

− −

( )( )

( )( )( )

2

2

1 1

(3.51)

Le critère statistique F suit une loi de F avec 1 et t(r-1)-1 degrés de liberté. Si le coefficient derégression est significatif, on procède à des ajustements de la somme des carrés de y pour desvariations de x. Dans le cas contraire, les ajustements sont inutiles.

*Etape 4. Des valeurs ajustées de y sont calculées comme suit:

SS totale Ajustée de y = Adj. SSTO(y) = SSTO(y) - ( )SPTO xy

SSTO y( )( )

2

(3.52)

SS Ajustée des erreurs de y = Adj. SSE(y) = SSE(y) - ( )SPE xy

SSE x( )( )

2

(3.53)

SS Ajustée de y dans le groupe = Adj. SSG(y)= Adj. SSTO(y) - Adj. SSE(y)(3.54)

Par convention, on regroupe tous ces résultats dans un seul tableau (voir Tableau 3.14).

*Etape 5. Les valeurs ajustées des moyennes de chaque groupe s’obtiennent avec la formule ( )y y x xi i i' $= − −β (3.55)

L’erreur-type dans l’appréciation de la différence entre deux moyennes ajustées est donnée par:

SE(d) = ( )

MSEr r

x x

SSE xi j

i j1 12

+ +−

( ) (3.56)

où les symboles ont les significations habituelles.

Page 64: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 61 -

Si le nombre de répétitions est le même pour tous les groupes et si les moyennes des valeurs

globales de ( )x xi j−2on a,

SE(d) = ( )2

11

MSEr

SSG xt SSE x

+−

( )( )

(3.57)

Tableau 3.14. Table d’analyse de la covarianceSource de variation df Somme des carrés et des produits

y x xyTotal tr-1 SSTO(y) SSTO(x) SPTO(xy)

Groupe t-1 SSG(y) SSG(x) SPG(xy)Erreur t(r-1) SSE(y) SSE(x) SPE(xy)

Valeurs ajustées de ySource de variation df SS MS F

Total tr-2 SSTO(y) Aj. - -Groupe - - - -Erreur t(r-1)-1 SSE(y) Aj. MSE -

Groupe ajusté t-1 SSG(y) Aj. MSG MSGMSE

Utilisons les données du Tableau 3.15 pour montrer comment s’effectue l’analyse de la covariance.Les données représentent les moyennes de parcelles, basées sur quarante observations de la hauteurinitiale (x) et de la hauteur atteinte après quatre mois (y) de trois variétés de Leucaenaleucocephala, chacune étant cultivée dans 10 parcelles d’une station expérimentale.

Tableau 3.15. Hauteur initiale (x) et hauteur quatre mois plus tard (y), en cm, de trois variétés deLeucaena leucocephala), sur une station expérimentale.

Parcelle Variété 1 Variété 2 Variété 3x y x y x y

1 18 145 27 161 31 1802 22 149 28 164 27 1583 26 156 27 172 34 1834 19 151 25 160 32 1755 15 143 21 166 35 1956 25 152 30 175 36 1967 16 144 21 156 35 1878 28 154 30 175 23 1379 23 150 22 158 34 18410 24 151 25 165 32 184

Total 216 1495 256 1652 319 1789Moyenne 21.6 149.5 25.6 165.2 31.2 178.9

Page 65: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 62 -

L’analyse se fait suivant le modèle du Tableau 3.14. Les calculs sont expliqués ci-dessous:

*Etape 1. Calculer, à l’aide des équations (3.38) à (3.45), la somme des carrés des variables x et y.

C.F.(y) = ( )( )( )49363 10

2

= 812136.5333

SSTO(y) = (145)2 + (149)2 + . . . + (184)2 - 812136.5333 = 7493.4667

SSG(y) = ( ) ( ) ( )

.1495 1652 1789

108121365333

2 2 2+ +−

= 4328.4667

SSE(y) = 7493.4667 - 4328.4667 = 3615.0

C.F.(x) = ( )( )( )7913 10

2

= 20856.0333

SSTO(x) = (18)2 + (22)2 + . . . + (32)2 -20.856.0333 = 966.9697

SSG(x) = ( ) ( ) ( )

.216 256 319

10208560333

2 2 2+ +−

= 539.267

SSE(x) = 966.9697-539.267 = 427.7027

*Etape 2. Calculer la somme des produits des variables x et y à l’aide des équations (3.46) à (3.49).

( )C F xy. . = ( )( )

( )( )791 4936

3 10 = 130145.8667

SPTO(xy) = 18(145) + 22(149) + . . . +32(184) -130145.8667 = 2407.1333

SPG(xy) = ( ) ( ) ( )216 1495 256 1652 319 1789

101301458667

+ +− .

= 1506.44

SPE(xy) = 2407.1333 - 1506.44 = 900.6933

Page 66: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 63 -

*Etape 3. Calculer le coefficient de régression et tester sa signification avec les équations (3.50) et(3.51).$β =

900 6933427 7027

..

= 2.1059La signification de $β peut être testée à l’aide du test F. Le critère statistique F est donné parl’équation (3.51).

F =

( )

( )( )( )

900.6933427.7027

900.6933427.7027

2

2

3615 3 10 1 1−

− −

= 1896 7578

66 0862.

. = 28.7012

La valeur tabulaire de F correspondant à (1,26) degrés de liberté est égale à 9.41 au seuil designification de 5%. Ici, la valeur calculée de F est supérieure à la valeur tabulaire, par conséquent βdiffère de zéro de manière significative.

*Etape 4. Calculer les sommes ajustées des carrés relatives aux différentes sources dans l’analyse decovariance à l’aide des équations (3.52) à (3.54). Synthétiser les résultats comme dans leTableau 3.14 et calculer les valeurs des carrés moyens des groupes (MSG) et des erreurs(MSE), ainsi que la valeur de F basée sur ces carrés moyens.

SSTO Aj. (y) = 7493466724071333966 9697

2

...

= 1501.2513

SSE Aj. (y) = 3165900 6933427 7027

−..

= 1268.2422

SSG Aj. (y) = 1501.2513 - 1268.2422 = 233.0091

MSG = 233 0091

2.

= 116.5046

MSE = ( )1268.2422 3 10 -1 − 1

= 48.7785

Page 67: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 64 -

FMSGMSE

=

= 116 504648 7785

..

= 2.39

Tableau 3.16. Table d’analyse de la covariance des données du Tableau 3.15.

Sourcesde

variation

df Somme des carrés et des produits Valeurs ajustées de y

y x xy df SS MS FTotal 29 7493.467 966.970 2407.133 28 1501.25 - -

Groupe 2 4328.467 539.267 1506.440 - - - -Erreur 27 3615.000 427.703 900.693 26 1268.24 48.8 -

Groupe ajusté pour la covariable 2 233.009 116.5 2.4

La valeur de F correspondant à (2,26) degrés de liberté au seuil de signification de 5% est 3.37.Puisque la valeur observée de F ( 2.4) est inférieure à la valeur critique, on conclut qu’il n’y a pas dedifférence significative entre les variétés.

*Etape 5. Trouver les moyennes ajustées de chaque groupe et l’erreur–type de la différence entreles moyennes ajustées de deux groupes quelconques avec les équations (3.55) and (3.57).

( )y y x x1 1 1' $= − −β = 149.5 - 2.1059(21.6 - 26.37) = 159.54

( )y y x x2 2 2' $= − −β = 165.2 - 2.1059(25.6 - 26.37) = 166.82

( )y y x x3 3 3' $= − −β = 178.9 - 2.1059(31.2 - 26.37) = 168.73

SE(d) = ( )2

11

MSEr

SSG xt SSE x

+−

( )( )

= ( )

( )( )2 488

101

5392673 1 427 703

( . ) ..

+−

= 3.9891

L’erreur-type de la différence entre les moyennes des groupes peut être utile dans lacomparaison par paire des moyennes des groupes, comme on le verra dans le Chapitre 4.

3.11. Analyse de mesures répétées

Les mesures répétées d’unités d’observations sont très fréquentes en recherche forestière. Le terme« répétées » signifie que les mesures sont effectuées sur le même caractère et sur un mêmeéchantillon d’observation, mais sont relevées à plusieurs reprises. Dans les études longitudinales, lesindividus peuvent être suivis sur une période de temps pour enregistrer les changements quisurviennent dans leur état. Parmi les exemples classiques, on peut citer les mesures périodiques du

Page 68: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 65 -

diamètre ou de la hauteur des arbres dans une expérience sylvicole, ou les observations del’évolution des maladies sur un ensemble de plantules, dans un essai en pépinière. Les mesuresrépétées peuvent être spatiales plutôt que temporelles. Prenons pour exemple les mesures descaractéristiques du bois de plusieurs troncs dans leur partie basse, centrale et haute, chaqueensemble de troncs appartenant à une espèce différente. Les propriétés du sol observées à partir demultiples carottes de sondage, à des profondeurs de 0-15, 15-50 et de 50-100 cm, dans différentstypes de végétation sont un autre exemple.

Les mesures répétées se caractérisent principalement par le fait qu’il peut exister une corrélationentre les mesures successives dans l’espace ou dans le temps. L’autocorrélation entre les résidusdécoulant de mesures répétées sur les mêmes unités expérimentales contredit l’hypothèsefondamentale de l’indépendance des erreurs, sur laquelle se fonde une analyse de variance ordinaire.Toutefois on dispose de plusieurs méthodes pour analyser des mesures répétées. Ces méthodes sontplus ou moins efficaces ou appropriées suivant la nature des données. Si la variance des erreurs restela même à chacune des mesures successives, et si en outre les covariances entre les erreurs desdifférentes mesures sont les mêmes, on peut choisir de soumettre les données à une “analyse demodèle mixte à une variable”. Si les erreurs ne sont pas structurées, il est préférable d’effectuer uneanalyse multivariable en prenant des mesures répétées des différents caractères observés sur lesmêmes entités (Crowder et Hand, 1990). Nous allons illustrer ci-après les détails d’une analyse àune variable dans un contexte d’observation simplifié et conseillons à nos lecteurs de se référer à(Crowder and Hand, 1990) pour une analyse multivariable dans ce contexte.

Ici, la situation se présente comme suit: on a n individus x p occasions, les individus étant répartis ent groupes de tailles ni (i = 1, 2, …, t). L’hypothèse à tester implique une comparaison entre lesgroupes. Le modèle utilisé est le suivant

yijk = µ + α i+ eij + β j + γij + eijk (3.58)où yijk est l’observation sur le k-ème individu dans le i-ème groupe à la j-ème occasion; ( i =1, …, t, j =1, …, p, k =1, …, ni.)

µ est la moyenne générale,α i est l’effet du i-ème niveau du facteur ‘groupe’,β j est l’effet du j-ìème niveau du facteur ‘occasion’,γij est l’effet d’interaction pour le i-ème niveau du facteur ‘groupe’ et le j-ème niveau du facteur‘occasion’. Ce terme mesure les différences entre les types de réponses des groupes, au fil desoccasions. Cette interaction sera examinée plus en détail au Chapitre 4.

Dans le modèle (3.58), les composantes aléatoires eij et les composantes d’erreurs aléatoires eijk

sont supposées suivre des lois de distribution indépendantes et normales avec une moyenne nulle etune variance σe

2 et σw2 respectivement. En outre, les α i et les β j sont supposés fixes.

Notons yi.. le total de toutes les observations au niveau i du facteur groupe; y.j. le total de toutes lesobservations au niveau j du facteur occasion; yij. le total de toutes les observations appartenant àla (ij)-ème cellule; y… le total général de toutes les observations. Mathématiquement, ces notationss’expriment comme suit

yi.. = yijkk

n

j

p i

∑∑ , y.j. = y ijkk

n

i

t i

∑∑ , yij. = yijkk

ni

∑ , y… = yijkk

n

j

p

i

t i

∑∑∑Le modèle mixte à une variable d’analyse de variance est illustré ci-dessous.

Page 69: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 66 -

Tableau 3.17. Représentation schématique du modèle mixte à une variable d’analyse de variance.

Sources de variation Degrés de liberté Sommes descarrés

Somme moyenne descarrés

RapportF

Groupe t-1 SSG MSGSSGt

=− 1

MSGMSEa

Individus dans lesgroupes ( )ni

i−∑ 1

SSEa

( )MSESSE

naa

ii

=−∑ 1

Occasion p-1 SSO MSO =SSOp − 1

MSOMSEb

Occasion x Groupe (t-1)(p-1) SSOG MSOG = ( )( )

SSOG

t p− −1 1MSOGMSEb

Occasion x Individusdans les groupes

( ) ( )p nii

− −∑1 1 SSEb ( ) ( )MSESSE

p nbb

ii

=− −∑1 1

Total p nii

−∑ 1 SSTO

Les sommes des carrés du tableau ci-dessus se calculent avec les formules suivantes,

SSTO = yijkkji

2∑∑∑ −y

p nii

...2

∑ (3.59)

SSG =ypn

i

ii

..2

∑ −y

p nii

...2

∑ (3.60)

SSEa = yp

ypn

i k i

iiki

. ..2 2

− ∑∑∑ (3.61)

SSO =y

ny

p nj

ii

j ii

. . ...2 2

∑∑ ∑− (3.62)

Page 70: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 67 -

SSOG = ynij

iji

2

∑∑ −ypn

i

ii

...2

∑ − +∑∑ ∑y

ny

p nj

ii

j ii

. , ...2 2

(3.63)

SSEb = SST - SSG - SSEa - SSO - SSOG (3.64)

Nous illustrerons cette analyse à l’aide des données du Tableau 3.18, sur la croissance mycélienne(en mm) de cinq isolats de Rizoctonia solani sur milieu de gélose dextrosée à base de fécule depomme de terre au bout de 14, 22, 30 et 38 heures d’incubation, chaque isolat étant cultivé danstrois unités du milieu de culture. Ici, les isolats sont les « groupes » et les différents moments sont les« occasions » dont il est question dans le Tableau 3.17.

Tableau 3.18. Données sur la croissance mycélienne (en mm) de cinq groupes d’isolats deR. solani , sur milieu de culture de gélose dextrosée à base de fécule de pomme de terre(PDA).

Croissance mycélienne (en mm) observée endifférentes occasions

Isolat deR. Solani

isolate

Unité dePDA

14 h. 22 h. 30 h. 38 h.

1 1 29.00 41.00 55.00 68.502 28.00 40.00 54.00 68.503 29.00 42.00 55.00 69.00

2 1 33.50 46.50 59.00 74.002 31.50 44.50 58.00 71.503 29.00 42.50 56.50 69.00

3 1 26.50 38.00 48.50 59.502 30.00 40.00 50.00 61.003 26.50 38.00 49.50 61.00

4 1 48.50 67.50 75.50 83.502 46.50 62.50 73.50 83.503 49.00 65.00 73.50 83.50

5 1 34.00 41.00 51.00 61.002 34.50 44.50 55.50 67.003 31.00 43.00 53.50 64.00

Total 506.50 696.00 868.00 1044.50

L’analyse de ces données peut être conduite comme suit:

*Etape 1. Calculer, à l’aide de l’équation (3.59), la somme totale des carrés des valeurs duTableau 3.18.

SSTO = ( ) ( ) . . . ( )( . )

( )( )29 28 64

3115004 15

2 22

2 + + + −

= 14961.58

Page 71: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 68 -

*Etape 2. Dresser un tableau à double entrée des totaux Isolat x unité de PDA, en additionnant lesobservations correspondant aux différentes occasions et calculer les totaux marginaux,comme indiqué dans le Tableau 3.19. Calculer SSG et SSEa en utilisant les valeurs indiquéesdans le Tableau et les équations (3.60) et (3.61).

Tableau 3.19. Totaux Isolat x unité de PDA calculés à partir des données du Tableau 3.18.

IsolatsUnité de

PDA1 2 3 4 5 Total

1 193.50 213.00 172.50 275.00 187.00 1041.002 190.50 205.50 181.00 266.00 201.50 1044.503 195.00 197.00 175.00 271.00 191.50 1029.50

Total 579.00 615.50 528.50 812.00 580.00 3115.00

SSG = (579.00) + (615.50) + . . . + (580.00)

(4)(3)(3115.00)

(4)(15)

2 2 2

= 4041.04

SSEa =+ + +

+ + +

( . ) ( . ) ... ( . )

( . ) ( . ) ... ( . )( )( )

19350 19050 191504

579 00 61500 580004 3

2 2 2

2 2 2

= 81.92

*Etape 3. Dresser le tableau à double entrée des totaux Isolat x Occasion et calculer les totauxmarginaux comme indiqué dans le Tableau 3.20. Calculer SSO, SSOG et SSEb à l’aide deséquations (3.62) à (3.64).

Tableau 3.20. Tableau des to totaux Isolat x Occasion calculés à partir des données duTableau 3.18

OccasionIsolat 14 h 22 h 30 h 38 h Total

1 86.00 123.00 164.00 206.00 579.002 94.00 133.50 173.50 214.50 615.503 83.00 116.00 148.00 181.50 528.504 144.00 195.00 222.50 250.50 812.005 99.50 128.50 160.00 192.00 580.00

Total 506.50 696.00 868.00 1044.50 3115.00

SSO =(506.50) + (696.00) + (868.00) + (1044.50)

15(3115.00)

(4)(15)

2 2 2 2 2

= 10637.08

Page 72: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Inférence statistique

- 69 -

SSOG =( . ) ( . ) . . . ( . )86 00 94 00 192 00

3

2 2 2+ + +

− −(579.00) + (615.50) +...+(580.00)

10637.082 2 2

( )( )4 3 = 172.46

SSEb = 14961.58 - 4041.04 - 81.92 -10637.08 -172.46 = 29.08

*Etape 4. Faire la synthèse des résultats comme dans le Tableau 3.21 et effectuer les calculs restantspour obtenir les carrés moyens et les rapports F, en utilisant les équations reportées dans leTableau 3.17.

Tableau 3.21. Tableau de l’analyse de variance des données du Tableau 3.18.

Sources de variation Degrés deliberté

Somme descarrés

Moyennedes

sommes descarrés

Rapport F-

Groupe 4 4041.04 1010.26 123.33*

Individus dans les groupes 10 81.92 8.19

Occasion 3 10637.08 3545.69 3657.45*

Occasion x Groupe 12 172.46 14.37 14.82*

Occasion x individus dans lesgroupes

30 29.08 0.97

Total 59 14961.58

Comparer les valeurs calculées de F avec les valeurs tabulaires de F aux degrés de libertécorrespondants, au seuil de probabilité souhaité. Toutes les valeurs calculées de F données dans letableau ci-dessus sont supérieures aux valeurs tabulaires correspondantes de F. On en déduit que lavariation due aux groupes, à l’occasion et leur interaction sont significatives, ce qui signifie que lemode de croissance des isolats diffère au fil du temps.

Page 73: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 70 -

4. PLAN ET ANALYSE D’EXPERIENCES

On appelle plan et analyse d’expérience l’opération consistant à planifier une expérience pourobtenir des données appropriées et en tirer des conclusions sur tout problème soumis à l’examen.Cette opération peut partir de la formulation, en termes clairs, des objectifs de l’expérience ets’achever par la rédaction des rapports contenant les conclusions importantes de l’enquête. Ellecomprend aussi une phase intermédiaire durant laquelle sont définis les détails de l’expérience,notamment la structuration des variables dépendantes et indépendantes, leurs niveaux dansl’expérience, le type de matériel expérimental qui sera utilisé, la méthode de manipulation desvariables du matériel expérimental, des techniques d’inférence statistique efficaces et rationnellesetc…

4.1. Les principes de l’expérimentation

La majorité des expériences reposent sur trois principes fondamentaux, à savoir randomisation,répétition et contrôle local. D’une certaine façon, ces trois principes se complètent mutuellement,puisqu’ils tentent d’augmenter la précision de l’expérience et de garantir la validité du test designification, tout en conservant, dans toute l’expérience les caractéristiques propres à leurs rôles.Avant de passer à un examen plus approfondi de ces trois principes, nous allons tenter d’expliquercertains termes génériques de la théorie des plans d’expérience, ainsi que la nature de la variationentre les observations faites dans une expérience.

Avant de réaliser une expérience, il convient de définir une unité expérimentale. Celle-ci peut parexemple être constituée d’une feuille, d’un arbre ou d’un groupe d’arbres adjacents. Une unitéexpérimentale est aussi parfois appelée parcelle. Un groupe de parcelles est appelé bloc. Lesobservations faites sur les unités expérimentales se caractérisent par de grandes variations, en partieproduites par la manipulation de certaines variables, généralement appelées traitements, qui sontinhérentes à l’expérience et manipulées à dessein pour étudier leurs influences. Par exemple, lesclones dans les tests clonaux, les doses et les types d’engrais dans les essais sur les engrais etc…peuvent être appelés traitements. En plus de ces variations de source connue, il en existe d’autresdont on ignore l’origine, ou la cause, comme par exemple la variation non contrôlée de facteursexternes liés à l’environnement, les variations génétiques du matériel expérimental, autres que cellesdues aux traitements, etc… Ces variations sont inévitables et inhérentes au processus même del’expérimentation. En raison de leurs influences indésirables, elles ont reçu le nom d’erreursexpérimentales, ce qui signifie qu’il ne s’agit pas d’erreurs arithmétiques, mais de variations dues àune combinaison de facteurs sur lesquels l’expérimentateur ne peut pas agir.

De plus, il est intéressant de noter que ces erreurs introduites par des facteurs externes dans lesobservations expérimentales peuvent avoir une incidence systématique ou aléatoire. Les erreursimputables à un équipement défectueux, comme un tendeur de chaîne qui aurait perdu sonétalonnage à force d’être utilisé, ou l’erreur due à la fatigue de l’observateur sont des exemplesd’erreur systématique. En revanche, la variation imprévisible de la quantité de feuilles ramassées dansun collecteur de litière, dans le cadre d’un traitement particulier d’une expérience liée, est decaractère aléatoire, ou fortuit. Il est clair que quel que soit le nombre de fois où l’on répètera les

Page 74: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 71 -

mesures, l’erreur systématique subsistera, alors que les erreurs aléatoires finissent le plus souvent pardisparaître à l’issue de mesures répétées. Les trois principes de base, à savoir randomisation,répétition et contrôle local, permettent d’ éviter l’erreur systématique et de limiter l’erreur aléatoire.

4.1.1. RandomisationOn appelle randomisation la technique d’attribution des traitements, ou des facteurs à tester, auxunités expérimentales conformément à des lois ou probabilités définies. C’est la randomisation dansson sens technique strict, qui garantit l’élimination des erreurs systématiques et le caractère purementaléatoire de tout élément d’erreur persistant dans les observations. A partir de là, on peut faire uneestimation valable des fluctuations aléatoires, indispensable pour tester la signification de différencesréelles.

Grâce à la randomisation, chaque unité expérimentale aura une chance égale de recevoir untraitement quelconque. Si, par exemple, cinq clones d’eucalyptus doivent être testés dans 25parcelles, la randomisation garantit que certains clones ne seront pas favorisés ou pénalisés par dessources de variation externes qui ne dépendent pas de l’action, délibérée ou non, del’expérimentateur. Le processus d’allocation aléatoire peut se faire de plusieurs façons, par tirage ausort ou en tirant des nombres d’une page, choisie au hasard, de nombres aléatoires. La méthode estillustrée dans les sections qui suivent sur les différents types de plans expérimentaux.

4.1.2. RépétitionPar répétition, on entend la répétition d’une expérience dans des conditions identiques. Dans lecontexte des plans d’expérience, en revanche, le terme se réfère au nombre d’unités expérimentalesdistinctes faisant l’objet du même traitement. La répétition, conjuguée à la randomisation, fourniraune base pour estimer la variance des écarts. Sans la randomisation, un nombre quelconque derépétitions pourrait ne pas déboucher sur une estimation réelle de l’erreur. Plus le nombre derépétitions est grand, plus la précision de l’expérience est grande.

Le nombre de répétitions que doit comporter une expérience quelconque dépend de nombreuxfacteurs, notamment de l’homogénéité du matériel expérimental, du nombre de traitements, du degréde précision requis etc… En règle général, on pourrait postuler que le nombre de répétitions dans unplan doit fournir au moins dix à quinze degrés de liberté, pour calculer la variance de l’erreurexpérimentale.

4.1.3. Contrôle localOn entend par contrôle local le contrôle de tous les facteurs autres que ceux sur lesquels portent lesrecherches. Comme la répétition, le contrôle local est un dispositif visant à réduire ou à maîtriser lavariation due à des facteurs externes et à accroître la précision de l’expérience. Si, par exemple, unchamp d’essais est hétérogène, du point de vue de la fertilité du sol, il peut être divisé en blocs pluspetits de façon à ce que les parcelles se trouvant à l’intérieur de chaque bloc tendent à être plushomogènes. Ce type d’homogénéité des parcelles (unités expérimentales) garantit une comparaisonnon biaisée des moyennes des traitements. En effet, il serait difficile de dire que la différencemoyenne entre deux traitements provient uniquement de différences entre eux, s’il restait aussi desdifférences entre les parcelles. Ce type de contrôle local visant à rendre homogènes des unitésexpérimentales, augmentera la précision de l’expérience et aidera à tirer des conclusions valides.

Page 75: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 72 -

Pour résumer, on peut dire qu’alors que la randomisation vise à éliminer une erreur systématique (oubiais) dans l’allocation et, partant, à ne laisser qu’un élément de variation d’erreur aléatoire, les deuxautres méthodes, à savoir la répétition et le contrôle local, tentent de maintenir cette erreur aléatoire àun niveau aussi faible que possible. Les trois principes sont cependant essentiels pour faire uneestimation valable de la variance de l’erreur et garantir la validité du test de signification.

4.2. Plan d’expérience entièrement randomisé

Dans un plan expérimental entièrement randomisé (PER), les traitements sont attribués complètementau hasard de sorte que chaque unité expérimentale a la même chance de recevoir un traitementdonné quel qu’il soit. Dans un PER, toute différence entre les unités expérimentales soumises aumême traitement est considérée comme une erreur expérimentale. En conséquence, le PER n’estapproprié que pour les expériences ayant des unités expérimentales homogènes, telles que les essaisen laboratoire, dans lesquelles il est relativement facile de maîtriser les effets dus à l’environnement.Le PER est rarement utilisé pour les essais en champs, où il existe une grande variation entre lesparcelles expérimentales, par exemple au niveau de facteurs comme les sols. .

4.2.1. Déroulement et représentation schématiqueNous allons maintenant présenter la procédure par étapes de la randomisation ainsi que le schémad’un PER, pour un essai de culture en pots comportant quatre traitements A, B, C et D, répétés cinqfois .

*Etape 1. Déterminer le nombre total de parcelles expérimentales (n), comme produit du nombre detraitements (t) et du nombre de répétitions (r); c’est-à-dire, n = rt. Dans notre exemple, n =5 x 4 = 20. Dans ce cas, un pot contenant une seule plante sera considéré comme uneparcelle. Si le nombre de répétitions n’est pas le même pour tous les traitements, onobtiendra le nombre total de pots expérimentaux en faisant la somme des répétitions dechaque traitement :

n rii

t

==∑

1 où ri est le nombre de répétitions du ième traitement

*Etape 2. Attribuer un numéro à chaque parcelle expérimentale, selon une quelconque méthodeappropriée, par exemple, en utilisant des suites de chiffres de 1 à n.

*Etape 3. Allouer au hasard les traitements aux parcelles expérimentales, en utilisant une table denombres aléatoires de la manière suivante. Tirer un point de départ dans une table denombres aléatoires (voir Annexe 6), en pointant le doigt sur un endroit quelconque de lapage, les yeux fermés. En l’espèce, nous supposerons que le point de départ est tombé àl’intersection du sixième rang et de la douzième colonne de nombres à deux chiffres. A partirde ce point de départ, lire la colonne en descendant pour obtenir n = 20 nombres aléatoiresdifférents à deux chiffres. Dans notre exemple, en partant de l’intersection du sixième rang etde la douzième colonne, ces 20 nombres sont indiqués ci-dessous, avec leur ordred’apparition.

Page 76: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 73 -

Nombre aléatoire : 37, 80, 76, 02, 65, 27, 54, 77, 48, 73,Ordre d’apparition : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

Nombre aléatoire : 86, 30, 67, 05, 50, 31, 04, 18, 41, 89Ordre d’apparition : 11, 12, 13, 14, 15, 16, 17, 18, 19, 20

Rangez les n nombre aléatoires obtenus par ordre croissant ou décroissant. Dans notreexemple, les 20 nombres aléatoires sont rangés du plus petit au plus grand, comme indiquédans le tableau suivant :

Nombrealéatoire

Ordre Rang Nombrealéatoire

Ordre Rang

37 1 8 86 11 1980 2 18 30 12 676 3 16 67 13 1402 4 1 05 14 365 5 13 50 15 1127 6 5 31 16 754 7 12 04 17 277 8 17 18 18 448 9 10 41 19 973 10 15 89 20 20

Diviser les n rangs obtenus en t groupes, contenant chacun r nombres, suivant l’ordre danslequel sont apparus les nombres aléatoires. Dans notre exemple, les 20 rangs sont divisés enquatre groupes, dont chacun est constitué de cinq nombres :

Numéro dugroupe

Rang dans le groupe

1 8 13 10 14 22 18 5 15 3 43 16 12 19 11 94 1 17 6 7 20

Allouez les t traitements aux n parcelles expérimentales, en prenant le numéro du groupecomme numéro de traitement et les rangs correspondants dans chaque groupe comme lenombre de parcelles auxquelles le traitement correspondant sera alloué. Dans notre exemple,le premier groupe est assigné au traitement A et les parcelles numéro 8, 13, 10, 14 et 2 sontdésignées pour recevoir ce traitement ; le deuxième groupe est assigné au traitement B, avecles parcelles numéro 18, 5, 15, 3 et 4 ; le troisième groupe est assigné au traitement C, avecles parcelles numéro 16, 12, 19, 11 et 9 ; et le quatrième groupe est assigné au traitement Davec les parcelles numéro 1, 17, 6, 7 et 20. Le schéma définitif de l’expérience est illustré àla Figure 4.1.

Page 77: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 74 -

Figure 4.1. Schéma-type d’un plan d’expérience entièrement randomisé, comportant quatretraitements (A, B, C et D), répétés cinq fois.

Parcelle N°

Traitement1 D

2 A

3 B

4 B

5B

6 D

7 D

8 A

9 C

10 A

11 C

12 C

13 A

14 A

15 B

16 C

17 D

18 B

19 C

20 D

4.2.2. Analyse de la varianceIl existe deux sources de variation entre les n observations tirées d’un essai de PER. L’une est lavariation due aux traitements et l’autre est l’erreur expérimentale. Leur taille relative indique si ladifférence observée entre les traitements est réelle ou si elle est due au hasard. La différence due autraitement est “ réelle ” si elle dépasse dans une mesure significative l’erreur expérimentale.

L’un des avantages majeurs d’un PER est que son analyse de variance se calcule facilement, surtoutsi le nombre de répétitions n’est pas uniforme pour tous les traitements. Pour la plupart des autresplans, l’analyse de variance se complique lorsque la perte de données dans certaines parcellesentraîne des disparités dans les répétitions des traitements testés.

Nous allons voir ci-dessous les étapes de l’analyse de variance des données provenant d’uneexpérimentation relative à un PER comportant un nombre de répétitions non uniforme. Les formulespeuvent être adaptées facilement en cas de répétitions égales, de sorte qu’elles ne sont pas décrites àpart. Pour illustrer cette démonstration, on a utilisé des données provenant d’un essai en laboratoire,dans lequel les observations portaient sur la croissance du mycelium de différents isolats deRizoctonia solani, sur milieu de culture PDA (Tableau 4.1).

*Etape 1. Regrouper les données par traitements et calculer les totaux des traitements (Ti) et le totalgénéral (G). Les résultats de notre exemple sont indiqués dans le Tableau 4.1.

*Etape 2. Dresser un Tableau d’analyse de variance, suivant le modèle du Tableau 4.2

Page 78: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 75 -

Tableau 4.1. Croissance du mycélium, en diamètre (mm), de la colonie d’isolats de R. solani, surmilieu de culture PDA, après 14 heures d’incubation

Isolats de

R. solani

Croissance du mycélium Total destraitements

Moyennedes

traitements

Rép. 1 Rép. 2 Rép. 3 (Ti)

RS 1 29.0 28.0 29.0 86.0 28.67

RS 2 33.5 31.5 29.0 94.0 31.33

RS 3 26.5 30.0 56.5 28.25

RS 4 48.5 46.5 49.0 144.0 48.00

RS 5 34.5 31.0 65.5 32.72

Total général 446.0

Moyennegénérale

34.31

Tableau 4.2. Schéma de l’analyse de variance d’un PER, avec répétitions inégales

Source devariation

Degrés deliberté(df)

Somme descarrés(SS)

Carré moyen

MSSSdf

=

Valeurcalculée de

F

Traitement t - 1 SST MST MSTMSE

Erreur n - t SSE MSE

Total n - 1 SSTO

*Etape 3. Avec les totaux des traitements (Ti) et le total général (G) du Tableau 4.1, calculer commesuit le facteur de correction et les différentes sommes des carrés. Supposons que yij

représente l’observation du jème milieu PDA appartenant au ième isolat; i = 1, 2, …, t ; j =1, 2, …, ri..

C. F.Gn

2= (4.1)

( )

=446

13

2

= 15301.23

SSTO y C. F.ij2

j

ri

= −==

∑∑1i

t

1 (4.2)

= ( ) ( ) ( )[ ]29.0 28.0 ... 31.0 153012 2 2+ + + − .23

= 789.27

Page 79: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 76 -

SST = Tr

C. F.i2

ii 1

t

−=∑ (4.3)

= ( ) ( ) ( )86

394

3...

65.52

153012 2 2

+ + +

− .23

= 762.69

SSE = SSTO - SST (4.4) = 789.27 - 762.69 = 26.58

*Etape 4. Entrer toutes les valeurs des sommes des carrés dans le tableau d’analyse de la varianceet calculer les carrés moyens et la valeur de F comme indiqué dans le Tableau 4.2

*Etape 5. Prendre dans l’Annexe 3 les valeurs tabulaires de F, avec f1 et f2 degrés de liberté, où f1

= df du traitement = (t - 1) et f2 = df de l’erreur = (n – t), respectivement. Dans notreexemple, la valeur tabulaire de F, avec f1 = 4 et f2 = 8 degrés de liberté est de 3.84, au seuilde signification de 5%. Ces résultats sont consignés dans le Tableau 4.3.

Tableau 4.3. Analyse de la variance des données du Tableau 4.1 sur la croissance du mycélium.

Source devariation

Degré deliberté

Somme descarrés

Carrémoyen

Valeur de Fcalculée

Valeurtabulaire

de F5%

Traitement 4 762.69 190.67 57.38* 3.84Erreur 8 26.58 3.32Total 12 789.27

* Significatif au seuil de 5%

*Etape 6. Comparer la valeur calculée de F de l’Etape 4 avec la valeur tabulée de F de l’Etape 5, etdéterminez si la différence entre les traitements est significative, d’après les règles ci-après :i) Si la valeur calculée de F est supérieure à sa valeur tabulaire au seuil de signification de5%, la variation due aux traitements est dite significative, ce qui est généralement indiquépar un astérisque au-dessus de la valeur calculée de F, dans l’analyse de variance.ii) Si la valeur calculée de F est inférieure ou égale à la valeur tabulaire de F au seuil designification de 5%, la variation due aux traitements est dite non significative, ce qui estindiqué par la mention ns au-dessus de la valeur calculée de F (ou par l’absence d’indicationau-dessus de cette valeur).

Une valeur non significative de F dans l’analyse de variance indique que l’expérience n’a pas réussi àdétecter de différence entre les traitements. Elle ne prouve en aucun cas que tous les traitements sontles mêmes car la non détection d’une différence entre les traitements, attestée par une valeur nonsignificative du critère F, pourrait s’expliquer par une différence nulle ou minime, ou par une erreurexpérimentale importante, ou encore par ces deux facteurs. Ainsi, dans tous les cas où la valeur de Fn’est pas significative, le chercheur devrait examiner l’ampleur de l’erreur expérimentale et les

Page 80: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 77 -

différences numériques entre les moyennes des traitements. Si ces deux valeurs sont grandes, il estconseillé de refaire l’essai et de tenter de réduire l’erreur expérimentale pour que les éventuellesdifférences entre les traitements puissent être détectées. En revanche, si les deux valeurs sont petites,les différences entre les traitements sont probablement trop faibles pour avoir une significationéconomique, si bien qu’il n’est pas nécessaire de faire de nouveaux essais.

Dans notre exemple, la valeur calculée de F (57.38) est supérieure à sa valeur tabulaire (3.84) auseuil de signification de 5%. Les différences entre les traitements sont donc significatives. En d’autrestermes, les probabilités que toutes les différences observées entre les cinq moyennes des traitementssoient dues au hasard sont inférieures à 5 pour cent. On notera qu’une valeur significative de Fconfirme l’existence de quelques différences entre les traitements testés, mais ne précise pas pourquelle(s) paire(s) de traitements spécifiques la différence est significative. Ces informationss’obtiennent grâce aux procédures de comparaison des moyennes examinées dans la Section 4.2.3.

*Etape 7. Calculer comme suit la moyenne générale et le coefficient de variation (cv):

Moyenne générale = Gn

(4.5)

cv = (100)générale Moyenne

MSE (4.6)

Dans notre exemple,

Moyenne générale = 44613

34= .31

cv = 3.32

34.31(100) 5= .31%

Le cv affecte le degré de précision des comparaisons entre les traitements et donne une bonneindication de la fiabilité de l’expérience. C’est une expression de l’erreur expérimentale totale, enpourcentage de la moyenne totale ; Ainsi, plus la valeur de cv est grande, moins l’expérience estfiable. Le cv varie considérablement suivant le type d’expérience, la plante cultivée, et les caractèresmesurés. Toutefois, un chercheur expérimenté peut relativement bien juger de l’acceptabilité d’unevaleur spécifique du cv pour un type d’expérience donné. Les résultats d’expériences donnant un cvsupérieur à 30% sont sujets à caution.

4.2.3. Comparaison des traitementsDans le domaine de la recherche forestière, l’une des procédures les plus couramment employées,pour les comparaisons appariées est le test de la plus petite différence significative (PPDS). D’autresméthodes, comme le test de Duncan, le test de la différence raisonnablement significative et le test deStudent-Newman-Keuls sont décrites dans Gomez et Gomez (1980), Steel et Torrie (1980) etSnedecor et Cochran (1980). Le test PPDS est décrit dans la présente section.Le test PPDS est la procédure la plus simple pour comparer des paires. Cette procédure fournit unevaleur unique de la PPDS qui, à un niveau de signification déterminé, marque la limite entre ladifférence significative et non significative entre une paire de moyennes de traitements quelconque.

Page 81: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 78 -

Deux traitements présentent donc des différences significatives à un seuil de signification prescrit sileur différence est supérieure à la valeur calculée de la PPDS. Dans le cas contraire, leurs différencessont considérées comme non significatives.

Si le test PPDS est tout à fait approprié pour les plans de comparaisons appariées, il ne permet pasde comparer toutes les paires de moyennes possibles, surtout si le nombre de traitements est grand.En effet, le nombre de paires de moyennes de traitements possibles augmente rapidement avec lenombre de traitements. La probabilité qu’au moins une paire ait une différence supérieure à la valeurde la PPDS, et uniquement due au hasard, augmente avec le nombre de traitements testés. Parexemple, dans les expériences où il n’existe pas de différence réelle entre toutes les traitements, il estpossible de démontrer que la différence numérique entre la plus grande et la plus petite moyenne destraitements devrait être supérieure à la valeur de la PPDS, au seuil de signification de 5%, 29 fois surcent dans le cas de 5 traitements, 63 fois sur cent dans le cas de 10 traitements, et 83 fois sur centdans le cas de 15 traitements. On évitera donc de recourir au test PPDS pour comparer toutes lespaires de moyennes possibles. Dans les cas où ce test s’applique, on ne l’utilisera que si le critère Frelatif à l’effet des traitements est significatif et si le nombre de traitements n’est pas trop élevé(inférieur à six).

La procédure d’application du test PPDS pour comparer deux traitements quelconques – parexemple le traitement i et le traitement j, se déroule en plusieurs étapes :

*Etape 1. Calculer la différence moyenne entre le traitement i et le traitement j :dij = −y yi j (4.7)

oùyi and jy sont les moyennes des traitements i et j.

*Etape 2. Calculer la valeur de la PPDS, au seuil de signification α :( )( )LSDα α= t sv; d

(4.8)

où sd est l’erreur-type de la différence moyenne et tv; α est la valeur t de la distribution de Student,

extraite de l’Annexe 2, au seuil de signification α et pour v = degrés de liberté de l’erreur.

*Etape 3. Comparer la différence moyenne calculée au cours de l’étape 1 avec la valeur de la PPDScalculée au cours de l’étape 2. Si la valeur absolue de dij est supérieure à la valeur de laPPDS, conclure que les différences entre les traitements i et j sont significatives au seuil designification α ,.

Lorsque l’on applique cette procédure, il est important d’identifier l’erreur-type appropriée de ladifférence moyenne (sd ), applicable à la paire de traitements que l’on veut comparer. La méthode

varie en fonction du plan d’expérience utilisé, du nombre de répétitions des deux traitements soumisà la comparaison et du type spécifique de moyennes que l’on comparera. Dans le cas d’un PER,lorsque les deux traitements n’ont pas le même nombre de répétitions, sd se calcule comme suit:

s sr rd

2

i j

= +(1 1

) (4.9)

Page 82: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 79 -

où ri et rj représentent le nombre de répétitions des traitements i et j , et s2 la moyenne des carrésdes erreurs dans l’analyse de variance.

Nous illustrerons ceci par un exemple, à l’aide des données du Tableau 4.1. Le chercheur veutcomparer les cinq isolats de R. solani, en particulier la croissance de leur mycélium sur milieu PDA.Pour appliquer le test PPDS, on procèdera par étapes, de la manière suivante :

*Etape 1. Calculer la différence moyenne entre chaque paire de traitements (isolats) comme indiquédans le Tableau 4.4.

*Etape 2. Calculer la valeur de la PPDS, au seuil de signification α. Etant donné que certainstraitements sont répétés trois fois et d’autres deux fois, il faut calculer trois ensembles devaleurs de la PPDS.

Pour comparer deux traitements comportant chacun trois répétitions, la valeur de la PPDSse calcule comme suit.

( )LSD 2.31

2 3.323

3 mm.05 = = .44

où la valeur de s2 = 3.32 est dérivée du Tableau 4.3 et la valeur de la distribution de Student t(2.31), pour 8 degrés de liberté, au seuil de signification de 5% est extraite de l’Annexe 2.

Pour comparer deux traitements répétés trois fois chacun, calculer la valeur de la PPDS,comme suit :

( )LSD 2.31

2 3.322

mm.05 = = 4 21.

Pour comparer deux traitements dont un est répété deux fois et l’autre trois fois, la valeur dela PPDS est

( )LSD 2.31 3 1 / 3 1 / 2.05 = +.32 = 3.84 mm

*Etape 3. Comparer la différence entre chaque paire de traitements calculée à l’Etape 1 aux valeurscorrespondantes de la PPDS calculées à l’étape 2, et placer la notation appropriée(astérisque, ns ou absence d’indication). Par exemple, la différence moyenne entre lepremier traitement (comportant trois répétitions) et le deuxième traitement (trois répétitions)est de 2.66 mm. Etant donné que la différence moyenne est inférieure à la valeur de la PPDScorrespondante (3.44 mm), elle est non significative au seuil de signification de 5%. Parailleurs, la différence moyenne entre le premier traitement (trois répétitions) et le deuxième(deux répétitions) est de 4.05 mm. Etant donné que la différence moyenne est supérieure à lavaleur de la PPDS correspondante (3.84), elle est significative au seuil de 5%, ce que l’onindiquera par un astérisque. Les résultats du test, pour toutes les paires de traitements, sontindiqués dans le Tableau 4.4.

Page 83: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 80 -

Tableau 4.4. Comparaison entre le diamètre moyen (en mm) de chaque paire de traitements, à l’aidedu test PPDS, avec des répétitions non uniformes, pour les données du Tableau 4.1.

Traitement RS 1 RS 2 RS 3 RS 4 RS 5

RS 1 0.00 2.66(3.44)

0.42(3.84)

19.33*(3.44)

4.05*(3.84)

RS 2 0.00 3.08(3.84)

16.67*(3.44)

1.39(3.84)

RS 3 0.00 19.75*(3.84)

4.47* (4.21)

RS 4 0.00 15.28*(3.84)

RS 5 0.00

* Significative au seuil de 5% Note: Les valeurs indiquées entre parenthèses sont les valeurs de la PPDS

Avant de passer à la section suivante, nous mentionnerons un point qui peut être utile pourdéterminer le nombre de répétitions à pratiquer pour qu’une expérience soit “ raisonnablement ”fiable. Le principe est que le nombre de répétitions doit être tel que les degrés de liberté de l’erreursoient de l’ordre de 12. En effet, les valeurs critiques dérivées de certaines distributions, notammentdes lois de Student ou des distributions de F, se stabilisent pratiquement après 12 degrés de liberté,ce qui confère une certaine stabilité aux conclusions tirées de ces expériences. Par exemple, si l’onplanifie un PER dans lequel les traitements t sont répétés un nombre de fois égal, on identifiera le dfde l’erreur de t(r-1) à 12 et on calculera r pour des valeurs connues de t. Des stratégies similairespeuvent être suivies pour de nombreux autres plans qui sont expliqués dans les sections suivantes.

4.3. Plan expérimental en blocs aléatoires complets

Le plan expérimental en blocs aléatoires complets (PEBAC) est l’un des dispositifs les pluslargement utilisés en recherche forestière. Il se prête généralement à des expériences en champs danslesquels le nombre de traitements est peu important et où il existe un facteur évident pouvant servirde base pour identifier des ensembles homogènes d’unités expérimentales. Le PEBAC se caractériseprincipalement par la présence de blocs de taille égale, dont chacun contient tous les traitements.

4.3.1. Technique des blocsCette technique a pour but de réduire l’erreur expérimentale en éliminant la contribution de sourcesconnues de variation entre les unités expérimentales. Pour ce faire, on regroupe les unitésexpérimentales en blocs de manière à minimiser la variabilité à l’intérieur de chaque bloc et àmaximiser la variabilité entre les blocs. Etant donné que seule la variation à l’intérieur d’un blocdevient un élément de l’erreur expérimentale, le dispositif par blocs est particulièrement efficacelorsque le type de variabilité du secteur d’expérimentation est prévisible.

Dans un dispositif par blocs, l’idéal est d’utiliser une source de variation grande et hautementprévisible, telle que l’hétérogénéité du sol, dans un essai d’engrais ou de provenance dans lequel lerendement est le principal caractère sur lequel on cherche à obtenir des informations. Dans le cas

Page 84: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 81 -

d’expériences de ce genre, après avoir identifié la source spécifique de variabilité qui servira decritère pour les blocs, il faut choisir la taille et la forme des blocs pour maximiser la variabilité entreceux-ci. Les principes directeurs de cette décision sont les suivants : i) si le gradient estunidirectionnel (c’est-à-dire s’il y a un seul gradient), les blocs seront longs et étroits, et orientés defaçon à ce que leur longueur soit perpendiculaire à la direction du gradient ; ii) si le gradient defertilité va dans deux directions, avec un gradient beaucoup plus fort que l’autre, on ignorera le plusfaible et l’on suivra les directives qui viennent d’être données pour le gradient unidirectionnel ; iii) si legradient de fertilité va dans deux directions, et si les deux gradients ont la même force et sontperpendiculaires l’un par rapport à l’autre, on choisira des blocs aussi carrés que possible oud’autres types de plans comme le carré latin (Gomez et Gomez, 1980).

Si l’on utilise cette technique, la définition des blocs et l’objet de leur utilisation doivent êtrecompatibles tout au long de l’expérience. Cela signifie que dans tous les cas où il existe une sourcede variation sur laquelle le chercheur ne peut pas agir, on veillera à ce que cette variation se produiseentre des blocs plutôt qu’à l’intérieur d’un même bloc. Par exemple, s’il est impossible de mener àleur terme en un seul jour certaines opérations comme l’application d’insecticides ou la collecte dedonnées, pour toute l’expérience, celles-ci devront être achevées en une journée sur toutes lesparcelles d’un même bloc. De cette manière, la variation entre les jours (qui peut être renforcée pardes facteurs météorologiques) devient un élément de la variation du bloc et se trouve par conséquentexclue de l’erreur expérimentale. Si, dans le cadre de l’essai, plusieurs chercheurs doivent prendredes mesures, le même observateur sera chargé de prendre des mesures sur toutes les parcelles d’unmême bloc. Ainsi, l’éventuelle variation entre les observateurs constituera un élément de la variationdu bloc et non de l’erreur expérimentale.

4.3.2. Déroulement et représentation schématiqueLe processus de randomisation d’un PEBAC est appliqué à chaque bloc de manière séparée etindépendante. Nous allons illustrer la marche à suivre pour une expérience en champ comportant sixtraitements A, B, C, D, E, F et trois répétitions.

*Etape 1. Diviser la surface expérimentale en r blocs égaux, r étant le nombre de répétitions, suivantla technique des blocs décrite dans la Section 4.3.1. Dans notre exemple, la surfaceexpérimentale est divisée en trois blocs, comme dans la Figure 4.2. Nous supposerons qu’ily a un gradient de fertilité unidirectionnel sur le côté long du champ d’expérimentation, desorte que le bloc est rectangulaire et perpendiculaire à la direction du gradient.

Page 85: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 82 -

Figure 4.2. Division d’une surface expérimentale en trois blocs constitués de six parcelles chacun,pour un Plan expérimental en blocs aléatoires complets, comportant six traitements et troisrépétitions. Les blocs sont rectangulaires et disposés perpendiculairement à la direction du gradientunidirectionnel (indiqué par une flèche).

Gradient

Bloc I Bloc II Bloc III

*Etape 2. Subdiviser le premier bloc en t parcelles expérimentales, t étant le nombre de traitements.Attribuer aux t parcelles des numéros qui se suivent, allant de 1 à t, et attribuez t traitementsau hasard aux t parcelles, suivant l’une des procédures de randomisation applicable au PERdécrit dans la Section 4.2.1. Dans notre exemple, le bloc I est subdivisé en six blocs demême taille, dont les numéros se suivent, de haut en bas (Figure 4.3) et les six traitementssont alloués au hasard aux six parcelles, à l’aide de la table des nombres aléatoires.

Figure 4.3. Numérotage des parcelles et allocation aléatoire des six traitements (A,B, C, D, E, et F) aux six parcelles du Bloc I.

1 C

2 D

3 F

4 E

5 B

6 A

Bloc I

*Etape 3. Répéter toute la phase 2 pour chacun des blocs restants. En ce qui concerne notreexemple, la disposition finale est illustrée à la Figure 4.4.

Page 86: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 83 -

Figure 4.4. Schéma-type d’un plan expérimental en blocs aléatoires complets, avec six traitements(A, B, C, D, E et F) et trois répétitions.

1 7 13C A F

2 8 14D E D

3 9 15F F C

4 10 16E C A

5 11 17B D B

6 12 18A B E

Bloc I Bloc II Bloc III

4.3.3. Analyse de la varianceTout PEBAC a trois sources de variabilité - le traitement, la répétition (ou bloc) et l’erreurexpérimentale - soit une de plus qu’un PER, en raison de l’adjonction de la répétition qui correspondà la variabilité entre les blocs.

Nous illustrerons les étapes de l’analyse de la variance applicable à un PEBAC, à l’aide des donnéesd’une expérience consistant à comparer la circonférence à hauteur de poitrine (gbh) d’arbres de huitprovenances de Gmelina arborea, six ans après leur plantation (Tableau 4.5).

Tableau 4.5. Gbh moyenne (en cm) des arbres dans des parcelles de différentes provenances deGmelina arborea, 6 ans après la plantation, dans une expérience en champ relevant d’un PEBAC.

Traitement(Provenance) Répétition

Total destraitements

Moyennedes

traitementsI II III (Ti)

1 30.85 38.01 35.10 103.96 34.652 30.24 28.43 35.93 94.60 31.533 30.94 31.64 34.95 97.53 32.514 29.89 29.12 36.75 95.76 31.925 21.52 24.07 20.76 66.35 22.126 25.38 32.14 32.19 89.71 29.907 22.89 19.66 26.92 69.47 23.168 29.44 24.95 37.99 92.38 30.79

Total répét. (Rj) 221.15 228.02 260.59Total général(G) Moyennegénérale

709.7629.57

Page 87: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 84 -

*Etape 1. Regrouper les données par traitement et par répétition et calculer les totaux destraitements, (Ti), des répétitions (Rj) et le total général (G), comme indiqué dans le Tableau4.5.

*Etape 2. Dresser le tableau préliminaire de l’analyse de la variance:

Tableau 4.6. Représentation schématique de l’analyse de la variance d’un PEBAC

Source devariation

Degré deliberté

(df)

Somme descarrés

(SS)

Carré moyen

MSSSdf

=

F calculé

Répétition r - 1 SSR MSR

Traitement t - 1 SST MSTMSTMSE

Erreur (r - 1)(t - 1) SSE MSE

Total rt - 1 SSTO

*Etape 3. Calculer le facteur de correction et les différentes sommes des carrés (SS) mentionnéesdans le tableau ci-dessus. Notons yij l’observation du i-ème traitement faite dans le jèmebloc; i = 1,…,t ; j = 1,…,r.

C F = Grt

2

(4.10)

= ( )

( )( )709.76

20989.972

3 8=

SSTO = y C. F.ij2

j 1

r

i 1

t

−==

∑∑ (4.11)

= ( ) ( ) ( )[ ]30.85 38.01 37.992 2 2... 20989.97+ + + −

= 678.42

SSR =

R

tC.F.

j2

j 1

r

=∑

− (4.12)

= ( ) ( ) ( )221.15 228.02 260.592 2 2

8+ +

− 20989.97

= 110.98

SST = T

rC. F.

i2

i 1

t

=∑

− (4.13)

= ( ) ( ) ( )103.96 94.60 92.382 2 2+ ...

320989.97

+ +−

Page 88: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 85 -

= 426.45

Page 89: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 86 -

SSE = SSTO - SSR - SST (4.14) = 678.42 - 110.98 - 426.45 = 140.98

*Etape 4. A partir des sommes des carrés obtenues, calculer le carré moyen et la valeur de F pourtester les différences des traitements, comme indiqué dans le Tableau 4.6. Les résultats sontreportés dans le Tableau 4.7.

Tableau 4.7 Analyse de la variance des données sur la gbh figurant dans le Tableau 4.5.

Source devariation

Degré deliberté

Somme descarrés

Carrémoyen

F calculé Ftabulaire

5%Répétition 2 110.98 55.49Traitement 7 426.45 60.92 6.05* 2.76

Erreur 14 140.98 10.07Total 23 678.42

*Significative au seuil de 5%

*Etape 5. Extraire les valeurs de F de l’Annexe 3, pour f1 = df des traitements et f2 = df de l’erreur.Pour notre exemple, la valeur tabulaire de F pour f1 = 7 et f2 = 14 degrés de liberté est de2.76 au seuil de signification de 5%.

*Etape 6. Comparer la valeur calculée de F de l’étape 4 aux valeurs tabulaires de F de l’étape 5, etdéterminer si les différences entre les traitements sont significatives ou non. La valeurcalculée de F (6.05) étant supérieure à la valeur tabulaire de F au seuil de signification de5%, on peut conclure que l’expérience met en évidence l’existence de différencessignificatives entre les provenances, mesurées par la croissance de leur gbh.

*Etape 7. Calculer le coefficient de variation:

(100)générale Moyenne

Erreur c

MSv = (4.15)

= 10.37

29.57(100) 10= .89%

La valeur du cv est relativement faible, donc le degré de précision des résultats de l’expérience enchamp est acceptable.

4.3.4. Comparaison des traitementsLes moyennes des traitements sont comparées selon la méthode décrite pour le PER dans la Section4.2.3 à l’aide de la formule

( )( )LSDα α= t sv; d(4.16)

où sd est l’erreur type de la différence entre les moyennes des traitements et où tv; a est la valeur

tabulaire de t , tirée de l’Annexe 2, au seuil de signification α et avec v = degrés de liberté del’erreur. La quantité sd se calcule comme suit:

Page 90: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 87 -

s2s

d

2

=r

(4.17)

où s2 est le carré moyen dû à l’erreur et r le nombre de répétitions.

Pour illustrer ceci par un exemple, nous allons poursuivre l’analyse conduite pour les données duTableau 4.5 et comparer ainsi toutes les paires de traitements possibles à l’aide du test de la PPDS.

*Etape 1. Calculer la différence entre les moyennes des traitements comme indiqué dans le Tableau4.8.

Tableau 4.8. Différence entre la gbh moyenne (en cm) pour chaque paire de traitements d’après lesdonnées du Tableau 4.4.

Traitement 1 2 3 4 5 6 7 8

1 0.00 3.12 2.14 2.73 12.53* 4.75 11.49* 3.86

2 0.00 0.98 0.39 9.41* 1.63 8.37* 0.74

3 0.00 0.59 10.39* 2.61 9.35* 1.72

4 0.00 9.8* 2.02 8.76* 1.13

5 0.00 7.78* 1.04 8.67*

6 0.00 6.74* 0.89

7 0.00 7.63*

8 0.00

* Significative au seuil de 5%

*Etape 2. Calculer la valeur de la PPDS au seuil de signification α. Etant donné que tous lestraitements sont répétés le même nombre de fois, il suffit de calculer une seule valeur de laPPPDS. Celle-ci s’obtient à l’aide des équations (4.16) et (4.17).

( )LSD 2.14

2 10.073

cm.05 = = 554.

*Etape 3. Comparer la différence entre les moyennes des traitements avec la valeur calculée de laPPDS et marquer d’un astérisque les différences significatives. Les résultats sont reportésdans le Tableau 4.8.

4.3.5. Estimation des valeurs manquantesOn parle de “ données manquantes ” dans tous les cas où l’on ne dispose d’observation valide pouraucune des unités expérimentales. Les données manquantes peuvent avoir plusieurs causes :mauvaise application accidentelle des traitements, observations erronées, destruction d’unitésexpérimentales due à des calamités naturelles comme le feu, les dégâts dus à la faune etc... Il esttoutefois primordial d’examiner attentivement ces raisons. La destruction du matériel expérimental nedoit pas être due à l’effet du traitement. Si dans une parcelle aucun arbre n’a survécu, pour desraisons manifestement sans rapport avec les traitements, par exemple parce que la parcelle a été

Page 91: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 88 -

broutée par des animaux errants ou vandalisée par des voleurs, les données manquantes doivent êtredéclarées comme il convient. En revanche, si dans un essai d’insecticides, par exemple, une parcelletémoin (non traitée) est totalement détruite par des insectes, ce dommage est la conséquence logiquede l’absence de traitement. Ainsi, les données correspondantes sur cette parcelle devraient êtrereconnues comme valides (rendement nul si tous les arbres de la parcelle sont détruits, ou faible siquelques plants ont survécu), et non pas considérées comme manquantes.

L’apparition de données manquantes a deux conséquences majeures : des informations sont perdueset l’analyse de variance standard n’est pas applicable. Lorsqu’une expérience comporte une ouplusieurs observations manquantes, les procédures de calcul standard de l’analyse de variance nes’appliquent plus, sauf pour le PER. Dans ces situations, il est possible d’utiliser la technique deformulation d’une donnée manquante qui permet d’estimer une observation manquante unique àl’aide d’une formule adaptée au plan d’expérience concerné. Cette estimation est insérée à la placede la donnée manquante et l’ensemble de données ainsi complété est ensuite soumis à l’analyse devariance standard, légèrement modifiée.

On notera que l’estimation d’une donnée manquantes obtenue grâce à cette technique ne donne pasd’information supplémentaire ; aucune manipulation statistique ne permet de récupérer une donnéeune fois qu’elle est perdue. L’objet de cette procédure est simplement de permettre au chercheur defaire les calculs habituels de l’analyse de la variance (comme si les données étaient complètes), sansrecourir aux procédures plus complexes nécessaires pour des ensembles de données incomplets.

Dans un plan expérimental en blocs aléatoires complets comprenant une seule valeur manquante,celle-ci est estimée par la relation:

yrB tT Gr t

=+ −

− −0 0 0

1 1( )( )(4.18)

où y = estimation de la donnée manquantet = Nombre de traitementsr = Nombre de répétitionsB0 = Total des valeurs observées de la répétition dans laquelle se trouve la donnée manquanteT0 = Total des valeurs observées du traitement dans lequel se trouve la donnée manquanteG0 = Total général de toutes les valeurs observées

La donnée manquante est remplacée par la valeur calculée de y et la procédure de calcul habituelle,légèrement modifiée, de l’analyse de variance est appliquée à l’ensemble de données complété.

La procédure est illustrée à l’aide des données du Tableau 4.5. La donnée manquante est supposéeêtre la valeur du sixième traitement (sixième provenance) dans la répétition II (voir Tableau 4.9). Lesétapes du calcul de l’analyse de variance et des comparaisons appariées des moyennes detraitements sont les suivantes :

*Etape 1. Estimer la valeur manquante à l’aide de l’équation (4.18) et les valeurs des totaux duTableau 4.9.

y =+ −− −

3(195.88) 8(57.57) 677.62(3 1)(8 1)

= 26.47

Page 92: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 89 -

Tableau 4.9. Données du Tableau 4.5, avec une observation manquante

Traitement(Provenance) Répétition

Total destraitements

Rép. I Rép II Rép. III (T)1 30.85 38.01 35.1 103.962 30.24 28.43 35.93 94.63 30.94 31.64 34.95 97.534 29.89 29.12 36.75 95.765 21.52 24.07 20.76 66.356 25.38 M 32.19 (57.57=T0)7 22.89 19.66 26.92 69.478 29.44 24.95 37.99 92.38

Total Rép. (R) 221.15 (195.88=B0) 260.59Total général

(G)(677.62=G0)

M = donnée manquante

*Etape 2. Remplacer la donnée manquante du Tableau 4.9 par sa valeur estimée, calculée dansl’étape 1, comme indiqué dans le Tableau 4.10 et effectuer l’analyse de variance del’ensemble de données augmenté, sur la base de la procédure standard de la Section 4.3.3.

Tableau 4.10. Données du Tableau 4.7 - la donnée manquante est remplacée par la valeur estiméepar la technique de formulation de la donnée manquante.

Traitement(Provenance) Répétition

Total destraitements

Rep. I Rep II Rep. III (T)1 30.85 38.01 35.1 103.962 30.24 28.43 35.93 94.63 30.94 31.64 34.95 97.534 29.89 29.12 36.75 95.765 21.52 24.07 20.76 66.356 25.38 26.47a 32.19 84.047 22.89 19.66 26.92 69.478 29.44 24.95 37.99 92.38

Total rép. (R) 221.15 222.35 260.59Total général

(G)704.09

a Donnée manquante estimée par la technique de formulation de la donnée manquante

Page 93: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 90 -

*Etape 3. Apporter les modifications suivantes à l’analyse de variance de l’étape 2; Soustraire 1 dudf total et du df de l’erreur. Dans notre exemple, le df total tombe de 23 à 22 et df del’erreur de 14 à 13. Calculer le facteur de correction du biais (B)

B = [ ]B t y

t t0

21

1− −

−( )

( )(4.19)

= [ ]195 88 8 1 26 47

8 8 1

2. ( )( . )

( )− −

− = 2.00

et soustraire la valeur calculée de B ( 2.00) de la somme des carrés des traitements et de la sommetotale des carrés. Dans notre exemple, la SSTO et la SST calculées dans l’étape 2 à partir desdonnées augmentées du Tableau 4.10, sont respectivement de 680.12 et de 432.09. En soustrayantla valeur de B ( 2.00) de ces valeurs de SS, on obtient la SST et la SSTO ajustées:

SST ajustée = 432.09 - 2.00 = 430.09

SSTO ajustée = 680.12 - 2.00 = 678.12

L’analyse de la variance ainsi modifiée est reportée dans le Tableau 4.11.

Tableau 4.11. Analyse de la variance des données du Tableau 4.7, avec une valeur manquanteestimée par la technique de formulation d’une donnée manquante.

Source de Degré deliberté

Somme descarrés

Carré F Ftabulaire

variation moyen calculé 5 %Répétition 2 125.80 62.90 6.69Traitement 7 430.09 61.44 6.53* 2.83

Erreur 13 122.23 9.40Total 22 678.12

* Significative au seuil de 5%

*Etape 4. Pour les comparaisons par paire de moyennes de traitements, dont l’un contient unedonnée manquante, calculer l’erreur-type de la différence moyenne sd :

s srd

=

2 2 +

tr(r - 1)(t -1)

(4.20)

où s2 est le carré moyen de l’erreur fournit par l’analyse de variance de l’étape 3, r le nombre derépétitions et t le nombre de traitements.

Par exemple, pour comparer la moyenne du sixième traitement (auquel manque une donnée) aveccelle d’un quelconque autre traitement, sd se calcule comme suit :

Page 94: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 91 -

sd

= +

9.40

23

8(3)(2)(7)

= 2.84

Cette valeur de sd peut être utilisée pour calculer les valeurs de la PPDS. La méthode de calcul des

valeurs de la PPDS est indiquée ci-dessous. Si l’on prend tv comme valeur tabulaire de t pour 13 dfau seuil de signification de 5% (voir Annexe 3), les valeurs de la PPDS servant pour comparer lamoyenne du sixième traitement avec toute autre moyenne de traitement se calculent de la manièresuivante:

LSDα = tv; a sd

(4.21)

LSD.05 = (2.16)(2.84) = 6.13

4.4. Plans d’expérience factoriels

Dans toute expérience, une ou plusieurs variables de réponse peuvent être affectées par un certainnombre de facteurs dans le système global, dont certains sont maîtrisés ou maintenus aux niveauxvoulus dans l’expérience. Une expérience dans laquelle les traitements sont constitués de toutes lescombinaisons possibles de deux ou plusieurs facteurs, aux niveaux sélectionnés, est appelé pland’expérience factoriel. Par exemple, une expérience sur l’enracinement des boutures englobant deuxfacteurs, mesurés à deux niveaux – par exemple deux hormones à deux dosages différents – est uneexpérience factorielle 2 x 2 ou 22. Les traitements sont constitués des quatre combinaisons possiblesde chacun des deux facteurs, aux deux niveaux considérés.

Combinaison des traitementsNuméro du traitement Hormone Dose (ppm)

1 NAA 102 NAA 203 IBA 104 IBA 20

On utilise parfois l’expression expérience factorielle complète lorsque les traitements comprennenttoutes les combinaisons des niveaux sélectionnés des facteurs, mais l’expression expériencefactorielle fractionnée ne s’applique que le test ne porte que sur une fraction de toutes lescombinaisons. Toutefois, pour simplifier, les expériences factorielles complètes seront, tout au longde ce manuel, appelées simplement expériences factorielles. On notera que le terme factoriel seréfère au mode de constitution spécifique des traitements et n’a rien à voir avec le plan décrivant ledispositif expérimental. Par exemple, si l’expérience factorielle 22 dont nous avons parlé plus haut faitpartie d’un plan d’expérience en blocs aléatoires complets, l’expérience devrait être définie parl’expression expérience factorielle 22 dans un plan en blocs aléatoires complets.

Dans un plan d’expérience factoriel, le nombre total de traitements est égal au produit du nombre deniveaux de chaque facteur; dans l’exemple factoriel 22 , le nombre de traitements est égal à 2 x 2 =4, dans une expérience factorielle 23, le nombre de traitements est 2 x 2 x 2 = 8.Le nombre de traitements augmente rapidement avec le nombre de facteurs ou avec les niveaux dechaque facteur. Pour une expérience factorielle comprenant 5 clones, 4 espacements et 3 méthodes

Page 95: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 92 -

de désherbage, le nombre total de traitements sera 5 x 4 x 3 = 60. On évitera donc le recoursinconsidéré aux expériences factorielles en raison de leur ampleur, de leur complexité et de leur coût.De plus, il est peu raisonnable de se lancer dans une expérience de grande ampleur au début d’untravail de recherche, alors qu’il est possible, avec plusieurs petits essais préliminaires, d’obtenir desrésultats prometteurs. Imaginons par exemple qu’un généticien forestier ait fait venir 30 nouveauxclones d’un pays voisin et veuille voir comment ils réagissent à l’environnement local. Etant donnéque normalement les conditions de l’environnement varient en fonction de plusieurs facteurs, tels quela fertilité du sol, le degré d’humidité, etc. l’idéal serait de tester les 30 clones dans le cadre d’uneexpérience factorielle englobant d’autres variables, telles que engrais, niveau d’humidité et densité depopulation. Le problème est que l’expérience devient alors extrêmement vaste du fait de l’adjonctiond’autres facteurs que les clones. Même si l’on incluait qu’un seul facteur, comme l’azote ou l’engrais,à trois dosages différents, le nombre de traitements passerait de 30 à 90. Une expérience de cetteampleur pose divers types de problèmes, notamment pour obtenir des financements ou une surfaceexpérimentale adéquate, ou pour contrôler l’hétérogénéité du sol etc. Pour faciliter les choses, il estdonc préférable de commencer par tester les 30 clones dans une expérience à un facteur, puis desélectionner sur la base des résultats obtenus un petit nombre de clones à soumettre à un examenplus détaillé. Par exemple la première expérience à un facteur peut montrer que seuls cinq clones ontdes performances suffisamment remarquables pour justifier des tests plus approfondis. Ces cinqclones pourraient ensuite être insérés dans une expérience factorielle avec trois dosages d’azote, cequi donnerait un expérience à quinze traitements , alors qu’il en faudrait 90 dans une expériencefactorielle avec 30 clones.

L’effet d’un facteur est la variation moyenne d’une réponse dérivant d’un changement du niveau dufacteur considéré. Cet effet est souvent appelé effet principal. Prenons pour exemple les données duTableau 4.12.

Tableau 4.12. Données issues d’un plan d’expérience factorielle 2x2

Facteur BNiveau b1 b2

a1 20 30Facteur A

a2 40 52

L’effet principal du facteur A peut être considéré comme la différence entre la réponse moyenne aupremier niveau de A et la réponse moyenne au deuxième niveau de A. Numériquement :

A =+

−+

=40 52

220 30

221

Ce résultat signifie que si le facteur A augmente du niveau 1 au niveau 2, la réponse augmente enmoyenne de 21 unités. De même, l’effet principal du facteur B est

B =+

−+

=30 52

220 40

211

Si les facteurs apparaissent à plus de deux niveaux, la procédure ci-dessus doit être modifiée car lesdifférences entre les réponses moyennes peuvent être exprimées de différentes manières.

Page 96: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 93 -

Le principal avantage d’une expérience factorielle est qu’elle permet d’obtenir plus d’informationssur l’interaction entre les facteurs. Dans certaines expériences, on constate que la différence deréponse entre les niveaux d’un facteur n’est pas la même à tous les niveaux des autres facteurs, cequi signifie qu’il existe une interaction entre les facteurs. Prenons pour exemple les données duTableau 4.13.

Tableau 4.13. Données issues d’une expérience factorielle 2x2

Facteur BNiveaux b1 b2

a1 20 40Facteur A

a2 50 12

Au premier niveau du facteur B, l’effet du facteur A estA = 50-20 = 30

Et au second niveau du facteur B, l’effet du facteur A estA = 12-40 = -28

Etant donné que l’effet de A est fonction du niveau choisi pour le facteur B, il est évident qu’il existeune interaction entre A et B.

Ces concepts peuvent être illustrés par des graphiques. La figure 4.5 montre les données de réponsedu Tableau 4.2, par rapport au facteur A pour les deux niveaux du facteur B.

Figure 4.5. Représentation graphique de l’absence d’interaction entre les facteurs.

b1

b1b2

b2

0

20

40

60

a1 a2

Facteur

Réponse

Les droites b1 et b2 sont presque parallèles, ce qui indique qu’il n’y a pas d’interaction entre lesfacteurs A et B.

De même, la Figure 4.6 représente les données de réponse du Tableau 4.13. Dans ce cas, onconstate que les droites b1 et b2 ne sont pas parallèles, ce qui indique une interaction entre lesfacteurs A et B. Si les graphiques de ce genre sont souvent très utiles pour interpréter desinteractions significatives et signaler les résultats à des gestionnaires non qualifiés en statistique, ils nedoivent pas constituer la seule technique d’analyse des données, car leur interprétation est subjectiveet leur apparence souvent trompeuse.

Page 97: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 94 -

Figure 4.6. Représentation graphique de l’interaction entre des facteurs.

b1

b1b2

b2

0102030405060

a1 a2

Facteur

Réponse

On notera que lorsqu’une interaction est importante, les effets principaux correspondants ont peu designification pratique. Pour les données du Tableau 4.13, l’effet principal estimé de A serait

A =+

−+50 12

220 40

2 = 1

cette valeur étant très petite, nous sommes tentés de conclure à l’absence d’effets dus à A.Toutefois, si l’on examine les effets de A à différents niveaux du facteur B, on constate qu’il n’en estpas ainsi. Le facteur A a un effet, mais il dépend du niveau du facteur B, ce qui veut dire qu’uneinteraction significative masque souvent la signification des effets principaux. En présence d'uneinteraction significative, l'expérimentateur doit ordinairement examiner les niveaux d'un facteur, parexemple A, alors que le niveau des autres facteurs reste fixe, pour tirer des conclusions sur l’effetprincipal de A.

Dans la majorité des plans d’expérience factoriels, les traitements sont trop nombreux pour qu’unplan en blocs aléatoires puisse être efficace. Certains types de plans ont cependant étéspécifiquement mis au point pour des expériences factorielles de grande envergure, (ex : plansfactoriels avec confusion). L’utilisation de ces plans est décrite dans Das et Giri (1980).

4.4.1. Analyse de varianceTout plan en blocs complets examiné dans les sections 4.2 et 4.3 pour des expériences à un facteurest applicable à un plan d’expérience factoriel. Les procédures de randomisation et dereprésentation schématique de chaque plan peuvent être appliquées directement, en ignorantsimplement la composition factorielle des traitements et en faisant comme s’il n’existait pas derelation entre les traitements. Pour l’analyse de variance, les calculs examinés pour chaque plan sontaussi directement applicables. Toutefois, des étapes de calcul doivent être ajoutées pour répartir lessommes des carrés des traitements entre les composantes factorielles correspondant aux effetsprincipaux des facteurs individuels et à leurs interactions. Cette procédure de fractionnement étant lamême pour tous les plans en blocs complets, elle ne sera illustrée ici que pour le cas du PEBAC.

Nous allons décrire les différentes étapes de la procédure d’analyse de la variance d’une expérienceà deux facteurs sur les bambous, avec deux niveaux d’espacements (Facteur A) et trois niveauxd’âge à la plantation (facteur B), définis dans un PEBAC, à trois répétitions. La liste des sixcombinaisons factorielles des traitements figure dans le Tableau 4.14, le dispositif expérimental estillustré à la Figure 4.7. et les données sont rassemblées dans le Tableau 4.15.

Page 98: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 95 -

Tableau 4.14. Les combinaisons factorielles (2 x3) des traitements, avec deux niveauxd’espacement et trois niveaux d’âge.

Age à la plantation Espacement (en m) (en mois) 10 m x 10 m 12 m x 12m

(a1) (a2) 6 (b1) a1b1 a2b1

12 (b2) a1b2 a2b2

24 (b3) a1b3 a2b3

Figure 4.7. Schéma-type d’un plan d’expérience factoriel 2 × 3 avec deux niveauxd’espacement et trois niveaux d’âge, dans un PEBAC, avec 3 répétitions.

Répétition I Répétition II Répétition IIIa2b3 a2b3 a1b2

a1b3 a1b2 a1b1

a1b2 a1b3 a2b2

a2b1 a2b1 a1b3

a1b1 a2b2 a2b1

a2b2 a1b1 a2b3

Tableau 4.15. Hauteur maximale moyenne de la tige de Bambusa arundinacea testée avec troisvariantes d’âge et deux variantes d’espacement dans un PEBAC.

Combinaison destraitements

Hauteur maximale de la tige d’une cépée (encm)

Totaltraitements

Rép. I Rép. II Rép. III (Tij)a1b1 46.50 55.90 78.70 181.10a1b2 49.50 59.50 78.70 187.70a1b3 127.70 134.10 137.10 398.90a2b1 49.30 53.20 65.30 167.80a2b2 65.50 65.00 74.00 204.50a2b3 67.90 112.70 129.00 309.60

Total répétitions (Rk) 406.40 480.40 562.80 G=1449.60

*Etape 1. Soit r le nombre de répétitions, a le nombre de niveaux du facteur A (espacement), etb le nombre de niveaux du facteur B (âge). Dresser le tableau préliminaire de l’analyse devariance:

Page 99: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 96 -

Tableau 4.16. Représentation schématique de l’analyse de variance d’une expérience factorielleavec deux niveaux du facteur A, trois niveauxs du facteur B et trois répétitions, dans un PEBAC

Source devariation

Degrés deliberté(df)

Somme descarrés(SS)

Carré moyen

MSSSdf

=

F calculé

Répétition r-1 SSR MSRTraitement ab- 1 SST MST MST

MSEA a- 1 SSA MSA MSA

MSEB b- 1 SSB MSB MSB

MSEAB (a-1)(b-1) SSAB MSAB MSAB

MSEErreur (r-1)(ab-1) SSE MSETotal rab -1 SSTO

*Etape 2. Calculer les totaux des traitements (Tij), les totaux des répétitions (Rk), et le total général(G), comme indiqué dans le Tableau 4.15 et calculer SSTO, SSR, SST et SSE en suivant laprocédure décrite dans la Section 4.3.3. Notons yijk l’observation correspondant au i-èmeniveau du facteur A et au j-ème niveau du facteur B dans la k-ième répétition.

C FGrab

. .=2

(4.22)

( )

= =1449 603 2 3

116741122.

( )( )( ).

SSTO = −===

∑∑∑ y C Fijkk

r

j

b

i

a2

111. . (4.23)

( ) ( )[ ]= + + + −46 50 55 90 129 002 2 2. . . ( . ) . . 116741.12

= 17479.10

SSR = −=∑ R

abC F

kk

r2

1 . . (4.24)

( )

=+ +

−406.40 . . . 562.80

116741.122 2

2 3( )

( )( ) = 2040.37

SST = −==∑∑ T

rC F

ijj

b

i

a2

11. . (4.25)

Page 100: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 97 -

( ) ( )

=+ +

−181.10 . . . 309.60

116741.122 2

3 = 14251.87

SSE = SSTO - SSR - SST (4.26) = 17479.10 - 2040.37 - 14251.87 = 1186.86

L’analyse de variance préliminaire figure dans le Tableau 4.17.

Tableau 4.17. Analyse de variance préliminaire des données du Tableau 4.15.

Source devariation

Degré deliberté

Sommedes carrés

Carrémoyen

F calculé Ftabulaire

5%Répétition 2 2040.37 1020.187 8.59567* 4.10Traitement 5 14251.87 2850.373 24.01609* 3.33

Erreur 10 1186.86 118.686Total 17 17479.10

*Significatif au seuil de 5% .

*Etape 3. Construire le tableau à double entrée des totaux facteur A x facteur B, avec le calcul destotaux du facteur A et les totaux du facteur B. Dans notre exemple, le tableau des totauxEspacement x Age (AB), avec les totaux de l’espacement (A) et les totaux de l’âge (B)calculés, est illustré au Tableau 4.18

Tableau 4.18. Tableau des totaux Espacement x Age , pour les données du Tableau 4.15.

Age Espacement Totala1 a2 (Bj)

b1 181.10 167.80 348.90b2 187.70 204.50 392.20b3 398.90 309.60 708.50

Total (Ai) 767.70 681.90 G = 1449.60

*Etape 4. Calculer les trois composantes factorielles de la somme des carrés des traitements:

SSA =A

rbC F

ii

b2

1=∑

− . . (4.27)

( )

=+

−767.70 681.90

116741.122 2

3 3( )

( )( ) = 408.98

Page 101: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 98 -

SSB =

B

raC F

jj

b2

1=∑

− . . (4.28)

( ) ( ) ( )

=+ +

−348.90 392.20 708.50

116741.122 2

3 2( )( ) = 12846.26

SSAB = SST - SSA - SSB (4.29) = 14251.87 - 408.98 - 12846.26 = 996.62

*Etape 5. Calculer le carré moyen de chaque source de variation en divisant chaque somme descarrés par les degrés de liberté qui lui sont associés et obtenir les valeur du rapport F pourles trois composantes factorielles, selon le schéma du Tableau 4.16.

*Etape 6. Entrer toutes les valeurs obtenues durant les Etapes 3 à 5, dans l’analyse de variancepréliminaire de l’Etape 2 en suivant les indications du Tableau 4.19.

Tableau 4.19. Analyse de variance des données du Tableau 4.15 issues d’une expérience factorielle2 x 3 dans un PEBAC.

Source devariation

Degré deliberté

Somme descarrés

Carrémoyen

F calculé F tabulaire5%

Répétition 2 2040.37 1020.187 8.60* 4.10Traitement 5 14251.87 2850.373 24.07* 3.33

A 1 12846.26 6423.132 3.45 4.96B 2 408.98 408.980 54.12* 4.10

AB 2 996.62 498.312 4.20* 4.10Erreur 10 1186.86 118.686Total 17 17479.10

*Significatif au seuil de 5%

*Etape 7. Comparer chaque valeur calculée de F avec la valeur tabulaire de F figurant l’Annexe 3,avec f1 = df du MS du numérateur et f2 = df du MS du dénominateur, au seuil designification voulu. Par exemple, la valeur calculée de F relative à l’effet principal du facteurA est comparée avec les valeurs tabulaires de F (avec f1=1 et f2=10 degrés de liberté) de4.96, au seuil de signification de 5%. Le résultat indique que l’effet principal du facteur A(espacement) n’est pas significatif au seuil de 5%.

*Etape 8. Calculer le coefficient de variation:

100générale Moyenne

MSErreur =cv × (4.30)

= × =118 68680 53

100 1353%..

.

Page 102: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 99 -

4.4.2. Comparaison de moyennesDans une expérience factorielle, on effectue différents types de comparaisons d’effets. Par exemple,dans une expérience factorielle 2 x 3, quatre types de moyennes peuvent être comparées :Type-(1) Les deux moyennes de A, calculées sur la base des trois niveaux du facteur BType-(2) Les trois moyennes de B calculées sur la base des deux niveaux du facteur AType (3) Les six moyennes de A, deux moyennes à chacun des trois niveaux du facteur BType (4) Les six moyennes de B, trois moyennes à chacun des deux niveaux du facteur A

La moyenne de Type-(1) est une moyenne de 3r observations, celle de Type-(2) est une moyennede 2r observations et celles de Type-(3) ou de Type-(4) sont des moyennes de r observations.

Ainsi, la formule ( )s / rd2= 2s

1/2 n’est appropriée que pour la différence moyenne mettant en jeu

des moyennes de Type-(3) ou de Type-(4). Dans les moyennes de Type-(1) et de Type-(2), lediviseur r de la formule doit être remplacé respectivement par 3r et 2r. Autrement dit, pourcomparer deux moyennes de A, calculées sur la base de tous les niveaux du facteur B, la valeur sd

se calcule selon la relation ( )s s / rd2= 2 3

1/2et pour comparer toute paire de moyennes de B,

calculée sur la base de tous les niveaux du facteur A, la formule de calcul de la valeur sd est

( )2 21/2

s / r2 ou plus simplement ( )s / r2 1/ 2.

A titre d’exemple, prenons l’expérience factorielle 2 x 3 dont les données sont reportées dans leTableau 4.15. L’analyse de variance met en lumière une interaction significative entre l’espacement etl’âge, l’effet de l’âge variant si l’espacement change. Il est donc inutile de comparer les moyennesd’âge, par rapport à tous les niveaux d’espacement ou les moyennes des espacements par rapport àtous les niveaux d’âge. Il est plus approprié d’effectuer des comparaisons entre les moyennes d’âge,pour un même niveau d’espacement, ou entre les moyennes d’espacement, pour un même niveaud’âge. La comparaison entre les moyennes d’espacement, au même âge, est illustrée dans le passagequi suit. Les étapes du calcul de la PPDS pour la comparaison de deux moyennes d’espacement aumême âge sont les suivantes :

*Etape 1.Calculer l’erreur-type de la différence moyenne d’après la formule applicable pour unecomparaison de Type-(3)

rMSErreur 2

s d = (4.31)

= ( )2 118686

3889

..= cm

où la valeur du MS de l’erreur ( 118.686) est extraite de l’analyse de variance du Tableau 4.19.

*Etape 2. Tirer de l’Annexe 2 la valeur tabulaire de t value pour df de l’erreur (10 df), soit 2.23 auseuil de signification de 5% et calculer la PPDS, à l’aide de l’expression,

( )( )LSDα α= t sv d; = ( )( )2 23 8 89 19 82. . .= cm

Page 103: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 100 -

*Etape 3. Dresser le tableau à deux entrées des moyennes du produit de l’espacement x Age,comme indiqué dans le Tableau 4.20. Pour chaque paire de niveaux d’espacement àcomparer au même niveau d’âge, calculer la différence moyenne et la comparer avec lavaleur de la PPDS obtenue durant l’Etape 2. Par exemple, la différence moyenne de hauteurde la tige entre deux niveaux d’espacement, à l’âge de 12 mois à la plantation, est égale à5,6 cm. Etant donné que cette valeur est inférieure à la valeur de la PPDS au seuil designification de 5%, la différence n’est pas significative.

Tableau 4.20. Tableau des moyennes Espacement x Age de la hauteur des tiges,sur la base des données du Tableau 4.15

Age à la plantation Espacement (en m)(en mois) 10 m x 10 m 12 m x 12m

Hauteur moyenne de la tige (en cm) 6 60.37 55.93 12 62.57 68.17 24 132.97 103.20

4.5. Plan factoriel fractionné

Dans un plan d’expérience factoriel, si le nombre de facteurs à tester est trop grand, il devientimpossible de tester tous les traitements factoriels à la fois dans le cadre d’une seule expérience. Ilest alors plus logique de mettre au point un plan expérimental pour tester une fraction seulement dunombre total de traitements. Le plan factoriel fractionné (PFF) est applicable, uniquement dans le casd’expériences englobant un grand nombre de facteurs. Il permet de sélectionner et de testersystématiquement une fraction seulement de l’ensemble complet de combinaisons de traitementsfactoriels. Ceci entraîne malheureusement une perte d’informations sur certains effets sélectionnés aupréalable. Alors que ces pertes peuvent être importantes dans des expériences à un ou deuxfacteurs, elles sont plus tolérables si les facteurs sont nombreux. Le nombre d’effets d’interactionaugmente rapidement avec le nombre de facteurs, ce qui permet une certaine flexibilité dans le choixdes effets qui devront être sacrifiés. De fait, lorsque l’on sait avant de commencer que certains effetsspécifiques sont faibles ou sans importance, la perte d’information dérivant de l’adoption d’un Pland’expérience factoriel fractionné est négligeable.

Dans la pratique, les effets qui sont le plus couramment sacrifiés du fait du recours au PFF sont desinteractions d’ordre élevé – de quatre facteurs ou de cinq facteurs, voire interaction de trois facteurs.Dans la majorité des cas, à moins de disposer d’informations préalables en sens contraire, lechercheur a intérêt à sélectionner un ensemble de traitements qui permet de tester tous les effetsprincipaux et les interactions de deux facteurs. En recherche forestière, le PFF sera utilisé dans desessais exploratoires ayant pour principal objectif d’examiner les interactions entre des facteurs. Pources essais, les PFF les plus appropriés sont ceux qui ne sacrifient que les interactions concernant plusde deux facteurs.

Avec le PFF, le nombre d’effets mesurables décroît rapidement avec la diminution du nombre detraitements à tester. Ainsi, lorsque les effets à mesurer sont nombreux, le nombre de traitements à

Page 104: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 101 -

tester, même dans le cadre d’un PFF, peut être encore trop important. Il est alors possible dediminuer encore la taille de l’expérience en réduisant le nombre de répétitions. Bien que les PFFsans répétition soient rarement employés dans les expériences forestières, lorsqu’on les applique àdes essais exploratoires, le nombre de répétitions requis peut être réduit au minimum.

L’autre avantage du PFF est qu’il permet de réduire la taille des blocs puisque ceux-ci ne doiventplus nécessairement contenir tous les traitements à soumettre au test. L’homogénéité des unitésexpérimentales appartenant à un même bloc peut ainsi être améliorée. La réduction de la taille desblocs s’accompagne toutefois d’une perte d’information qui s’ajoute à celle dérivant de la diminutiondu nombre de traitements. Ainsi, le PFF peut être conçu sur mesure et adapté à la majorité des plansd’expérience factoriels. Cependant, la procédure à employer à cette fin est complexe, c’est pourquoinous nous limiterons ici à décrire une catégorie particulière de PFF, adaptée au cas d’essaisexploratoires dans le domaine de la recherche forestière. Les principales caractéristiques de cesplans d’expérience spécifiques sont les suivantes : i) ils s’appliquent uniquement aux expériencesfactorielles 2’’ où n, le nombre de facteurs est de 5 au minimum, ii) ils comprennent seulement lamoitié de l’ensemble complet de combinaisons de traitements factoriels, dénoté par 2n-1 ; iii) ilspermettent d’estimer la totalité des effets principaux et des interactions à deux facteurs. Pour desplans plus complexes, le lecteur peut se référer à Das et Giri (1980).

La procédure de définition du schéma et d’analyse de variance d’un PFF 25-1 , avec un essai enchamp comportant cinq facteurs A, B, C, D et E est illustrée dans la section suivante. Les différentescombinaisons des traitements sont désignés par les lettres a, b, c,…, pour noter la présence (ou leniveau élevé) des facteurs A, B, C,… Ainsi, la combinaison du traitement ab, dans une expériencefactorielle 25 indique une combinaison de traitement caractérisée par un niveau élevé (ou par laprésence) des facteurs A et B et par un bas niveau (ou par l’absence) des facteurs C, D et E. Enrevanche, dans une expérience factorielle 26, cette même notation (ab) se référerait à unecombinaison de traitement contenant un niveau élevé des facteurs A et B et un bas niveau desfacteurs C, D, E, et F. Dans tous les cas, le symbole (1) indiquera la combinaison de traitementcaractérisée par un bas niveau de tous les facteurs.

4.5.1. Elaboration du plan et présentationIl existe une méthode simple pour trouver la fraction voulue des combinaisons factorielles dans unPFF 25-1 , sachant que, dans un essai factoriel 25, l’effet des facteurs ABCDE peut être estimé àpartir du développement du terme (a-1)(b-1)(c-1)(d-1)(e-1):(a-1)(b-1)(c-1)(d-1)(e-1) = abcde - acde - bcde + cde - abde + ade + bde - de

- abce + ace + bce - ce + abe - ae - be + e

- abcd + acd + bcd - cd + abd - ad - bd + d

+ abc - ac - bc + c - ab + a + b - 1

Dans cette expression, les signes (positif ou négatif) associés aux traitements permettent de diviserl’ensemble factoriel complet en deux groupes de traitements. Si l’on conserve uniquement un l’un desdeux ensembles, positif ou négatif, on obtient une demie fraction de l’expérience factorielle 25. Lesdeux séries de traitements se présentent comme suit.

Page 105: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 102 -

Traitements accompagnés de signes négatifs Traitements accompagnés de signespositifs

acde, bcde, abde, de, abce, ce, ae, be, abcde, bcde, abde, de, abce, ce, ae, be,

abcd, cd, ad, bd, ac, bc, ab, 1 abcd, cd, ad, bd, ac, bc, ab, 1

Par suite de la réduction du nombre de traitements inclus dans l’expérience, il va être impossible d’estimer l’effet ABCDE à partir de l’ensemble fractionné. Tous les effets principaux et toutes lesinteractions de deux facteurs peuvent être estimés dans l’hypothèse où toutes les interactions de troisfacteurs et d’ordre plus élevé sont négligeables. La procédure peut être généralisée puisque dans uneexpérience 26, , il est possible d’isoler une demie fraction en retenant les traitements accompagnésd’un signe positif ou négatif dans le développement de (a-1)(b-1)(c-1)(d-1)(e-1)(f-1).

Le PFF est simplement un dispositif qui permet de sélectionner des traitements ayant une structurefactorielle, et les combinaisons des facteurs qui en découlent peuvent être considérées comme unensemble de traitements applicables à l’expérience physique qui sera définie dans un plan standardquelconque tel que PER ou PEBAC. On trouvera à la Figure 4.8. un schéma randomisé type, pourun PFF 25-1 avec deux répétitions faisant partie d’un PEBAC.

Figure 4.8. Schéma-type d’un PFF 25-1 avec deux répétitions faisant partie d’un PEBAC. 1de

9ab

1abce

9acde

21

10adde

2cd

10bd

3acde

11ad

3be

11de

4ae

12abce

4ad

12bcde

5ce

13be

5ae

13ce

6ac

14bc

6abcd

141

7bcde

15bcd

7abce

15ac

8bd

16cd

8bc

16be

Répétition I Répétition II

4.5.2. Analyse de varianceLa procédure d’analyse de variance applicable à un PFF 25-1 à deux répétitions, est illustrée à l’aidede la méthode de Yates pour le calcul de la somme des carrés, qui facilite le calcul manueld’expériences factorielles de grande ampleur. On peut aussi appliquer les règles standards de calculdes sommes des carrés dans l’analyse de variance, en élaborant des tableaux à une entrée des

Page 106: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 103 -

totaux, pour calculer les effets principaux, des tableaux à double entrée des totaux pour lesinteractions de deux facteurs, etc, en suivant la méthode illustrée dans la Section 4.4.1.

L’analyse d’un PFF 25-1 est illustrée avec des données hypothétiques issue d’un essai dont leschéma, décrit à la Figure 4.8, est conforme à celui d’un PEBAC. La réponse aux différentescombinaisons de traitement, mesurée par le rendement en fourrage (tonnes/ha), est reportée dans leTableau 4.21. Les cinq facteurs étaient liés aux différentes composantes d’un programmed’aménagement du sol (application de matière organique, fertilisation, désherbage, irrigation etchaulage).

Tableau 4.21. Données sur le rendement en fourrage dérivées d’une expériencefactorielle 25-1

Combinaisonde traitement

Rendement en fourrage (t/ha) Total dutraitement

(Ti)Replication I Replication II

acde 1.01 1.04 2.06bcde 1.01 0.96 1.98abde 0.97 0.94 1.92de 0.82 0.75 1.58

abce 0.92 0.95 1.88ce 0.77 0.75 1.53ae 0.77 0.77 1.55be 0.76 0.80 1.57

abcd 0.97 0.99 1.97cd 0.92 0.88 1.80ad 0.80 0.87 1.68bd 0.82 0.80 1.63ac 0.91 0.87 1.79bc 0.79 0.76 1.55ab 0.86 0.87 1.741 0.73 0.69 1.42

Totalrépétition (Rj) 13.83 13.69

Total général (G) 27.52

L’analyse de variance se calcule en plusieurs étapes :

*Etape 1. Dresser le tableau préliminaire de l’analyse de variance présentée dans le Tableau 4.22.

Page 107: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 104 -

*Etape 2. Déterminer le nombre de facteurs réels (k) avec deux niveaux chacun, donnant lieu à unnombre total de traitements factoriels égal au nombre de traitements (t) inclus dansl’expérience (2k = t). Sélectionner ensuite l’ensemble des k facteurs réels particuliers dansl’ensemble initial de n facteurs. Les (n - k) facteurs restants sont appelés facteurs factices.Dans notre exemple, les t = 16 combinaisons de traitements correspondent à un ensemblecomplet de 2k combinaisons factorielles avec k = 4. Dans un souci de simplification, nousdirons que les quatre premiers facteurs A, B, C et D sont les facteurs réels, E étant le facteurfactice.

Tableau 4.22. Représentation schématique de l’analyse de variance d’un PFF 25-1 à deuxrépétitions, s’inscrivant dans un PEBAC.

Source devariation

Degré deliberté

(df)

Somme descarrés

(SS)

Carré moyen

MSSSdf

=

F calculé

Bloc r-1=1 SSR MSR MSR MSE

A 1 SSA MSA MSA MSE

B 1 SSB MSB MSB MSE

C 1 SSC MSC MSC MSE

D 1 SSD MSD MSD MSE

E 1 SSE@ MSE@MSE MSE@

AB 1 SSAB MSAB MSAB MSE

AC 1 SSAC MSAC MSAC MSE

AD 1 SSAD MSAD MSAD MSE

AE 1 SSAE MSAE MSAE MSE

BC 1 SSBC MSBC MSBC MSE

BD 1 SSBD MSBD MSBD MSE

BE 1 SSBE MSBE MSBE MSE

CD 1 SSCD MSCD MSCD MSE

CE 1 SSCE MSCE MSCE MSE

DE 1 SSDE MSDE MSDE MSE

Erreur 15 SSE MSE

Total (r 25-1)-1 SSTO@ Cette SS est la somme des carrés dus au facteur E, à ne pas confondre avec la

somme des carrés dus à l’erreur (SSE) figurant plus bas dans le tableau. Le degré de

Page 108: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 105 -

liberté de l’erreur peut être obtenu en soustrayant du degré de liberté total le degréde liberté relatif au bloc et les effets factoriels.

*Etape 3. Ranger les t traitements dans un ordre logique, d’après les k facteurs réels, encommençant par les traitements ayant le plus petit nombre de lettres (ab avant abc, abcavant abcd, et ainsi de suite). Si le traitement (1) est présent dans l’ensemble de ttraitements, il est toujours le premier de la liste. Les traitements ayant le même nombre delettres son rangés suivant l’ordre lexicographique. Par exemple, ab est devant ac, ad devantbc, et ainsi de suite. Toutes les lettres d’identification des traitements correspondant à desfacteurs factices sont ignorées dans le processus de classement. Dans notre exemple, lefacteur E est le facteur factice ; la combinaison ae est donc simplement notée a, de sortequ’elle vient avant ab. Les 16 traitements de notre exemple, classés dans cet ordre logique,figurent dans la première colonne du Tableau 4.23. On notera que les traitements sonténumérés systématiquement, sans tenir compte de leur allocation dans les blocs, et que lefacteur factice E est indiqué entre parenthèses.

*Etape 4. Calculer les t totaux des effets factoriels: Prendre les totaux des traitements t commeensemble initial ou valeurs de T0. Dans notre exemple, l’ensemble des 16 valeurs de T0,rangées dans l’ordre logique, est reporté dans la deuxième colonne du Tableau 4.23.Ensuite, regrouper les valeurs de T0 en deux paires successives t/2. Dans notre exemple, lespaires successives sont au nombre de 8 : la première paire est 1.42 et 1.54, la seconde est1.56 et 1.73, et la dernière est 1.97 et 1.96. Ajouter les valeurs des deux traitements danschacune des paires t/2 formées. Les résultats constituent la première moitié du deuxièmeensemble, ou valeurs de T1. Dans notre exemple, la première moitié des valeurs de T1 secalcule comme suit :2.96 = 1.42 + 1.543.29 = 1.56 + 1.73

….….

3.93 = 1.97 + 1.96

Dans chacune des t/2 paires de T0, soustraire la première valeur de la seconde pour former la moitiébasse des valeurs de T1 . Dans notre exemple, la deuxième moitié des valeurs de T1 se calculecomme suit :

-0.12 = 1.42 - 1.54-0.17 = 1.56 - 1.73

…. ….

0.01 = 1.97 - 1.96

Les résultats de ces opérations sont reportés dans la troisième colonne du Tableau 4.23.

Refaire les opérations précédentes, en utilisant à présent les valeurs de T1 à la place des valeurs deT0 pour dériver le troisième ensemble, ou valeurs de T2. Dans notre exemple, les résultats desopérations appliquées aux valeurs de T1 pour obtenir les valeurs de T2 figurent dans la quatrièmecolonne du Tableau 4.23. Répétez l’opération (n - 1) fois, où n est le nombre total de facteurs

Page 109: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 106 -

compris dans l’expérience. A chaque fois, utilisez les nouvelles valeurs dérivées de T. Dans notreexemple, l’opération est répétée encore deux fois pour dériver les valeurs de T3 et de T4, reportéesdans la cinquième et la sixième colonnes du Tableau 4.23.Tableau 4.23. Application de la méthode de Yates, pour le calcul des sommes des carrés d’un PFF25-1 avec les données du Tableau 4.21

Traitement T0 T1 T2 T3 T4

Identification del’effet factoriel

( )42T

r n2 1−

Initial Final(1) 1.42 2.96 6.25 12.97 27.52 (G) (G) 23.667a(e) 1.54 3.29 6.72 14.55 -1.50 A AE 0.070b(e) 1.56 3.30 6.77 -0.87 -0.82 B BE 0.021ab 1.73 3.42 7.78 -0.63 0.04 AB AB 0.000c(e) 1.52 3.24 -0.29 -0.45 -1.48 C CE 0.068ac 1.78 3.53 -0.58 -0.37 0.14 AC AC 0.001bc 1.55 3.85 -0.39 0.11 -0.42 BC BC 0.006

abc(e) 1.87 3.93 -0.24 -0.07 0.44 ABC D 0.006d(e) 1.57 -0.12 -0.33 -0.47 -1.58 D DE 0.078ad 1.67 -0.17 -0.12 -1.01 -0.24 AD AD 0.002bd 1.62 -0.26 -0.29 0.29 -0.08 BD BD 0.000

abd(e) 1.91 -0.32 -0.08 -0.15 0.18 ABD C 0.001cd 1.80 -0.10 0.05 -0.21 0.54 CD CD 0.009

acd(e) 2.05 -0.29 0.06 -0.21 0.44 ACD B 0.006bcd(e) 1.97 -0.25 0.19 -0.01 0.00 BCD A 0.000abcd 1.96 0.01 -0.26 0.45 -0.46 ABCD E 0.007

*Etape 5. Identifier l’effet factoriel spécifique représenté par chacune des valeurs du dernierensemble (communément appelé totaux des effets factoriels) dérivées lors de l’Etape 4.Procéder somme suit : la première valeur représente le total général (G). En ce qui concerneles (t – 1)valeurs restantes, assignez les effets factoriels préliminaires conformément auxlettres des traitements correspondants, en ignorant les facteurs factices.

Par exemple, la seconde valeur de T4 correspond aux combinaisons de traitement a (e), de sortequ’elle est assignée à l’effet principal A. La quatrième valeur de T4 correspond au traitement ab etest assignée à l’effet de l’interaction AB, et ainsi de suite. Les résultats relatifs aux 16 traitementssont reportés dans la septième colonne du Tableau 4.23. Pour les traitements dans lesquels intervientle facteur factice, ajuster les effets factoriels préliminaires comme suit. Identifier tous les effetsassociés au facteur factice E pouvant être estimés dans le cadre du plan. Dans notre exemple, ceux-ci sont l’effet principal de E et la totalité de ses interactions à deux facteurs AE, BE, CE et DE.Identifier les alias de tous les effets énumérés comme “préliminaires ”. L’alias de tout effet est définicomme étant l’interaction généralisée de cet effet avec le contraste déterminant. L’interactiongénéralisée entre deux effets factoriels quelconques s’obtient en combinant toutes les lettres quiapparaissent dans les deux effets puis en supprimant toutes celles que l’on retrouve deux fois. Parexemple, l’interaction généralisée entre ABC et AB est AABBC ou C. Dans notre exemple, lecontraste déterminant est ABCDE, les alias des cinq effets associés au facteurs factice E sont :E=ABCD, AE=BCD, BE=ACD, CE=ABD et DE=ABC.

Page 110: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 107 -

Les deux effets factoriels intervenant dans chaque paire d’alias (l’un à gauche, et l’autre à droite dusigne égal) sont indissociables (ils ne peuvent pas être estimés séparément). Par exemple, pour lapremière paire (E et ABCD), l’effet principal du facteur E, ne peut pas être séparé de l’effetd’interaction ABCD. A moins que l’on sache qu’une des paires est absente, il n’y a donc aucunmoyen de savoir quelle est celle qui contribue à l’estimation obtenue.

Remplacer tous les effets factoriels préliminaires qui sont des alias des effets estimables associés aufacteur factice, par ce dernier facteur. Par exemple, étant donné que ABCD (dernier traitement duTableau 4.23) est l’alias de E, il est remplacé par E. De la même manière, BCDE est remplacé parA, ACDE par B et ainsi de suite… Les résultats finaux de l’identification des effets factoriels figurentdans la huitième colonne du Tableau 4.23.

*Etape 6. Ajouter au Tableau 4.23 une colonne supplémentaire( )4

2Tr n2 1− , où r est le nombre de

répétitions et n le nombre de facteurs inclus dans l’expérience. La valeur de cette colonnecorrespondant à G dans la colonne précédente sera le facteur de correction. Les autres valeurs decette colonne seront la somme des carrés correspondant aux effets identifiés dans la colonneprécédente.

*Etape 7. Calculer les SS dûs aux autres effets pour compléter l’analyse de la variance. Supposonsque yij représente la valeur obtenue avec le i- ème traitement de la j-ème répétition.

C FGrt

. .=2

(4.32)

= ( )( )12 372 16

2. = 23.6672

SSTO = −==

∑∑ y C Fijj

r

i

t2

11. . (4.33)

( ) ( )[ ]= + + + −101 104 069 2366722 2 2. . . . . . ( . )

= 0.2866

SSR = −=

∑R

C Fj

j

r

n

2

112

. . (4.34)

( )

=+

−1383 13 69

223 6672

2 2

4. ( . )

.

= 0.0006

SST = −=∑T

rC F

ii

t2

1 . . (4.35)

( )

=+ +

−(1.42) + (1.54)2 2 ......... .

.1 96

423 6672

2

Page 111: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 108 -

= 0.2748

Page 112: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 109 -

SSE = SSTO - SSR - SST (4.36) = 0.2866 - 0.2748 - 0.0006 = 0.01

*Etape 8. Calculer le carré moyen (MS) de chaque source de variation en divisant chaque SS parson degré de liberté df. Ici, le MS correspondant à chaque effet factoriel sera égal à sa SSpuisque, dans chaque cas, le df de ces effets est égal à 1.

*Etape 9. Calculer la valeur de F correspondant à chaque terme du tableau d’analyse de variance endivisant les valeurs de MS par les valeurs des MS de l’erreur. L’analyse de variance finale estillustrée au Tableau 4.24.

Tableau 4.24. Analyse de variance des données du Tableau 4.21 correspondant à un pland’expérience factoriel 25-1.

Source devariation

Degrés deliberté

Sommes descarrés

Carrésmoyens

F calculé FTabulaire

5%Répétition 1 0.0006 0.0006 0.86ns 4.54

A 1 0.000 0.000 0.00 ns 4.54B 1 0.006 0.006 8.57* 4.54C 1 0.001 0.001 1.43 ns 4.54D 1 0.006 0.006 8.57* 4.54E 1 0.007 0.007 10.00* 4.54

AB 1 0.000 0.000 0.00 ns 4.54AC 1 0.001 0.001 1.43 ns 4.54AD 1 0.002 0.002 2.86 ns 4.54AE 1 0.070 0.070 100.00* 4.54BC 1 0.006 0.006 8.57* 4.54BD 1 0.000 0.000 0.00 ns 4.54BE 1 0.021 0.021 30.00* 4.54CD 1 0.009 0.009 12.86* 4.54CE 1 0.068 0.068 97.14* 4.54DE 1 0.078 0.078 111.43* 4.54

Erreur 15 0.010 0.0007Total 31 0.2866

* Significatif au seuil de 5% l, ns = non significatif au seuil de 5%

*Etape 11.Comparer chaque valeur calculée de F avec les valeurs tabulaires de F correspondantes,tirées de l’Annexe 3, avec f1 = df du MS du numérateur et f2 = df de l’erreur. Les résultatsmontrent que les effets principaux B, D et E et les interactions de deux facteurs AE, BC, BE,CD, CE et AE sont hautement significatifs et que les effets principaux A et C et lesinteractions de deux facteurs AB, AC, AD et BD ne sont pas significatives.

Page 113: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 110 -

4.5.3. Comparaison de moyennesLa procédure décrite dans la section 4.4.2. pour comparer des moyennes dans des plansd’expérience factoriels complets s’applique également dans le cas d’un PFF. Il ne faut pas oubliertoutefois que, dans un plan d’expérience factoriel 25-1, seules les moyennes de tableaux à une oudeux entrées peuvent être comparées à l’aide de la procédure des comparaisons multiples.

4.6. Dispositif en parcelles divisées

L’expérience avec parcelles divisées (ou dispositif en tiroir) convient très bien dans le cas d’uneexpérience à deux facteurs dans laquelle les niveaux d’un des deux facteurs ne peuvent être testésque dans des parcelles de grande taille et se caractérisent par des effets très différents. Dans une tellesituation, l’expérience sera formée d’un ensemble de “ grandes parcelles ” dans lesquelles desniveaux sont assignés au facteur de grande parcelle. Chaque grande parcelle est divisée en petitesparcelles auxquelles est assigné le second facteur. Chaque grande parcelle devient ainsi un bloc pourles traitements des petites parcelles (c’est-à-dire les niveaux du facteur de petite parcelle). Le facteurde grande parcelle peut en réalité être alloué suivant l’un des systèmes existant ( plan entièrementrandomisé, plan en blocs aléatoires complets, ou carré latin) mais ici seul le plan entièrementrandomisé est envisagé pour le facteur de grande parcelle, car c’est probablement le plan le plusapproprié et le plus couramment employé pour les expériences forestières.

Avec un dispositif en parcelles divisées, la précision de la mesure des effets du facteur de grandeparcelle est sacrifiée au profit de celle du facteur de la petite parcelle. La mesure de l’effet principaldu facteur de petite parcelle et son interaction avec le facteur de grande parcelle sont plus précisesque celles qui peuvent être obtenues avec un plan en blocs aléatoires complets. En revanche, lamesure des effets des traitements des grandes parcelles (les niveaux du facteur des grandesparcelles) est moins précise que celle que l’on obtiendrait avec un plan en blocs aléatoires complets.

4.6.1. DispositifUn dispositif en parcelles divisées comprend deux processus de randomisation distincts – un pour lesgrandes parcelles et l’autre pour les petites parcelles. Dans chaque répétition, on commence parallouer au hasard les traitements des grandes parcelles, puis ceux des petites parcelles formées àl’intérieur de chaque grande parcelle.

Ceci sera illustré par une expérience à deux facteurs comprenant quatre niveaux d’azote (traitementsdes grandes parcelles) et trois clones d’eucalyptus (traitement des petites parcelles), avec troisrépétitions. Ici, les doses d’engrais ont été choisies pour les grandes parcelles, principalement enfonction de leur facilité d’application et de contrôle de l’effet de lessivage et pour détecter laprésence d’une interaction entre les engrais et les clones. Dans notre description des étapes de larandomisation et de la définition d’un dispositif en parcelles divisées, a est le nombre de traitementsdes grandes parcelles, b est le nombre de traitements des petites parcelles et r est le nombre derépétitions.

*Etape 1. Diviser la surface expérimentale en r = 3 blocs, dont chacun sera divisé en a = 4 grandesparcelles, comme dans la Figure 4.9.

Page 114: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 111 -

*Etape 2. Suivant la procédure de randomisation d’un PEBAC avec a = 4 traitements et r = 3répétitions allouer au hasard les 4 traitements à l’azote aux 4 grandes parcelles se trouvant àl’intérieur des 3 blocs. Le résultat se présentera comme dans la Figure 4.10.

*Etape 3. Diviser chacune des ra = 12 grandes parcelles en b = 3 petites parcelles et en suivant laprocédure de randomisation d’un PEBAC pour b = 3 traitements et ra = 12 répétitions,allouer au hasard les 3 clones aux 3 petites parcelles se trouvant dans chacune des 12grandes parcelles. Le résultat se présentera comme dans la Figure 4.11.

Figure 4.9. Division de la surface expérimentale en trois blocs (répétitions) composés dequatre grandes parcelles, comme première étape de la définition d’une expérience enparcelles divisées comportant trois répétitions et quatre traitements par grande parcelle.

Grandes parcelles Grandes parcelles Grandes parcelles1 2 3 4 1 2 3 4 1 2 3 4

Répétition I Répétition II Répétition III

Figure 4.10. Allocation aléatoire de quatre niveaux d’azote (n0, n1, n2 et n3) aux quatregrandes parcelles, dans chacune des trois répétitions de la Figure 4.9.

n3 n1 n0 n2 n1 n0 n3 n2 n0 n1 n2 n3

Répétition I Répétition II Répétition III

Figure 4.11. Représentation type d’une expérience en parcelles divisées avec trois clonesd’eucalyptus (v1, v2 et v3) (traitements des petites parcelles) et quatre niveaux d’azote (n0, n1, n2

et n3) (traitements des grandes parcelles, dans trois répétitions).n3 n1 n0 n2 n1 n0 n5 n2 n0 n1 n2 n3

v2 v1 v1 v2 v1 v3 v3 v1 v4 v3 v3 v1

v1 v3 v2 v3 v3 v1 v2 v2 v2 v4 v2 v3

v3 v2 v3 v1 v2 v2 v1 v3 v1 v1 v4 v2

Répétition I Répétition II Répétition III

Le schéma d’un champ, dans une expérience en parcelles divisées (comme celle de la Figure 4.11) aquelques caractéristiques importantes: i) La taille de la grande parcelle est b fois plus grande quecelle de la petite parcelle. Dans notre exemple, avec 3 variétés (b = 3) la grande parcelle est 3 foisplus grande que la petite ; ii) Chaque traitement de grande parcelle est testé r fois, alors que chaquetraitement de petite parcelle est testé ar fois. Ainsi, les traitements des petites parcelles sont toujourstestés un plus grand nombre de fois que ceux des grandes parcelles, ce qui explique leur plus grandeprécision. Dans notre exemple, chacun des 4 niveaux d’azote est testé trois fois, mais chacun des 3clones est testé douze fois.

Page 115: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 112 -

4.6.2. Analyse de variance

L’analyse de variance d’une expérience en parcelles divisées se fait en deux temps: l’analyse desgrandes parcelles, et l’analyse des petites parcelles. Les calculs sont présentés à l’aide desdonnées issues d’une expérience à deux facteurs sur les eucalyptus, comportant deux traitementssylvicoles (taille de la fosse) et 4 traitements d’engrais. Les données sur la hauteur des plants un anaprès la plantation sont reportées dans le Tableau 4.25.

Tableau 4.25. Données sur la hauteur (en cm) de plants d’ Eucalyptus tereticornisdérivées d’une expérience en parcelles divisées, menée en champ.

Hauteur (en cm)Engrais Répétition I Répétition II Répétition III

Taille de la fosse (30 cm x 30 cm x 30 cm) - p0

f0 25.38 61.35 37.00f1 46.56 66.73 28.00f2 66.22 35.70 35.70f3 30.68 58.96 21.58

Taille de la fosse (40 cm x 40 cm x 40 cm) - p1

f0 19.26 55.80 57.60f1 19.96 33.96 31.70f2 22.22 58.40 51.98f3 16.82 45.60 26.55

Notons A le facteur des grandes parcelles (taille de la fosse) et B, le facteur des petites parcelles(traitements d’engrais). Effectuer comme suit l’analyse de variance:

*Etape 1. Dresser une table préliminaire de l’analyse de variance d’un plan en parcelles divisées.

Page 116: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 113 -

Tableau 4.26. Représentation schématique de l’analyse de variance d’un plan en parcelles divisées.

Source de Degré deliberté

Somme des Carré moyen

variation (df) carrés

(SS)MS

SSdf

=

F calculé

Répétition r - 1 SSR MSR MSR MSEa

A a - 1 SSA MSA MSR MSEa

Erreur (a) (r - 1)(a - 1) SSEa MSEa

B b - 1 SSB MSB MSR MSEb

AB (a - 1)(b - 1) SSAB MSAB MSR MSEb

Erreur (b) a(r - 1)(b - 1) SSEb MSEb

Total rab - 1 SSTO

*Etape 2. Faire les deux tableaux des totaux suivants:

i) Tableau des totaux à deux entrées : répétition x facteur A, avec les totaux des répétitions,les totaux du facteur A et le total général: Dans notre exemple, le tableau des totaux((RA)ki) répétitions x taille de la fosse, avec les totaux de la répétition (Rk), les totaux de lataille de la fosse (Ai) et le total général (G) calculés est présenté au Tableau 4.27.

Tableau 4.27. Tableau des totaux des hauteurs répétition x taille de la fosse, calculés à partir desdonnées du Tableau 4.25

Taille de la fosse Rép. I Rép. II Rép. III (Ai)

p0 168.84 222.74 122.28 513.86

p1 78.26 193.76 167.83 439.85

Total rép. (Rk) 247.10 416.50 290.10

Total général(G)

953.70

ii) Le tableau des totaux à double entrée facteur A x facteur B : Dans notre exemple, letableau des totaux (AB) taille de la fosse x traitement d’engrais, avec le calcul des totauxdes traitements d’engrais (Bj) est présenté au Tableau 4.28.

Page 117: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 114 -

Tableau 4.28. Tableau des totaux des hauteurs taille de la fosse x traitement d’engrais, calculés àpartir des données du Tableau 4.25

Traitement d’engrais

Taille de la fosse f0 f1 f2 f3

p0 123.73 141.29 137.62 111.22

p1 132.66 85.62 132.60 88.97

Total (Bj) 256.39 226.91 270.22 200.19

*Etape 3. Calculer comme suit le facteur de correction et les sommes des carrés, pour l’analyse desgrandes parcelles. Notons yijk la réponse observée sur la i-ème grande parcelle, la j-èmepetite parcelle, dans la k-ème répétition.

C.F.Grab

2

= (4.37)

= ( )( ) ( )953.70

37897.922

3 4

( )2=

SSTO = yijkk

r

j

b

i

a2

111 ===∑∑∑ − C.F.

(4.38) = [(25.38)2 + (46.56)2 + … + (26.55)2] - 37897.92 = 6133.10

SSR = Rk

k

r2

1=∑

−ab

C. F. (4.39)

= ( )( )(247.10) + (416.50) + (290.10)

37897.922 2 2

2 4 −

= 1938.51

SSA = Ai

i

a2

1=∑

−rb

C.F. (4.40)

=( ) ( )

( )( )513.86 439.85

37897.922 2+3 4

= 228.25

Page 118: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 115 -

SSEa =( )( )RA

C F SSRki

i

a

k

r2

1==∑∑

− − −b

SSA. (4.41)

= ( ) ( )

( )168.84

40064.682 2. . . 167.83

4+ +

= 1161.70

*Etape 4. Calculer comme suit les sommes des carrés pour l’analyse des petites parcelles:

SSB =

B jj

b2

1=∑

−ra

C.F. (4.42)

= ( ) ( )

( )( )256.39 200.19

37897.922 2. . .

3 2

+ +−

= 488.03

SSAB = ( )( )AB ij

j

b

i

a 2

11 ==∑∑

− − −r

C.F. SSB SSA (4.43)

= ( ) ( )123.73 2 2... 88.97

3+ +

- 37897.92 - 488.03 - 1161.70

= 388.31

SSEb = SSTO - SSR - SSA - SSB - SSAB-SSEa (4.44) = 6133.10 - 1938.51 - 228.25 - 488.03 - 388.31 = 3090.00

*Etape 5. Pour chaque source de variation, calculer le carré moyen en divisant SS par le degré deliberté df qui lui est associé. La valeur de F de chaque effet à tester se calcule en divisantchaque carré moyen par le terme d’erreur correspondant (voir Tableau 4.26).

*Etape 6. Entrer dans le tableau d’analyse de variance toutes les valeurs obtenues de l’étape 3 àl’étape 5, comme indiqué dans le tableau 4.29; puis comparer chacune des valeurs calculéesde F avec les valeurs tabulaires de F correspondantes, et indiquer si la différence estsignificative ou non, à l’aide de l’astérisque ou du signe approprié. Pour chaque effet dont lavaleur calculée de F n’est pas inférieure à 1, chercher dans l’Annexe 3 la valeur tabulaire deF, avec f1 = df du MS du numérateur et f2 = df du MS du dénominateur, au seuil designification déterminé au préalable. Par exemple, la valeur tabulaire de F pour tester l’effetAB est de 3.49 au seuil de signification de 5%, pour 3 et 12 degrés de liberté.

Page 119: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 116 -

Tableau 4.29. Analyse de variance des données du Tableau 4.20 issues d’une expérience enparcelles divisées

Source de Degré deliberté

Sommedes

Carré F F tabulaire

variation carrés moyen calculé 5%

Répétition 2 1938.51 969.26

A 1 228.25 228.25 0.3930ns 4.75

Erreur (a) 2 1161.70 580.85

B 3 488.03 162.68 0.6318ns 3.49

AB 3 388.31 129.44 0.5027ns 3.49

Erreur (b) 12 3090.00 257.50

Total 23 37897.92 ns Non significatif au seuil de 5%

*Etape 7. Calculer les deux coefficients de variation relatifs à l’analyse des grandes parcelles et àl’analyse des petites parcelles.

[ ][ ]2

244

422

jjii k)2k(n2)ˆ,ˆ(Cov

λ−+λλλ−λ

=ββ (4.45)

= =228.2539.54

x 100 60.95%

∑∑∑<

β+β+β+β=ji

jiiji

2iii

iii0 xxˆxˆxˆˆy (4.46)

= 257.50

40.58%39.54

x 100 =

La valeur de cv (a) indique le degré de précision associé au facteur des grandes parcelles. La valeurde cv(b) indique le degré de précision du facteur des petites parcelles et de son interaction avec lefacteur des grandes parcelles. En principe, la valeur de cv(b) est inférieure à celle de cv(a) car,comme on l’a déjà indiqué, le facteur assigné aux grandes parcelles est généralement mesuré avecmoins de précision que celui assigné aux petites parcelles. Dans notre exemple, cv(b) est inférieur àcv(a), mais les deux valeurs étaient suffisamment élevées pour masquer toute éventuelle différencedes traitements, ce qui rend non significatifs tous les effets des facteurs dans l’analyse de la variance.

4.6.3. Comparaison de traitementsDans une expérience en parcelles divisées, quatre types de comparaisons appariées sont possibles.Chacune doit avoir un ensemble de valeurs de la PPDS qui lui est propre. Ces comparaisons sont lessuivantes :Type-(1). Comparaisons entre deux moyennes de traitement des grandes parcelles, calculées surtous les traitements des petites parcelles.

Page 120: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 117 -

Type-(2). Comparaison entre deux moyennes de traitement des petites parcelles, calculées sur tousles traitements des grandes parcelles.Type-(3). Comparaison entre deux moyennes de traitement de petites parcelles, par rapport aumême traitement des grandes parcelles.Type-(4). Comparaison entre deux moyennes des traitements des grandes parcelles, au niveau detraitements de petites parcelles similaires ou différents (ou moyennes de deux combinaisons detraitements quelconques)

Tableau 4.30 Erreur type de la différence moyenne pour chacun des 4 types de comparaisons depaires

Type de comparaison de paire sd

Type-(1) : Entre deux moyennes de grandes parcelles (moyennescalculées sur tous les traitements des petites parcelles)

2Ea

rb

Type-(2) : Entre deux moyennes de petites parcelles (moyennescalculées sur tous les traitements des grandesparcelles)

2Eb

ra

Type-(3) : Entre deux moyennes de petites parcelles, au niveaudu même traitement de grande parcelle

2Eb

r

Type-(4) : Entre deux moyennes de grande parcelle à des niveauxde traitements de petites parcelles égaux ou différents

[ ]2 1( )b E Eb a− +rb

Note : Ea = MSEa, Eb = MSEb, r = nombre de répétitions, a = nombre de traitements de grandeparcelle, et b = nombre de traitements de petites parcelles.

Lorsque le calcul de sd fait intervenir plus d’un terme d’erreur, comme c’est le cas dans les

comparaisons de Type-(4), les valeurs tabulaires de t, tirées de l’Annexe 2 ne peuvent pas êtreutilisées telles quelles et il faut calculer des valeurs tabulaires pondérées de t. Dans ce cas ces valeurssont données par la formule:

Valeur tabulaire pondérée de t = (b - 1) E t E t

(b - 1) E Eb b a a

b a

+ +

(4.47)

où ta est la valeur de t pour le df de l’erreur (a) et tb est la valeur de t pour le df de l’erreur (b).A titre d’exemple, prenons l’expérience factorielle 2 x 4 dont les données sont reportées dans leTableau 4.25. Bien que l’analyse de variance (Tableau 4.29) montre que les trois effets (c’est-à-direles deux effets principaux et l’effet d’interaction) ne sont pas significatifs, imaginons pour illustrernotre exemple, qu’il existe une interaction significative entre la taille de la fosse et l’engrais. End’autres termes, on suppose que l’effet de l’engrais varie avec la taille de la fosse. En pareil cas, lacomparaison entre les moyennes des niveaux “ taille de la fosse ”, calculées par rapport à tous lesniveaux d’engrais, ou entre les moyennes des niveaux d’engrais, calculées par rapport à tous lesniveaux “ taille de la fosse ”, ne serait pas valide. Les comparaisons les plus appropriées seront cellesentre les moyennes des engrais, pour des fosses de même taille, ou entre les moyennes des tailles desfosses, pour un même dosage d’engrais. Ainsi, les étapes de calcul de la PPDS, permettant la

Page 121: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 118 -

comparaison de deux moyennes afférentes aux petites parcelles, pour un même traitement de grandeparcelle, sont les suivantes :

*Etape 1. Calculer l’erreur type de la différence entre moyennes, à l’aide de la formule applicable àla comparaison de Type-(3) du Tableau 4.30.

sErd

b=2

= ( )2 2575

3327

..=

*Etape 2. Grâce à la formule ( )( )LSDα α= t sv d; , calculer la valeur de la PPDS (ou LSD) au seuil

de signification de 5%, avec la valeur tabulaire de t correspondant à 12 degrés de liberté del’erreur (b)

( )( )LSD. . . .05 218 327 7129= =

*Etape 3. Dresser le tableau à double entrée (taille de la fosse x engrais) des moyennes desdifférences de hauteur, comme indiqué dans le Tableau 4.31. Comparer les différences dehauteur moyenne entre les niveaux d’engrais observées pour chaque taille de la fosse, avec lavaleur de la PPDS (ou LSD) calculée à l’Etape 2, et identifiez le cas échéant les différencessignificatives.

Tableau 4.31. Différence entre la hauteur moyenne des plants d’eucalyptus, à quatre niveauxd’engrais pour une fosse ayant une taille de 30 cm x 30cm x 30 cm, sur la base des données duTableau 4.25.

Différence de hauteur moyenne (en cm), à p0

f0 f1 f2 f3

f0 0.00 -5.86 -4.63 4.17

f1 0.00 1.23 10.03

f2 0.00 8.80

f3 0.00

Différence de hauteur moyenne (en cm), à p1

f0 f1 f2 f3

f0 0.00 15.68 0.02 14.56

f1 0.00 -15.66 -1.12

f2 0.00 14.54

f3 0.00

Page 122: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 119 -

4.7. Plan en treillis

En théorie, les plans en blocs complets, comme les PEBAC, sont applicables à toutes lesexpériences quel que soit le nombre de traitements, toutefois, plus ils sont nombreux, moins ils sontefficaces car les blocs perdent leur homogénéité en raison de leur grande taille. Il existe un autre typede plans pour les expériences à un seul facteur comprenant un grand nombre de traitements. Ce sontles plans en blocs incomplets, dans lesquels, comme leur nom l’indique, chaque bloc ne contient pastous les traitements, de sorte que les blocs peuvent être maintenus à une taille raisonnable, même si lenombre de traitements est élevé. Comme les blocs sont incomplets, la comparaison des traitementsapparaissant ensemble dans un bloc est plus précise que celle des autres traitements. Cetinconvénient peut être contourné, sachant que dans le plan d’ensemble, chaque paire de traitementapparaît un nombre égal de fois dans un même bloc. On dit de ces plans qu’ils sont “ équilibrés ”, ou“ compensés ”. Etant donné qu’il faut un grand nombre de répétitions pour arriver à un équilibrecomplet, on peut opter pour un plan partiellement équilibré (ou partiellement compensé), dans lequelsont admis des degrés de précision variables selon les groupes de traitements qui sont comparés.Dans la catégorie des plans en blocs incomplets, on utilise souvent pour les expériences forestièresdes plans en treillis, dans lesquels le nombre de traitements est un carré parfait et les blocs peuventêtre groupés en ensembles complets de répétitions. Les paragraphes qui suivent seront spécialementconsacrés à l’étude spécifique des plans en treillis simple.

4.7.1. Plan en treillis simpleLes plans en treillis simple sont aussi appelés treillis doubles ou treillis carrés. Comme le nombre destraitements doit être un carré parfait, ces plans peuvent être construits pour 9, 16, 25, 36, 49, 64,81, 121,…. traitements. Ils nécessitent deux répétitions et ne sont que partiellement équilibrés étantdonné que les traitements sont répartis en deux groupes, et que la comparaison des traitements estplus ou moins précise suivant le groupe. Nous allons illustrer par un exemple la construction et lareprésentation schématique du plan, pour 25 traitements.

*Etape 1. Assigner au hasard un nombre de 1 à 25 à chaque traitement. Cette opération estnécessaire pour éviter tout type de variation d’origine inconnue affectant les effets destraitements.

*Etape 2. Disposer les nombres attribués aux traitements, de 1 à 25, de façon à former un carré,comme dans la Figure 4.12.

Figure 4.12. Disposition initiale des traitements dans un plan en treillis simple1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

21 22 23 24 25

Page 123: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 120 -

*Etape 3. Regrouper les traitements par ligne. On obtient les groupes (1, 2, 3, 4, 5), (6, 7, 8, 9,10), (11, 12, 13, 14, 15), (16, 17, 18, 19, 20) et (21, 22, 23, 24, 25). A présent, chaquebloc constitue un groupe de traitements assigné à un bloc et les cinq blocs ainsi formésconstituent une répétition complète. Cette méthode de groupement par lignes estgénéralement connue sous le nom de groupement-X ou groupement -A.

*Etape 4. Grouper les traitements par colonne. Les groupes ainsi formés sont (1, 6, 11, 16, 21),(2, 7, 12, 17, 22), (3, 8, 13, 18, 23), (4, 9, 14, 19, 24) et (5, 10, 15, 20, 25). A présentchaque bloc constituera un groupe de traitements assigné à un bloc et les cinq blocs formentune répétition complète. Cette méthode de groupement par colonnes est généralementconnue sous le nom de groupement-Y ou groupement-B.

Les deux groupements-X et Y garantissent que deux traitements qui sont apparus ensemble une foisdans un même bloc ne s’y retrouveront plus simultanément. Avant la procédure de randomisation, lesdeux ensembles de groupements qui viennent d’être décrits se présentent, comme dans Figure 4.13.

Figure 4.13. Deux répétitions d’un plan en treillis simple, avant larandomisationRépétition I (groupement-X)

Bloc No. 1 1 2 3 4 5

Bloc No. 2 6 7 8 9 10

Bloc No. 3 11 12 13 14 15

Bloc No. 4 16 17 18 19 20

Bloc No. 5 21 22 23 24 25

Répétition II (groupement-Y)Bloc No.6 1 6 11 16 21

Bloc No.7 2 7 12 17 22

Bloc No.8 3 8 13 18 23

Bloc No.9 4 9 14 19 24

Bloc No.10 5 10 15 20 25

Page 124: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 121 -

*Etape 5. Dans chaque répétition, les groupes de traitements sont répartis au hasard à l’intérieur desdifférents blocs. On pratique une randomisation distincte pour chaque répétition. L’allocationdes traitements aux parcelles, à l’intérieur de chaque bloc, se fait aussi de manière aléatoire.La randomisation est pratiquée séparément pour chaque groupe, de manière indépendantepour chaque répétition. Enfin, lorsque l’on conçoit le dispositif des répétitions sur le terrain, ilfaut aussi allouer au hasard dans le champ les positions des répétitions X et Y. Cetteprocédure d’allocation des traitements et des répétitions garantit l’élimination de tous typesde variations systématiques inconnues affectant les effets des traitements. A l’issue de larandomisation complète, le plan effectif pourrait se présenter comme indiqué dans la Figure4.14.

Figure 4.14. Représentation d’un plan en treillis simple randomiséBloc No. 5 25 24 21 23 22

Bloc No. 4 20 19 18 17 16

Bloc No. 1 5 4 1 3 2

Bloc No. 3 13 14 15 12 11

Bloc No. 2 6 9 7 10 8

Bloc No. 6 16 6 1 21 11

Bloc No. 9 19 4 9 14 24

Bloc No. 7 7 2 17 22 12

Bloc No. 10 5 20 25 10 15

Bloc No. 8 23 3 8 18 13

Si, dans chaque répétition, les blocs sont contigus, on pourra, dans certaines conditions, analysertoute l’expérience comme s’il s’agissait d’un PEBAC. On a déjà précisé qu’un plan en treillis simplenécessitait au moins deux répétitions, l’une avec le groupement X, l’autre avec le groupement Y destraitements. Si l’on juge préférable de faire plus de deux répétitions, on choisira un nombre pair, carles deux groupes (X et Y) devront être répétés le même nombre de fois. L’allocation des traitementsse fait selon la procédure précédente.

Page 125: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 122 -

4.7.2. Analyse de variance pour un plan en treillis simpleDans le cas d’un plan de base en treillis simple répété une seule fois, les étapes de l’analyse de lavariance sont décrites dans les passages qui suivent, avec les vérifications par le calcul, le caséchéant. Le matériel utilisé pour notre démonstration est extrait d’une expérience réalisée àVallakkadavu, dans le Kerala (Inde), et portait sur 25 clones d’Eucalyptus grandis.

Le Tableau 4.32 montre la disposition effective du champ, avec les positions des blocs et l’allocationdes traitements à l’intérieur de chaque bloc, à l’issue de la procédure de randomisation. Le chiffreinscrit dans le coin supérieur gauche de chaque case est le numéro d’identification du clone, alorsque le chiffre figurant dans le coin inférieur droit se réfère à la hauteur moyenne des arbres de laparcelle, un an après la plantation. L’analyse de variance implique un ajustement des sommes descarrés des traitements et des blocs, étant donné que les blocs sont incomplets. Cet ajustement neserait pas nécessaire pour des plans en blocs complets.

Tableau 4.32. Schéma d’un plan en treillis double 5 x 5 montrant la croissance en hauteur(en cm) de clones d’Eucalyptus grandis.

Répétition - IBloc No. 5 25 24 21 23 22

96.40 107.90 119.30 134.30 129.20

Bloc No. 4 20 19 18 17 16

148.00 99.20 101.40 98.00 106.70

Bloc No. 1 5 4 1 3 2

158.00 122.50 136.70 123.60 113.50

Bloc No. 3 13 14 15 12 11

126.80 101.60 111.70 117.30 108.20

Bloc No. 2 6 9 7 10 8

126.80 127.00 119.10 90.90 130.40

Répétition - IIBloc No. 6 16 6 1 21 11

169.60 157.90 124.10 134.50 112.10

Bloc No. 9 19 4 9 14 24

110.30 153.40 87.10 95.30 120.50

Bloc No. 7 7 2 17 22 12

125.60 151.10 115.90 168.40 93.30

Bloc No. 10 5 20 25 10 15

Page 126: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 123 -

126.00 106.80 137.60 132.90 117.30

Bloc No. 8 23 3 8 18 13

133.10 142.70 115.80 128.90 115.80

*Etape 1. Disposer de façon systématique les blocs dans chaque groupe (groupes X et Y) et lestraitements dans chaque bloc, conformément aux observations, comme dans le Tableau4.33.

Tableau 4.33. Arrangement systématique des blocs et des traitements à l’intérieur des blocsdu Tableau 4.32.

Répétition - I (groupe X)Bloc No. 1 1 2 3 4 5

136.70 113.50 123.60 122.50 158.00Bloc No. 2 6 7 8 9 10

126.80 119.10 130.40 127.00 90.90Bloc No. 3 11 12 13 14 15

108.20 117.30 126.80 101.60 111.70Bloc No. 4 16 17 18 19 20

106.70 98.00 101.40 99.20 148.00Bloc No. 5 21 22 23 24 25

119.30 129.20 134.30 107.90 96.40

Répétition - II (groupe Y)Bloc No. 6 1 6 11 16 21

124.10 157.90 112.10 169.60 134.50Bloc No. 7 2 7 12 17 22

151.10 125.60 93.30 115.90 168.40Bloc No. 8 3 8 13 18 23

142.70 115.80 115.80 128.90 133.10Bloc No. 9 4 9 14 19 24

153.40 87.10 95.30 110.30 120.50Bloc No. 10 5 10 15 20 25

126.00 132.90 117.30 106.80 137.60

*Etape 2. Dresser le tableau des totaux des traitements en additionnant les rendements de chaqueclone, obtenus dans les deux répétitions (voir Tableau 4.34). Ces totaux ne sont ajustés àaucun effet de bloc.

Page 127: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 124 -

Tableau 4.34. Totaux des traitements (clone)

1 2 3 4 5260.80 264.60 266.30 275.90 284.00

6 7 8 9 10284.70 244.70 246.20 214.10 223.80

11 12 13 14 15220.30 210.60 242.60 196.90 229.00

16 17 18 19 20276.30 213.90 230.30 209.50 254.80

21 22 23 24 25253.80 297.60 267.40 228.40 234.00

*Etape 3. Calculer les totaux de tous les blocs B1, B2, …, B10 en sommant les observationsapparaissant dans chaque bloc. Par exemple, le total B1 du premier bloc est donné par

B1 = 136.70+113.50+123.60+122.50+158.00 = 654.30

Calculer le total de chaque répétition en sommant les totaux des blocs dans chaque répétition. Pourla répétition I,

R1 = B1 + B2 + B3+ B4+ B5 (4.48) = 654.30 + 594.20 + 565.60 + 553.30 + 587.10 = 2954.50

Calculer le total général G = R1 + R2 (4.49) = 2954.50 + 3176.00 = 6130.50

*Etape 4. Dresser un schéma préliminaire de la table d’analyse de la variance du treillis simple.

Page 128: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 125 -

Tableau 4.35. Représentation schématique de la table d’analyse de la variance d’un treillis simple

Source devariation

Degrés deliberté(df)

Sommedes carrés

(SS)

Carré moyen

MSSSdf

=

Rapport Fcalculé

Répétition r - 1 SSR MSR MSRMSE

Traitement(non aj.)

k2 - 1 SST(non aj.)

MST(non aj.)

MSTMSE (unadj.)

Blocs au seind’une répétition

(aj.)

r(k-1) SSB(adj.)

MSB(adj.)

MSBMSE

(adj.)

Erreur intra-bloc (k-1)(rk-k-1)

SSE MSE

Total rk2 - 1 SSTO

*Etape 5. Trouver la somme totale des carrés, la somme des carrés des répétitions et celles destraitements non ajustés. A cette fin, calculer d’abord le facteur de correction (C.F.).

C. F. = Gn

2(4.50)

où n = rk2

r = Nombre de répétitionsk2 = Nombre de traitementsk = Nombre de parcelles dans un bloc

C. F. = ( )6130.50 2

2 25× = 751660.61

Pour la somme totale des carrés, trouver la somme des carrés de toutes les observations del’expérience et soustraire le facteur de correction.

SSTO = y C F2 −∑ . . (4.51) = { (136.70)2 + (113.50)2 +……..+ (137.60)2 } - C. F.

= 770626.43 - 751660.61 = 18965.83

Calculer la somme des carrés des répétitions

SSR = R R

kC F1

222

2+

- . . (4.52)

= ( ) ( )2 954.50 3176.00

2 2

25+

− 751660.61

= 752641.85 - 751660.61 = 981.245

Page 129: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 126 -

Calculer la somme des carrés des traitements non ajustés

SST (non aj.) = Tr

C. F.i2

i 1

t

−=∑ (4.53)

= ( )260.80 (264.60) .... (234.00)

2 - 751660.61

2 2 2+ + +

= 760747.90 - 751660.61 = 9087.29

*Etape 6. Calculer pour chaque bloc, dans la répétition 1 (groupe X), un total ajusté Cb ensoustrayant chaque total de bloc de la répétition 1 du total de la colonne correspondante dela répétition II (groupe Y), qui contient le même ensemble de variétés (voir Tableau 4.36).De la même manière, calculer pour chaque bloc de la répétition II, un total ajusté ensoustrayant chaque total de bloc de la répétition II du total de la colonne correspondante dela répétition I (groupe X), contenant le même ensemble de variétés (voir Tableau 4.37).Faire le total des valeurs Cb pour chaque répétition et vérifier si leur somme est nulle.

Total des valeurs Cb pour la Répétition I = U1 = 221.50Total des valeurs Cb pour la Répétition II = U2 = -221.50

Cette vérification garantit l’exactitude arithmétique des calculs des étapes précédentes.

Tableau 4.36. Calcul des valeurs de Cb pour les blocs de la Répétition I

Bloc Total de lacolonne de laRépétition II

Total du bloc dela Répétition I

Valeur de Cb

1 697.30 654.30 43.00 (C1)2 619.30 594.20 25.10 (C2)3 533.80 565.60 -31.80 (C3)4 631.50 553.30 78.20 (C4)5 694.10 587.10 107.00 (C5)

Total 3176.00 2954.50 221.50 ( RC1 )

Tableau 4.37. Calcul des valeurs de Cb pour les blocs de la Répétition II

Bloc Total de lacolonne de laRépétition I

Total du bloc dela Répétition II

Valeur de Cb

6 597.70 698.20 -100.50 (C6)7 577.10 654.30 -77.20 (C7)8 616.50 636.30 -19.80 (C8)9 558.20 566.60 -8.40 (C9)10 605.00 620.60 -15.60 (C10)

Total 2954.50 3176.00 -221.50 ( RC2 )

Page 130: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 127 -

La somme des carrés des blocs ajustés est donnée par la relation:

SSB (aj.) = C

kr r

R

k r r

bb

Cjj

2

1

102

1

2

21 1= =∑ ∑

−−

−( ) ( ) (4.54)

où r = Nombre de répétitions, k = Nombre de traitements par bloc.

SSB (aj.) = ( )

( )( )( ) ( )( )( )( . ) ....... . ( . ) ( . )− + + −

−+ −4300 1560

2 5 122150 22150

5 2 1

2 2 2

2

2

= 3782.05 - 1962.49 = 1819.56

Pour finir, la somme des carrés des erreurs s’obtient par soustractionSSE = SSTO - SSR - SST (non-aj.) - SSB (aj.) (4.55) = 18965.83 - 981.24 - 9087.29 - 1819.56

= 7077.73

Remarquons que la somme des carrés due à l’erreur (SSE) calculée ici représente la part de lavariation (de la variable de réponse) entre les parcelles à l’intérieur de chaque bloc qui est causéepar des facteurs externes non contrôlés. Elle est donc généralement appelée variance (ou erreur)intrabloc, alors que la somme des carrés des blocs ajustés est la variance interbloc (ou entre blocs).

*Etape 7. Après avoir obtenu les différentes sommes des carrés, insérer tous les résultats dans latable d’analyse de la variance (Tableau 4.38). Les carrés moyens s’obtiennent, commed’habitude, en divisant les sommes des carrés par les degrés de liberté.

Tableau 4.38. Table d’analyse de variance d’un treillis simple, à l’aide des données du Tableau 4.32.

Source de variation Degrés deliberté(df)

Somme descarrés(SS)

Carré moyen

MSSSdf

=

Rapport Fcalculé

Répétition 1 981.24 981.24 2.218Traitement (non aj.) 24 9087.29 378.64 0.856Blocs à l’intérieur

d’une répétition (aj.)8 1819.56 227.44 0.514

Erreur intrabloc 16 7077.73 442.36Total 49 18965.83

Le carré moyen des traitements figurant dans la table d’analyse de variance (Tableau 4.38) n’est pasajusté aux effets de bloc. Or, on a déjà signalé que les moyennes des traitements ne sont pasexemptes de ces effets. Il s’ensuit que le test F fourni par l’analyse de la variance n’est pas validepour détecter les différences de traitements. Avant d’appliquer le test F, il faut donc ajuster lesmoyennes des traitements compte tenu des effets de bloc et calculer la somme ajustée des carrés destraitements. Pour ce faire, on suit la procédure décrite dans l’étape 9. Cette procédure peut être

Page 131: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 128 -

adoptée si les circonstances l’exigent, mais elle impose des calculs supplémentaires qui, saufindication contraire, peuvent être évités. Par exemple, dans un essai en champ comprenant un grandnombre de traitements, on peut en général s’attendre à trouver une différence significative entre lesmoyennes des traitements. A partir des résultats du Tableau 4.38, on peut effectuer l’analysepréliminaire applicable à un PEBAC, test moins sensible aux différences des traitements.

*Etape 8. Analyse préliminaire d’un PEBAC: Pour obtenir la somme des carrés des erreurs, oncommence par additionner l’erreur interbloc et l’erreur intrabloc, puis on complète commesuit la table de l’analyse de variance :Erreur totale= Erreur Interbloc + Erreur Intrabloc (4.56)

= 1819.56 + 7077.73 = 8897.29

Tableau 4.39. Table d’analyse de variance pour une analyse préliminaire d’un PEBAC.

Source devariation

Degrés deliberté(df)

Somme descarrés(SS)

Carré moyen

MSSSdf

=

Fcalculé

Répétition 1 981.24 981.24Traitement 24 9087.29 378.64 1.02

Erreur totale 24 8897.29 370.72Total 49 18965.83

La valeur observée de F (1.02) obtenue en divisant le carré moyen des traitements par le carrémoyen de l’erreur totale, est inférieure à la valeur tabulaire de F (1,98) au seuil de signification de5% pour (24, 24) degrés de liberté. On en déduit qu’il n’y a pas de différence significative entre lestraitements, au seuil de 5%. L’analyse PEBAC préliminaire ayant donnè une valeur non-significativede F, on doit effectuer un test F plus approprié, en ajustant les sommes des carrés des traitementsaux effets de bloc, car cette procédure ne peut qu’augmenter la sensibilité du test. Pour effectuer cetajustement de la somme des carrés des traitements en vue d’obtenir un test F plus approprié pourdétecter les différences de traitements, on suivra la procédure de l’étape 9.

*Etape 9. Calculer les sommes des carrés des traitements ajustées aux effets de bloc: obtenird’abord la somme des carrés des blocs non ajustés à l’intérieur des répétitions. Les sommesB1, B2, …, B10 des blocs ayant déjà été calculées à l’étape 3, les calculs restants sontfacilités:SS de bloc non ajusté pour la répétition I = SSB1(non aj.)

= B B B

kR

k12

22

52

12

2+ + +

− . . .

(4.57)

= ( )( . ) . . . ( . ) .654 30 58710

52954 50

25

2 2 2+ +−

= 1219.75

Page 132: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 129 -

SS de bloc non ajusté pour la répétition II = SSB2 (non aj.)

=B B B

kR

k62

72

102

22

2+ + +

− . . .

(4.58)

= ( . ) . . . ( . ) ( . )698 20 620 60

53176 00

25

2 2 2+ +−

= 1850.83

Pour finir, calculer la somme totale des carrés des blocs non ajustés SSB (non aj.)SSB (non aj.) = SSB1(non aj.) + SSB2 (non aj.) (4.59) = 1219.75 + 1850.83 = 3070.58

Calculer la quantité de correction Q suivante, à retrancher de la somme des carrés des traitementsnon ajustés:

Q = k rr

r kSSB SSB( )

( )( )−

− +

1

1 1µ

µ( ) (unadj.) (adj.) (4.60)

où µ = E E

k r Eb e

b

−−( )1

(4.61)

où Eb = Carré moyen interbloc ajustéEe = Carré moyen intrabloc

Dans notre exemple, µ = 227 44 442 365 2 1 227 44

. .( ) .

−−

= - 0.189

Q = ( ) ( ){ }( )( )( . )( )( { }{ . })

. .5 2 1 01892

2 1 1 5 0189307058 1819 56− −

− + −

= -42989.60

Pour finir, soustraire cette quantité Q de la somme des carrés des traitements non ajustée pourobtenir leur somme des carrés ajustée.

SST (aj) = SST (non aj.) - Q (4.62) = 9087.29 - (-42989.60) = 52076.89

Dresser la table d’analyse de variance suivante pour tester la signification des effets des traitements.

Page 133: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 130 -

Tableau 4.40. Table d’analyse de variance pour tester la signification des moyennes ajustées destraitements.

Source devariation

Degrés deliberté(df)

Sommedes

carrés(SS)

Carré moyen

MSSSdf

=

Fcalculé

FTabulaire

Traitement (aj.) 25 52076.89 2083.08 4.709 2.24Erreur intrabloc 16 7077.73 442.358

Dans cet exemple, la valeur calculée de F s’avère significative au seuil de signification de 5%, ce quiindique des différences significatives entre les traitements. La sensibilité du test F est plus grandeaprès l’élimination des effets de bloc. Bien qu’il n’en soit pas ainsi dans notre exemple, on partgénéralement du principe que l’effet de bloc, estimé par la valeur Eb, est supérieur à l’erreur intrablocEe.

Les moyennes des traitements doivent également être ajustées, car les moyennes des traitementsordinaires ne sont pas des estimations sans biais de leurs valeurs réelles. Pour effectuer cesajustements en vue d’éliminer les effets de bloc, on procède comme suit:

*Etape 10. Calculer un terme de correction pour chaque bloc, en multipliant chaque valeur Cb par laquantité µ ( -0.189), donnée par (4.61).

Pour la répétition I, ces valeurs sont:µC1 = -8.13, µC2= -4.74, µC3 = 6.01, µC4 = -14.78, µC5 = -20.22

et pour la répétition II:µC6 =18.99, µC7 = 14.59, µC8 = 3.74, µC9 =1.59, µC10 = 2.95

Insérer ces valeurs dans la dernière ligne et la dernière colonne du Tableau 4.34, d’après le modèledu Tableau 4.41. Vérifier que la somme de toutes les valeurs µCb est nulle, si l’on exceptel’arrondissement de l’erreur:

µC1 + µC2 + …+ µC10= -8.13+-4.74 +…+ 2.95= 0.00

Entrer les valeurs µCb de la répétition I dans l’avant- dernière colonne du Tableau 4.41 et lesvaleurs de µCb de la répétition II, dans l’avant-dernière ligne de ce même tableau. En écrivant ainsiles valeurs des corrections à apporter aux totaux non ajustés des traitements, on évitera denombreuses erreurs de calculs. Chaque total de traitement inscrit dans le Tableau 4.41 doit à présentêtre ajusté pour tenir compte des effets des blocs, en apportant les corrections voulues aux blocsdans lesquels apparaît le traitement considéré..

Page 134: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 131 -

Tableau 4. 41. Totaux des traitements et facteurs de correction.

1 2 3 4 5 µC1 =260.80 264.60 266.30 275.90 284.00 -8.13

6 7 8 9 10 µC2=284.70 244.70 246.20 214.10 223.80 -4.74

11 12 13 14 15 µC3 =220.30 210.60 242.60 196.90 229.00 6.01

16 17 18 19 20 µC4=276.30 213.90 230.30 209.50 254.80 -14.78

21 22 23 24 25 µC5 =253.80 297.60 267.40 228.40 234.00 -20.22

µC6 =18.99 µC7 = 14.59 µC8 = 3.74 µC9 =1.59 µC10 = 2.95

Par exemple, le clone 1 apparaît dans le Bloc 1 de la Répétition 1 et dans le bloc 6 de la Répétition2. Ajouter les valeurs de µC1 et µC6 au total du clone 1:

Total des traitements ajusté, pour le clone 1 = 260.80 -(-8.13) - 18.99 = 2.55

Etant donné que les corrections des blocs ont déjà été insérées dans le Tableau 4.41, les totauxajustés des traitements correspondent simplement aux valeurs respectives de µCb, dans la colonne etla ligne où apparaît ce traitement. Pour finir, dresser un tableau faisant apparaître le total destraitements ajusté aux effets de bloc. Les valeurs ajustées sont reportées dans le Tableau 4.42 ci-dessous.

Tableau 4.42. Totaux ajustés des traitements

1249.94

2258.14

3270.69

4282.44

5289.18

6270.45

7234.85

8247.2

9217.25

10225.59

11195.30

12190.00

13232.85

14189.30

15220.04

16272.09

17214.09

18241.34

19222.69

20266.63

21255.03

22303.23

23283.88

24247.03

25251.27

Déterminer les moyennes des traitements ajustées en divisant chaque valeur par 2 puisque chaquetotal contient deux observations tirées de 2 répétitions (Tableau 4.43)

Page 135: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 132 -

Tableau 4.43. Moyennes ajustées des traitements1 2 3 4 5

124.97 129.07 135.35 141.22 144.596 7 8 9 10

135.23 117.43 123.60 108.63 112.8011 12 13 14 15

97.65 95.00 116.43 94.65 110.0216 17 18 19 20

136.05 107.05 120.67 111.35 133.3221 22 23 24 25

127.52 151.62 141.94 123.52 125.64

4.7.3. Comparaison de moyennesOn a déjà vu que, dans un treillis partiellement équilibré, les traitements qui apparaissent dans lemême bloc sont comparés avec plus de précision (c’est à dire avec une erreur-type moindre) queceux qui se trouvent dans des blocs différents.

L’erreur-type accompagnant la comparaison des moyennes de deux traitements quelconquesapparaissant ensemble dans le même bloc est donnée par la formule:

[ ]SE dEr

re( ) ( )1

21 1= + − µ (4.63)

où µ = E E

k r Eb e

b

−−( )1

Eb = Carré moyen interbloc Ee = Carré moyen intrabloc r = Nombre de répétitions

Dans notre exemple,

[ ]SE d( ).

12 442 3579

2=

×+ −1 (2 1)(-0.189) = 18.9408

L’erreur type de la comparaison des moyennes des traitements apparaissant dans des blocsdifférents est,

( )SE dEr

re( )22

1= + µ (4.64)

Dans notre exemple,

[ ]SE d( ).

( .22 442 3579

21 2 0189=

×+ × − = 16.5875

Ici, SE d SE d( ) ( )2 1< . Ceci est uniquement lié aux données spécifiques de notre exemple, et nesaurait être considéré comme le cas courant.

Page 136: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 133 -

En multipliant ces erreurs-type par la valeur tabulaire du test t, pour les degrés de liberté des erreursintrabloc au seuil de signification spécifié, on obtiendra la valeur de la PPDS à l’aide de laquelle onpourra comparer les moyennes ajustées des traitements pour détecter des différences significatives.

4.8. Plans de surface de réponse

Dans les expériences dans lesquelles un ou plusieurs facteurs quantitatifs sont testés à plusieursniveaux, on a souvent intérêt à résumer les données en ajustant un modèle adéquat décrivant larelation facteur-réponse. Ces facteurs quantitatifs peuvent être de divers ordres: engrais, irrigation,densité de peuplement etc..., et la finalité de l’expérience peut être de déterminer l’influence desniveaux de ces facteurs sur la réponse, γ. On peut représenter la réponse γ comme une fonctionappropriée des niveaux x1u, x2u,.. ., xku des k facteurs et de β , l’ensemble des paramètres. Prenonsl’exemple d’un modèle classique:

γu = f (x1u, x2u, …, xku ; β) + eu (4.65)où u = 1, …, t représente les N observations et x iu le niveau du i-ème facteur (i = 1, 2, …, k)dans la u-ème observation. Le résidu eu mesure l’erreur expérimentale dans la u-ème observation.La fonction f est appelée surface de réponse. Lorsque l’on connaît f , on dispose d’une synthèsecomplète des résultats de l’expérience, et il est plus facile de trouver la combinaison optimale desdosages. On peut en outre estimer la réponse pour des valeurs de x iu qui ne sont pas testées dans lecadre de l’expérience. Les dispositifs spécifiquement conçus pour ajuster la surface des réponsessont appelés plans de surface de réponse. Les surfaces de réponse sont habituellement estimées pardes polynômes de degré approprié, le plus courant étant le polynôme de second degré. Nousconcentrerons donc notre attention sur les plans se prêtant à l’ajustement de ce type de polynôme.

4.8.1. Plan rotatif du second ordreSoient k facteurs tels que le i-ème ait si niveaux. En tout, on aura six s2x…….x sk combinaisons detraitements dont on tirera t combinaisons pour ajuster une fonction du second degré de la forme

y x x x x eu i iui

k

ii iui

k

i j iu jui j

k

u= + + + +∑ ∑ ∑<

β β β β02 (4.66)

où yu est la réponse obtenue à partir de la u-ème combinaisons de facteurs (u = 1, 2, …, t) x iu est le niveau du i-ème facteur dans la u-ème observation β0 est une constante β i est le i-ème coefficient de régression linéaire β ii est le i-ème coefficient de régression quadratique β ij est le (i,j)-ème coefficient d’interaction eu est la composante de l’erreur aléatoire, de moyenne nulle et de variance constante, associée à

la u-ème observation.

Prenons par exemple le cas particulier d’un modèle (4.66) englobant seulement deux facteurs,y x x x x x x eu u u u u u u u= + + + + + +β β β β β β0 1 1 2 2 11 1

222 2

212 1 2

Un plan de surface de réponse du second ordre permet un ajustement efficace de la relation facteur-réponse, par un polynôme de second degré. Lorsque l’on choisit les points du plan, on imposecertaines contraintes aux niveaux des facteurs, de manière à simplifier l’estimation des paramètres et

Page 137: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 134 -

à conférer au plan obtenu et au modèle qui en découle les propriétés voulues, notamment lecaractère rotatif ou tournant. Dans les plans rotatifs, la variance de la réponse estimée à partir d’unequelconque combinaison de traitements est une fonction de la somme des carrés des niveaux desfacteurs dans la combinaison de traitements considérée. En d’autres termes, un plan d’expérience estdit rotatif (ou tournant) si la variance de la réponse estimée pour un ensemble donné de x valeursdépend uniquement de la distance du point défini par les x valeurs au centre du plan, et pas de ladirection. Les conditions suivantes doivent être vérifiées pour que les n points du plan constituent unplan rotatif de second ordre (PRSO).

(i) x x x x x xiu iu juuu

iu juu

iuu

= = = =∑∑ ∑ ∑2 3 0 ,

x x x x x x x x x x x xiu juu

iu juu

ku iu juu

ku iu juu

ku lu3 2 0∑ ∑ ∑ ∑= = = = . (4.67)

(ii) xiuu

2 =∑ tλ2 (4.68)

(iii) xiuu

4 =∑ 3tλ4 (4.69)

(iv) x xiu juu

2 2 =∑ tλ4 for i ≠ j or x x xiuu

iu juu

4 2 23=∑ ∑ for i ≠ j (4.70)

(v) λλ

4

22 2

>+k

k( )(4.71)

4.8.2. Construction d’un PRSONous allons décrire dans cette section l’une des méthodes les plus couramment employées pourconstruire un PRSO, qui débouche sur une classe de plans appelés plans composites centraux.Supposons que l’on ait k facteurs. Un plan composite central est un plan factoriel 2k , ou un planfactoriel fractionné, (accompagné de la notation usuelle ± 1) augmenté des 2k points axiaux, (± α, 0,0,…, 0), (0, ± α, 0,…, 0), (0,0,± α, 0,…,0), …, (0,0,0,…,± α) et des nc points centraux(0,0,…, 0). Dans le cas où l’on choisit un plan factoriel fractionné pour le premier ensemble de 2k

points, avec k > 4, il faut s’assurer que les contrastes déterminants n’impliquent pas d’interactionavec moins de cinq facteurs. Un plan composite central pour k = 3 est représenté ci-après. Ce planest fait de 23 = 8 points factoriels, (2)(3) = 6 points axiaux et 1 point central, soit quinze points autotal.

Page 138: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 135 -

x1 x2 x3

-1 -1 -1-1 -1 +1-1 +1 -1-1 +1 +1+1 -1 -1+1 -1 +1+1 +1 -1+1 +1 +1+α 0 0-α 0 0 0 +α 0 0 -α 0 0 0 +α 0 0 -α 0 0 0

Le caractère rotatif d’un plan composite central est déterminé par le choix de α. La valeur de αdépend du nombre de points dans la portion factorielle du plan. En effet, α = (nf)1/4 donne un plancomposite central rotatif, où nf est le nombre de points utilisés dans la portion factorielle du plan.Dans notre exemple, la portion factorielle contient nf = 23 = 8 points. Ainsi, on obtient un plan rotatifsi la valeur de α = (8)1/4 = 1.682. On trouvera des détails supplémentaires et des exemples dePRSO dans Das et Giri (1979) et Montgomery (1991).

Les combinaisons de traitements établies par un PRSO peuvent être essayées avec un nombresuffisant de répétitions, dans le cadre d’un plan d’expérience standard quelconque suivant laprocédure de randomisation normale. Un plan de surface de réponse est donc uniquement un moyenparticulier de sélectionner la combinaison de traitements dans une expérience factorielle, et non unplan, servant à représenter schématiquement une expérience.

4.8.3. Ajustement d’une surface de réponse de second degré, à partir d’un PRSONous allons maintenant décrire l’analyse des données provenant d’un PRSO établi dans le cadred’un plan entièrement randomisé. Supposons que, dans une expérience, le plan soit constitué de tpoints distincts, le g-ème point étant répété ng fois. On note ygu la réponse obtenue dans la u-èmerépétition du g-ème point du plan et x igu le niveau du i-ème facteur dans la u-ème répétition du g-ème point (i = 1,…, k ; g = 1,…, t ; u = 1,…ng). Soit n le nombre total d’observations et (p+1) lenombre de paramètres dans le modèle du second ordre devant être ajusté.

Nous illustrerons l’analyse à l’aide de données provenant d’un essai de culture en pots. Poursimplifier, nous avons apporté quelques modifications aux données et à la structure du plan, de sorteque l’ensemble de données est dans une certaine mesure hypothétique. Cet exemple permetcependant de bien comprendre la procédure. L’expérience englobait trois facteurs: la quantitéd’azote (N), de phosphore (P) et de potassium (K), respectivement appliqués sous forme d’urée, desuperphosphate et de chlorure de potassium. Les unités expérimentales étaient des pots contenantchacun une plantule de roseau (Calamus hookerianus) de deux ans. Au cours de l’expérience, lesquantités de N, P et K allaient de 5 à 20 g par pot. La structure des traitements était conforme au

Page 139: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 136 -

plan central composite décrit dans la Section 4.8.1, le schéma proprement dit étant un PER avecdeux répétitions. Comme α=1.682 était le plus haut niveau codé dans le plan, les autres niveaux (oudoses) s’obtiennent en prenant pour α la valeur de 20g. Les autres doses sont donc (-α) = 5g, (-1)= 8.041g , (0) =12.5g, , (+1) =16.959g, (α) = 20g. Les données, obtenues au terme d’uneexpérience de 2 ans, sur le poids séché à l’étuve d’une pousse, sont reportées dans le Tableau 4.44.

Tableau 4.44. Données sur le poids séché à l’étuve d’une pousse, au terme d’uneexpérience de deux ans

N(x1)

P(x2)

K(x3)

Poids d’une pousse(en g)

(y)Arbre 1 Arbre 2

-1 -1 -1 8.60 7.50-1 -1 1 9.00 8.00-1 1 -1 9.20 8.10-1 1 1 11.50 9.101 -1 -1 10.00 9.201 -1 1 11.20 10.201 1 -1 11.00 9.901 1 1 12.60 11.50

1.682 0 0 11.00 10.10-1.682 0 0 8.00 6.80

0 1.682 0 11.20 10.100 -1.682 0 9.50 8.500 0 1.682 11.50 10.500 0 -1.682 10.00 8.800 0 0 11.00 10.00

L’analyse se déroule selon les étapes suivantes

*Etape 1. Calculer les valeurs de λ 2 etλ 4 à l’aide des Equations (4.68) et (4.69).15 λ 2 = 13.65825λ 2 = 0.9106

3t λ 4 = 24.00789λ 4 = 0.5335

Conformément à la notation adoptée dans les équations (4.68) et (4.69), t est le nombre de pointsdistincts dans le plan.

*Etape 2. Dresser le schéma préliminaire de la table d’analyse de la variance

Page 140: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 137 -

Tableau 4.45. Représentation schématique de la table d’analyse de variance pour l’ajustement d’unPRSO.

Source devariation

Degré de liberté Sommedes

carrés

Carrémoyen

RapportF

calculé

Régression p SSR MSR MSRMSE

Manqued’ajustement n - 1- ( )ng

g

t

−=

∑ 11

-

p

SSL MSL MSLMSE

Erreur pure( )ng

g

t

−=

∑ 11

SSE MSE

Total n - 1 SSTO

*Etape 3. Calculer le facteur de correction (C.F.)

C. F.=

==∑∑ y

n

guu

n

g

t g

11

2

(4.72)

=+ + +( . . ... . )860 7 50 1000

30

2

= 2873.37

*Etape 4. Calculer la somme totale des carrés:

SSTO y C Fguu

n

g

t g

= −==

∑∑ 2

11. . (4.73)

= + + + −( . ) ( . ) ... ( . )8 60 7 50 10 002 2 2 (293.60)30

2

= 55.43

*Etape 5. Calculer les estimations des coefficients de régression

[ ]$

( )

( )β

λ λ

λ λ0

411

211

2

1

4 22

2

2=

+ −

+ −== ===∑∑ ∑∑∑k y y x

n k k

guu

n

g

t

guu

n

g

t

igui

kg g

(4.74)

[ ]=+ −

+ −

( . )( )( . ) . (

. ( ) ( . )

0 5335 3 2 293 60 0 9106

30 0 5335 3 2 3 0 9106 2

797.98)

= 10.47

Page 141: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 138 -

βλi

gu iguu

n

g

t

y x

n

g

= ==∑∑

11

2

(4.75)

β1 30 09106=

25.20( )( . )

= 0.92

β2 30 09106=

14.75( )( . )

= 0.54

β3 30 09106=

14.98( )( . )

= 0.55

[ ][ ]

$( )

βλ

λ λ λ λ

λ λii gu iguu

n

g

t gu iguu

n

g

t

i

k

guu

n

g

t

ny x

y x y

k k

g

g g

= +− −

+ −

==

=== ==∑∑∑∑∑ ∑∑

12

2

24

2

11

22

42

1112 4

11

4 22 (4.76)

[ ][ ]

$( )( )( . )

( . ) . ( ) ( )( . )( . )( )

( . )( ) ( )( . )β11

2

2

12 30 0 5335

0 9106 0 5335 2 0 9106 0 5335

0 5335 3 2 3 0 9106= +

− −

+ −

258.17

797.98 293.60

= - 0.50[ ]

[ ]$

( )( )( . )( . ) . ( ) ( )( . )( . )( )

( . )( ) ( )( . )β22

2

2

12 30 0 5335

0 9106 0 5335 2 0 9106 0 5335

0 5335 3 2 3 0 9106= +

− −

+ −

267.78

797.98 293.60

= - 0.20[ ]

[ ]$

( )( )( . )( . ) . ( ) ( )( . )( . )( )

( . )( ) ( )( . )β33

2

2

12 30 0 5335

0 9106 0 5335 2 0 9106 0 5335

0 5335 3 2 3 0 9106= +

− −

+ −

272.03

797.98 293.60

= - 0.06

$βλij

gu igu jguu

n

g

t

y x x

n

g

= ==∑∑

11

4

(4.77)

$ ( . )( )( . )

β12

0 4030 05335

=−

= - 0.02

$ ( .. )( )( . )

β13

1 2030 05335

=

= 0.07

Page 142: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 139 -

$ ( . )( )( . )

β23

34030 05335

=

= 0.21

*Etape 6. Calculer la somme des carrés de la régression (SSR)

SSR = $ $ $ $ .β β β β02y y x y x y x x C Fgu i gu

uigu

iii gu

uigu

iij gu

uigu jgu

i j∑∑ ∑∑ ∑∑ ∑∑+ + + −

<

(4.78)

= + + + + − +

− + − + − − + + −

( . )( . ) ( . )( . ) ( . )( . ) ( . )( . ) ( . )( . )

( . )( . ) ( . )( . ) ( . )( . ) ( . )( . ) ( . )( . )

( . )

10 47 293 60 0 92 25 20 0 54 14 75 0 55 14 98 0 50 258 17

0 20 267 78 0 06 272 03 0 02 0 40 0 07 1 20 0 21 3 40

293 6030

2

= 44.42

*Etape 7. Calculer la somme des carrés dus à l’erreur pure

( ) SSE = −==

∑∑ y ygu gu

n

g

t g

11

2

(4.79)

= 9.9650

*Etape 8. Calculer la somme des carrés du manque d’ajustement avec la relation,SSL = SSTO - SSR - SSE (4.80)

= 55.4347 - 44.4232 - 9.650 = 1.0465

*Etape 9. Insérer les différentes sommes des carrés dans la table d’analyse de la variance et calculerles différents carrés moyens en divisant les sommes des carrés par leurs degrés de liberté.

Tableau 4.46. Table d’analyse de la variance pour l’ajustement d’un PRSO, d’après les données duTableau 4.44

Source devariation

Degré deliberté

Somme descarrés

Carrémoyen

Rapport Fcalculé

FTabulaire

5%

Régression 9 44.4232 4.9359 7.4299 2.56Manque

d’ajustement5 1.0465 0.2093 0.3150 2.90

Erreur pure 15 9.9650 0.6643Total 29 55.4347

Page 143: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 140 -

*Etape 10. Calculer la valeur de F pour tester la signification du manque d’ajustement, pour détecterd’éventuelles erreurs de spécification du modèle.

MSMS

F pureErreur

ajustementd' Manque= (4.81)

Si le manque d’ajustement est significatif, le carré moyen de la régression est testé par rapport aucarré moyen du manque d’ajustement. Dans le cas contraire, il est testé par rapport au carré moyende l’erreur pure.

Dans notre exemple, F = 0 20930 6643..

= 0.3150

Ici, le manque d’ajustement n’est pas significatif. On peut donc tester le carré moyen de la régressionpar rapport au carré moyen de l’erreur pure. La valeur de F servant à tester la signification de larégression est

MSMS

F pureErreur Régression

= (4.82)

= 4 93590 6643..

= 7.4299

Cette valeur de F est significative, si on la compare avec sa valeur tabulaire, qui est de 2,56, pour 9et 15 degrés de liberté, au seuil de signification de 5 %. Le rapport de la somme des carrés de larégression à la somme totale des carrés indique que le modèle explique près de 80 % des variationsde la variable de réponse.

*Etape 11. Les variances et les covariances des coefficients estimés sont donnés par les relations,

( ) [ ]Vk

n k kE$ ( )

( )β

λ

λ λ04

4 22

2

2=

+

+ −(4.83)

= ( )

( )[ ] ( )05335 3 230 05335 3 2 3 0 9106

066432

. ( ). ( ) ( . )

.+

+ − = 0.3283où E = Carré moyen de l’erreur pure dans la table d’analyse de la variance.

VE

ni( $ )βλ

=2

(4.84)

= ( )( )06643

30 09106.

. = 0.0243

Page 144: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Plan et analyse d’expériences

- 141 -

[ ][ ]V

En k kii( $ )

( )β

λλ λ

λ λ= +

+ −

2

122

22

4

4 22

(4.85)

= ( )( )( )( )[ ]

( ) ( )( )[ ]0 6643

2 30 091061

09106 05335

05335 3 2 3 0 9106

2

2

..

. .

. ( ) .+

+ −

= 0.03

VE

nij( $ )βλ

=4

(4.86)

= ( )( )06643

30 05335.

.

[ ]Covn k k

Eii( $ , $ )( )

β βλ

λ λ02

4 222

=−

+ −(4.87)

= ( ) ( )( )[ ] ( )−

+ −

0 5335

30 0 5335 3 2 3 0 91060 66432

.

. ( ) ..

= -0.11

[ ][ ]Cov

n k kii jj( $ , $ )( )

β βλ λ

λ λ λ=

+ −22

4

4 4 222 2

(4.88)

= ( )( )

( )( )( ) ( ) ( )( )[ ]09106 05335

2 30 05335 05335 3 2 3 09106

2

2

. .

. . ( ) .

+ −

= 0.05

Toutes les autres covariances sont nulles.

La fonction de réponse ajustée est donc, $ $ $ $ $y x x x xi i

iii i

iij i j

i j= + + +∑ ∑ ∑

<β β β β0

2

= + + + − − −

− + +

1047 092 054 055 050 020 0 02

002 007 0 21

1 2 3 12

22

32

1 2 1 3 2 3

. . . . . . .

. . .

x x x x x x

x x x x x x

La surface sert entre autres à trouver la combinaison optimale des doses, pour laquelle la réponse estmaximale ou économiquement optimale. De plus, l’équation ajustée est utile pour analyser la naturede la surface, dans des intervalles donnés des variables d’entrée. Etant donné que l’étude de cesaspects demande une connaissance de techniques mathématiques avancées, elle ne sera pas abordéeici, mais les lecteurs qui souhaitent approfondir cette question, peuvent se référer à Montgomery(1991).

Page 145: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 142 -

5. TECHNIQUES D’ECHANTILLONNAGE

5.1. Concepts fondamentaux de l’échantillonnage

L’échantillonnage consiste essentiellement à tirer des informations d’une fraction d’un grand groupeou d’une population, de façon à en tirer des conclusions au sujet de l’ensemble de la population. Sonobjet est donc de fournir un échantillon qui représentera la population et reproduira aussi fidèlementque possible les principales caractéristiques de la population étudiée.

Les principaux avantages de la technique d’échantillonnage par rapport à un énumération complètesont le moindre coût, la rapidité, la portée et la précision accrues. Tous ceux qui soutiennent que leseul moyen d’obtenir des informations exactes sur une population est de faire un recensementexhaustif oublient que les sources d’erreurs sont nombreuses dans un dénombrement complet etqu’un recensement à cent pour cent peut non seulement être faussé par un grand nombre d’erreurs,mais être pratiquement irréalisable. En effet, avec un échantillon on peut obtenir des résultats plusexacts car il est plus facile de contrôler les sources d’erreurs liées à la fiabilité et à la formation desagents de terrain, à la clarté des instructions, aux mesures et à l’enregistrement, au mauvais entretiendes instruments de mesure, à l’identification des unités d’échantillonnage, au travail des enquêteurs etau traitement et à l’analyse des données. Plus l’échantillon est petit, plus la supervision est efficace.De plus, le degré de précision des estimations tirées de certains types d’échantillons, peut être estiméà partir de l’échantillon même. En fin de compte on obtient souvent avec une enquête par sondageune réponse plus exacte qu’avec un recensement complet, le tout en peu de temps, avec moins depersonnel, moins de travail et moins d’argent..La méthode d’échantillonnage la plus simple consiste à sélectionner un certain nombre d’unitésd’échantillonnage considérées comme “représentatives” de l’ensemble de la population. Parexemple, pour estimer le volume global d’un peuplement forestier, l’enquêteur peut choisir un petitnombre d’arbres qui lui paraissent de dimensions moyennes et typiques de la zone considérée, etmesurer leur volume. Les méthodes simples, telles que marcher dans la forêt, s’arrêter au hasard etlancer une pierre les yeux fermés, ou tout autre démarche excluant en apparence toute possibilité dechoix délibéré des unités d’échantillonnage, sont très attirantes à cause de leur simplicité, mais ellesont évidemment des chances d’être faussées par le jugement de l’enquêteur, de sorte que lesrésultats seront biaisés et non fiables. Même si l’objectivité de l’enquêteur ne fait pas le moindredoute, d’importantes erreurs de jugement, conscientes ou inconscientes, peuvent se produire, et ellesseront rarement identifiées. Or ces erreurs peuvent être bien supérieures à l’avantage de l’exactitudeaccrue qui est censée dériver de la sélection délibérée ou intentionnelle des unités d’échantillonnage.Sans compter qu’un échantillonnage subjectif ne permet pas d’évaluer la précision des estimationscalculées à partir des échantillons. Un échantillonnage subjectif est statistiquement irrationnel et entant que tel, il est à éviter.

Si l’échantillonnage est fait de façon à ce que chaque unité de la population ait quelque chance d’êtreincluse dans l’échantillon et si la probabilité de sélection de chaque unité est connue, on parle deméthode d’échantillonnage probabiliste. L’une de ces techniques est la sélection aléatoire, à ne pasconfondre avec la sélection au hasard, qui implique un processus de sélection rigoureux de type

Page 146: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 143 -

tirage au sort. Dans ce manuel, le terme échantillonnage se réfère, sauf indication contraire, à uneforme quelconque d’échantillonnage probabiliste. La probabilité qu’une unité d’échantillonnagequelconque soit incluse dans l’échantillon dépend de la procédure adoptée. Il faut toutefois savoirque la précision et la fiabilité des estimations obtenues à partir d’un échantillon peuvent être évaluéesuniquement dans le cas d’un échantillon probabiliste, le contrôle des erreurs y étant relativementfacile.

Le but d’une enquête par sondage est de minimiser l’erreur dans les estimations finales. Touteenquête forestière comportant des activités de collecte et d’analyse de données peut être entachéede diverses erreurs. Il en existe deux sortes: i) les erreurs non liées à l’échantillonnage et ii) leserreurs d’échantillonnage. Les erreurs non liées à l’échantillonnage, par exemple celles dues à lalocalisation des unités, à la mesure des caractéristiques, à l’enregistrement des fautes, aux biais desenquêteurs et aux méthodes d’analyse défectueuses peuvent représenter une grande part de l’erreurtotale des résultats finaux dans les recensements complets comme dans les enquêtes par sondage.Cette part a des chances d’être plus grande dans un recensement complet car un projet échantillon,de plus petite taille, permet d’être plus sélectif dans l’affectation du personnel aux opérations del’enquête, de leur offrir une formation plus complète, et de focaliser davantage l’attention sur laréduction des erreurs non liées à l’échantillonnage. L’erreur d’échantillonnage est due au fait queseule une fraction de la surface de forêt est recensée. Etant donné qu’un échantillon, mêmeprobabiliste, se fonde sur des observations qui ne concernent qu’une fraction de la population, il nepeut généralement pas représenter parfaitement la population. La grandeur moyenne des erreursd’échantillonnage de la majorité des échantillons probabilistes peut être estimée d’après les donnéescollectées, et elle dépend de la taille de l’échantillon, de la variabilité à l’intérieur de la population etde la méthode d’échantillonnage adoptée. Ainsi, avec un échantillon probabiliste, il est possible dedéterminer à l’avance la dimension que doit avoir l’échantillon pour obtenir le degré de précisionsouhaité, lequel doit être spécifié.

Un plan d’échantillonnage est déterminé par la taille des unités d’échantillonnage, leur nombre, leurdistribution sur la surface totale, le type et le mode de mesure dans les unités sélectionnées et lesprocédures statistiques adoptées pour l’analyse des données de l’enquête. Des méthodesd’échantillonnage et des techniques d’estimation différentes ont été mises au point spécifiquement enfonction des besoins des statisticiens enquêteurs, de sorte que l’utilisateur a de vastes possibilités dechoix adaptées à des situations spécifiques. Il est possible de choisir la méthode ou la combinaisonde méthodes avec laquelle on obtiendra le degré de précision souhaité, à raison d’un coût minimum.Pour de plus amples détails, on peut se référer à Chacko (1965) et Sukhatme et al, (1984).

5.1.1. Les principales étapes d’une enquête par sondageDans toute enquête par sondage, on commence par déterminer le type de données à collecter et ledegré d’exactitude des résultats auquel on veut arriver. Ensuite, on formule le plan d’échantillonnageafférent à chaque caractère sur lequel on compte recueillir des informations. On définit également lacombinaison des procédures d’échantillonnage relatives aux différents caractères, pour éviter lesdoubles emplois sur le terrain. Troisièmement, on organise avec soin les opérations en champ, enprévoyant des crédits suffisants pour la supervision du travail du personnel de terrain. Enfin, onanalyse les données collectées au moyen de techniques statistiques appropriées et on rédige unrapport complet et détaillé décrivant les hypothèses sur lesquelles on s’est fondé, le pland’échantillonnage et les résultats de l’analyse statistique. Le rapport contiendra une estimation de la

Page 147: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 144 -

marge des erreurs d’échantillonnage des résultats et, le cas échéant, les effets possibles des erreursnon liées à l’échantillonnage. Quelques-unes de ces étapes sont décrites de façon plus approfondiedans les passages qui suivent.

i) Définition des objectifs de l’enquête: Pour commencer, les objectifs de l’enquête doivent êtreexaminés attentivement. Par exemple, pour une enquête forestière, on détermine la superficie qui seracouverte par l’enquête. Les caractéristiques sur lesquelles des informations seront collectées et leniveau de détail souhaité seront précisés. Si l’enquête porte sur des arbres, on déterminera lesespèces d’arbres qui devront être recensés et l’on décidera s’il convient d’énumérer uniquement lesarbres faisant partie de classes de diamètres déterminées ou si l’on estimera aussi le volume desarbres. C’est aussi durant la première étape que l’on détermine le degré de précision que devrontavoir les estimations.

ii) Elaboration d’un diagramme des unités: Dans tout échantillon probabiliste, la premièreexigence est l’établissement d’une base de sondage. La structure d’une enquête par sondage estlargement déterminée par cette base. La base de sondage est une liste des unités d’échantillonnagequi peuvent être clairement définies et identifiées dans la population. Ces unités peuvent être descompartiments, des sections topographiques, des bandes d’une certaine largeur ou des parcelles deforme et de taille définies.

L’élaboration d’une base de sondage adaptée aux objectifs d’une enquête demande de l’expérienceet peut fort bien absorber une part importante des travaux de planification, en particulier dans lesenquêtes forestières où il peut être nécessaire de dresser une liste artificielle des unitésd’échantillonnage, faites de sections topographiques, de bandes ou de parcelles. Par exemple, dansune enquête forestière, une base de sondage peut se présenter sous la forme d’une carte appropriéede la superficie forestière. Le mode de sélection des unités d’échantillonnage doit permettred’identifier sur le terrain une unité spécifique devant être incluse dans l’échantillon. Le choix estfonction de plusieurs facteurs: l’objet de l’enquête, les caractéristiques qui doivent être observéesdans les unités sélectionnées, la variabilité entre des unités d’échantillonnage d’une taille donnée, leplan d’échantillonnage, le plan des travaux de terrain, et le coût total de l’enquête. Le choix est aussidéterminé par des considérations pratiques. Par exemple, dans des zones de collines, il n’est pastoujours possible de prendre des bandes comme unités d’échantillonnage, et les compartiments oules sections topographiques peuvent être plus appropriés. En général, pour une intensitéd’échantillonnage donnée (proportion de la surface recensée), plus les unités d’échantillonnage sontpetites, plus l’échantillon est représentatif et plus les résultats ont de chances d’être précis.

iii) Choix d’un plan d’échantillonnage: Si le plan d’échantillonnage doit être de nature à fournirune mesure statistiquement significative de la précision des estimations finales, l’échantillon doit êtreprobabiliste, en ce sens que chaque unité de la population doit avoir une probabilité connue d’êtreincluse dans l’échantillon. Le choix des unités à inscrire sur la liste doit être basé sur une règleobjective qui ne laisse aucune part à l’opinion de l’homme de terrain. La détermination du nombred’unités à inclure dans l’échantillon et la méthode de sélection sont également fonction du coûtadmissible de l’enquête et de la précision des estimations finales.

iv) Organisation des travaux sur le terrain: Une enquête par sondage n’est pleinement réussieque si les opérations de terrain sont fiables. Dans le domaine forestier, les travaux sur le terrain

Page 148: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 145 -

doivent être organisés avec le plus grand soin autrement, même si le plan d’échantillonnage estexcellent, les résultats de l’échantillon risqueraient d’être incomplets ou trompeurs. Le choix d’unpersonnel adéquat, une formation intensive, des instructions claires et une bonne supervision desopérations de terrain sont essentiels pour obtenir des résultats satisfaisants. Les équipes itinérantesdoivent être capables de localiser correctement les unités sélectionnées et enregistrer les mesuresnécessaires conformément aux instructions spécifiques reçues. Les superviseurs vérifient une partiede leur travail sur le terrain et s’assurent que l’enquête qui y effectuée correspond en tous points auplan.

v) Analyse des données : En fonction du plan d’échantillonnage utilisé et de l’information collectée,on utilisera les formules adéquates pour obtenir les estimations et calculer leur degré de précision.Une contre-vérification des calculs est souhaitable pour garantir l’exactitude de l’analyse.

vi) Enquête préliminaire (essais pilotes): La conception d’un plan d’échantillonnage approprié àune enquête forestière demande une bonne connaissance de la théorie statistique et des donnéesconcernant la nature de la zone forestière, le mode de variabilité et le coût opérationnel. Dans le casoù l’on ne possède pas ces connaissances, il est parfois nécessaire d’effectuer une enquête pilote àpetite échelle statistiquement planifiée, avant de se lancer dans une enquête à grande échelle sur toutela superficie de forêt. Ces enquêtes préparatoires, ou pilotes, fourniront les renseignements voulussur la variabilité du matériel et offriront la possibilité d’essayer et d’améliorer les procédures enchamp, de former des hommes de terrain, et d’étudier l’efficacité opérationnelle d’un plan. Uneenquête pilote donnera aussi des renseignements pour estimer les différentes composantes du coûtdes opérations, par exemple le temps de trajet, le temps de localisation et de recensement des unitésd’échantillonnage etc... Ces informations seront essentielles pour définir le type de plan et l’intensitéd’échantillonnage appropriés aux objectifs de l’enquête.

5.1.2. Terminologie d’échantillonnageAprès avoir expliqué les concepts fondamentaux et les étapes d’un plan d’échantillonnage, nousallons maintenant définir de façon plus précise quelques termes généraux pour faciliter l’étude desdifférents plans d’échantillonnage décrits dans les autres sections.

Population : Le mot population désigne l’ensemble des unités parmi lesquelles l’échantillon estprélevé. Si une surface forestière est divisée en un certain nombre de compartiments (ou blocs) quisont les unités d’échantillonnage, ces compartiments constituent la population des unitésd’échantillonnage. En revanche, supposons qu’une surface de forêt soit divisée en mille bandes de20 m de large chacune, les mille bandes forment la population. De même, si la surface de forêt estdivisée en parcelles d’un demi hectare l’une, l’ensemble de ces parcelles forme la population.

Unités d’échantillonnage : Les unités d’échantillonnage peuvent être des unités administratives oudes unités naturelles, par exemple des sections topographiques et des sous-compartiments, ouencore des unités artificielles, par exemple des bandes d’une largeur donnée ou des parcelles deforme et de taille définies. L’unité doit être un élément bien défini ou un groupe d’élémentsidentifiable dans la surface de forêt, dont les caractéristiques que l’on compte étudier peuvent êtreobservées. La population est donc subdivisée en unités appropriées à l’objet de l’enquête, appeléesunités d’échantillonnage.

Page 149: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 146 -

Base de sondage : Une liste d’unités d’échantillonnage est une base de sondage. Une populationest “ finie ” si elle comprend un nombre fini d’unités d’échantillonnage.

Echantillon : Une ou plusieurs unités d’échantillonnage sélectionnées dans une population suivantune procédure définie constituent un échantillon.

Intensité de l’échantillonnage : L’intensité de l’échantillonnage est le rapport du nombre d’unitésincluses dans l’échantillon au nombre d’unités comprises dans la population.

Total de population : Supposons une population finie composée d’unités U1, U2, …, UN. Notonsyi la valeur de la caractéristique de la i-ème unité. Par exemple, les unités peuvent être des bandes etles caractéristiques peuvent être le nombre d’arbres d’une espèce déterminée à l’intérieur d’unebande. La somme des valeurs yi ( i = 1, 2, …, N), à savoir,

∑=

=N

iiyY

1

(5.1)

est appelée total de population. Dans notre exemple, celui-ci est le nombre moyen d’arbres del’espèce spécifique dans toute la population.

Moyenne de la population: La moyenne arithmétique

∑=

=N

iiy

NY

1

1(5.2)

est appelée moyenne de la population. Ici, il s’agit du nombre moyen d’arbres de l’espèceconsidérée, par bande.

Variance de la population: la variance de la population est une mesure de la variation entre lesunités de la population

∑ ∑= =

−=−=N

i

N

iiiy Yy

NYy

NS

1 1

2222 1)(

1 (5.3)

Dans notre exemple, la variance de la population mesure la variation du nombre d’arbres de l’espèceconsidérée, entre les bandes. Des valeurs élevées indiquent une variation importante entre les unitésde la population, alors que des valeurs faibles montrent que les valeurs de la caractéristique dans lesunités sont proches de la moyenne de la population. La racine carrée de la variance est connue sousle nom d’ écart-type.

Coefficient de variation : Le coefficient de variation est le rapport, généralement exprimé enpourcentage, de l’écart type à la valeur de la moyenne arithmétique

YS

VC y . . = (5.4)

Du fait qu’il est adimensionnel, le coefficient de variation est un instrument précieux pour comparerles variations de deux ou plusieurs populations ou ensembles d’observations.

Paramètre : On appelle paramètre toute fonction des valeurs des unités d’une population. Lamoyenne de la population, la variance, le coefficient de variation etc... sont des exemples deparamètres de population. Dans la théorie de l’échantillonnage, le problème est d’estimer les

Page 150: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 147 -

paramètres à partir d’un échantillon, au moyen d’une procédure permettant de mesurer la précisiondes estimations.

Estimateur, estimation : Notons y1, y2, …, yn les observations d’un échantillon de taille n. Toutefonction des observations effectuées sur un échantillon est une statistique. Une statistique utiliséepour estimer un paramètre de la population est un estimateur. Par exemple, la moyenne d’unéchantillon est un estimateur de la moyenne de la population. On appelle estimation toute valeurspécifique d’un estimateur calculée à partir d’un échantillon observé.

Erreur provenant de l’estimation : Une statistique t est appelée estimateur non biaisé d’unparamètre θ de la population si son espérance mathématique (ou valeur probable), notée E(t), estégale à θ. Avec une procédure d’échantillonnage de type probabiliste, on obtient, par répétition, unnombre certain nombre d’échantillons possibles. Si les valeurs de la statistique t sont calculées pourchaque échantillon possible et si la moyenne des valeurs est égale à la valeur θ associée à lapopulation, on dit que t est un estimateur non biaisé de θ , basé sur la procédure d’échantillonnage.La répétition de la procédure et du calcul des valeurs de t est une notion purement théorique, cesopérations n’étant pas effectuées dans la réalité, mais l’idée selon laquelle on peut dériver toutes lesestimations possibles en répétant le processus d’échantillonnage est fondamentale pour l’étude dubiais. Si E(t) n’est pas égal à θ, la statistique t est un estimateur biaisé de θ et le biais est donné parbiais = E(t) - θ . L’introduction d’un processus réellement aléatoire pour la sélection d’un échantillonest un pas important pour éviter les biais. Dans les enquêtes forestières, où les experts tendent àchoisir des étendues de forêt typiques pour les énumérations, les estimations sont inévitablementbiaisées, même si leur bonne foi n’est pas en cause.

Variance d’échantillonnage : La différence entre une estimation d’un échantillon et la valeur de lapopulation est appelée erreur d’échantillonnage de l’estimation; on ne connaît évidemment pasl’amplitude de cette erreur puisqu’on ne connaît pas la valeur de la population. Etant donné que leplan d’échantillonnage donne lieu à différents échantillons possibles, les estimations varient d’unéchantillon à l’autre. Sur la base de ces estimations possibles, on peut obtenir une mesure del’amplitude moyenne, par rapport à tous les échantillons possibles, des carrés de l’erreurd’échantillonnage. Il s’agit de l’erreur quadratique moyenne (MSE) de l’estimation qui estessentiellement une mesure de la variation d’un estimateur par rapport à la valeur réelle de lapopulation. En symboles, MSE = E[t - θ ]2. La variance d’échantillonnage (V(t)) est une mesure del’écart de l’estimation par rapport à son espérance mathématique. Elle est définie comme l’amplitudemoyenne par rapport à tous les échantillons possibles des carrés des écarts de l’estimateur parrapport à son espérance mathématique et est donnée par V(t) = E[t - E(t)]2.

Remarquons que la variance d’échantillonnage coïncide avec l’erreur quadratique moyenne dans lecas où t est un estimateur non biaisé. Généralement, l’amplitude de l’estimation de la varianced’échantillonnage calculée à partir d’un échantillon donne une idée de l’utilité d’une estimationrelative à un échantillon. Plus l’échantillon est grand et plus la variabilité entre les unités constituant lapopulation est petite, plus l’erreur d’échantillonnage sera petite et plus les résultats sont fiables.

Erreur type d’un estimateur : L’erreur-type de l’estimateur est la racine carrée de sa varianced’échantillonnage. L’erreur-type d’une estimation divisée par la valeur de l’estimation est l’erreurtype relative, habituellement exprimée en pourcentage.

Page 151: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 148 -

Exactitude et précision : L’erreur-type d’une estimation, obtenue à partir d’un échantillon, ne tientpas compte du biais. On peut donc dire que l’erreur-type ou la variance d’échantillonnage del’estimation mesure à l’échelle inverse la précision de l’estimation, plutôt que son exactitude.L’exactitude se réfère habituellement à l’ampleur des écarts entre l’estimation d’un échantillon et lamoyenne m = E (t) qui serait obtenue en appliquant plusieurs fois le procédé expérimental, le biaisétant ainsi mesuré par m - θ.

Le point le plus important, c’est l’exactitude de l’estimation d’un échantillon, la précision aveclaquelle nous sommes capables de mesurer, dans la majorité des cas. Nous nous efforçons deconcevoir l’enquête et d’analyser les données en utilisant des méthodes statistiques propres àmaximiser la précision et à minimiser le biais.

Limites de confiance : Si l’estimateur t suit une loi de distribution normale (hypothèsegénéralement valide pour les échantillons de grande taille), un intervalle de confiance défini par unelimite inférieure et une limite supérieure, inclut normalement le paramètre de la population θ , à unseuil de probabilité déterminé. Les limites sont données par les relations

Limite inférieure = t - z )(ˆ tV (5.5)

Limite supérieure = t + z )(ˆ tV (5.6)

où )(ˆ tV est l’estimation de la variance de t et z la valeur de l’écart réduit correspondant à uneprobabilité de confiance souhaitée P, exprimée en pourcentage. Par exemple, si z est égal à 1.96, ondit que les chances que la valeur réelle de θ soit contenue dans l’intervalle aléatoire défini par leslimites de confiance supérieure et inférieure sont de 95 pour cent. Les limites de confiance spécifientl’amplitude prévue de la variation de la moyenne de la population et stipulent le degré de confianceque nous devrions attacher aux résultats de nos échantillons. Si la taille de l’échantillon est inférieureà 30, la valeur de k dans les formules donnant les limites de confiance supérieure et inférieure devraitêtre tirée des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec les degrésde liberté correspondant à la somme des carrés dans l’estimation de la variance de t. De modestesécarts de la distribution par rapport à la normale n’affectent pratiquement pas la formule relative auxlimites de confiance. En revanche, si la distribution est très différente de la normale, il faut adopterdes méthodes spéciales. Par exemple, si l'on utilise de petites surfaces comme unitésd'échantillonnage, pour estimer le nombre moyen d’arbres à classes de diamètre élevées, ladistribution peut avoir une asymétrie prononcée. Dans ce cas, la formule indiquée ci dessus pour lecalcul des limites de confiance supérieure et inférieure n’est pas toujours directement applicable.

Quelques observations d’ordre général: Dans les sections qui suivent, les valeurs concernant lapopulation seront notées par des lettres majuscules et les valeurs de l’échantillon par des lettresminuscules. Le symbole “cap” (^) au-dessus d’un symbole relatif à une valeur de la populationdénote son estimation basée sur des observations de l’échantillon. Les autres notations particulièresseront expliquées au fur et à mesure de leur apparition.

Les formules servant à estimer uniquement la moyenne de la population et sa varianced’échantillonnage sont données avec la description des méthodes d’échantillonnage ci-dessous.Deux des paramètres sont le total de la population et le rapport du caractère étudié (y) à une

Page 152: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 149 -

variable auxiliaire quelconque (x). Ces statistiques connexes peuvent toujours être calculées à partirde la moyenne, à l’aide des relations générales ci-après:

$ $Y NY= (5.7)

V Y N V Y( $ ) ( $ )= 2 (5.8)

$$

RYX

= (5.9)

V RV Y

X( $ )

( $ )= 2 (5.10)

où $Y = Estimation du total de la population N = Nombre total d’unités dans la population $R = Estimation du rapport de la population X = Total de la population de la variable auxiliaire

5.2. Echantillonnage aléatoire simple

Dans un échantillonnage aléatoire simple toutes les combinaisons possibles d’unités d’échantillonnagetirées de la population ont les mêmes chances d’être sélectionnées. Théoriquement, l’échantillonnagealéatoire simple est la procédure la plus simple, dont s’inspirent de nombreuses autres techniques.Elle s’applique surtout au stade initial d’une enquête et aux études impliquant l’échantillonnage d’unepetite surface où la taille de l’échantillon est relativement petite. Si l’enquêteur connaît un peu lapopulation sondée, il peut adopter d’autres méthodes plus pratiques et plus efficaces pour organiserl’enquête sur le terrain. Dans un échantillonnage aléatoire simple, la répartition irrégulière des unitésd’échantillonnage sur la surface de forêt peut être un gros inconvénient dans les zones difficilementaccessibles où les frais de déplacement et de localisation des parcelles sont considérablement plusélevés que les coûts de l’énumération des parcelles.

5.2.1. Sélection des unités d’échantillonnageDans la pratique, la sélection d’un échantillon aléatoire se fait unité par unité. Nous expliquerons danscette section deux méthodes de sélection aléatoire pour un échantillonnage aléatoire simple sansremise.

i) Echantillonnage par tirage: Les unités de la population sont numérotées de 1 à N.Symboliquement, on peut assimiler ces unités à N boules identiques numérotées de 1 à N. Si onen sélectionne une au hasard après les avoir mélangées, toutes les boules ont la même possibilitéd’être sélectionnées. Ce processus est répété n fois sans remettre en jeu les boules sélectionnées.Les unités correspondant aux numéros inscrits sur les boules sélectionnées forment un échantillonaléatoire simple de taille n tiré dans la population de N unités.

ii) Echantillonnage au moyen de tables de nombres aléatoires : la procédure d’échantillonnagepar tirage devient fastidieuse si N est élevé. Pour surmonter cette difficulté, on peut utiliser une tablede nombres aléatoires, du type de celles publiées par Fisher et Yates (1963) (voir Annexe 6). Les

Page 153: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 150 -

tables de nombres aléatoires ont été conçues de manière à ce que les chiffres de 0 à 9 apparaissentindépendamment les uns des autres, à peu près le même nombre de fois dans la table. La méthode laplus simple pour choisir un échantillon aléatoire de la taille requise consiste à sélectionner unensemble de n nombres aléatoires l’un après l’autre, de 1 à N, dans la table, puis de prendre lesunités correspondant à ces numéros. Cette procédure peut comporter un certain nombre de rejetsdu fait que tous les nombres supérieurs à N qui apparaissent dans la table sont exclus d’office. Dansces cas là, la procédure est modifiée comme suit. Si N est un nombre à d chiffres, on commence pardéterminer le plus grand multiple de N à d chiffres, noté N’. Ensuite, on choisit un nombre aléatoire rde 1 à N’ et l’unité portant le numéro égal au restant obtenu après avoir divisé r par N, estconsidérée comme sélectionnée. Si le reste est égal à zéro, la dernière unité est sélectionnée. Unexemple numérique est donné ci-après.

Supposons que l’on doive choisir un échantillon aléatoire simple de 5 unités dans une liste de 40unités numérotées en série, que l’on consulte l’Annexe 6 : Table de nombres aléatoires et que l’onchoisisse dans la colonne 5) des nombres à deux chiffres les nombres suivants :39, 27, 00, 74, 07

Pour donner les mêmes probabilités de sélection aux 100 unités, il faut rejeter tous les nombressupérieurs à 79 et considérer que (00) équivaut à 80. Ensuite, on divise les nombres ci-dessus par40, et l’on prend les restes comme numéros des bandes sélectionnées pour l’échantillon, en rejetantles restes qui sont répétés. On obtient ainsi les 16 numéros de bande comme échantillon, soit : 39,27, 40, 34, 7.

5.2.2. Estimation de paramètresSoient y1, y2,… ,yn les mesures d’une caractéristique spécifique, effectuées sur n unités sélectionnéesd’un échantillon d’une population de N unités d’échantillonnage. On constate dans le cas d’unéchantillonnage aléatoire simple sans remise que la moyenne de l’échantillon

$Y y

y

n

ii

n

= = =∑

1 (5.11)

est un estimateur non biaisé de la moyenne Y de la population. Une estimation non biaisée de lavariance d’échantillonnage de y est donnée par

2)ˆ(ˆys

NnnN

YV−

= (5.12)

où 1

)(1

2

2

−=

∑=

n

yys

n

ii

y (5.13)

Si l’estimation y suit une loi normale, il est possible d’établir un intervalle de confiance sur lamoyenne de la population Y , les limites de confiance inférieure et supérieure étant définies par,

Limite inférieure N

nNn

szyY y

L−

−=ˆ (5.14)

Limite supérieure N

nNn

szyY y

U−

+=ˆ (5.15)

Page 154: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 151 -

où z est la valeur de la table qui dépend du nombre d’observations incluses dans l’échantillon. Si leurnombre est égal ou supérieure à 30, on peut extraire ces valeurs de la table de la distribution normale(Annexe 1). Si le nombre d’observations est inférieur à 30, la valeur tabulaire sera extraite de la tablede distribution t (Annexe 2), avec n - 1 degrés de liberté.

Nous allons illustrer ces calculs par un exemple. Supposons qu’une forêt ait été divisée en 1000parcelles de 0,1 hectare chacune et qu’un échantillon aléatoire simple de 25 parcelles ait étéselectionné. Pour chacune de ces parcelles d’échantillon, les volumes de bois, en m3, ont étéenregistrés. Ces volumes étaient les suivants:

7 10 7 4 78 8 8 7 52 6 9 7 86 7 11 8 87 3 8 7 7

Si le volume de bois de la i-ème unit d’échantillonnage est noté yi, un estimateur non biaisé de lamoyenne Y de la population, s’obtient à l’aide de l’Equation (5.11), soit :

25175

257 . . . 287ˆ =

++++== yY

= 7 m3

qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de forêt.

Une estimation ( 2ys ) de la variance des valeurs individuelles de y s’obtient à l’aide de l’équation

(5.13).( ) ( ) ( )

12577. . . 7877 222

2

−−++−+−

=ys

= 2482

= 3.833

L’estimation non biaisée de la variance d’échantillonnage de y est donc

( )( ) 833.3251000251000

)ˆ(ˆ

−=YV

= 0.1495 (m3)2

== 1495.0)ˆ(YSE 0.3867 m3

L’erreur-type relative, (100)ˆ

)ˆ(

Y

YSEest une expression plus commune. Ainsi,

71495.0

)ˆ( =YRSE (100) = 5.52 %

Page 155: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 152 -

Les limites de confiance attachées à la moyenne de la population Y s’obtiennent par les équations(5.14) et (5.15).

Limite inférieure ( ) 1495.0064.27ˆ −=LY = 6.20 cordes

Limite supérieure 1495.0)064.2(7ˆ +=UY = 7.80 cordes

L’intervalle de confiance de 95% associé à la moyenne de la population est de (6.20, 7.80) m3. Celasignifie que l’on peut estimer qu’il y a 95 chances sur cent que l’intervalle de confiance de (6.20,7.80) m3 inclura la moyenne de la population.

On obtiendra facilement une estimation du volume total de bois dans la surface de forêtéchantillonnée en multipliant l’estimation de la moyenne par le nombre total de parcelles comprisesdans la population. Ainsi

3m 70007(1000)ˆ ==Yavec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de confianceassociés à la moyenne par N = 1000. L’erreur-type relative RSE de Y , n’est cependant pasmodifiée par cette opération.

5.3. Echantillonnage systématique

La méthode d’échantillonnage systématique obéit à une règle simple, dans laquelle chaque k-ièmeunité est sélectionnée à partir d’un nombre, de 1 à k, choisi au hasard comme point de départaléatoire. Supposons que N unités d’échantillonnage dans la population soient numérotées de 1 à N..Pour sélectionner un échantillon systématique de n unités, on choisit une unité au hasard parmi les kpremières, puis on sélectionne chaque k-ième unité d’échantillonnage pour former l’échantillon. Laconstante k est appelée pas d’échantillonnage, et est considérée comme étant le nombre entier leplus proche de N / n, l’inverse du taux d’échantillonnage. La mesure de chaque k-ème arbrecorrespondant à un relèvement au compas déterminé est un exemple d’échantillonnage systématique.Dans les enquêtes forestières, une bande étroite, perpendiculaire à une ligne de base, traversant toutela forêt est couramment prise comme unité d’échantillonnage. Si les unités d’échantillonnage sont desbandes, le dispositif est connu sous le nom d’échantillonnage systématique en bandes, mais il existeaussi un autre système, appelé échantillonnage systématique de parcelles en ligne, dans lequel desparcelles de taille et de forme fixées sont sélectionnées à intervalles égaux le long de lignes parallèlesrégulièrement espacées. Dans le dernier cas, l’échantillon pourrait aussi bien être systématique dansdeux directions.

Sur le plan intuitif, l’échantillonnage systématique est certainement attrayant, sans compter qu’il estplus facile à sélectionner et à effectuer sur le terrain, du fait que l’échantillon est réparti également surtoute la superficie de forêt et qu’il garantit une certaine quantité de représentation des différentesparties de la surface. Ce type d’échantillonnage est souvent pratique pour contrôler les travaux deterrain. A part ces considérations opérationnelles, il est démontré que la procédure del’échantillonnage systématique fournit des estimateurs plus efficaces que l’échantillonnage aléatoiresimple, dans des conditions sylvicoles normales. La propriété de l’échantillonnage systématique, à

Page 156: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 153 -

savoir la répartition uniforme des unités d’échantillonnage sur la population peut être exploitée enrecensant les unités de manière à regrouper les unités homogènes ou de manière à ce que les valeursde la caractéristique relative aux unités soient rangées par ordre croissant ou décroissant. Parexemple, si l’on connaît la tendance de fertilité de la surface de forêt, les unités (par exemple, lesbandes) peuvent être recensées conformément à cette tendance.

Si la population affiche un régime de variation régulier et si l’intervalle d’échantillonnage del’échantillon systématique coïncide avec cette régularité, l’échantillon systématique ne donne pasd’estimations précises. Il est vrai qu’aucun cas évident de périodicité n’a jamais été signalé dansune étendue forestière. Il faut néanmoins tenir compte, lorsque l’on planifie une enquête, du faitqu’un échantillonnage systématique peut donner des résultats peu précis, au cas où une périodicitéinsoupçonnée se vérifierait.

5.3.1. Sélection d’un échantillon systématiquePour illustrer la sélection d’un échantillon systématique, prenons une population de N = 48 unités.Un échantillon de n = 4 unités est nécessaire. Dans ce cas, k = 12. Si le nombre aléatoire choisi dansl’ensemble de nombres allant de 1 à 12 est 11, les unités correspondant aux numéros de série 11,23, 35 et 47 seront sélectionnées. Dans les cas où N n’est pas divisible par n, k est le nombre entierle plus proche de N / n. Dans ce cas, la taille de l’échantillon n’est pas nécessairement égale à n etelle peut être égale à n -1.

5.3.2. Estimation des paramètresL’estimation de la moyenne de la population de chaque unité est donnée par la moyenne del’échantillon

n

yyY

n

ii∑

=== 1ˆ (5.16)

où n est le nombre d’unités dans l’échantillon.

Dans le cas d’enquêtes par échantillonnage systématique en bandes ou, d’une manière générale,dans tout système d’échantillonnage systématique unidimensionnel, on peut obtenir uneapproximation de l’erreur-type à partir des différences entre deux unités qui se suivent. Supposonsque n unités aient été énumérées dans l’échantillon systématique, on aura (n-1) différences. Lavariance par unité est donc donnée par la somme des carrés des différences divisée par le double dunombre de différences. Ainsi, si y1, y2,…,yn sont les valeurs observées (par exemple, le volume) desn unités dans l’échantillon systématique, et en définissant la première différence d(yi) comme indiquéci-dessous

( ) ( )iii yyyd −= +1)( ; (i = 1, 2, …, n -1), (5.17)

la variance approximative par unité est estimée par la formule

( )[ ]∑−

=−=

1

1

2

)1(21

)ˆ(ˆn

iiyd

nnYV (5.18)

A titre d’exemple, le Tableau 5.1. donne les diamètres observés de 10 arbres sélectionnés parprélèvement systématique d’un arbre sur 20 dans un peuplement contenant 195 arbres disposés par

Page 157: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 154 -

rangées de 15. Le premier élément sélectionné était le huitième arbre de l’un des cotés extérieurs dupeuplement, en partant d’un coin. Les autres arbres ont été sélectionnés systématiquement, enprenant chaque 20ème arbre, puis en passant à l’arbre le plus proche de la rangée suivante après ledernier arbre de chaque rangée.

Tableau 5.1. Diamètre des arbres observé sur un échantillon systématique de 10 arbres prélevésdans une parcelle.

Numéro del’arbre sélectionné

Diamètre à hauteurd’homme (en cm)

yi

Premièredifférence

d(yi)8 14.828 12.0 -2.848 13.6 +1.668 14.2 +0.688 11.8 -2.4108 14.1 +2.3128 11.6 -2.5148 9.0 -2.6168 10.1 +1.1188 9.5 -0.6

Le diamètre moyen est égal à

( ) 07.125.9.......0.128.14101ˆ =+++=Y

Les neuf premières différences s’obtiennent avec la formule indiquée dans la colonne (3) du Tableau5.1. La variance des écarts de la moyenne par unité est donc

1809.36

1092(-0.6)...(1.6)(-2.8)

)ˆ(ˆ222

=+++

=xx

YV

= 0.202167

L’un des inconvénients est qu’un échantillon systématique ne permet pas en lui-même d’obtenir uneévaluation valide de la précision des estimations. Pour en avoir, on peut avoir recours à deséchantillons partiellement systématiques. Il existe une méthode théoriquement valable qui fait appel auconcept d’échantillon systématique tout en aboutissant à des estimations non biaisées de l’erreurd’échantillonnage; celle-ci consiste à prélever au moins deux échantillons systématiques, avec despoints de départ aléatoires indépendants. Si 1y , 2y , …, my sont m estimations de la moyenne de lapopulation basées sur m échantillons systématiques indépendants, l’estimation combinée est

∑=

=m

iiy

my

1

1(5.19)

L’estimation de la variance de y est donnée par la relation

Page 158: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 155 -

( )∑=

−−

=m

ii yy

mmyV

1

2

)1(1

)(ˆ (5.20)

Remarquons que la précision augmente avec le nombre d’échantillons systématiques indépendants.

A titre d’exemple, prenons les données du Tableau 5.1, ainsi qu’un autre échantillon systématiquesélectionné avec des points de départ aléatoires indépendants. Dans le deuxième échantillon, lepremier élément sélectionné était le 10ème arbre. Les données concernant les deux échantillonsindépendants sont reportées dans le Tableau 5.2.

Tableau 5.2. Diamètre des arbres observé sur deux échantillons systématiquesindépendants de 10 arbres issus d’une parcelle.

Echantillon 1 Echantillon 2Numéro de

l’arbresélectionné

Diamètre àhauteur de poitrine

(en cm)yi

Numéro del’arbre

sélectionné

Diamètre àhauteur de poitrine

(en cm)yi

8 14.8 10 13.628 12.0 30 10.048 13.6 50 14.868 14.2 70 14.288 11.8 90 13.8108 14.1 110 14.5128 11.6 130 12.0148 9.0 150 10.0168 10.1 170 10.5188 9.5 190 8.5

Le diamètre moyen du premier échantillon, 07.121 =y . Le diamètre moyen du deuxièmeéchantillon, 19.122 =y . L’estimation combinée de la moyenne de la population (y ) se calcule àl’aide de l’équation (5.19),

( )19.1207.1221

+=y

= 12.13

L’estimation de la variance de y s’obtient à l’aide de l’équation (5.20).

( ) ( )22 13.1219.1213.1207.12)12(2

1)(ˆ −−

−=yV = 0.0036

0036.0)( =ySE = 0.06

Il existe une autre variante de l’échantillonnage systématique, dans le cas d’un échantillonnagesystématique dans deux directions. Par exemple, si, dans des plantations, on veut estimer le volumedu peuplement, on peut adopter un échantillon systématique de rangées et prendre, dans chaquerangée sélectionnée, des mesures sur le dixième arbre. Dans une enquête forestière, on peut prendre

Page 159: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 156 -

une série de bandes parallèles équidistantes s’étendant sur toute la largeur de la forêt, et, danschaque bande, on peut procéder à l’énumération en prélevant un échantillon systématique deparcelles ou d’arbres. Une autre méthode serait de former des grilles rectangulaires de (p x q)mètres et de sélectionner un échantillon systématique de lignes et de colonnes, avec une parcelled’une taille déterminée et de la forme prescrite à chaque intersection.

Dans le cas d’un échantillon systématique bidimensionnel, on peut obtenir les estimations et uneapproximation de l’erreur d’échantillonnage, grâce à une méthode basée sur la stratification. Celle-ciest similaire à la méthode d’échantillonnage stratifié décrite dans la section 5.4. Par exemple,l’échantillon peut être arbitrairement divisé en ensembles de 4 dans 2 x 2 unités, chaque ensembleétant considéré comme formant une strate. On suppose en outre que les observations faites àl’intérieur de chaque strate sont sélectionnées de manière indépendante et aléatoire. Pour ajuster lesbords, les strates qui se chevauchent seront prises en bordure de la zone forestière.

5.4. Echantillonnage stratifié

L’idée de base de l’échantillonnage aléatoire stratifié est de diviser une population hétérogène ensous-populations, habituellement appelées strates, constituées d’éléments homogènes; on pourraainsi obtenir une estimation précise d’une moyenne de strate quelconque à partir d’un petitéchantillon prélevé dans cette strate, ainsi qu’une estimation précise pour l’ensemble de lapopulation, en combinant ces estimations. L’échantillonnage stratifié donne une meilleure sectiontransversale de la population que la procédure d’échantillonnage aléatoire simple. Cette méthodepeut aussi simplifier l’organisation des activités en champ. La proximité géographique est parfoisl’élément de base de la stratification, car on part du principe que des zones contiguës sont souventplus semblables que des zones très éloignées. L’élément de base de la stratification peut aussi êtredicté par des considérations d’ordre administratif. Par exemple, le personnel déjà disponible danschaque brigade d’une division forestière peut être chargé de superviser l’enquête dans la zonerelevant de sa compétence. Ainsi, des régions géographiques compactes peuvent former les strates.Une méthode de stratification assez efficace consiste à effectuer une enquête préliminaire rapide de lazone ou à rassembler l’information déjà disponible et à stratifier la surface de forêt suivant les typesde forêts, la densité des peuplements, la qualité de la station etc... Si l’on sait que la caractéristique àl’étude est influencée par une variable supplémentaire au sujet de laquelle on dispose de donnéesréelles, ou au moins de bonnes estimations concernant les unités de la population, la stratificationpeut être faite en utilisant les informations sur cette variable supplémentaire. Par exemple, lapopulation peut être stratifiée sur la base des estimations de volume obtenues lors d’un inventaireantérieur de la superficie forestière.

Dans l’échantillonnage stratifié, la variance de l’estimateur ne comprend que la variation à l’intérieurdes strates. Ainsi, en général le degré de précision augmente avec le nombre de strates de lapopulation, car plus elles sont nombreuses, plus les unités qu’elles contiennent sont homogènes. Pourestimer la variance à l’intérieur des strates, chaque strate devrait avoir au minimum deux unités. Plusle nombre de strates est élevé, plus le coût de du recensement est élevé. Ainsi, le nombre de stratesdevra être déterminé, et la décision dépendra de considérations de commodité administrative, ducoût de l’enquête et de la variabilité de la caractéristique à l’étude dans la zone.

Page 160: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 157 -

5.4.1. Allocation et sélection de l’échantillon à l’intérieur des stratesSupposons que la population soit divisée en k strates de N1, N2 ,…, Nk unités respectivement, etqu’un échantillon de n unités doive être prélevé de la population. Pour l’allocation, le problème estde choisir les tailles d’échantillon dans les strates respectives, c’est-à-dire de déterminer le nombred’unités qui devraient être prélevées de chaque strate, pour que la taille de l’échantillon total soitégale à n.

Tous les choix étant équivalents, il est possible de prélever un plus grand échantillon d’une strate quia une variance plus grande, de sorte que la variance des estimations des moyennes des strates setrouve réduite. L’application du principe ci-dessus nécessite des estimations préalables de lavariation à l’intérieur de chaque strate. Celles-ci peuvent avoir été acquises lors d’une enquêteantérieure ou provenir d’enquêtes pilotes de nature restreinte. Ainsi, si ces informations sontdisponibles, la fraction sondée dans chaque strate peut être considérée comme proportionnelle àl’écart-type de chaque strate.

Si le coût par unité de l’enquête dans chaque strate est connu et varie d’une strate à l’autre, uneméthode d’allocation efficace, pour un coût minimum, consiste à prélever de grands échantillons dansla strate où l’échantillonnage coûte le moins cher et où la variabilité est la plus élevée. Pour appliquercette procédure, il faut des renseignements sur la variabilité et le coût des observations pour chaqueunité dans les différentes strates.

A défaut d’informations sur les variances relatives à l’intérieur des strates et sur le coût desopérations, la partie de l’échantillon attribuée aux différentes strates peut être proportionnelle aunombre d’unités qu’elles contiennent ou à la surface totale de chaque strate. Cette méthode esthabituellement appelée “répartition proportionnelle de l’échantillon”.

Pour la sélection des unités dans les strates, d’une manière générale, on peut adopter n’importequelle méthode basée sur une sélection probabiliste d’unités. Toutefois, la sélection doit êtreindépendante dans chaque strate. Si des échantillons aléatoires indépendants sont prélevés danschaque strate, la procédure d’échantillonnage prend le nom d’“échantillonnage aléatoire stratifié”.D’autres modes de sélection de l’échantillon, comme l’échantillonnage systématique, peuvent aussiêtre adoptés à l’intérieur des différentes strates.

5.4.2. Estimation de la moyenne et de la varianceNous supposerons que la population de N unités est d’abord divisée en k strates contenantrespectivement N1, N2,…,Nk unités. Ces strates ne se chevauchent pas et à elles toutes, elles formentl’ensemble de la population, de sorte que

N1 + N2 + ….. + Nk = N. (5.21)

Lorsque les strates ont été définies, un échantillon est prélevé dans chacune d’elles, la sélection sefaisant indépendamment dans chaque strate. Les tailles des échantillons à l’intérieur des strates sontrespectivement notées n1, n2, …, nk . On a donc,

n1 + n2 +…..+ n3 = n (5.22)

Page 161: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 158 -

Soit ytj (j = 1, 2,…., Nt ; t = 1, 2,..…k) la valeur de la caractéristique étudiée sur la j-ème unitédans la t-ième strate. Dans ce cas, la moyenne de la population dans la t-ième strate est donnée parla relation

) ..., ,2 ,1(1

1, kty

NY

tN

jtj

tt == ∑

=

(5.23)

La moyenne de l’ensemble de la population est donnée par

∑=

=k

tttN YNY

1

1 (5.24)

Dans ce cas, une estimation de la moyenne Y de la population sera donnée par la formule

N

yNY

k

ttt∑

== 1ˆ (5.25)

où ∑=

=tn

j t

tjt n

yy

1

(5.26)

L’estimation de la variance de Y est donnée par

t

ytk

tttt n

snNN

NYV

2)(

12 )(

1)ˆ(ˆ ∑

=

−= (5.27)

où ∑=

−=

tn

j t

ttjyt n

yys

1

22

)( 1

)((5.28)

Si elle est effectuée comme on l’a expliqué dans les sections précédentes, la stratification donneordinairement une variance plus faible pour le total ou la moyenne de la population estimée qu’unéchantillon aléatoire simple de la même taille. Toutefois, si l’échantillon stratifié est prélevé sans lesprécautions voulues, les résultats ne seront pas meilleurs qu’avec un échantillon aléatoire simple.

Nous allons maintenant illustrer par un exemple numérique les calculs de l’estimation du volumemoyen par hectare d’une espèce particulière et de son erreur-type, à partir d’un échantillon aléatoirestratifié de compartiments sélectionnés de manière indépendante, avec des probabilités égales danschaque strate.

Une étendue forestière, constituée de 69 compartiments a été divisée en trois strates contenantrespectivement les compartiments 1 à 29, 30 à 45 et 46 à 69; on a ensuite choisi au hasard 10, 5 et8 compartiments dans les trois strates. Les numéros de série des compartiments sélectionnés danschaque strate sont indiqués dans la colonne (4) du Tableau 5.3. Le volume observé correspondantde l’espèce particulière dans chaque compartiment sélectionné est donné, en m3/ha, dans la colonne(5).

Tableau 5.3. Illustration des paramètres d’estimation dans un système d’échantillonnage stratifié

Page 162: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 159 -

Numérode lastrate

Nombre totald’unités dansla strate (Nt)

Nombred’unitéssondées

(nt)

Numéro desunités

d’échantillonnage

sélectionnées

Volume(m3/ha)(

jty )( 2

jty )

(1) (2) (3) (4) (5) (6)

I

1182812201996177

5.404.874.613.264.964.734.392.344.742.85

29.1623.7221.2510.6324.6022.3719.275.4822.478.12

Total 29 10 .. 42.15 187.07

II

4342364539

4.794.574.894.423.44

22.9420.8823.9119.5411.83

Total 16 5 .. 22.11 99.10

III

5950495854695247

7.413.705.457.013.835.254.506.51

54.9113.6929.7049.1414.6727.5620.2542.38

Total 24 8 .. 43.66 252.30

*Etape 1. Calculer les quantités suivantesN = (29 + 16 + 24) = 69

n = (10 + 5 + 8) = 23

ty = 4.215, ty = 4.422,

ty = 5.458

Page 163: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 160 -

*Etape 2. Estimer la moyenne Y de la population à l’aide de l’équation (3)

70.469

979.32369

)458.524()422.416()215.429(ˆ

3

1 ==×+×+×

==∑

=

N

yNY t

tt

*Etape 3. Estimer la variance de Y à l’aide de l’équation (5)

( )t

yttt

tt n

snNN

NYV

2)(

3

12

1)ˆ(ˆ −= ∑

=

Dans cet exemple,

046.1941.9

910

)15.42(07.187

2

2)(1 ==

−=ys

333.0433.1

45

)11.22(10.99

2

2)(2 ==

−=ys

004.2703.14

78

)66.43(30.252

2

2)(3 ==

−=ys

×

×+

×

×+

×

×

= 004.2

81624

333.05

1116046.1

101929

691

)ˆ(ˆ2

YV

03477.04761

5482.165==

1865.003477.0)ˆ( ==YSE

Y

YSEYRSE

ˆ100)ˆ(

)ˆ(×

= (5.29)

%97.370.4

1001865.0=

×=

Ignorons à présent les strates et supposons que le même échantillon de taille n = 23 formait unéchantillon aléatoire simple prélevé dans la population de N = 69. L’estimation de la moyenne de lapopulation se réduira alors à

∑=

==++

==n

iin yy

1

1 69.423

92.10723

66.4311.2215.42

Page 164: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 161 -

L’estimation de la variance de la moyenne y est alors

2)(ˆ sNn

nNyV

−=

2223

)92.107(47.538

2

2−

=s

4586.122

09.32==

d’où

4586.12369

)2369()(ˆ ×

×−

=yV

04230.0699172.2

==

2057.004230.0)( ==ySE

%39.469.4

1002057.0)( =

×=yRSE

Le gain de précision due à la stratification se calcule comme suit

10003477.004230.0

100)ˆ(ˆ)ˆ(ˆ

×=×st

srs

YV

YV

= 121.8

Le gain de précision est donc de 21.8%.

5.5. Echantillonnage à plusieurs degrés

En vue de réduire les coûts et/ou de concentrer les opérations en champ autour de certains points et,dans le même temps, d’obtenir des estimations précises, l’échantillonnage se fait parfois en plusieursétapes. La procédure consistant à commencer par sélectionner des unités de grande taille puis àchoisir un nombre déterminé de sous-unités dans les grandes unités, est connue sous le nom de sous-échantillonnage. Les grandes unités prennent le nom d’“unités du premier degré” ou “d’unitésprimaires” alors que les sous-unités sont appelées “unités du deuxième degré” ou “unitéssecondaires”. La procédure peut aisément être généralisée aux échantillons à trois ou à plusieursdegrés. Par exemple, l’échantillonnage d’une étendue de forêt peut être effectué en trois étapes,premièrement en sélectionnant un échantillon de compartiments (unités du premier degré), puis unéchantillon de sections topographiques (unités du deuxième degré) dans chaque compartimentsélectionné, et enfin en prélevant, dans chaque section topographique sélectionnée, un certainnombre de parcelles-échantillons de taille et de forme déterminées (unités du troisième degré).

Page 165: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 162 -

Le système d’échantillonnage à plusieurs degrés a l’avantage de concentrer l’échantillon autour deplusieurs “points échantillons”, au lieu de le disperser sur l’ensemble de la surface considérée dansl’enquête. Ceci réduit considérablement le coût des opérations et contribue à réduire les erreurs nonliées à l’échantillonnage, grâce à une supervision efficace. De plus, dans les enquêtes forestières ilarrive souvent que l’on dispose d’informations détaillées pour des groupes d’unitésd’échantillonnage, mais par pour des unités individuelles. Par exemple, on peut avoir une liste decompartiments avec des détails sur la surface, alors que l’on n’a pas d’informations détaillées sur lessections topographiques dans chaque compartiment. C’est pourquoi, si les compartiments sontsélectionnés en tant qu’unités du premier degré, il peut être possible de collecter des donnéesdétaillées sur les sections topographiques, uniquement pour certains compartiments, et partant,d’utiliser un système d’échantillonnage à deux degrés sans tenter de dresser une carte des sectionstopographiques dans tous les compartiments. Le système d’échantillonnage à plusieurs degréspermet donc d’utiliser une base de sondage incomplète de toutes les unités d’échantillonnage etd’exploiter comme il convient et à bon escient les informations déjà disponibles, à chaque stade.

La sélection opérée à chaque stade peut être faite à l’aide d’une méthode d’échantillonnage aléatoiresimple ou de toute autre méthode d’échantillonnage probabiliste, et l’on peut employer une méthodedifférente à chaque stade. Par exemple, on peut choisir un échantillon aléatoire simple decompartiments et opter pour un sondage systématique de parcelles en ligne ou en bandes, avec uneorigine choisie au hasard dans les compartiments sélectionnés.

5.5.1. Echantillonnage aléatoire simple à deux degrésSi les deux étapes de la sélection se font par échantillonnage aléatoire simple, la méthode prend lenom d’échantillonnage aléatoire simple à deux degrés. Par exemple, pour estimer le poids de l’herbedans une superficie forestière, faite de 40 compartiments, les compartiments peuvent être considéréscomme des unités d’échantillonnage primaires. Sur ces 40 compartiments, n = 8 compartimentspeuvent être choisis au hasard au moyen d’une procédure d’échantillonnage aléatoire simple (voirSection 5.2.1). Un échantillon aléatoire de parcelles, égales en nombre ou non, peut être sélectionnédans chaque compartiment pour mesurer la quantité d’herbe, grâce à la procédure de sélection d’unéchantillon aléatoire simple. On peut ensuite calculer les estimations de la quantité moyenne ou totaled’herbe disponible dans la superficie forestière, à l’aide des formules appropriées.

5.5.2. Estimation des paramètres, dans le cadre d’une procédure d’échantillonnagealéatoire simple à deux degrésSoient une population constituée de N unités du premier degré et Mi le nombre d’unités du seconddegré dans la i-ème unité du premier degré. Supposons que n unités du premier degré soientsélectionnées et que, dans la i-ème unité du premier degré sélectionnée, on choisisse mi unités du

second degré pour former un échantillon de ∑=

=n

iimm

1

unités. Notons yij la valeur du caractère

pour la j-ème unité du second degré dans la i-ème unité du premier degré.

Page 166: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 163 -

Un estimateur non biaisé de la moyenne de la population

∑∑

=

=N

ii

N

i

M

jij

M

yY

i

1

s’obtient grâce à l’équation

(5.30).

∑ ∑= =

=n

i

m

jijm

Mi

i

i yMn

Y1 1

1ˆ (5.30)

où N

MM

N

ii∑

== 1 . (5.31)

L’estimation de la variance de Y est donnée par la relation

∑=

+

−=

n

iw

ii

ib i

sMmM

MnN

sNn

YV1

22

2 11111)ˆ(ˆ (5.32)

où ∑=

−=

n

ii

ib yy

MM

ns

1

22

11

(5.33)

∑=

−−

=i

i

m

jiij

iw yy

ms

1

22 )(1

1 (5.34)

Ici, on remarque que la variance de Y est composée de deux éléments. Le premier est une mesurede la variation entre les unités du premier degré et l’autre est une mesure de la variation à l’intérieurdes unités du premier degré. Si mi = Mi, la variance est donnée uniquement par le premier élément.Le second terme représente donc la contribution du sous-échantillonnage.

Nous allons illustrer par un exemple l’analyse d’un échantillon à deux degrés. Le Tableau 5.4 donnedes informations sur le poids de l’herbe (toutes espèces mélangées), en kilogrammes, dans desparcelles de 0,025 ha sélectionnées dans 8 compartiments qui ont été choisis au hasard parmi les 40compartiments d’une étendue forestière. La superficie totale de la forêt était de 1800 hectares.

Page 167: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 164 -

Tableau 5.4. Poids de l’herbe, en kg, dans des parcelles sélectionnées dans le cadre d’uneprocédure d’échantillonnage à deux degrés

Parcelle Numéro du compartiment TotalI II III IV V VI VII VIII

1 96 98 135 142 118 80 76 110

2 100 142 88 130 95 73 62 125

3 113 143 87 106 109 96 105 77

4 112 84 108 96 147 113 125 62

5 88 89 145 91 91 125 99 70

6 139 90 129 88 125 68 64 98

7 140 89 84 99 115 130 135 65

8 143 94 96 140 132 76 78 97

9 131 125 .. 98 148 84 .. 106

10 .. 116 .. .. .. 105 .. ..

Total 1062 1070 872 990 1080 950 744 810 7578mi 9 10 8 9 9 10 8 9 72

Moyenne)( iy

118 107 109 110 120 95 93 90 842

Mi 1760 1975 1615 1785 1775 2050 1680 1865 145052

iws 436.00 515.78 584.57 455.75 412.25 496.67 754.86 496.50 4152

i

w

m

si

2 48.44 51.578 73.07 50.63 45.80 49.667 94.35 55.167

*Etape 1. Estimer le poids moyen par parcelle de l’herbe, en kg, à l’aide de la formule de l’équation(5.30).

∑ ∑= =

=n

i

m

jijm

Mi

i

i yMn

Y1 1

)025.0

1800(

4011

1

== ∑=

N

iiM

NM

= 1800

∑ iM étant le nombre total d’unités du second degré, le poids moyen peut être obtenu en divisant

la superficie totale (1800 ha) par la taille d’une unité du second degré (0.025 ha).

La moyenne de la population, estimée au moyen de l’équation (5.30), est

∑ ∑= =

=n

i

m

jijm

Mi

i

i yMn

Y1 1

= ( )( )408

1523230 = 105.78

Page 168: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 165 -

−×++

−×+

−×

−=

2222 25.10590

18001865

...25.10510718001975

25.10511818001760

)18(1

bs

=140.36

La variance de Y peut être estimée par l’équation (5.32)

( )( )( )465.1024

4081

+ 140.3572401

81

)ˆ(ˆ

−=YV

=15.4892

15.4892)ˆ( =YSE = 3.9356

%72.378.105

100 3.9356 )ˆ( =

×=YRSE

5.6. Echantillonnage à plusieurs phases

L’échantillonnage à plusieurs phases joue un rôle crucial dans les enquêtes forestières, puisqu’il estutilisé aussi bien dans les inventaires forestiers continus que pour estimer le matériel sur pied, ouencore dans les enquêtes par télédétection. L’idée de base de ce mode d’échantillonnage estd’effectuer des sondages distincts, en plusieurs phases successives, commençant par un grandnombre d’unités d’échantillonnage lors de la première phase, et en ne mesurant qu’un sous-ensemblede ces unités durant chaque phase successive, de façon à estimer le paramètre visé avec plus deprécision et pour un coût relativement moindre, en étudiant la relation entre les caractères mesurésdurant différentes phases. Dans un souci de simplification, nous ne décrirons dans cette section quel’échantillonnage à deux phases, ou échantillonnage double.

Une technique d’échantillonnage qui ne comporte que deux phases (occasions) prend le nomd’échantillonnage à deux phases, ou d‘échantillonnage double. Elle est particulièrement utile dans lessituations où l’énumération du caractère étudié (caractère principal) coûte cher ou demandebeaucoup de main d’œuvre, alors qu’un caractère auxiliaire corrélé au caractère principal peutfacilement être observé. Dans ce cas, il est parfois plus facile et plus économique de prendre unéchantillon vaste pour analyser, dans le cadre d’une première phase, la variable auxiliaire. A l’issuede cette phase on obtiendra des estimations précises de la valeur totale ou de la moyenne de lapopulation de la variable auxiliaire. Dans la seconde phase, on choisit un petit échantillon,généralement un sous-échantillon, dans lequel il est possible d’observer à la fois le caractère principalet la variable auxiliaire. A l’aide des renseignements supplémentaires obtenus lors de la premièrephase, les estimations de régression ou par quotient permettent d’obtenir des estimations précisesconcernant le caractère principal. La précision des estimations finales peut être accrue en incluantplusieurs variables auxiliaires corrélées, au lieu d’une seule. Par exemple, pour estimer le volumed’un peuplement, les variables auxiliaires peuvent être le diamètre ou la circonférence des arbres etleur hauteur. Pour estimer le rendement en matières tannantes de l’écorce des arbres, on peut choisircomme variables auxiliaires certaines mesures physiques des arbres comme la circonférence, lahauteur, le nombre de pousses etc...

Page 169: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 166 -

Comme bien d’autres modes d’échantillonnage, l’échantillonnage double est une technique utile pourréduire le coût des énumérations et accroître la précision des estimations. Cette technique peut êtretrès avantageuse dans les enquêtes portant sur des superficies forestières. Elle permet par exemple,après une enquête préliminaire de la forêt en question, d’obtenir une estimation du matériel sur pied àune période ultérieure, par exemple à une distance de 10 à 15 ans, et de sa variation, sur la based’un échantillon relativement petit.

L’échantillonnage double est également utile pour stratifier une population. Un premier échantillonconcernant un caractère auxiliaire peut être utilisé pour subdiviser la population en strates danslesquelles le deuxième caractère (principal) varie peu. Si les deux caractères sont corrélés, on peutainsi obtenir des estimations précises du caractère principal, à partir d’un deuxième échantillonrelativement petit pour le caractère principal.

Il est possible de conjuguer le double échantillonnage avec d’autres méthodes, commel’échantillonnage à plusieurs degrés (sous-échantillonnage), qui sont économiques ou qui renforcentla précision des estimations. Par exemple, si l’on veut estimer les disponibilités de graminées, cannes,roseaux etc..., on peut prélever un double échantillon de compartiments (ou parcelles) et de sectionstopographiques (ou blocs) pour estimer la surface effective portant les espèces considérées, et unsous-échantillon des sections topographiques, des blocs ou des parcelles pour estimer le rendement.

5.6.1. Sélection des unités d’échantillonnageDans le cas le plus simple d’un échantillonnage à deux phases, on peut recourir à la techniqued’échantillonnage aléatoire simple dans les deux phases. Durant la première étape, la population estdivisée en unités d’échantillonnage bien définies et un échantillon est prélevé selon la procédured’échantillonnage aléatoire simple. Le caractère x est mesuré sur toutes les unités ainsi sélectionnées.Ensuite, on prend un sous-échantillon dans ces unités, sélectionnées à l’aide de la méthoded’échantillonnage aléatoire simple, et on mesure le caractère principal (y) sur ces unités. L’ensemblede la procédure peut également être exécuté en combinaison avec d’autres méthodes, comme lastratification ou l’échantillonnage à plusieurs phases.

5.6.2. Estimation des paramètresi) Estimation de régression dans le double échantillonnage:Supposons qu’un échantillon de n unités ait été prélevé au hasard, durant la phase initiale, dans lapopulation de N unités, pour observer la variable auxiliaire x, et que l’on prélève un sous-échantillonde taille m au sein duquel on observe à la fois x et le caractère principal.

Soient )(nx = moyenne de x dans le premier gros échantillon = ∑=

=n

i

in n

xx

1)( (5.35)

( )mx = moyenne de x dans le deuxième échantillon = ∑=

=m

i

im m

xx

1)( (5.36)

y = moyenne de y dans le deuxième échantillon = ∑=

=m

i

i

my

y1

(5.37)

On peut utiliser y pour estimer la moyenne de la population Y . Toutefois, avec les renseignementsprécédemment obtenus sur les unités sondées, on peut obtenir une estimation plus précise de Y en

Page 170: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 167 -

calculant la régression de y en x, et utilisant les informations supplémentaires fournies par le premieréchantillon. L’estimation de régression de Y est donnée par la formule

)( )()()( mndrg xxbyy −+= (5.38)

où le suffixe (drg) dénote l’estimation de régression obtenue grâce au double échantillonnage, et best le coefficient de régression de y en x, calculé à partir des unités contenues dans le deuxièmeéchantillon de taille m. Ainsi,

( )( )

( )∑

=

=

−−=

m

imi

m

iimi

xx

yyxxb

1

2)(

1)(

(5.39)

La valeur approximative de la variance de l’estimation est donnée par

n

ss

m

syV yxyxy

drg

22.

2.

)()(−

+= (5.40)

−−−

−= ∑ ∑

= =

m

i

m

imiixy xxbyy

ms

1 1

2)(

222. )()(

21

(5.41)

∑= −

−=

m

i

iy m

yys

1

22

1)(

(5.42)

ii) Estimation par quotient dans l’échantillonnage double :L’estimation par quotient s’applique principalement lorsque l’ordonnée à l’origine de la droite derégression de y en x est nulle. L’estimation par le quotient de la moyenne de la population Y estdonnée par la formule

)()(

)( nm

dra xx

yy = (5.43)

où dray est l’estimation par quotient, dans l’échantillonnage double. La variance de l’estimation estapproximativement donnée par

n

sRsR

m

sRsRsyV xyxxyxy

dra

22222 ˆˆ2ˆˆ2)(

−+

+−= (5.44)

( )

11

2

2

−=

∑=

m

yys

m

ii

y (5.45)

( )( )1

1)(

−−=

∑=

m

xxyys

m

imii

yx (5.46)

( )

11

2

2

−=

∑−

m

xxs

m

imi

x (5.47)

Page 171: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 168 -

)(

ˆmxy

R = (5.48)

Nous allons illustrer par un exemple une analyse de données issues d’un échantillonnage double,avec estimation de régression et estimation par quotient. Le Tableau 5.5 donne des renseignementssur le nombre de cépées et le poids d’herbe correspondant sur des parcelles de 0,025 ha, observéssur un sous-échantillon prélevé au hasard parmi 40 parcelles tirées d’un échantillon préliminaire de200 parcelles, dans lesquelles seul était compté le nombre de cépées.

Tableau 5.5. Nombre de cépées et poids d’herbe observés sur des parcelles sélectionnéesdans le cadre d’une procédure d’échantillonnage à deux phases

Numérode série

Nombre decépées

(x)

Poids enkgs(y)

Numérode série

Nombre decépées

(x)

Poids enkgs(y)

1 459 68 21 245 252 388 65 22 185 503 314 44 23 59 164 35 15 24 114 225 120 34 25 354 596 136 30 26 476 637 367 54 27 818 928 568 69 28 709 649 764 72 29 526 7210 607 65 30 329 4611 886 95 31 169 3312 507 60 32 648 7413 417 72 33 446 6114 389 60 34 86 3215 258 50 35 191 3516 214 30 36 342 4017 674 70 37 227 4018 395 57 38 462 6619 260 45 39 592 6820 281 36 40 402 55

Ici, n = 200, m = 40. Le nombre moyen de cépées par parcelle, observé sur l’échantillonpréliminaire de 200 parcelles était )(nx = 374.4.

∑=

=40

1

15419i

ix , ∑=

=40

1

2104i

iy ,

∑=

=40

1

2 7744481i

ix , ∑=

=40

1

2 125346i

iy , ∑=

=40

1

960320i

ii yx

Page 172: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 169 -

∑ ∑∑

=

−=−40

1

40

1

240

122)( 40)(

i

i

imi

xxxx

( )1800842

4015419

77444812

=−=

( )∑ ∑∑

=

=

−=−40

1

40

1

240

122

40i

ii

ii

yyyy = 6.14675

40)2104(

1253462

=−

( )( ) ∑∑ ∑

∑ −=−−40

1

40

1

40

140

1)( 40

ii

iiimi

yxyxyyxx = 6.149280

40210415419

960320 =×

Le nombre moyen de cépées par parcelle du sous-échantillon de 40 parcelles est

5.38540

15419)( ==mx

Poids moyen des cépées par parcelle dans le sous-échantillon de 40 parcelles

6.5240

2104==y

L’estimation de régression du poids moyen d’herbe par parcelle (en kg) s’obtient avec l’équation(5.38), où le coefficient de régression b calculé à l’aide de l’équation (5.39) est

b 08.01800842

6.149280==

D’où, )5.3854.374(08.06.52)( −+=drgy

= 52.6 - 0.89 = 51.7 kg /plot

( ) ( )[ ]180084208.06.14675240

1 22. −

−=xys

= 82.9

396.146752 =ys

=376.297

La variance approximative de l’estimation est donnée par l’équation (5.40)

200297.3769.82

409.82

)( )(−

+=drgyV (5.40)

= 3.5395

Page 173: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 170 -

L’estimation par quotient du poids moyen d’herbe par parcelle (en kg) est donnée par l’équation(5.43)

( )4.3745.385

6.52)( =dray

= 51.085

1406.149280

−=yxs

= 3827.708

14018008422

−=xs

= 46175.436

5.3856.52ˆ =R

= 0.1364

La variance approximative de l’estimation est donnée par l’équation (5.44)( )( ) ( ) ( )

( )( )( ) ( ) ( )200

436.461751364.0708.38271364.02+

40436.461751364.0708.38271364.02297.376

)(

2

2

+−=drayV

= 5.67

5.7. Echantillonnage avec probabilité proportionnelle à la taille (échantillonnage PPT)

Souvent, les unités d’échantillonnage ont une taille très variable, de sorte qu’un échantillonnagealéatoire simple n’est pas toujours efficace, car il ne tient pas compte de l’importance que peuventavoir les unités plus grandes de la population. Dans ces situations, on a constaté que lesrenseignements supplémentaires sur la taille des unités peuvent être mis à profit pour sélectionnerl’échantillon de façon à obtenir un estimateur plus précis des paramètres de la population. Uneméthode consiste à assigner des probabilités de sélection inégales aux différentes unités de lapopulation. Par exemple, les villages couvrant une zone géographique plus grande ont des chancesd’avoir une plus grande superficie sous cultures vivrières. Pour estimer la production, il est doncsouhaitable d’adopter un système d’échantillonnage dans lequel la probabilité de sélection desvillages est proportionnelle à la zone géographique. Si les unités ont une taille variable et si la variableconsidérée est directement liée à la taille de l’unité, les probabilités peuvent être assignéesproportionnellement à la taille de l’unité. Ce type d’échantillonnage avec probabilité de sélectionproportionnelle à la taille de l’unité est appelé “échantillonnage PPT”. Lors de la sélection des unitéssuccessives de la population, les unités antérieurement sélectionnées peuvent éventuellement êtreremises dans la population. Dans les paragraphes qui suivent, nous aborderons uniquementl’échantillonnage PPT avec remise des unités d’échantillonnage, car c’est le plus simple des deuxsystèmes.

Page 174: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 171 -

5.7.1. Méthode de sélection d’un échantillon PPT avec remiseLa procédure de sélection de l’échantillon consiste à associer à chaque unité un ou des nombre(s)égaux à sa taille et à sélectionner l’unité correspondant à un nombre choisi au hasard dans l’ensemblede nombres associés aux unités. Il existe deux méthodes de sélection que nous allons décrire:

(i) Méthode des totaux cumulés: Supposons que la taille de la i-ème unité soit x i, (i = 1, 2, …,N). On associe à la première unité les nombres allant de 1 à x i, à la seconde unité les nombres de(x1+1) à (x1+x2), et ainsi de suite, de manière à ce que le total des nombres ainsi associés soit égal àX = x1 + x2 + … + xN. Ensuite, on choisit au hasard un nombre aléatoire de 1 à X et on sélectionnel’unité associée à ce nombre.

Par exemple, un village a 8 vergers contenant respectivement 50, 30, 25, 40, 26, 44, 20 et 35arbres. Un échantillon de 3 vergers doit être sélectionné avec remise et avec probabilitéproportionnelle au nombre d’arbres dans les vergers. La table des totaux cumulés se présenteracomme suit:

Numéro de série duverger

Taille(x i)

Taille cumulée Nombres associés

1 50 50 1 - 502 30 80 51 - 803 25 105 81 -1054 40 145 106 -1455 26 171 146 - 1716 44 215 172 - 2157 20 235 216 - 2358 35 270 236 - 270

Enfin, on choisit trois nombres aléatoires entre 1 et 270: ces nombres sont 200, 116 et 47. Lesunités associées à ces nombres sont la 6ème, la 4ème, et la 1ère. L’échantillon ainsi sélectionné contientdonc les unités portant les numéros de série 1, 4 et 6.

ii) Méthode de Lahiri: Comme on l’a vu, avec la méthode des totaux cumulés, il faut reporter lestotaux cumulés successifs, ce qui est à la fois long et fastidieux, en particulier si les populations sontimportantes. En 1951, Lahiri a proposé une autre procédure qui évite cette opération. La méthodede Lahiri consiste à sélectionner un couple (i,j) de nombres aléatoires, où 1 ≤ i ≤ N et 1≤ j ≤ M; lalettre M désignant le maximum des tailles des N unités de la population. Si j ≤ Xi, on sélectionne lai-ème unité. Dans le cas contraire, la paire de nombres aléatoires est rejetée et on choisit une autrepaire. Pour sélectionner un échantillon de n unités, la procédure doit être répétée jusqu’à ce que lesn unités soient choisies. Cette procédure permet de déterminer les probabilités de sélection requises.

Par exemple, pour sélectionner, par la méthode de Lahiri de sélection d’un PPT avec remise, unéchantillon de 3 vergers dans la population de l’exemple précèdent (N = 8, M = 50 et n = 3), onsélectionne trois paires de nombres aléatoires, dont le premier élément est inférieur ou égal à 8 et lesecond inférieur ou égal à 50. Les trois paires sélectionnées dams la table des nombres aléatoiressont (2, 23) (7,8) et (3, 30). Etant donné que, dans la troisième paire, j >Xi, une nouvelle paire doitêtre sélectionnée. Celle-ci est (2, 18). L’échantillon sélectionné selon cette procédure est donc

Page 175: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 172 -

constitué des unités portant les numéros de série 2, 7 et 2. Comme l’unité 2 revient deux fois dansl’échantillon, la taille de l’échantillon est 2, dans ce cas. Pour obtenir une taille de l’échantillon detrois, on peut répéter la procédure d’échantillonnage pour obtenir une nouvelle unité (distincte).

5.7.2. Procédure d’estimationSupposons qu’un échantillon de n unités soit tiré d’une population de N unités, par la techniqued’échantillonnage PPT avec remise. De plus, désignons par (yi, pi) la valeur et la probabilité desélection de la i-ème unité de l’échantillon, i = 1, 2, 3, …., n.

On obtient un estimateur non biaisé de la moyenne de la population par la formule

∑=

=n

i i

i

py

nNY

1

1ˆ (5.49)

Un estimateur de la variance de cet estimateur est donné par

( )

= ∑=

N

i i

i Ynpy

NnnYV

1

2

2

_1(1ˆˆ (5.50)

où Xx

p ii = , YNY ˆˆ =

Nous allons illustrer ceci par un exemple. Un échantillon aléatoire de 23 unités sur 69 a étésélectionné avec probabilité proportionnelle à la taille de l’unité (compartiment) dans une superficieforestière dans UP. La surface totale des 69 unités était de 14079 ha. Les volumes de boisdéterminés pour chaque compartiment sélectionné sont données dans le Tableau 5.6, avec lasuperficie du compartiment.

Page 176: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Techniques d’échantillonage

- 173 -

Tableau 5. 6. Volume de bois et taille de l’unité d’échantillonnage pour un échantillon PPT decompartiments forestiers.

No.de

série

Taille, enha(x i)

Taillerelative(x i/X)

Volume en m3

(yi) ii

i vpy

= (v i)2

1 135 0.0096 608 63407.644 4020529373.9932 368 0.0261 3263 124836.351 15584114417.0143 374 0.0266 877 33014.126 1089932493.6524 303 0.0215 1824 84752.792 7183035765.2215 198 0.0141 819 58235.864 3391415813.4736 152 0.0108 495 45849.375 2102165187.8917 264 0.0188 1249 66608.602 4436705896.7268 235 0.0167 1093 65482.328 4287935235.7169 467 0.0332 1432 43171.580 1863785345.58110 458 0.0325 3045 93603.832 8761677342.19411 144 0.0102 410 40086.042 1606890736.50212 210 0.0149 1460 97882.571 9580997789.46913 467 0.0332 1432 43171.580 1863785345.58114 458 0.0325 3045 93603.832 8761677342.19415 184 0.0131 1003 76745.853 5889925992.73916 174 0.0124 834 67482.103 4553834285.80417 184 0.0131 1003 76745.853 5889925992.73918 285 0.0202 2852 140888.800 19849653965.44019 621 0.0441 4528 102656.541 10538365422.97920 111 0.0079 632 80161.514 6425868248.77721 374 0.0266 877 33014.126 1089932493.65222 64 0.0045 589 129570.797 16788591402.82323 516 0.0367 1553 42373.424 1795507096.959

1703345.530 147356252987.120

Superficie totale X = 14079 ha.

On obtient un estimateur non biaisé de la moyenne de la population par l’équation (5.49).

( )( )( )01703345.53

69231ˆ =Y

= 1073.312

Et une estimation de la variance de Y à l’aide de l’équation (5.50).

( )( )

( )( )( )67618.63223-87.120147356252969)123(23

1ˆˆ2−

=YV

= 17514.6

Et l’erreur-type de Y est 17514.6 = 132.343.

Page 177: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

- 174 -

6. CAS PARTICULIERS

En recherche forestière, un certain nombre de cas sont étudiés à l’aide d’applications statistiquesautres que les plans ou techniques classiques d’analyse ou d’échantillonnage. Ces méthodesparticulières sont entièrement subordonnées aux concepts afférents aux disciplines considérées desorte que, pour bien comprendre toutes leurs implications, il est indispensable d’avoir une bonnemaîtrise des statistiques et des disciplines en jeu. Quelques-uns de ces cas particuliers serontbrièvement examinés dans ce chapitre. On notera que chacun des cas décrits ci-dessous a été assezlargement développés et que cette section ne représente qu’un ensemble de base. Nous invitons noslecteurs à se reporter, le cas échéant, à d’autres ouvrages, pour mieux comprendre les variationspossibles, aussi bien dans la structure des données que dans la forme d’analyse.

6.1. La génétique et l’amélioration des plantes

6.1.1. Estimation de l’héritabilité et du gain génétiqueLes variations observées dans un groupe d’individus comprennent une part de variation génétique,ou héréditaire, et une part de variation non héréditaire. La fraction héréditaire de la variation totaleest appelée coefficient d’héritabilité au sens large. La variance génotypique peut elle-même êtresubdivisée en variance génétique additive et non additive. Le rapport de la variance génétiqueadditive à la variance phénotypique totale est appelé coefficient d’héritabilité au sens strict et estdésigné par h2. On a donc,

entalenvironnem varianceaditivenon génétique varianceadditive génétique varianceadditive génétique variance

h 2

++=

Le gain génétique ou amélioration génétique par génération peut être défini comme l’augmentation dela productivité dérivant d’un changement de la fréquence génique dû le plus souvent à la sélection.

L’héritabilité et le gain génétique peuvent être évalués par deux méthodes, au choix. L’estimation laplus directe est dérivée de la relation entre les parents et leur descendance, et s’obtient en mesurantles parents, en cultivant leurs descendants et en les mesurant. L’autre méthode consiste à examiner ladescendance de familles pleinement ou à demi apparentées, de faire une analyse de la variance et decalculer l’héritabilité comme fonction des variances. Dans ce contexte, il est indispensable deposséder une connaissance approfondie des statistiques pour comprendre la partie théorique. Lesformules que l’on trouvera plus loin dans cette section ne sont données qu’à titre de référence. Deplus, nous avons volontairement renoncé à couvrir les multiples variations qui pourraient résulterd’irrégularités dans le plan. Nous illustrerons ce qui précède à l’aide d’un testage de la descendancede familles à demi apparentées, qui est le plus utilisé dans le secteur forestier en raison de sasimplicité.

Les estimations de l’héritabilité et du gain génétique s’appliquent exclusivement aux expériences àpartir desquelles elles ont été obtenues. Il suffit parfois d’en modifier un léger détail pour obtenir desrésultats tout à fait différents. Il est donc recommandé, lorsque l’on décrit les expériences,d’accompagner le plan expérimental et les procédures de calcul des détails et des explications

Page 178: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 175 -

voulus. Il est bon également d’établir la fiabilité statistique de chaque estimation de l’héritabilité, c’estpourquoi les formules permettant de la calculer figurent aussi dans cette section. Pour en savoir plus,le lecteur pourra se référer à Falconer (1960), Jain (1982) et Namkoong et al. (1966).

Nous illustrerons ces techniques à l’aide des données du Tableau 6.1, obtenues à l’issue d’un essaisur la descendance de bambous conduit à Vellanikkara et Nilambur, dans le Kerala ; le testageportait sur 6 familles, et a été répété 3 fois pour chaque station, sur des parcelles de 6 arbreschacune. Les données du Tableau 6.1 faisaient partie d’un plus grand ensemble.

Tableau 6.1. Données sur la hauteur issues d’un test sur la descendance de bambous, avecrépétitions, conduit sur deux stations, dans le Kerala.

Hauteur (en cm) deux ans après la plantation

Site I - Vellanikkara Site II – Nilambur

Famille Famille

Bloc Arbre 1 2 3 4 5 6 1 2 3 4 5 6

1 1 142 104 152 111 23 153 24 18 18 31 95 57

2 95 77 98 29 48 51 58 50 24 26 42 94

3 138 129 85 64 88 181 32 82 38 30 43 77

4 53 126 118 52 27 212 27 23 65 86 76 39

5 95 68 25 19 26 161 60 56 46 20 41 82

6 128 48 51 25 26 210 75 61 104 28 49 29

2 1 185 129 78 28 35 140 87 26 78 25 29 54

2 117 131 161 26 21 79 102 103 57 37 72 56

3 135 135 121 25 14 158 74 55 60 52 83 29

4 155 88 124 76 34 93 102 43 26 139 40 67

5 152 75 118 43 49 151 20 100 59 49 24 42

6 111 41 61 86 31 171 80 98 70 97 54 47

3 1 134 53 145 53 72 109 54 58 87 17 25 38

2 35 82 86 32 113 50 92 47 93 23 30 38

3 128 71 141 24 37 64 89 33 70 29 26 36

4 89 43 156 182 19 82 144 108 47 30 36 72

5 99 71 121 22 24 77 100 70 26 87 24 106

6 29 26 55 52 20 123 92 46 40 31 37 61

Pour estimer l’héritabilité et le gain génétique, sur la base d’un examen de la descendance de famillesà demi apparentées, on procède en plusieurs étapes:

Page 179: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 176 -

*Etape 1. Etablir un test de la descendance répété portant sur la descendance obtenue parpollinisation libre de f familles, répétée b (pour bloc) fois sur chacune des s stations, sur desparcelles de n arbres. Mesurer un caractère, comme la hauteur, et calculer l’analyse de lavariance comme indiqué dans le Tableau 6.2. La descendance d’une plante femellequelconque constitue une famille.

Tableau 6.2. Représentation schématique de l’analyse de la variance relative à un test de ladescendance de familles à demi-apparentées pratiqué sur plusieurs plantations.

Source de variation Degré de liberté(df)

Somme descarrés(SS)

Carré moyen

=

dfSS

MS

Station s - 1 SSS MSSBloc dans la station s (b - 1) SSB MSB

Famille f - 1 SSF MSFFamille x Site (f - 1)(s - 1) SSFS MSFSFamille x Blocdans la station

s(f - 1) (b - 1) SSFB MSFB

Arbre dans laparcelle

bsf (n - 1) SSR MSR

Les formules permettant de calculer les différentes sommes des carrés de la table d’analyse de lavariance sont données plus loin, de même que la formule du facteur de correction (C.F.). Soit yijkl

l’observation correspondant au l-ème arbre appartenant à la k-ème famille du j-ème bloc dans la i-ème station. Soit G le total général, Si le total de la i-ème station, Fk le total de la k-ème famille,(SB)ij le total du j-ème bloc dans la i-ème station, (SF)ik le total de la k-ème famille dans la i-èmestation, (SBF)ijk le total de la k-ème famille dans le j-ème bloc de la i-ème station.

C F = sbfnG2

(6.1)

=6)(2)(3)(6)(

15418.002

=1100531.13

SSTO = .F.Cs

1i

b

1j 1 1

−∑∑∑∑= = =

f

k

n

=l

2ijkly (6.2)

= (142)2+(95)2+…….+(61)2 - 1100531.13

= 408024.87

C.F.bfn

Ss

i

2i

−=∑

=1SSS (6.3)

Page 180: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 177 -

=(3)(6)(6)

6084.00)((9334.00) 22 +-1100531.13

= 48900.46

SSS-F. C.fn

(SB)b

j

2ij

−=∑∑

= =

s

1i 1SSB (6.4)

= (6)(6)

)(2042.00+......+(3377.00)+(3238.00) 222

-1100531.13 - 48900.46

= 9258.13

C.F.sbn

Ff

k

2k

−=∑

=1SSF (6.5)

= (2)(3)(6)

(3289.00)+.....+(2574.00)+(3332.00) 222

- 1100531.13

= 80533.37

SSF-SSS-F. C.bn

(SF)b

j

2ik

−=∑∑

= =

s

1i 1SSFS (6.6)

= (3)(6)

0)...(1024.0+(1497.00)+(2020.00) 222

- 1100531.13 - 48900.46 - 80533.37

= 35349.37

SSFS-SSF-SSB-SSS-F. C.n

(SBF)f

k

2ijk

−=∑∑∑

= = =

s

1i

b

1j 1SSFB (6.7)

= (6)

351.00)(....(552.00)+(651.00) 222 ++- 1100531.13 - 48900.46 -

9258.13 - 80533.37 - 35349.37 = 45183.87

SSFB-SSFS-SSF-SSB-SSSSSTOSSR −= (6.8) = 408024.87 - 48900.46 - 9258.13 - 80533.37 -35349.37 - 45183.87 = 188799.67

Les carrés moyens se calculent de la manière habituelle en divisant les sommes des carrés par leursdegrés de liberté. Les résultats qui précèdent peuvent être mis en tableau (voir Tableau 6.3).

Page 181: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 178 -

Tableau 6.3. Table d’analyse de la variance pour un testage de la descendance de familles àdemi-apparentées, pratiqué sur plusieurs plantations, à partir des données du Tableau 6.1.

Source de variation Degré de liberté(df)

Sommes descarrés(SS)

Carré moyen

=

dfSS

MS

Station 1 48900.46 48900.46Bloc-dans la

station4 9258.13 2314.53

Famille 5 80533.37 16106.67Famille x station 5 35349.37 7069.87Famille x Bloc-dans la station

20 45183.87 2259.19

Arbre- dans laparcelle

180 188799.67 1048.89

En général, dans les études statistiques, on divise de plusieurs manières les carrés moyens les uns parles autres pour obtenir des valeurs de F qui servent ensuite à tester la signification. Toutefois, commeles carrés moyens sont par nature complexes, puisqu’ils contiennent généralement des variabilitésdues à plusieurs facteurs, on les fractionne en composantes de la variance selon les équivalentsprésentés dans le Tableau 6.4.

Tableau 6.4. Composantes de la variance des carrés moyens pour un test de la descendance defamilles à demi-apparentées, pratiqué dans plusieurs plantations.

Source de variation Composantes de la variance des carrés moyensStation Ve + n Vfb + n b Vfs + nf Vb + nfb Vs

Bloc-dans la station Ve + n Vfb + nf Vb

Famille Ve + n Vfb + n b Vfs + nbs Vf

Famille x Station Ve + n Vfb + nb Vfs

Famille x Bloc-dans la station

Ve + n Vfb

Arbre- dans la parcelle Ve

Dans le Tableau 6.4, Ve , Vfb , Vfs , Vf , Vb , et Vs sont les variances dues respectivement à l’arbredans la parcelle, à la famille x bloc dans la station, à la famille, au bloc dans la station, et à la station.

*Etape 2. Une fois les carrés moyens calculés, identifier chacun d’entre eux à sa composante de lavariance, comme dans le Tableau 6.4. Commencer par le bas du tableau de manière àcalculer les variances suivantes par un processus de soustraction et division. Pour ce faire,soustraire le carré moyen dans la parcelle (Ve) du carré moyen famille x bloc (Ve + nsVfb)pour obtenir nsVfb ; diviser ensuite par ns pour obtenir Vfb. Procéder de la même manièrejusqu’au haut du tableau.

*Etape 3. Après avoir calculé les variances, évaluer l’héritabilité des moyennes des familles à demi-apparentées.

Page 182: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 179 -

Héritabilité de la Famille

ffsfbe

f

Vs

VbsV

nbsV

V

+++= (6.9)

1600.0

02.251)2(26.267

)2)(3(72.201

)2)(3)(6(89.1048

02.251

=

+++=

En général, la sélection se fait sur la base des moyennes familiales, plus fiables que les moyennes parparcelle ou par arbre.

*Etape 4. Si la sélection est basée sur les performances d’arbres individuels, on calcule l’héritabilitéindividuelle. Dans un test de la descendance de familles à demi-apparentées, les différencesentre familles représentent un quart seulement de la variance génétique additive ; le restereprésente les variations au sein des familles. On multiplie donc Vf par 4 lorsque l’on calculel’héritabilité individuelle. En outre, comme la sélection est basée sur des arbres individuels,toutes les variances sont insérées en totalité dans le dénominateur. La formule donnantl’héritabilité individuelle est donc,

Héritabilité individuelle ffsfbe

f

VVVVV4

+++= (6.10)

5676.0

02.25126.26772.20189.1048)02.251)(4(

=+++

=

Si les familles ne sont testées que dans une seule plantation, les procédures de test et de calcul sonttrès simplifiées. Au total, les degrés de liberté sont nfb -1; les carrés moyens et les variances de lastation et de la famille x station sont éliminés du Tableau 6.2. Les familles ne sont mesurées que surune station, alors qu’elles pourraient avoir une croissance très différente ailleurs. La valeur calculéede Vf est en réalité une combinaison de Vf et Vfs. L’héritabilité calculée à partir des donnéesprovenant d’une seule plantation est donc surévaluée.

L’enregistrement et l’analyse de données concernant un arbre individuel sont les phases les pluslaborieuses, puisqu’elles absorbent souvent 75% des efforts de mesure et de calcul. Si les donnéessont analysées en termes de moyenne par parcelles plutôt que de moyennes par arbre, lesestimations de Vfb, Vfs, et Vf ne varient pas, mais Ve ne peut pas être déterminé. Le terme (Ve/nbs)est souvent si petit qu’il est sans incidence sur l’estimation de l’héritabilité familiale. L’héritabilitéindividuelle est en revanche légèrement surévaluée si l’on omet Ve. On gagnera du temps en neprenant en considération que les moyennes familiales sur des stations différentes, c’est à dire encalculant seulement Vfs et Vf . Normalement, l’élimination du terme Vfb/bs entraîne une légèresurestimation de l’héritabilité familiale, alors que la suppression du terme Vfb peut être à l’origined’une surévaluation plus importante de l’héritabilité individuelle.

*Etape 5. Calculer l’erreur type de l’estimation de l’héritabilité individuelle grâce à l’expression,

Page 183: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 180 -

( )[ ]( )( )( )[ ]2

1

22

2

1f1nbs2nbs

4h)1nbs(14

h1)h(SE

−−

−+−= (6.11)

( )[ ]( )( )

1611)2)(3)(6(2)2)(3)(6(

45676.0)1)2)(3)(6((14

5676.01

21

−−

−+−=

= 0.0036

L’erreur type de l’héritabilité familiale est approximativement donnée par,

)h(SE 2

( )( )( )( )[ ]2

121fnbs

nbst1t1

+−≅ (6.12)

( ) ( )( )( )( )[ ]2

1216)2)(3)(6(

)1419.0(2)3)(6(11419.01

+−≅

5525.0≅

où t est la corrélation au sein d’une classe (ou corrélation intraclasse), égale à un quart del’héritabilité individuelle.

Les formules précédentes sont correctes si Ve = Vfb = Vfs. Toutefois, si l’une de ces quantités estnettement supérieure aux autres, le terme nbs sera réduit en conséquence. Par exemple, si, Vfs estnettement supérieur à Vfb ou Ve , on peut remplacer nbs par s.

L’estimation de l’héritabilité familiale calculée plus haut s’applique exclusivement dans le cas où lesfamilles sélectionnées sont celles qui ont les meilleures performances globales dans toutes lesplantations. Il arrive qu’un sélectionneur choisisse des familles qui ne sont supérieures que dans uneseule plantation. Dans ce cas, l’héritabilité familiale se calcule comme précédemment, mais enremplaçant Vfs par Vfs/s au dénominateur.

Si un sélectionneur se base sur les moyennes de parcelles, seule l’héritabilité familiale est calculéeselon la formule ci-dessus, à la différence près que Vfs et Vfb sont respectivement remplacés par Vfs

/s et Vfb /bs au dénominateur.

*Etape 6. Pour calculer le gain génétique à partir d’un test de la descendance de familles à demiapparentées, on utilise la formule permettant d’obtenir l’amélioration génétique dérivantd’une sélection familiale.Gain Génétique = Différentiel de sélection x Héritabilité familiale (6.13)

où Différentiel de sélection = (Moyenne des familles sélectionnées – moyenne de toutes les familles)

Page 184: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 181 -

Pour calculer le gain attendu d’une sélection de masse dans un tel test de la descendance, on utilise laformule,

Gain attendu de la sélection de masse = Différentiel de sélection x héritabilité individuelle(6.14)

où Différentiel de sélection = (Moyenne des arbres sélectionnés – Moyenne de tous les arbres)

6.1.2. Interaction génotype - environnementLe phénotype d’un individu est la résultante de son génotype et du milieu dans lequel il se développe.Les effets d’un génotype et de l’environnement ne sont pas toujours indépendants. Une différenceparticulière dans l’environnement peut avoir plus d’effet sur certains génotypes que sur d’autres, et leclassement des génotypes peut varier s’ils sont mesurés dans des environnements différents. Ce jeuréciproque d’effets génétiques et non génétiques sur l’expression phénotypique est appelé interactiongénotype - environnement. Lorsqu’un génotype réagit différemment à une série d’environnements,cela signifie que cette interaction existe.

L’environnement d’un individu est fait de tout ce qui a une influence sur son développement, àl’exception de son génotype. On peut donc dire que l’environnement est la somme de tous lesfacteurs non-génétiques externes à l’organisme. Comstock et Moll (1963) font une distinction entrele micro et le macro-environnement. Le micro-environnement est celui d’un seul organisme, àl’exclusion de tout autre qui se développerait en même temps et pratiquement au même endroit. Plusspécifiquement, les différences micro-environnementales sont des fluctuations de l’environnement quise produisent même lorsque des individus sont apparemment soumis à des traitements identiques. Enrevanche, le terme macro-environnement désigne l’ensemble des environnements, potentiels oueffectifs, dans une zone et une période de temps déterminées. Un macro-environnement est donc enquelque sorte l’ensemble des micro-environnements qu’il pourrait contenir. Les différences destations, de climat et même de pratiques de gestion sont des exemples de différences macro-environnementales. On notera que l’effet d’un micro-environnement sur un organisme, et sesinteractions avec différents génotypes sont habituellement très faibles. De plus, étant donné qu’unmicro-environnement est par nature incontrôlable et imprévisible, ses interactions avec les génotypessont difficilement discernables. En d’autres termes, seule la déviation macro-environnementale etson interaction avec un génotype peuvent être isolées et soumises à un test de signification.

L’une des méthodes employées pour détecter une interaction génotype-environnement consiste àanalyser les données provenant d’un essai multi-stations, comme dans le Tableau 6.2, et à tester lasignification du terme d’interaction Famille x Station. On compare la valeur calculée de F à sa valeurtabulaire dans le cas de (f-1)(s-1) et s(f-1)(b-1) degrés de liberté (Voir Tableau 6.5).

Si l’interaction n’est pas significative ou ne comporte pas de différences notables de classement entreles meilleures familles ou clones, celles-ci peuvent être ignorées et les sélections seront faites sur labase de la performance moyenne du génotype, sur toutes les stations examinées. En revanche, si lesinteractions sont importantes et peuvent être assez bien interprétées pour pouvoir déterminer àl’avance les endroits où certains génotypes auront une croissance excellente ou, au contraire,médiocre, elles ne peuvent pas être ignorées. Pour déterminer si elles sont significatives, on procèdecomme suit : Regrouper les données provenant de plusieurs plantations suivant les caractéristiques dela station (nord/sud ; sec/humide ; peu fertile/fertile). Déterminer la quantité d’interaction à l’intérieurde ces groupes et entre eux. Si une part importante de l’interaction peut être imputable au

Page 185: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 182 -

regroupement, faire des sélections distinctes pour les stations représentatives de chaque groupe deplantation. Ensuite, la procédure correcte consiste à faire une analyse de variance distincte et uneestimation de l’héritabilité pour chaque groupe de plantation au sein duquel les interactions sont tropfaibles ou trop difficiles à interpréter pour avoir une signification pratique.

Tableau 6.5. Analyse de la variance pour un test multi-plantations de la descendance de familles àdemi-apparentées.

Sources devariation

Degrés deliberté

Sommedes carrés

Carrémoyen

Fcalculé

FTabulaire5

%Station 1 48900.46 48900.46

Bloc dans lastation

4 9258.13 2314.53

Famille 5 80533.37 16106.67Famille x station 5 35349.37 7069.87

MSFBMSFS =3.97* 2.71

Famille x blocdans la station

20 45183.87 2259.19

Arbre dans laparcelle

180 188799.67 1048.89

* Significatif au seuil de 5% .

Une autre approche consiste à utiliser la technique de régression pour répartir la composante devariabilité de l’interaction génotype – environnement entre ses fractions linéaires et non linéaires, envue d’évaluer la stabilité des génotypes sur une série d’environnements (Freeman et Perkins, 1971).Un examen plus approfondi de cette méthode n’a pas sa place dans cette section.

6.1.3. Plans de vergers à grainesUn verger à graines est une plantation d’arbres génétiquement supérieurs, isolés pour réduire lapollinisation de sources externes génétiquement inférieures, et gérée de manière intensive pourproduire des récoltes de graines fréquentes, abondantes et faciles à ramasser. Pour ce faire, ondésigne des clones (sous la forme de greffons ou de boutures) ou des plantules descendant d’arbressélectionnés pour les caractéristiques recherchées. La présente section décrit certains plans utiliséspour l’établissement de vergers à graines, principalement à des fins statistiques. Des ouvrages surl’amélioration génétique des arbres, comme celui de Wright (1976) et Faulkner (1975) donnent desinformations sur plusieurs autres aspects de la planification des vergers à graines, notamment sur letype de clones ou de plantules utilisés pour la plantation, le nombre de clones ou de familles, lesécartements de plantation, et sur d’autres éléments connexes.

Dans le cas de vergers à graines de clone, les plants d’un même clone sont appelés ramets.Toutefois, dans cette section, les termes “ clone ” ou “ ramet ”, tels qu’ils s’appliquent dans desvergers à graines de clones, sont utilisés à des fins descriptives. On peut adopter des plans analoguespour les vergers à graines de plantule, et dans ce cas on dira “ descendance ” au lieu de “ clone ” et“ parcelle familiale ” au lieu de “ ramet ”. Les parcelles familiales peuvent être composées d’un seularbre ou de groupes de plusieurs arbres.

Page 186: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 183 -

Un plan entièrement randomisé (PER) avec sélection entièrement aléatoire de tous les rametsdisponibles de tous les clones, entre toutes les positions de plantation disponibles sur la station, est leplus simple à concevoir, sur le papier. Toutefois, sa réalisation pose parfois des problèmes liés à laplantation, ou au greffage in situ et à la réimplantation de chaque ramet à un stade ultérieur, enparticulier si le verger est grand et contient de nombreux clones. S’il est prévu de pratiquer deséclaircies systématiques en enlevant un arbre sur deux ou un rang sur deux, le plan peut être encoreamélioré en faisant des randomisations distinctes pour les ramets qui doivent être laissés en place etpour ceux qui seront supprimés lors des éclaircies. Assez souvent, la randomisation est limitée pardes restrictions, par exemple par une interdiction de planter deux ramets du même clone l’un à côtéde l’autre à l’intérieur des rangées ou des colonnes, ou bien dans des positions adjacentes, endiagonale ; ou qu’au moins deux ramets différents s’intercalent entre des ramets du même clone. Cesrestrictions supposent généralement de manipuler les positions des ramets sur le plan, qui perd alorsson caractère purement aléatoire, mais il est rare que cette perte soit réellement significative. Cettestratégie vise essentiellement à éviter les risques de consanguinité.

Nous illustrerons ce qui précède par la représentation graphique d’un plan entièrement randomisécomportant une dizaine de répétitions, relatif à dix clones plantés, avec un anneau d’isolation.

Figure 6.1. Représentation schématique d’un PER, comportant dix répétitions, concernant 10clones, avec un anneau d’isolation autour des ramets de chaque clone.

4 7 4 8 5 10 7 6 4 78 3 9 1 2 1 3 5 3 56 1 5 3 10 5 10 9 7 108 4 2 1 9 7 6 3 5 85 7 3 6 2 3 5 2 10 21 10 4 7 10 6 8 4 1 59 7 6 3 5 2 7 3 6 21 5 2 10 1 3 10 5 4 98 10 4 7 5 7 8 2 1 67 2 8 6 1 4 6 7 10 4

Ces concepts peuvent être élargis aux plans expérimentaux en blocs aléatoires complets (PEBAC)ou aux plans en blocs incomplets, comme les treillis examinés dans le chapitre 4 de ce manuel, quipermettent de contrôler plus facilement la composante d’erreur. Toutefois, la randomisation àl’intérieur des blocs est ordinairement modifiée pour respecter les restrictions concernant la proximitédes ramets d’un même clone. Ces plans d’expérience sont surtout appropriés pour les étudescomparatives de clones, mais ils ont des inconvénients, notamment : le PEBAC ne fonctionne pasbien avec un grand nombre de clones ; les treillis et les autres plans en blocs incomplets ne sontdisponibles que pour certaines combinaisons déterminées de nombre de clones et de nombres deramets par clone, et sont inapplicables dans le cas d’éclaircies systématiques qui détruiraient le plan.La Bastide (1967) a mis au point un programme informatique qui fournit un plan réalisable pour desnombres déterminés de clones, de ramets par clone, et pour un rapport déterminé entre les lignes etles colonnes. Ce programme comporte deux contraintes : premièrement, il faut un double anneau declones différents pour isoler chaque ramet d’un même clone (qui sont plantés dans des rangsdisposés en quinconce) ; une combinaison quelconque de deux clones adjacents ne peut se trouver

Page 187: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 184 -

qu’une seule fois dans une direction spécifique quelconque (voir Figure 6.2.). Ce plan peut êtreappelé “ plan de permutation des combinaisons de voisinage ”.

Figure 6.2. Fragment d’un plan de permutation des combinaisons de voisinage relatif à 30 clones,avec les restrictions au caractère aléatoire imposées par La Bastide (1967) dans son programmeinformatique, à savoir i) 2 anneaux de clones différents isolent chaque ramet, et ii) une combinaisonquelconque de deux clones adjacents ne peut pas se retrouver plus d’une fois dans une directionspécifique quelconque.

16 22 18 24 10 23

21 5 29 3 19 5 1

15 23 14 22 30 24

6 4 26 7 25 8 3

25 23 2 29 8 2

5 8 6 9 10 7 15

21 22 12 20 27 26

7

7

L’idéal est que le plan soit construit pour un nombre de répétitions égal au nombre de clones diminuéde un, de façon à ce que chaque clone se trouve à côté de chaque autre clone une fois dans chacunedes six directions possibles. Pour trente clones, il faudrait donc 29 ramets par clone, soit au total 870greffons, même s’il n’est pas toujours possible de construire des plans de cette taille. Même dans cecas, les petits blocs qui ont été créés sont pour l’instant les meilleurs plans dont on dispose pourgarantir, au moins en théorie, la permutation maximale des combinaisons de voisinage et laproduction minimale de frères complets dans la descendance du verger. Chakravarty et Bagchi(1994) et Vanclay (1991) décrivent de bons programmes d’ordinateur permettant de construire desplans de permutation de voisinage relatifs à des vergers à graines..

Lorsque l’on établit des vergers à graines, on part ordinairement de l’hypothèse que chaque clone(ou ramet, ou parcelle familiale ou plantule) du verger fleurira à la même période ; aura le mêmecycle de grosse floraison périodique ; sera complètement inter fécondable avec tous ses voisins etproduira un nombre identique de semences viables par plant; aura le même degré de résistance àl’autostérilité ; et aura un taux de croissance et une forme de couronne similaires à tous les autresplants. Comme chacun sait, il n’en est, et n’en sera probablement jamais ainsi. Pour obtenir de bonsrésultats, un sélectionneur doit être patient et observateur et rassembler sans relâche toutes lesinformations essentielles sur le comportement des clones, leurs compatibilités et leurs facultés decombinaison, et en tenir compte pour améliorer les générations prochaines et successives de vergersà graines. Ce type de plans utilise le maximum de données existantes.

Page 188: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 185 -

6.2. Dendrométrie

6.2.1. Equations de volume et de biomasseDans de nombreux domaines de recherche forestière, comme la sylviculture, l’écologie ou la sciencedu bois, on doit déterminer le volume ou la biomasse des arbres, le plus souvent, d’une partiespécifique de l’arbre. Comme les méthodes physiques de mesure du volume et de la biomasse sontdestructrices, on peut recourir à des équations préétablies pour obtenir des estimations de cescaractéristiques. Ces équations varient d’une espèce à l’autre, et pour une espèce donnée, d’unpeuplement à l’autre. Les estimations se rapportant à un seul arbre manquent parfois de précision,mais elles sont valables si on les refait pour plusieurs arbres, et si l’on additionne les résultats, commepour calculer le volume d’un peuplement. Dans tous les cas où l’on ne dispose pas d’une équationappropriée, on devra établir une équation prédictive. Il faut pour cela déterminer le volume ou labiomasse réels d’un ensemble d’arbres-échantillons et les relier, par une analyse de la régression, àdes mesures non-destructrices telles que le diamètre à hauteur d’homme ou la hauteur des arbres.

(i) Mesure du volume et de la biomasse d’un arbreLa détermination du volume d’une partie spécifique de l’arbre, telle que le fût ou une branche,s’obtient, en général, en découpant la partie considérée en grumes, puis en mesurant celles-ci. Lesgrumes coupées aux fins de la recherche font généralement 3 mètres de long, sauf celle de l’extrémitésupérieure qui peut mesurer jusqu’à 4,5m. Cependant, si le dernier tronçon fait plus de 1,5m delong, on le considère comme une grume et on le met de côté. Le diamètre, ou la circonférence, semesure au centre et aux deux extrémités de la grume, ou en bas, au milieu et au sommet des grumes,selon le cas. On mesure aussi la longueur de chaque grume. Les mesures peuvent être prises sur ousous écorce, après l’avoir enlevée. Selon les mesures dont on dispose, on peut calculer le volume dechaque grume à l’aide de l’une des formules du tableau ci-dessous.

Volume de la grume Observations( )b t l2 2

8+π

Formule de Smalian

l4m 2

π

Formule de Huber

( )π

++24

ltm4b 222

Formule de Newton

où b est la circonférence de la base de la grume,m est la circonférence de la partie centrale de la grumet est la circonférence du fin bout de la grumel est la longueur ou la hauteur de la grume

Pour expliquer le calcul du volume d’un arbre à l’aide des formules ci-dessus, nous prendrons lesdonnées sur la longueur et la circonférence (du bas, du milieu et du bout) de différentes grumes d’unarbre, reprises dans le Tableau 6.6.

Tableau 6.6. Circonférences (du bas, du milieu et du bout) et longueurs des grumes d’un teck.

Page 189: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 186 -

Circonférence (cm) Volume des grumes (cm)3

Numérode lagrume

Bas(b)

Milieu(m)

Bout(t)

Longueur(l)

Formule deSmalian

Formule deHuber

Formule deNewton

1 129.00 99.00 89.00 570.00 556831.70 444386.25 481868.072 89.00 90.10 91.00 630.00 405970.57 406823.00 406538.863 64.00 60.00 54.90 68.00 19229.35 19472.73 19391.604 76.00 85.00 84.60 102.00 52467.48 58621.02 56569.845 84.90 80.10 76.20 111.00 57455.84 56650.45 56918.91

Total 1091954.94 985953.45 1021287.28

En additionnant les volumes de chaque grume, on obtiendra la valeur du volume de l’arbre ou de lapartie considérée. On peut exprimer ce volume en m3 en divisant la valeur obtenue (en (cm)3) par1000.000.

Dans le commerce du bois, la mesure utilisée est généralement le volume, mais certains produitscomme le bois de feu ou le bois de trituration se vendent aussi au poids. Le poids est aussi la mesurestandard pour de nombreux produits forestiers mineurs. En recherche, on se réfère de plus en plussouvent à la biomasse. Il est certes plus facile de déterminer le poids plutôt que le volume, maisdivers problèmes, comme le caractère variable de la teneur en humidité et de l’épaisseur de l’écorce,font que cette mesure n’est pas fiable. On exprime donc en général la biomasse en poids sec desparties de l’arbre (tronc, branches, et feuilles). On utilise des méthodes destructrices pour déterminerla biomasse d’arbres individuels, en les abattant et en séparant les parties, comme le tronc, lesbranches, les rameaux et les feuilles. Il importe de bien définir toutes les parties constituantes del’arbre: par exemple, tout matériel issu du tronc, dont la circonférence mesurée sur écorce estinférieure à 10 cm, fait partie du bois des branches. Les différentes parties doivent être peséesimmédiatement après l’abattage. Si l’on veut obtenir des poids séchés à l’étuve, les échantillons sontprélevés à ce stade. Au moins trois échantillons d’environ 1 kilo doivent être prélevés sur le tronc,les branches et les rameaux de chaque arbre ; ensuite il faut les peser et les emporter au laboratoirepour le séchage à l’étuve. Le poids sec total de chaque partie constituante de l’arbre est ensuiteestimé en appliquant le rapport poids frais / poids sec observé dans l’échantillon, au poids frais totalcorrespondant des parties constituantes de l’arbre. Par exemple,

( ) futdu FW Totalfutdu nséchantillo desFW futdu nséchantillo desDW

futdu DW Total = (6.15)

où FW = Poids frais DW = Poids sec

Page 190: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 187 -

Pour illustrer ceci par un exemple, nous prendrons les données du Tableau 6.7.

Tableau 6.7. Poids frais et poids sec de disques-échantillons prélevés sur le fût d’un arbre

Disque Poids frais(kg)

Poids sec(kg)

1 2.0 0.902 1.5 0.643 2.5 1.37

Total 6.0 2.91

( ) futdu FW Totalfutdu nséchantillo desFW futdu nséchantillo desDW

futdu DW Total =

DW total du fût de l’arbre = 460.8 kg

(ii) Estimation d’équations allométriquesLes données sur le volume ou la biomasse ainsi que sur le diamètre à hauteur d’homme (dbh) et lahauteur issues de l’observation d’arbres-échantillons, sont utilisées pour développer des équationsprédictives, à l’aide de techniques de régression. Pour les équations de biomasse, on prend parfoiscomme variable de régression un diamètre mesuré à un point plus bas que la hauteur de poitrine. Levolume, ou la biomasse, est la variable dépendante et les fonctions du dbh et de la hauteur sont lesvariables indépendantes de la régression. On trouvera ci-dessous quelques formes classiquesd’équations prédictives du volume ou de la biomasse.

y = a + b D + c D2 (6.16)

ln y = a + b D (6.17)

ln y = a + b ln D (6.18)

y0.5 = a + b D (6.19)

y = a + b D2H (6.20)

ln y = a + b D2H (6.21)

y0.5 = a + b D2H (6.22)

ln y = a + b ln D + c ln H (6.23)

y0.5 = a + b D + c H (6.24)

y0.5 = a + b D2 + c H + d D2H (6.25)

Page 191: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 188 -

Dans toutes ces équations, y représente le volume ou la biomasse de l’arbre, D est son diamètremesuré, de manière uniforme pour tous les arbres-échantillon, à hauteur d’homme ou à un point plusbas, H sa hauteur et a, b, c des coefficients de régression (ln indique le logarithme naturel).

En général, plusieurs formes d’équations sont adaptées aux données, et la plus appropriée est choisiesur la base de certaines mesures, comme le coefficient de détermination ajusté, ou l’indice deFurnival. Ce dernier doit impérativement être utilisé si l’on doit comparer des modèles comprenantdes variables dépendantes de formes différentes.

)-R1(n-p

1n-1adaptéR 22 −= (6.26)

où R2 est le coefficient de détermination, donné par le rapport de la somme des carrés de régressionà la somme totale des carrés (voir Section 3.7)n est le nombre d’observations concernant la variable dépendantep est le nombre de paramètres intervenant dans le modèle

L’indice de Furnival se calcule comme suit. Pour chaque modèle intervenant dans l’analyse de lavariance, on calcule la racine carrée du carré moyen de l’erreur. A partir des observations, ondétermine, pour chaque modèle, la moyenne géométrique de la dérivée de la variable dépendantepar rapport à y. La moyenne géométrique d’un ensemble de n observations est définie par la racinen-ème du produit des observations. L’indice de Furnival de chaque modèle s’obtient ensuite enmultipliant les valeurs correspondantes de la racine carré du carré moyen de l’erreur par l’inverse dela moyenne géométrique. Par exemple, la dérivée de ln y est (1/y) et l’indice de Furnival est dans cecas,

Indice de Furnival = ( )

−1yegéométriqu Moyenne

1MSE (6.27)

La dérivée de y0.5 est (1/2)(y - 0.5) ; l’Equation (6.27) devra donc être modifiée en conséquence si lavariable dépendante est y0.5.

A titre d’exemple, prenons les données du Tableau 6.8 sur le poids sec et le diamètre à hauteurd’homme de 15 acacias.

Page 192: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 189 -

Tableau 6.8. Poids sec et dbh de 15 acacias.

N° del’arbre

Poids sec (en tonnes)(y)

Dbh (en m)(D)

1 0.48 0.382 0.79 0.473 0.71 0.444 1.86 0.625 1.19 0.546 0.51 0.387 1.04 0.508 0.62 0.439 0.83 0.4810 1.19 0.4811 1.03 0.5212 0.61 0.4013 0.68 0.4414 0.20 0.2615 0.66 0.44

Avec les données qui précèdent, deux modèles de régression y = a + b D + c D2 etln y = a + b D ont été ajustés à l’aide de l’analyse de régression multiple décrite dans Montgomeryet Peck (1982),. Pour ces deux modèles, on a calculé la valeur ajustée de R2 et l’indice de Furnival.Les résultats sont reportés dans les tableaux 6.9 à 6.12.

Tableau 6.9. Estimation des coefficients de régression et erreur-type pour le modèle derégression y = a + b D + c D2.

Coefficient deRégression

Coefficient de régressionestimé

Erreur-type ducoefficient estimé

a 0.5952 0.4810b -3.9307 2.0724c 9.5316 2.4356

Tableau 6.10. Table d’analyse de variance pour l’analyse de régression, modèle y = a+ b D + c D2.

Source df SS MS Fcalculé

Régression 2 2.0683 1.0341 105.6610Résidu 12 0.1174 0.0098

R2 = SSR

SSTO =

2 06832 1857

.

.= 0.9463

Page 193: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 190 -

0.9463)-(13-151-15

1ajustéR 2 −=

= 0.9373

Ici, la dérivée de y est 1. Par conséquent,Indice de Furnival MSE = 00098. = = 0.0989.

Tableau 6.11. Estimation des coefficients de régression et erreur-type pour le modèlede régression ln y = a + b D.

Coefficient deRégression

Coefficient de régressionestimé

Erreur-type ducoefficient estimé

a -3.0383 0.1670b 6.0555 0.3639

Table 6.12. Table d’analyse de variance pour l’analyse de régression – modèle

ln y = a + b D

Source df SS MS Fcalculé

Régression 1 3.5071 3.5071 276.9150Résidu 13 0.1646 0.0127

R2 = SSR

SSTO =

3 507135198..

= 0.9552

0.9552)-(12-151-15

1ajustéR 2 −=

= 0.9517Ici, la dérivée de y est 1/y. L’indice de Furnival, donné par l’équation (6.27), est

Indice de Furnival = 0 01271

13514.

.

== 0.0834

La moyenne géométrique de (1/y) est ici la moyenne géométrique des inverses des quinze valeurs dey du Tableau 6.8.

Dans l’exemple considéré, le modèle ln y = a + b D a un indice de Furnival plus faible, de sorte qu’ilest préféré à l’autre modèle y = a + b D + c D2. On note également que le second modèle a aussiune valeur ajustée de R2 plus élevée.

6.2.2. Modèles de croissance et de rendement relatifs à des peuplements forestiersL’estimation de la croissance et du rendement est un aspect important des sciences forestières. Leterme ‘croissance’ se réfère aux changements irréversibles qui se produisent dans le système sur debrefs cycles de temps, alors que le ‘rendement’ est la croissance globale au cours d’un intervalle detemps donné, et reflète l’état du système à des moments, ou points de temps, donnés. Ces modèlessont importants car de nombreuses décisions de gestion se fondent sur les prévisions de croissanceet de rendement. Supposons par exemple que l’on se pose les questions suivantes : Est-il plusrentable de cultiver des acacias ou des tecks, sur une station? La réponse dépend, non seulement du

Page 194: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 191 -

prix, mais aussi des rendements escomptés de ces espèces sur cette station. Ou encore, combien defois faudrait-il éclaircir une plantation de tecks ? La réponse dépend bien évidemment du taux decroissance attendu de la plantation. Qu’adviendrait-il des tecks s’ils étaient cultivés en mélange avecd’autres espèces? Avec des modèles de croissance appropriés, il est possible de répondre à ce typede questions.

Dans la majorité des modèles, le peuplement est considéré comme une unité d’aménagement. Onentend par ‘peuplement’ un groupe d’arbres associés à une station. Les modèles tentent decomprendre le comportement d’un peuplement au moyen d’équations algébriques. Avant d’étudierles différents modèles de peuplement, nous commencerons par décrire quelques-unes des mesuresles plus courantes de leurs attributs.

(i) Mesure des caractéristiques d’un peuplementLes mesures les plus courantes des arbres, autres que le simple comptage, sont le diamètre ou lacirconférence à hauteur d’homme et la hauteur totale. Pour la définition de ces termes, nous noussommes référés aux manuels classiques sur ce sujet (Chaturvedi et Khanna, 1982). Quelquesattributs des peuplements qui peuvent être dérivés de ces mesures de base, et quelquescaractéristiques additionnelles sont décrites ci-dessous.

Diamètre moyen : diamètre correspondant à la surface terrière moyenne d’un groupe d’arbres, oud’un peuplement, la surface terrière étant la superficie de la section de la tige de l’arbre, mesurée àhauteur d’homme.

Surface terrière d’un peuplement : Somme des surfaces de la section, à hauteur d’homme, destiges des arbres du peuplement, ordinairement exprimée en m2 par rapport à une unité de surface.

Hauteur moyenne: hauteur correspondant au diamètre moyen d’un groupe d’arbres, donnée par lacourbe hauteur-diamètre du peuplement.

Hauteur dominante : hauteur correspondant au diamètre moyen des 250 arbres ayant le plus grosdiamètre, sur un hectare, donnée par la courbe hauteur-diamètre.

Indice de la qualité de la station : hauteur dominante prévue d’un peuplement, à un certain âge(généralement âge où la croissance en hauteur est à son maximum).

Volume d’un peuplement: volume total de tous les arbres du peuplement, habituellement exprimé enm3 par rapport à une unité de surface.

Suivant le degré de résolution des variables d’entrée, les modèles de peuplement peuvent êtreclassés comme suit: i ) modèles de peuplement globaux ii) modèles de classes de diamètre et iii)modèles d’arbres individuels. Bien qu’il existe des modèles différents pour les peuplementséquiennes et non équiennes, la majorité s’appliquent dans les deux cas. En général, les plantationssont principalement constituées d’arbres du même âge et de la même espèce, alors que les forêtsnaturelles contiennent des arbres d’espèces et d’âges différents. Le terme « équienne » s’applique àdes cultures d’arbres qui ont à peu près le même âge, mais on tolère des différences allant jusqu’à25% de l’âge de rotation si un peuplement n’a pas été exploité depuis au moins 100 ans. En

Page 195: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 192 -

revanche, le terme inéquienne s’applique à des peuplements dans lesquels l’âge des fûts varieconsidérablement, la fourchette de variation étant ordinairement de plus de 20 ans et, dans le cas depeuplements à rotation longue, de plus de 25% de la rotation.

Les modèles de peuplement globaux prévoient les différents paramètres d’un peuplementdirectement à partir des variables de régression concernées. Les paramètres habituellement pris enconsidération sont le volume commercial /ha, le diamètre et la hauteur du peuplement. Les variablesde régression sont principalement l’âge, la densité de peuplement et l’indice de qualité de la station.Etant donné que l’âge et l’indice de la qualité de la station déterminent la hauteur dominante, on secontente parfois de prendre en considération cette dernière caractéristique, à la place des deuxpremières. Les modèles de peuplement globaux peuvent être classés en modèles avec ou sansdensité de peuplement comme variable indépendante. Les tables de production normales classiquesne prennent pas en considération la densité de peuplement, étant donné que le terme « normal »sous-entend une densité naturelle maximale. En revanche, les tables de production empiriquessupposent une densité naturelle moyenne. Il existe deux sortes de modèles à variable -densité: ceuxoù le volume présent ou futur est estimé directement par les fonctions de croissance et ceux où levolume du peuplement est obtenu en additionnant des classes de diamètre engendréesmathématiquement. De plus, certains modèles estiment la croissance directement alors que d’autresprocèdent en deux étapes (estimation de la densité de peuplement future, estimation du peuplementfutur sur la base de cette information, et obtention de la croissance, par soustraction).

Les modèles en classes de diamètre retracent les variations du volume ou d’autres caractéristiques,pour chaque classe de diamètre en calculant la croissance de l’arbre moyen de chaque classe, et enmultipliant le chiffre obtenu par le nombre de fûts répertoriés dans chaque classe. Les volumes detoutes les classes sont regroupés pour obtenir les caractéristiques du peuplement.

Les modèles d’arbres individuels sont les plus complexes et modélisent chaque arbre sur une listed’arbres-échantillon. Presque tous ces modèles calculent un indice de concurrence des cimes pourchaque arbre, afin de déterminer si l’arbre vivra ou non et, dans l’affirmative, de déterminer sacroissance, en termes de diamètre du fût, de hauteur et de diamètre de la couronne. L’un descritères de distinction entre les types de modèles est le mode de calcul de l’indice de concurrencedes cimes. Si le calcul est basé sur la distance (mesurée ou relevée sur une carte) entre un sujet ettous les arbres situés à l’intérieur de sa zone de concurrence, le modèle est dit dépendant de ladistance. Si l’indice de concurrence des cimes est calculé uniquement d’après les caractéristiques dusujet et de l’ensemble du peuplement, on a un modèle indépendant de la distance.

Nous allons maintenant décrire quelques modèles appropriés d’une part pour des peuplementséquiennes et de l’autre pour des peuplements inéquiennes.

ii) Modèles pour peuplements équiennesSullivan et Clutter (1972) ont donné trois équations de base qui forment un ensemble compatible ence sens que le modèle de rendement s’obtient en sommant les croissances prévues sur des périodesappropriées. Plus précisément, la forme algébrique du modèle de rendement peut être dérivée d’uneintégration, au sens mathématique, du modèle de croissance. La forme générale de ces équations estla suivante

Page 196: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 193 -

Rendement actuel = V1 = f (S, A1, B1) (6.28)

Rendement futur = V2 = f (S, A2, B2) (6.29)

Surface terrière projetée = B2 = f (A1, A2, S, B1) (6.30)Où S = Indice de la qualité de la station V1 = Volume actuel du peuplement V2 = Volume projeté du peuplement B1 = Surface terrière actuelle du peuplement B2 = Surface terrière projetée du peuplement A1 = Age actuel du peuplement A2 = Age projeté du peuplement

Dans l’Equation (6.29), on remplace B2 par l’équation (6.30), et on obtient une équation durendement futur, en fonction des variables actuelles et de l’âge projeté du peuplement,

V2=f(A1,A2, S, B1) (6.31)

Prenons un exemple particulier:( ) ( ) 1

21141

2131

22102 AAB logAA1ASV log −−− β+−β+β+β+β= (6.32)

On peut estimer directement les paramètres de l’Equation (6.32) grâce à une analyse de régressionlinéaire multiple (Montgomery et Peck, 1982), avec un nouveau mesurage des données observéessur des parcelles-échantillon permanentes, en gardant V2 comme variable dépendante et A1, A2, S etB1 comme variables indépendantes.

En posant A2 = A1, l’Equation (6.32) devient,B logASV log 3

1210 β+β+β+β= − (6.33)

qui permettra de prévoir le volume actuel.

Nous illustrerons une application de l’approche de modélisation à l’aide des équations de Brender etClutter (1970), ajustées pour 119 peuplements de pins à l’encens de piémont, près de Macon, enGéorgie. L’équation du volume projeté (en acres/ pieds cubes) est

( ) ( ) 1211

121

122 AAB log93112.0AA1291143.2A1585.6S002875.052918.1V log −−− +−+++=

(6.34)En posant A2 = A1, cette équation permet de prévoir le volume actuel, soit

( )B log93112.0A15851.6S002875.052918.1V log 1 +−+= − (6.35)

Pour illustrer une application du modèle de Brender-Clutter, prenons le cas d’un peuplementactuellement âgé de 25 ans, d’une surface terrière de 70 pieds2/acre, situé dans une station ayant unindice de qualité de 80 pieds. Le propriétaire veut faire estimer le volume actuel et le volume projetéaprès dix années de croissance supplémentaires. Le volume actuel est estimé par l’équation (6.35),

( )70 log93112.0(1/25)15851.6(80)002875.052918.1V log +−+= = 1.52918 + 0.23 - 0.24634 + 1.71801

= 3.23085

Page 197: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 194 -

V = 10 3.23085 =1,701 pieds3.

Le volume projeté dans 10 ans s’obtient par l’Equation (6.34),( )35/251291143.2(1/25)1585.6(80)002875.052918.1Vlog 2 −+++=

( )(25/35)70 log93112.0+ = 1.52918 +0.23 - 0.24634 + 0.65461 -1.22714 = 3.39459

V2 = 2,480 pieds3

iii) Modèles pour peuplements inéquiennesBoungiorno et Michie (1980) présentent un modèle en matrices dans lequel les paramètresreprésentent i) le passage stochastique des arbres d’une classe de diamètre à l’autre et ii) les recruesde nouveaux arbres, qui dépendent de l’état du peuplement. Le modèle se présente comme suit

( ) ( ) )hy(g....hyghygy ntntnt2t22t1t110t1 −++−+−+β=ϑ+ (6.36)

)hy(a)hy(by t2t22t1t12t2 −+−=θ+

. . . . . . . . .

{ } { }( ) ( )ntntnt1nt1nnnt hyahyby −+−= −−θ+

où ϑ+ity est le nombre prévu d’arbres vivants dans la i-eme classe de taille au temps t. ith est le nombre d’arbres de la i-eme classe de taille abattus pendant un intervalle de temps. gi, ai, bi sont des coefficients à estimer.

Ici le nombre d’arbres dans la plus petite classe de taille est exprimé en fonction du nombre totald’arbres dans toutes les classes de taille et de la récolte pendant un certain intervalle de temps. Sur lamême période de référence, les nombres d’arbres dans les plus grandes classes de taille sont desfonctions des nombres d’arbres dans les classes de taille adjacentes. Il est possible d’estimer cesparamètres par une analyse de régression en utilisant des données provenant de parcelles-échantillons permanentes en précisant le nombre d’arbres, et leur état, dans les différentes classes dediamètre, à chaque période, avec un intervalle de temps donné, ainsi que le nombre d’arbres abattusentre deux mesurages successifs.

Nous illustrerons ce qui précède par un exemple très simple, à l’aide des données suivantes,collectées en deux occasions successives, espacées par un intervalle θ = 5 ans, dans un petit nombrede parcelles-échantillon permanentes situées dans des forêts naturelles. Les données du Tableau6.13 indiquent le nombre d’arbres appartenant à trois classes de diamètres, lors des deuxmesurages. Supposons qu’aucune récolte n’ait eu lieu pendant cet intervalle de temps, ce quiimplique que les quantités hit; i = 1, 2, …, n sont nulles. Dans la réalité, il se peut que les classes dediamètre soient plus nombreuses, et qu’il faille prendre plusieurs mesures dans un grand nombre deparcelles, en enregistrant le nombres d’arbres enlevés de chaque classe de diamètres entre deuxmesurages successifs.

Page 198: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 195 -

Tableau 6.13. Nombre d’arbres/ha dans trois classes de diamètres, lors de deux mesuragessuccessifs, dans des forêts naturelles.

N° de laparcelle

Nombre d’arbres/haau Mesurage - I

Nombre d’arbres/haau Mesurage - II

échantillon classedbh

<10cm(y1t)

classedbh

10-60 cm(y2t)

classedbh

>60 cm(y3t)

classedbh

<10cm(y1t+θ)

classedbh

10-60 cm(y2t+θ)

classedbh

>60 cm(y2t+θ)

1 102 54 23 87 87 452 84 40 22 89 71 353 56 35 20 91 50 304 202 84 42 77 167 715 34 23 43 90 31 296 87 23 12 92 68 207 78 56 13 90 71 438 202 34 32 82 152 339 45 45 23 91 45 3810 150 75 21 83 128 59

Les équations à estimer sont les suivantest33t22t110t1 ygygygy +++β=ϑ+ (6.37)

t22t12t2 yayby +=θ+

t33t23t3 yayby +=θ+

En regroupant les données respectives du Tableau 6.13, et en effectuant comme d’habitude l’analysede régression linéaire multiple (Montgomery et Peck,1982), on obtient les estimations suivantes.

t3t2t1t1 y1476.0y0738.0y0526.08293.99y −−−=ϑ+ (6.38)

t2t1t2 y2954.0y7032.0y +=θ+

t3t2t3 y2938.0y7016.0y +=θ+

Comme l’ont démontré Boungiorno et Michie (1980), les équations de ce type (6.38)) sontfondamentales pour prévoir l’état futur d’un peuplement et concevoir des politiques d’exploitationoptimales sur l’unité d’aménagement. Dans le domaine de l’aménagement des forêts, les modèles decroissance sont généralement utilisés pour comparer différentes options d’aménagement. Avec desmodèles de simulation de la croissance, il est possible de comparer les résultats des différentessimulations, notamment les taux de rentabilité interne et d’établir des programmes d’exploitationoptimaux. Etant donné que divers modèles permettent d’établir des projections de la croissance etdu rendement, il faudra choisir le plus adapté, en tenant compte des données qu’ils nécessitent et de

Page 199: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 196 -

la complexité des calculs qu’ils impliquent. En outre, la validité biologique et la précision desprévisions sont des éléments cruciaux du choix du modèle.

6.3. Ecologie forestière

6.3.1. Mesure de la biodiversitéLa biodiversité est la propriété qu’ont les systèmes vivants d’être distincts, c’est à dire différents,dissemblables. Dans cet ouvrage, celle qui nous intéresse est la diversité biologique, ou biodiversité,de groupes ou de classes d’entités biologiques. La biodiversité se manifeste sous deux formes, àsavoir la variété et l’abondance relative des espèces (Magurran, 1988). La première est souventexprimée par l’indice de la richesse en espèces, donné par l’expression,

Indice de la richesse en espèces = SN

(6.39)

où S = Nombre d’espèces dans une collection N = Nombre d’individus récoltés

Supposons, par exemple, que l’on identifie 400 espèces dans une collection de 10 000 individus,l’indice de la richesse en espèces sera

Indice de la richesse en espèces = 40010000

4=

L’augmentation du nombre d’espèces en fonction du nombre d’individus ou de la surface couverteest représentée par une courbe d’accumulation des espèces. La relation entre le nombre d’espèces(S) et la surface couverte (A) est souvent donnée mathématiquement par l’équation S = αAβ, donton trouvera ci-dessous la représentation graphique pour des valeurs spécifiques de α et β (α = 100et β = 0.2). Ici , les paramètres α et β devront être estimés empiriquement à l’aide des techniquesde régression linéaire avec des données sur la surface couverte et le nombre d’espèces enregistrécorrespondant.

Figure 6.3. Exemple de courbe espèces- surface

Nombre d’espèces

0

100

200

300

400

500

Surface couverte (ha)

Page 200: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 197 -

L’équation S = 100A0.2, va nous permettre de prévoir le nombre d’espèces qu’il serait possibled’obtenir en couvrant une plus grande surface, à l’intérieur de la région d’échantillonnage. Dansl’exemple ci-dessus, nous devrions obtenir ‘458’ espèces pour une surface de 2000 hectares.

Si l’on capture des insectes à l’aide de pièges lumineux, une courbe espèces-individus sera plus utile.Pour trouver une courbe asymptotique, il faut parfois utiliser des équations non-linéaires de la forme,

SN

N=

β (6.40)

où S tend vers α lorsque N tend vers ∞. Autrement dit, α sera le nombre limite d’espèces dans unecollection infiniment grande d’individus. Dans ce cas, les paramètres α et β devront être estimés àl’aide de techniques de régression non-linéaire (Draper et Smith, 1966). Un graphique de l’équation(6.40) est donné ci-dessous pour α = 500 et β = 100.

Figure 6.4. Exemple de courbe espèces-individus

L’abondance relative se mesure habituellement par des indices de diversité. L’un des plus connus estl’indice de Shannon-Wiener (H).

H p pii

S

i= −=

∑1

ln (6.41)

où pi = proportion d’individus dans la i-ème espèce ln indique le logarithme naturel.

Les valeurs de l’indice de Shannon-Wiener obtenues pour différentes communautés peuvent êtrevérifiées à l’aide du test t de Student, où t est défini par

t =−

+

H H

Var H Var H1 2

1 2( ) ( ) (6.42)

et suit une loi de distribution de Student avec ν degrés de liberté, où

ν =+

+

( ( ) ( ))

( ( )) ( ( ))

Var H Var H

Var H N Var H N1 2

2

12

1 22

2 (6.43)

Nombre d’espèces

0

100

200

300

400

500

Nombre d’individus

Page 201: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 198 -

Var Hp p p p

NS

Ni i i i( )(ln ) ( ln )

=−

+−∑ ∑2 2

2

12

(6.44)

Les méthodes à employer pour calculer l’indice de Shannon-Wiener et tester la différence entre lesindices de deux endroits sont illustrées dans ce qui suit.

Le Tableau 6.14 montre le nombre d’individus appartenant à différentes espèces d’insectes attrapésà l’aide de pièges lumineux, dans deux endroits du Kerala ( Matthew et al., 1998).

Tableau 6.14. Nombre d’individus appartenant à différentes espèces d’insectesattrapés à l’aide de pièges lumineux dans deux endroits.

Code del’espèce

Nombre d’individusattrapés à

Nelliampathy

Nombre d’individusattrapés à

Parambikulum

1 91 842 67 603 33 404 22 265 27 246 23 207 12 168 14 139 11 1210 10 711 9 512 9 513 5 914 1 415 4 616 2 217 2 418 1 419 2 520 4 1

*Etape 1. Lorsque l’on calcule manuellement l’indice de Shannon-Wiener, on commence pardresser un tableau (Tableau 6.15) donnant les valeurs de pi et pi ln pi . Si l’on utilise aussi letest t, il convient d’ajouter au tableau une colonne contenant les valeurs de pi (ln pi)2.

*Etape 2. La diversité des insectes est H1 = 2.3716 à Nelliyampathy, alors qu’à Parambikulam elleest de H2 = 2.4484. Ces valeurs représentent la somme des colonnes pi ln pi relatives àchaque endroit. La formule de calcul de l’indice de Shannon-Wiener est précédée d’un signemoins, ce qui annule le signe négatif du à l’utilisation de logarithmes de proportions.

Page 202: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 199 -

*Etape 3. La variance de diversité des deux endroits peut être estimée à l’aide de l’Equation (6.44).

Var Hp p p p

NS

Ni i i i( )(ln ) ( ln )

=−

+−∑ ∑2 2

2

12

D’où, Var( H1 ) -Nelliyampathy = ( )

6 6000 5 6244349

192 349 2

. .−+ = 0.0029

Var ( H2 ) -Parambikulam = ( )

6 9120 5 9947347

192 347 2

. .−+ = 0.0027

Tableau 6.15. Calcul de l’indice de Shannon-Wiener pour les deux endroits

code Nelliyampathy Parambikulam

del’espèce

pi pi ln pi pi (ln pi )2 pi pi ln pi pi (ln pi )2

1 0.2607 -0.3505 0.4712 0.2421 -0.3434 0.4871

2 0.1920 -0.3168 0.5228 0.1729 -0.3034 0.5325

3 0.0946 -0.2231 0.5262 0.1153 -0.2491 0.5381

4 0.0630 -0.1742 0.4815 0.0749 -0.1941 0.5030

5 0.0774 -0.1980 0.5067 0.0692 -0.1848 0.4936

6 0.0659 -0.1792 0.4873 0.0576 -0.1644 0.4692

7 0.0344 -0.1159 0.3906 0.0461 -0.1418 0.4363

8 0.0401 -0.1290 0.4149 0.0375 -0.1231 0.4042

9 0.0315 -0.1090 0.3768 0.0346 -0.1164 0.3916

10 0.0286 -0.1016 0.3609 0.0202 -0.0788 0.3075

11 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591

12 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591

13 0.0143 -0.0607 0.2577 0.0259 -0.0946 0.3456

14 0.0029 -0.0169 0.0990 0.0115 -0.0514 0.2295

15 0.0115 -0.0514 0.2297 0.0173 -0.0702 0.2848

16 0.0057 -0.0294 0.1518 0.0058 -0.0299 0.154

17 0.0057 -0.0294 0.1518 0.0115 -0.0514 0.2295

18 0.0029 -0.0169 0.099 0.0115 -0.0514 0.2295

19 0.0057 -0.0294 0.1518 0.0144 -0.0611 0.2591

20 0.0115 -0.0514 0.2297 0.0029 -0.0169 0.0987

Total 1 -2.3716 6.6000 1 -2.4484 6.9120

*Etape 4. Le test t permet de comparer les diversités des deux endroits. Les formules appropriéessont données par les Equations (6.42) et (6.43).

Page 203: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 200 -

t =−

+

H H

Var H Var H1 2

1 2( ) ( )

ν =+

+

( ( ) ( ))

( ( )) ( ( )

Var H Var H

Var H N Var H N1 2

2

12

1 22

2

Dans notre exemple, t =−+

2 3716 2 448400029 00027. .. .

= 1.0263

Les degrés de liberté correspondants sont donnés par

ν =++

( . . )( . ) ( . )

0 0029 0 00270 0029 349 0 0027 347

2

2 2 = 695.25

La valeur tabulaire de t correspondant à 695 degrés de liberté (Annexe 2) montre que la différenceentre les indices de diversité des deux endroits n’est pas significative.

Par convention, pour des études de la biodiversité on emploie des modèles d’échantillonnagealéatoire. Il convient aussi de se demander quelle taille doivent avoir les échantillons pour estimer unindice de diversité spécifique, quel qu’il soit. Des exercices de simulation fondés sur une structureréaliste des abondances d’espèces ont révélé que l’observation de 1000 individus sélectionnés auhasard était suffisante pour estimer l’indice de Shannon-Wiener. L’estimation de la richesse enespèces requiert parfois jusqu’à 6000 individus (Parangpe etGore, 1997).

6.3.2. Relation d’abondance des espècesUn modèle d’abondance des espèces permet d’obtenir une description complète de l’abondancerelative de différentes espèces au sein d’une communauté. La distribution empirique de l’abondancedes espèces s’obtient en traçant point par point le graphe du nombre d’espèces et du nombred’individus. Ensuite, on obtient une distribution théorique approchant la distribution observée. L’undes modèles théoriques utilisés à cet égard, en particulier en présence de populations partiellementperturbées, est la série logarithmique. Celle-ci prend la forme

αx,αx2

2,αx3

3, . . . ,

αxn

n

(6.45)

αx étant le nombre d’espèces constituées d’un individu, αx2/2 le nombre d’espèces de deuxindividus, etc... Le nombre total d’espèces (S) dans la population s’obtient en sommant tous lestermes de la série, ce qui donnera

S = α [- ln (1-x)].

Pour ajuster la série, il faut calculer le nombre d’espèces qui devraient avoir un, deux etc…individus. Ces valeurs prévues sont ensuite rangées dans les mêmes classes d’abondance que cellesqui ont été utilisées pour la distribution observée et les deux distributions sont comparées à l’aided’un test de validité de l’ajustement. Le nombre total d’espèces est bien entendu identique dans lesdistributions observée et prévue.

Page 204: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 201 -

Tous les calculs sont illustrés par l’exemple qui suit. Mathew et al. (1998) ont étudié l’impact de laperturbation d’une forêt sur la diversité des espèces d’insectes, dans quatre stations du WesternGhats, dans le Kerala. Dans le cadre de cette étude, ils ont établi une liste de l’abondance de 372espèces, à Nelliyampathy. Cette liste n’est pas reproduite ici, pour des raisons d’espace, en sérielog.

*Etape 1. Ranger les abondances observées dans les classes d’abondance. Dans notre cas, onchoisit des classes en log2 (c’est à dire en octaves, ou doubles, des abondances d’espèces).Il suffit d’ajouter 0.5 à la borne supérieure de chaque classe, pour assigner clairement lesabondances d’espèces observées à chaque classe. Ainsi, dans le tableau ci-dessous(Tableau 6.16), on constate que 158 espèces ont une abondance d’un ou deux individus,55 espèces en ont 3 ou 4 etc.

Tableau 6.16. Nombre d’espèces obtenues dans différentes classes d’abondance.

Classe Borne supérieure Nombre d’espècesobservées

1 2.5 1582 4.5 553 8.5 764 16.5 495 32.5 206 64.5 97 128.5 48 ∞ 1

Nombre totald’espèces (S)

- 372

*Etape 2. Les deux paramètres nécessaires pour ajuster la série sont x et α. La valeur de x estestimée par itération du terme suivant

SN

= − − −[(1 ) / ][ ln (1 )]x x x (6.46)

où S = Nombre total d’espèces (372) N = Nombre total d’individus (2804).

La valeur de x est en général supérieure à 0.9 et toujours <1.0. Il suffit de faire quelques opérationssur une calculatrice, pour obtenir la bonne valeur de x, en essayant différentes valeurs de x dansl’expression [(1 ) / ][ ln (1 )]− − −x x x jusqu’à arriver à S/N = 0.13267.

x [(1 ) / ][ ln (1 )]− − −x x x

0.97000 0.108450.96000 0.134120.96100 0.131660.96050 0.132890.96059 0.13267

Page 205: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 202 -

La valeur correcte de x est donc 0.96059. Une fois que l’on a obtenu cette valeur de x, on peutfacilement calculer α à l’aide de l’équation,

α =−N x

x(1 )

=2804 1 0 96059

0 96059( . ).

− = 115.0393 (6.47)

*Etape 3. Lorsque l’on a obtenu les valeurs de α et x, on peut calculer le nombre d’espèces quidevraient contenir 1, 2, 3, . . ., n individus. Ceci est illustré ci dessous, pour les quatrepremières classes d’abondance correspondant aux sommes cumulées.

Tableau 6.17. Calculs à effectuer pour obtenir le nombre d’espèces prévu dans un modèle ensérie log.

Nombred’individus

Terme de la série Nombre d’espècesprévu

Somme cumulée

1 α x 110.52 α x2/2 53.1 163.63 α x3/3 33.94 α x4/4 24.5 58.55 α x5/5 18.86 α x6/6 15.17 α x7/7 12.48 α x8/8 10.4 56.79 α x9/9 8.910 α x10/10 7.711 α x11/11 6.712 α x12/12 6.013 α x13/13 5.214 α x14/14 4.715 α x15/15 4.216 α x16/16 3.8 47.1

*Etape 4. L’étape suivante consiste à dresser un tableau du nombre d’espèces prévu et observédans chaque classe d’abondance et à comparer les deux distributions à l’aide d’un test devalidité de l’ajustement. Le test du χ 2 est l’un des plus utilisés.Pour chaque classe, calculer χ 2 comme suit.

χ 2 = (Fréquence observée – Fréquence prévue)2/ Fréquence prévue (6.48)

Par exemple, dans la classe 1, χ2 = (158-163.5809)2 /163.5809 =0.1904. Pour finir, sommer cette

colonne pour obtenir la validité globale de l’ajustement, χ∑ 2. Vérifier la valeur du χ2 obtenue dans

la table du χ2 (Annexe 4) en prenant comme degré de liberté le nombre de classes moins 1. Dans

notre cas, χ∑ =2

12 0624. , avec 6 degrés de liberté. La valeur de χ2 pour P=0.05 est 12.592.

Page 206: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 203 -

On en conclut qu’il n’y a pas de différence significative entre la distribution observée et la distributionprévue. Le modèle en série log est donc bien ajusté aux données.

Lorsque le nombre d’espèces prévues est petit (<1.0), la valeur calculée du χ2 peut être très élevée.Dans ce cas, il est préférable de combiner le nombres d’espèces observé dans au moins deuxclasses adjacentes, et de le comparer avec le nombre combiné d’espèces prévu dans les deuxmêmes classes. Les degrés de liberté doivent être réduits en conséquence. Dans l’exemple quiprécède, la fréquence prévue de la classe 8 est inférieure à 1, de sorte que l’on a combiné lesfréquences observée et prévue de la classe 8 avec celles de la classe 7, pour tester la validité del’ajustement.

Tableau 6.18. Test de validité de l’ajustement d’un modèle en série log.

Classe Bornesupérieure

Observée Prévue (Observée - prévue)2Observée

1 2.5 158 163.5809 0.19042 4.5 55 58.4762 0.20663 8.5 76 56.7084 6.56284 16.5 49 47.1353 0.07385 32.5 20 30.6883 3.72266 64.5 9 11.8825 0.69927 128.5 5 3.5351 0.6070

Total 372 372.0067 12.0624

6.3.3. Etude de la configuration spatialeLa distribution spatiale des végétaux et des animaux est une importante caractéristique descommunautés écologiques. C’est habituellement l’une des premières caractéristiques que l’onobserve lorsque l’on étudie une communauté et c’est l’une des propriétés les plus fondamentales detout groupe d’organismes biologiques. Une fois qu’une configuration a été identifiée, l’écologiste peutproposer des hypothèses qui expliquent les causes profondes de cette configuration et les tester.Ainsi, en fin de compte, c’est principalement pour tirer des hypothèses concernant la structure descommunautés écologiques que l’on cherche à identifier les distributions spatiales. Nous allons décriredans cette section l’utilisation de distributions statistiques ainsi que quelques indices de dispersion,pour détecter et mesurer la distribution spatiale des espèces au sein des communautés.

On discerne dans les communautés trois grands types de configuration : aléatoire, en bouquets etuniforme (voir Figure 6.5). Les mécanismes de causalité suivants sont souvent utilisés pour expliquerles répartitions observées dans les communautés écologiques. Dans une population d’organismes, larépartition aléatoire implique un environnement homogène et des comportements non sélectifs. Enrevanche, les configurations non aléatoires (regroupement en bouquets et uniformes) impliquent quedes contraintes soient exercées sur la population. Le regroupement en bouquets laisse penser queles individus sont regroupés dans les endroits les plus favorables; Il peut y avoir diverses causes : lecomportement grégaire, l’hétérogénéité de l’environnement, le mode de reproduction etc. Lesdispersions uniformes résultent d’interactions négatives entre les individus, telles que la concurrencepour la nourriture et l’espace. On notera que l’identification d’une configuration et l’explication descauses possibles de cette configuration sont deux problèmes différents. De plus, il ne faut pas oublier

Page 207: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 204 -

le caractère multifactoriel de la nature; de nombreux processus (biotiques et abiotiques)interdépendants) peuvent favoriser les configurations.

Figure 6.5. Les trois grands types de distribution spatiale (a) Aléatoires (b) En bouquets (c) Uniforme

Hutchinson a été l’un des premiers spécialistes de l’environnement à prendre conscience del’importance des configurations spatiales dans les communautés et à identifier divers facteurs decausalité pouvant conduire à la structuration d’organismes, notamment : i) facteurs vectoriels résultantde l’action de forces environnementales externes (vent, courants de l’eau, et intensité de la lumière) ;ii) facteurs de reproduction, pouvant être attribués au mode de reproduction de l’organisme (clonageet régénération de la descendance) ; iii) facteurs sociaux dûs à des comportements innés (ex :comportement territorial) ; iv) facteurs coactifs, résultant d’interactions intra-spécifiques (ex :concurrence) ; et v) facteurs stochastiques résultant d’une variation aléatoire de l’un des facteurs quiprécèdent. Ainsi les processus entrant en jeu dans les configurations spatiales peuvent êtreconsidérés comme intrinsèques (ex : facteurs sociaux, coactifs et de reproduction) ou extrinsèquesaux espèces (ex : vectoriel). Les causes de la distribution spatiale sont analysées de façon plusapprofondie dans Ludwig and Reynolds (1988).

Si des individus d’une espèce sont dispersés sur des unités d’échantillonnage discontinues (ex :cochenilles sur les feuilles des plantes), et si, à un moment donné, on préleve un échantillon dunombre d’individus par unité d’échantillonnage, il est possible de récapituler les données en terme dedistribution de fréquence, c’est-à-dire du nombre d’unités d’échantillonnage avec 0, 1, 2, etc…individus. Cette distribution est l’ensemble de données de base qui entre en jeu dans les méthodes dedétection des configurations décrites plus loin. On remarquera que les espèces sont supposéesapparaître sur des sites ou des unités d’échantillonnage naturelles discontinus, telles que feuilles,fruits, arbres. En général, les relations entre la moyenne et la variance du nombre d’individus parunité d’échantillonnage sont fonction des modes de dispersion de la population. Par exemple, lamoyenne et la variance sont à peu de choses près égales dans les répartitions aléatoires, mais lavariance est plus grande que la moyenne dans les distributions en bouquets, et plus petite dans lesrépartitions uniformes. Il existe certains types de distribution de fréquence statistique qui, en raisonde leurs rapports variance-moyenne, ont été utilisés comme modèles de ces types de configurationsécologiques. Il s’agit de i) la distribution de Poisson pour les configurations aléatoires ; ii) ladistribution binomiale négative pour les distributions en bouquets et iii) la distribution binomialepositive pour les distributions uniformes. Ces trois modèles statistiques ont couramment été utilisésdans les études de configuration spatiale, mais il existe d’autres distributions statistiques tout aussiappropriées.

Page 208: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 205 -

La première étape de la détection du mode de distribution, dans une communauté écologique,implique souvent de tester l’hypothèse “ la distribution du nombre d’individus par unitéd’échantillonnage est aléatoire ”. La distribution de Poisson a déjà été décrite dans la Section 2.4.2.Si l’hypothèse de la distribution aléatoire est rejetée, la distribution peut tendre vers le regroupementen bouquets (cas habituel) ou uniforme (exception). Si la direction tend vers une dispersion enbouquets, la concordance avec la distribution binomiale négative doit être testée et certains indicesde dispersion, basés sur le rapport de la variance à la moyenne, peuvent être utilisés pour mesurer ledegré de regroupement. Ce cas n’est pas abordé ici, d’une part parce que les configurationsuniformes sont relativement rares dans les communautés naturelles, et d’autres part parce que ladistribution binomiale a déjà été décrite dans la Section 2.4.1.

Avant de poursuivre, quelques réserves s’imposent. Tout d’abord, le non-rejet d’une hypothèse dedistribution aléatoire signifie seulement qu’aucun caractère non aléatoire n’a été détecté à l’aide del’ensemble de données spécifié. Deuxièmement, les hypothèses proposées doivent être raisonnables,c’est-à-dire soutenables et fondées à la fois sur le bon sens et sur des connaissances biologiques. Cesecond point est lié par d’importantes ramifications au premier. Il n’est pas rare qu’une distributionstatistique théorique (ex. distribution de Poisson) ressemble à une distribution de fréquence observée(c’est-à-dire qu’il y a concordance statistique entre les deux), même si les hypothèses qui sous-tendent ce modèle théorique ne sont pas vérifiées par l’ensemble de données. Il s’ensuit que l’onpeut accepter une hypothèse nulle même si elle n’a pas de justification biologique. Troisièmement, lesconclusions ne doivent pas être basées uniquement sur les tests de signification. Toutes les sourcesd’information disponibles (écologiques et statistiques) devraient être utilisées ensemble. Ainsi, le nonrejet d’une hypothèse nulle, basée sur une petite taille d’échantillon, devrait être considéré commeune faible confirmation de ladite hypothèse. Enfin, il faut avoir présent à l’esprit que la détectiond’une configuration spatiale et l’explication de ses causes possibles sont deux problèmes différents.

L’utilisation de la loi binomiale négative pour la vérification de configurations en bouquets est décriteici. Le modèle binomial négatif est vraisemblablement la loi de probabilité la plus couramment utiliséepour les distributions en bouquets (également appelées distributions “ contagieuses ” ou“ agrégatives ”). Lorsque deux des conditions requises pour l’emploi du modèle de Poisson ne sontpas vérifiées - à savoir la condition 1 (toutes les unités d’échantillonnage naturelles ont la mêmeprobabilité de contenir un individu) et la condition 2 (la présence d’un individu dans une unitéd’échantillonnage est sans influence sur le fait qu’elle soit occupée par un autre individu) - on obtienten général un rapport variance- moyenne élevé du nombre d’individus par unité d’échantillonnage.Comme on l’a vu plus haut, ceci laisse penser que l’on est en présence d’une configuration enbouquets.

La loi binomiale négative a deux paramètres, µ, le nombre moyen d’individus par unitéd’échantillonnage et k, un paramètre lié au degré de regroupement. Les étapes de la vérification de laconcordance entre la distribution de fréquence observée et la loi binomiale négative sont décrites ci-dessous.

*Etape 1. Formulation de l’hypothèse; il s’agit de tester l’hypothèse selon laquelle le nombred’individus par unité d’échantillonnage suit une loi de distribution binomiale négative, ce qui

Page 209: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 206 -

dénote l’existence d’une dispersion non-aléatoire ou en bouquets. S’il n’arrive pas à rejetercette hypothèse, l’écologiste peut avoir un bon modèle empirique pour décrire un ensemblede données de fréquence observées, sans que ce modèle explique quels sont les causesprofondes possibles de cette configuration. Autrement dit, il faut se garder de déduire lacausalité uniquement sur la base de nos méthodes de détection du mode de dispersion.

*Etape 2. Le nombre d’individus par unité d’échantillonnage est résumé sous la forme d’unedistribution de fréquence, autrement dit du nombre d’unités d’échantillonnage avec 0, 1, 2,…, r individus.

*Etape 3. Calculer les probabilités P(x) de la loi binomiale négative. La probabilité de trouver xindividus dans une unité d’échantillonnage, c’est à dire que dans P(x), x soit égal à 0, 1, 2,…, r individus, est donnée par la formule,

P xk

k xx k k

x k

( )( )

( )!!( )!

=+

+ −−

+

−µµ

µ11

1 (6.49)

Le paramètre µ est estimé à partir de la moyenne de l’échantillon (x ). Le paramètre k mesure ledegré de regroupement et tend vers zéro pour le regroupement maximal. On peut obtenir uneestimation de k par itérations successives de l’équation suivante :

log $ log $100

10 1NN

kxk

= +

(6.50)

où N est le nombre total d’unités d’échantillonnage dans l’échantillon, et N0 est le nombre d’unitésd’échantillonnage avec 0 individus. Dans un premier temps, on remplace $k dans le second membrede l’équation par une estimation initiale. Si le second membre de l’équation est inférieur au premier,on essaie une valeur plus élevée de $k , et l’on compare à nouveau les deux membres. On itère ceprocessus (en choisissant de manière appropriée des valeurs inférieures ou supérieures de $k )jusqu’à obtenir une valeur de $k vers laquelle les deux membres de l’équation convergent. Unebonne estimation initiale de $k pour la première itération est obtenue grâce à la formule,

$k = x

s x2 − (6.51)

où s2 est la variance de l’échantillon estimée.

Lorsque la moyenne est basse (inférieure à 4), l’Equation (6.50) fournit un bon moyen d’estimer $k .Par contre, si la moyenne est élevée (supérieure à 4), la méthode itérative n’est efficace que si leregroupement de la population est généralisé. Ainsi, lorsque la moyenne (x ) de la population et lavaleur de $k (le paramètre de regroupement calculé à partir de l’équation (6.51)) sont toutes les deuxsupérieures à 4, l’équation (6.51) est préférée à l’équation (6.50) pour estimer $k .

Une fois que l’on a obtenue les deux statistiques, x et $k , on calcule, avec la formule (6.49), lesprobabilités P(x) de trouver x individus dans une unité d’échantillonnage, où x = 0, 1, 2, …, rindividus,

Page 210: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 207 -

( )P

xx k

k

kxk

k

( ) $

$ !

!( )! $00 1

0 11

0

=+

+ −

+

= 1+

−x

k

k

$

( )P

xx k

k

kxk

k

( ) $

$ !

!( $ )! $11 1

1 11

1

=+

+ −

+

= x

x kk

P+

$

$( )

10

( )P

xx k

k

kxk

k

( ) $

$ !

!( $ )! $22 1

2 11

2

=+

+ −

+

= x

x kk

P+

+

$

$( )

12

1

( )P r

xx k

k r

r kxk

r k

( ) $

$ !

!( $ )! $=+

+ −

+

−1

11

= x

x kk r

rP r

+

+ −

−$

$( )

11

*Etape 4. Trouver les fréquences binomiales négatives théoriques. Le nombre théorique d’unitésd’échantillonnage contenant x individus s’obtient en multipliant chaque probabilité binomialenégative par N, le nombre total d’unités d’échantillonnage dans l’échantillon. Le nombre declasses de fréquence, noté q, est aussi déterminé selon la méthode décrite pour le modèle dePoisson.

*Etape 5. Test de la validité de l’ajustement. Le test du χ 2 sera effectué suivant la procédure décritedans la Section 3.5.

Nous allons maintenant examiner un exemple d’ajustement d’une distribution binomiale négative. Ontrouve souvent des larves d’abeilles charpentières dans les pédicelles des inflorescences des yuccas(arbre à savon), dans le sud du Nouveau Mexique. Un écologiste spécialiste des insectes qui étudiaitles modes de dispersion spatiale de ces abeilles, a récolté au hasard un échantillon de larves sur 180pédicelles de yucca. Les données observées sont résumées dans le tableau de fréquence suivant,

x 0 1 2 3 4 5 6 7 8 9 10fx 114 25 15 10 6 5 2 1 1 0 1

Page 211: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 208 -

où x est le nombre de larves d’abeilles par pédicelle et fx est la fréquence de pédicelles de yuccaayant x = 0, 1, 2, …., r larves. Dans cet exemple, r = 10. Le nombre total d’unitésd’échantillonnage est

N = ( )f xx =∑

0

10

= 114 + 25 + …..+ 0 + 1 = 180

et le nombre total d’individus est

n xf xx

==

∑( )0

10

= (0)(114) + (1)(25) + (9)(0) + (10)(1) = 171

La moyenne arithmétique de l’échantillon est

xnN

= =171180

= 0.95

et sa variance est

s2 = ( )xf xnx

x

2

0

10

−=

∑( 1)n

( )( )[ ]

=−681 095 171

179.

= 2.897

*Etape 1. Hypothèse: L’hypothèse nulle est « les larves d’abeilles charpentières se regroupent enbouquets sur les pédicelles des inflorescences de yucca ». Il convient donc de tester la concordance(du nombre d’individus par unité d’échantillonnage) avec la loi binomiale négative. La variancesupérieure à la moyenne laisse penser que les abeilles sont distribuées en bouquets.

*Etape 2. Distribution de fréquence, fx : La distribution de fréquence observée, sa moyenne et savariance, sont données plus haut.

*Etape 3. Probabilités binomiales négatives, P(x) : Une estimation de $k , obtenue à l’aide del’Equation (6.51) avec x = 0.95 est s2= 2.897 est

( )

( )$ .

. .k =

−0 95

2 897 0 95

2 = 0.4635

Les valeurs de $k et x étant l’une et l’autre inférieures à 1, l’Equation (6.50) peut être utilisée pourdonner une estimation de $k . En prenant les valeurs N =180 et N0 =114 dans le premier membre del’équation (6.50), on obtient la valeur 0.1984. Ensuite, en posant $k = 0.4635 dans le secondmembre de l’Equation (6.50), on obtient :

Itération 1 : $ log $ . log.

.k

xk10 101 0 4635 1

0 950 4635

+

= +

Page 212: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 209 -

= 0.2245

Puisque le second membre de l’équation donne une valeur supérieure à 0.1984, on remplace $k parune valeur plus petite que 0.4635, dans l’Equation (6.50). En choisissant $k = 0.30 on trouve,

Itération 2 : $ log $ . log..

kxk10 101 0 30 1

0 950 30

+

= +

= 0.1859

Cette valeur est proche de 0.1984, (mais à présent plus petite). Pour l’itération suivante, on choisitdonc une valeur de $k légèrement plus grande. En prenant $k =0.34, on a

Itération 3 : $ log $ . log..

kxk10 101 0 34 1

0 950 34

+

= +

= 0.1969

Là encore, pour l’itération suivante, on essaye une valeur de $k légèrement plus élevée. Pour$k =0.3457,

Itération 4 : $ log $ . log.

kxk10 101 0 3457 1

950 3457

+

= +

= 0.1984

Cette valeur numérique est identique à la valeur fournie par le premier membre de l’Equation (6.50)de sorte que, dans notre exemple, la meilleure estimation de $k est 0.3457. Enfin, les probabilités,individuelles et cumulatives, de trouver 0, 1, 2, et 3 larves par pédicelles [pour x =0.95 et

$k =0.3457, où ( )x

x k+=$ .0 7332 ] sont données dans le Tableau 6.18.

Les probabilités cumulées, après avoir trouvé 4 individus dans une unité d’échantillonnage sont de94.6%. Les probabilités restantes, de P(5) à P(10) sont donc de 5,4%, soit P(5+) = 1.0 - 0.946 = 0.054.

Page 213: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 210 -

Tableau 6.18. Calcul de P(x), les probabilités binomiales négatives, pour x individus (abeilles) parunité d’échantillon (pédicelle de yucca)

Probabilité ProbabilitéCumulée

P( ).

.

.0 1

0950 3457

0 3457= +

=0.6333 0.6333

[ ]P P( ) ..

( )1 0 73320 3457

10=

= (0.2535)(0.6333) =0.1605 0.7938

[ ]P P( ) ..

( ) ( . )( . )2 0 73321 3457

21 0 4933 01605=

= =0.0792 0.8730

[ ]P P( ) ..

( ) ( . )( . )3 0 73322 3457

32 0 5733 0 0792=

= =0.0454 0.9184

[ ]P P( ) ..

( ) ( . )( . )4 0 733233457

43 0 6133 0 0454=

= =0.0278 0.9462

P( ) . .5 100 0 9462+ = − =0.0538 1.0000

*Etape 4. Fréquences théoriques, Ex : Elles s’obtiennent en multipliant les fréquences théoriques parle nombre total d’unités d’échantillonnage (Tableau 6.19)

Tableau 6.19. Calcul des fréquences théoriques d’unités d’échantillonnage contenant unnombre variable d’abeilles.

Probabilité ProbabilitéCumulée

E0 =(N)P(0) =(180)(0.633) =114.00 114.00E1 =(N)P(1) =(180)(0.161) = 28.90 142.90E2 =(N)P(2) =(180)(0.079) = 14.25 157.20E3 =(N)P(3) =(180)(0.045) = 8.17 165.30E4 =(N)P(4) =(180)(0.028) = 5.00 170.30E5+ =(N)P(5+) =(180)(0.054) = 9.68 180.00

*Etape 5. Validité de l’ajustement : Le test statistique χ2 est calculé comme suit,

χ2 = ( ) ( )114 114 0

114 010 9 67

9 67

2 2−

+ +

..

....

.

= 0.00 + …+ 0.01= 1.18

On compare cette valeur du critère de test à la table des valeurs critiques du χ2 avec (nombre desclasses – 3)= 3 degrés de liberté. La valeur critique, au seuil de probabilité de 5%, est de 7.82

Page 214: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 211 -

(Annexe 4), et, puisque la probabilité d’obtenir une valeur de χ2 égale à 1.18 est nettement inférieureà cette valeur, on ne rejette pas l’hypothèse nulle. Le modèle binomial négatif apparaît donc commeun bon ajustement des données observées, mais nous souhaitons obtenir une confirmationsupplémentaire (par exemple, un ensemble de données indépendant) avant de conclure que les larvesd’abeilles charpentières sont effectivement réparties en bouquets. On notera que si, dans notreexemple, on laisse descendre les valeurs théoriques minimales jusqu’à 1.0 et 3.0, les valeurs de χ2

sont respectivement 2.6 et 2.5 – niveaux encore nettement inférieurs à la valeur critique.

Tableau 6.20. Calculs pour le critère de test χ2

Nombre delarves d’abeilles

par pédicelle(x)

Fréquenceobservée

fx

Fréquencethéorique

Ex

( )f EE

x x

x

−2

0 114 114.0 0.001 25 28.9 0.532 15 14.3 0.043 10 8.2 0.414 6 5.0 0.195 10 9.7 0.01

Total 180 180.0 χ2 = 1.18

Pour détecter des configurations spatiales, on peut préférer aux distributions statistiques certainsindices faciles à calculer, comme l’indice de dispersion ou l’indice de Green, si les unitésd’échantillonnage sont discrètes.

(i) Indice de dispersion : Le quotient variance-sur-moyenne ou indice de dispersion (ID) est

ID = sx

2 (6.52)

où x est s2 sont respectivement la moyenne et la variance de l’échantillon. Le quotient variance-sur-moyenne (ID) est utile pour évaluer la concordance d’un ensemble de données avec la série dePoisson. Par contre, ce n’est pas un bon paramètre pour mesurer le degré de regroupement. Si lapopulation est regroupée en bouquets, le ID est fortement influencé par le nombre d’individus dansl’échantillon, et ne sera un bon indice comparatif de regroupement que dans le cas où n est le mêmedans chaque échantillon. L’indice de Green (GI), qui est une version modifiée de l’ID, indépendantede n, est donné par la formule,

GI =

sx

n

21 1

1

−(6.53)

GI varie de 0 (pour la dispersion aléatoire) à 1 (pour le regroupement maximal). On peut doncutiliser l’indice de Green pour comparer des échantillons dont le nombre total d’individus, lamoyenne et le nombre d’unités d’échantillonnage dans l’échantillon varient. En conséquence, parmi

Page 215: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 212 -

les nombreuses variantes de l’ID qui ont été proposées pour mesurer le degré de regroupement, leGI semble la plus appropriée. Les valeurs du GI pour la population de cochenilles peuvent êtreobtenues comme suit

( )( )GI =

−−

=3 05 1171 1

0 012.

.

Comme la valeur maximale du GI est 1.0 (si les 171 individus étaient apparus dans une seulepédicelle de yucca), cette valeur représente un degré de regroupement relativement faible.

6.3.4. Dynamique des écosystèmesIl est bien connu que les forêts, en tant qu’écosystèmes, varient considérablement au fil du temps. Ilest important, aussi bien du point de vue scientifique, que sur le plan de l’aménagement, decomprendre ces processus dynamiques. On s’est beaucoup intéressé dans le passé à l’estimation dela croissance et du rendement des forêts, qui est l’un des éléments de ces processus. Cependantplusieurs aspects tout aussi importants sont liés à la dynamique des forêts, notamment les effets àlong terme de la pollution de l’environnement, les variations des cycles écologiques dans les forêts,la dynamique, la stabilité et la résilience des écosystèmes tant naturels qu’artificiels etc… Cesdifférents objectifs des applications requièrent des approches de modélisation radicalementdifférentes. Ces modèles sont si complexes qu’il est impossible, ne serait-ce que d’en donner un brefaperçu ici, de sorte que l’on s’est limité à tenter de donner une description simplifiée de quelques-unsde ceux qui pourraient être utilisées dans ce contexte.

Tout processus dynamique est configuré par l’échelle de temps caractéristique de ses composantes.Dans les forêts, ces échelles peuvent se compter en minutes (processus stomatiques) en heures(cycle diurne, dynamique sol-eau), en jours (dynamique des nutriments, phénologie), en mois (cyclesaisonnier, accroissement), en années (croissance et sénescence des arbres), en décennies (stadesde végétation successifs des forêts) ou en siècles (réaction d’une forêt à un changement climatique).L’échelle de temps que l’on privilégiera dépend de l’objet du modèle. On la déterminehabituellement avec des données agrégées décrivant les processus qui ont des échelles de tempsdifférentes, mais le niveau d’agrégation dépend du degré de validité comportementale visé.

Pour rassembler des données sur la dynamique des forêts, au niveau du macro-environnement, laméthode traditionnelle consiste à établir des parcelles échantillons permanentes et à faire desobservations périodiques. Dernièrement, la télédétection par satellite et par d’autres dispositifs aélargi le champ d’application de la collecte de données historiques précises sur les forêts. Sans entrerdans les détails de ces autres approches possibles qui sont complexes, nous allons expliquer danscette section comment sont utilisées les parcelles échantillons permanentes, dans les recherchesforestières à long terme, et illustrer un modèle de succession forestière par un exemple très simplifié.

i) Utilisation des parcelles-échantillons permanentesLe meilleur moyen d’étudier la dynamique des forêts naturelles est d’établir des parcelles échantillonspermanentes. Bien que la taille et la forme des parcelles et la nature et la périodicité des observationsvarient suivant l’objet de l’enquête, nous proposons quelques directives valables pour les étudesécologiques en général ou pour les études sur l’aménagement des forêts.Il convient de choisir des stations représentatives dans chaque catégorie de forêts et d’établir desparcelles échantillons pour observer en détail la regénération et la croissance. Les parcelles doivent

Page 216: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 213 -

être assez grandes - au moins un hectare (100 m x 100 m) – et être situées dans différentes stationsayant des peuplements de densités variables. L’idéal est d’avoir au moins 30 parcelles dans unecatégorie de forêt particulière pour étudier la dynamique et les interactions entre le peuplement et lastation. Les parcelles peuvent être délimitées par de petites tranchées aux quatre coins. Il faut aussidresser une carte du lieu, indiquant l’emplacement exact de la parcelle. Un inventaire complet desarbres se trouvant dans les parcelles doit être fait en marquant chaque arbre avec des baguesd’aluminium numérotées. L’inventaire précisera certains paramètres de base, comme le nom del’espèce et la circonférence à hauteur d’homme sur les arbres adultes (gbh sur écorce > 30 cm) etsur les gaulis (gbh sur écorce >10 cm <30 cm). Les plantules (gbh sur écorce < 10 cm) peuvent êtrecomptées dans des sous-parcelles d’une taille de 1m x 1m, sélectionnées de manière aléatoire ousystématique.

Des informations sur les propriétés du sol de chaque parcelle sont rassemblées dans plusieurs fossesd’observation, dont les on regroupera les différentes données. Les paramètres de base seront le pHdu sol, le carbone organique, la texture du sol (teneur en gravier, sable, limon et argile), températureet réserves d’humidité du sol. Des observations concernant certaines caractéristiquestopographiques, comme la pente, l’aspect, la proximité d’une source d’eau etc…, sont aussienregistrées pour chaque parcelle.

ii) Modèle de transition des forêts (d’un état à l’autre)Nous allons maintenant concentrer notre attention sur un modèle particulier, appelé “modèle deMarkov”, qui nécessite l’utilisation d’outils mathématiques appelées matrices. Une descriptionélémentaire de la théorie des matrices est fournie à l’Annexe 7, pour les non initiés. Dans un modèlede Markov du premier ordre, l’évolution future d’un système est déterminée par son état présent, etne dépend pas de la manière dont cet état s’est développé. L’enchaînement de résultats produits parun modèle de ce type est souvent appelé chaîne de Markov. L’application de ce modèle à desproblèmes concrets est limitée par trois contraintes majeures, à savoir: le système doit être classé enun nombre fini d’états, les transitions doivent avoir lieu à des instants discrets, même si, pour lesystème en cours de modélisation, ces derniers peuvent être si proches qu’ils peuvent êtreconsidérés comme continus dans le temps, et enfin les probabilités de transition ne doivent pas varieravec le temps. Il est possible de modifier dans une certaine mesure ces contraintes, quitte àaugmenter la complexité mathématique du modèle. On peut utiliser des probabilités variant enfonction du temps, ou des intervalles variables entre les transitions et, dans les modèles de Markovd’ordre plus élevé, les probabilités de transition dépendent, non seulement de l’état actuel, mais aussid’un ou plusieurs états antérieurs.

Les modèles markoviens ont une valeur potentielle particulièrement élevée, mais jusqu’à présent ilsont été peu utilisés en écologie. Toutefois des études préliminaires laissent penser que, lorsque lessystèmes écologiques étudiés affichent des propriétés markoviennes, et plus particulièrement d’unechaîne de Markov stationnaire de premier ordre, il est possible de faire plusieurs analysesintéressantes et importantes du modèle. Par exemple, l’analyse algébrique d’une matrice de transitiondéterminera l’existence d’une série d’états transitoires, d’ensembles fermés d’états ou d’un étatabsorbant. Une analyse plus approfondie permet de fractionner la matrice de transition de base etd’étudier séparément les différentes composantes, ce qui simplifie le système écologique à l’étude.L’analyse d’une matrice de transition peut aussi conduire à calculer les temps de passage moyensd’un état à l’autre et la durée moyenne d’un état particulier, depuis son début. En présence d’états

Page 217: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 214 -

fermés ou absorbants, il est possible de calculer la probabilité d’absorption et le temps moyend’absorption. Un ensemble transitoire d’états est un ensemble dans lequel chaque état peut en fin decompte être atteint à partir de tout autre état faisant partie de l’ensemble, mais qui est abandonnélorsque l’état entre dans un ensemble d’états fermés ou dans un état absorbant. Un ensemble fermése distingue d’un ensemble transitoire en ce sens que, une fois que le système est entré dans un étatquelconque de l’ensemble fermé, l’ensemble ne peut pas être abandonné. Un état absorbant est unétat que l’on ne peut plus quitter, c’est à dire où l’auto remplacement est complet. C’est pourquoi letemps de passage moyen représente le temps moyen nécessaire pour passer à travers un étatparticulier de la succession, et le temps moyen d’absorption est le temps moyen pour atteindre unecomposition stable.

Pour construire des modèles apparentés à celui de Markov, les principales informations nécessairessont les suivantes: une classification quelconque qui, jusqu’à un degré acceptable, sépare les états dela succession en des catégorie définissables, des données servant à déterminer les probabilités detransferts ou les vitesses auxquelles les états passent, au cours du temps, d’une catégorie de cetteclassification à une autre et des données décrivant les conditions initiales à un temps donné,habituellement suivant une perturbation bien établie.

Prenons pour exemple les interactions forêts (terres boisées) – prairies sur de longues périodes detemps dans des paysages naturels. Il est bien connu que lorsque les forêts naturelles sontcontinuellement perturbées par l’homme ou affectées par des incendies répétés, elles peuventretourner à l’état de prairie. L’inverse peut aussi se produire, en ce sens que des prairies peuvent setransformer en forêts dans certains environnements propices. Dans cet exemple, les forêts et lesprairies sont deux états que le système peut prendre avec des définitions bien adaptées même si,dans la réalité, il peut y avoir plus de deux catégories.

Le Tableau 6.21 présente les données collectées dans 20 parcelles échantillons permanentes, surl’état de la végétation se trouvant dans les parcelles classées dans la catégorie forêts (F) ou prairies(G), en 4 occasions successives, espacées de 5 ans.

Les probabilités historiques de transition entre les deux états possibles, sur une période de 5 ans,sont indiquées dans le Tableau 6.22. Ces probabilités ont été estimées en comptant le nombre defois où se produit un type particulier de transition, disons F-G, sur une période de 5 ans, et endivisant ce nombre par le nombre total de transitions possibles dans les 20 parcelles, en vingt ans.

Page 218: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 215 -

Tableau 6.21. Etat de la végétation dans les parcelles témoin, en 4 occasions

Numéro dela parcelle

Occasions

1 2 3 41 F F F F2 F F F F3 F F G G4 F F F G5 G G G G6 G G G G7 F F G G8 F G G G9 F F F G10 G G F F11 F F F F12 G G F F13 G G F F14 F F G G15 F F G G16 F F F F17 F F G G18 F F F F19 F F G G20 F F F F

Tableau 6.22. Probabilités de transition, relatives aux changements successifs se produisant dans unpaysage (intervalle = 5 ans)

Etat initial Probabilité de transition jusqu’à l’état finalForêt Prairie

Forêt 0.7 0.3Prairie 0.2 0.8

Ainsi, les parcelles qui sont initialement des forêts ont une probabilité de 0,7 de rester à l’état deforêts à la fin de la période de 5 ans, et une probabilité de 0,3 d’être convertie en prairie. Lessurfaces qui, au départ, sont des prairies ont une probabilité de 0,8 de rester dans cet état et uneprobabilité de 0,2 de retourner à l’état de forêt. Aucun des états n’est donc absorbant ou fermé,mais chacun représente une transition de la forêt à la prairie, et vice-versa. En l’absence d’étatsabsorbants, le processus de Markov prend le nom de chaîne ergodique et l’on peut étudier toutes lesconséquences de la matrice des probabilités de transition en exploitant les propriétés fondamentalesdu modèle markovien.

Page 219: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 216 -

Les valeurs du Tableau 6.22 montrent les probabilités de transition d’un état quelconque à un autreaprès un intervalle de temps (5ans). Les probabilités de transition après deux intervalles de tempspeuvent être dérivées directement en multipliant la matrice de transition en une étape par elle-même,de manière à ce que, dans le cas plus simple où il est existe deux états, les probabilitéscorrespondantes soient données par la matrice suivante:

p112( ) p12

2( )p11 p12 p11 p12

= ×p21

2( ) p222( )

p21 p22 p21 p22

Sous une forme condensée, on peut écrire :P(2) = PP

De même, la matrice de transition en trois étapes s’écrit :p11

3( ) p123( )

p112( ) p12

2( )p11 p12

= ×p21

3( ) p223( ) p21

2( ) p222( )

p21 p22

ou P(2) = P(2)P

En général, pour la n-ème étape, on peut poser :P(n) = P(n-1)P (6.54)

Pour la matrice du Tableau 6.22, les probabilités de transition à l’issue de deux intervalles de tempssont:

0.5500 0.45000.3000 0.7000

Et à l’issue de quatre intervalles de temps :0.4188 0.58130.3875 0.6125

Si une matrice de probabilités de transition est élevée à des puissances successives jusqu’à atteindreun état où toutes les lignes de la matrice sont identiques, formant un vecteur de probabilité fixe, lamatrice est appelée matrice de transition régulière. La matrice donne la limite à laquelle lesprobabilités de passer d’un état à un autre sont indépendantes de l’état initial, et le vecteur fixe deprobabilité t exprime les proportions d’équilibre des différents états. Par exemple, le vecteur desprobabilités d’équilibre est

0.40 0.60

Donc, si les probabilités de transition ont été correctement estimées et restent stationnaires - ce quiimplique qu’il ne se produit aucun changement majeur dans les conditions environnementales ou dansle modèle d’aménagement de la région considérée - le paysage finira par atteindre un état d’équilibreformé d’environ 40% de forêt et environ 60 % de prairie.

Page 220: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 217 -

Lorsque, comme dans cet exemple, il n’existe pas d’états absorbants, on peut aussi estimer, aumoyen de calculs complexes, l’intervalle de temps moyen nécessaire pour qu’une surface de prairiese transforme en forêt, (et vice-versa) compte tenu des conditions qui prévalent dans la région, c’està dire les temps moyens de premier passage. En d’autres termes, si l’on choisit une surface auhasard, pendant combien de temps devrons nous attendre, en moyenne, pour que cette surfacedevienne une forêt ou une prairie, c’est-à-dire les temps moyens de premier passage à l’équilibre.

6.4. Biologie de la faune sauvage

6.4.1. Estimation de l’abondance de la fauneL’échantillonnage par lignes interceptées est une méthode couramment employée pour estimerl’abondance de la faune. Cette méthode peut être grossièrement décrite comme suit. Supposons quel’on ait une surface de limites connues et de taille A et que l’on veuille estimer l’abondance d’unepopulation biologique, sur cette surface. La technique d’échantillonnage par lignes interceptéesrequiert l’établissement d’au moins une ligne de parcours (ou transect) sur la surface considérée. Onnote le nombre d’objets détectés (si) et les distances perpendiculaires (x i), de la ligne jusqu’auxobjets détectés. On peut aussi enregistrer la distance d’observation ri et l’ angle d’observation θi,qui permettent de retrouver x i à l’aide de la formule x = r sin(θ). Soit n la taille de l’échantillon.L’échantillon correspondant de données potentielles est indexé par (si, ri, θi , i = 1,..., n). Laméthode est représentée graphiquement à la Figure 6.6.

Figure 6.6. Représentation graphique de l’échantillonnage par lignes interceptées

r x θ L

Quatre hypothèses cruciales doivent être posées pour obtenir des estimations fiables de l’abondancede la population à partir d’une enquête par lignes interceptées, à savoir: i) Les points situésdirectement sur la ligne ne sont jamais omis ii) Les points sont fixes à leur emplacementd’observation initial, dont ils ne bougent pas avant d’être détectés et ils ne sont jamais comptés deuxfois iii) Les distances et les angles sont mesurés avec exactitude iv) Les observations sont desévénements indépendants.

Une estimation de la densité est donnée par la formule suivante :

Dnf

L=

(0)2

(6.55)

Page 221: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 218 -

où n = Nombre d’objets observés f(0) = Estimation de la fonction de densité de probabilité des valeurs des distances, à distance

nulle L = Longueur du transect

Pour estimer la quantité f(0) on part du principe qu’une distribution théorique, comme la distributionsemi-normale ou la distribution exponentielle négative, est un bon ajustement de la distribution defréquences observée des valeurs des distances. Dans le contexte de l’échantillonnage par lignesinterceptées, ces distributions prennent le nom de modèles de fonction de détection. L’ajustement deces distributions peut aussi être testé en calculant les fréquences théoriques et en effectuant un test devalidité de l’ajustement du χ2. Une autre variante permet d’estimer la distribution de fréquenceobservée par des fonctions non-paramétriques comme la série de Fourier, et d’estimer f(0). L’idéalest d’effectuer au moins 40 observations indépendantes pour obtenir une estimation précise de ladensité. On trouvera dans Buckland et al. (1993) une description détaillée des différents modèles defonction de détection qui entrent en jeu dans les échantillonnages par lignes interceptées.

Prenons par exemple l’échantillon suivant de 40 observations sur la distance perpendiculaire (x), enmètres séparant des troupeaux d’éléphants de 10 transects de 2 km de long chacun, disposés auhasard dans un sanctuaire de faune

32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,1532,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15

Ici n = 40, L = 20 km. Si la fonction de détection est semi-normale, la densité de troupeauxd’éléphants dans le sanctuaire de faune peut être estimée par la formule,

$

.

Dnf

LL

xn

i= ==

∑−

(0)2

22 2

3

0 5

πi 1

n

$.

Dnf

L= =

+ + +

(0)(20)

(0.032) (0.056) ... (0.015)(40)

22 2 2

322

0 5

π

= 13.63 Troupeaux/ km2

Dans le cas d’une fonction de détection semi-normale, l’erreur-type relative, ou au choix, lecoefficient de variation (CV) de l’estimation de D est donné par la relation,

CV Dn n

( $ ) = +

1001 1

2 (6.56)

=1001

401

(2)(40)+

= 19.36%

6.4.2. Estimation du domaine vitalLe domaine vital, ou aire de répartition naturelle, est l’espace dans laquelle vit normalement unanimal, qu’il le défende ou non comme son territoire, et qu’il le partage ou non avec d’autres

Page 222: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 219 -

animaux. En général, le domaine vital ne comprend pas les zones de migration ou de dispersion. Lesdonnées géographiques concernant un ou plusieurs animaux servent de base pour calculer ledomaine vital, et toutes les statistiques sur ce sujet sont obtenues grâce à la manipulation de cesdonnées pendant une certaine unité de temps. Il existe plusieurs méthodes d’évaluation du domainevital, mais elles rentrent généralement dans 3 catégories, suivant qu’elles sont basées sur i) unpolygone ii) un centre d’activités ou iii) des fonctions non paramétriques (Worton,1987), chacuneayant ses avantages et ses inconvénients. Nous allons illustrer ce qui précède à l’aide d’une méthodebasée sur un centre d’activité.

Si x et y sont deux co-ordonnées indépendantes de chaque position et n est la taille de l’échantillon,le point ( x y, ) est considéré comme le centre d’activité

xx

ny

y

n

ii

n

ii

n

= == =∑ ∑

1 1, (6.57)

Le calcul d’un centre d’activité simplifie les données géographiques en les réduisant à un pointunique. Cette mesure peut être utile pour séparer les domaines des individus dont les points relatifsaux données géographiques empiètent largement les uns sur les autres.

L’une des principales méthodes proposées pour mesurer le domaine vital est basée sur un modèleelliptique à deux variables. Pour estimer le domaine vital par cette approche, on commence parcalculer certaines mesures de dispersion élémentaires concernant le centre d’activité, comme lavariance et la covariance,

( )

( )s

x x

nx

ii

n

2

2

1

1=

−=

∑,

( )

( )s

y y

ny

ii

n

2

2

1

1=

−=

∑,

( )( )

( )s

x x y y

nxy

ii

n

i

=− −

−=

∑1

1 (6.58)

ainsi que l’écart-type, ( )s sx x= 212 et ( )s sy y= 2

12 . Ces statistiques de base peuvent être utilisées

pour déterminer d’autres variables, comme les valeurs propres, connues aussi sous le nom deracines caractéristiques ou latentes, de la matrice 2 x 2 des variances-covariances. Les équations desvaleurs propres sont les suivantes:

( ) ( )λ x y x y x y x xys s s s s s s= + + + − −

12

42 2 2 22

2 2 2

12

(6.59)

( ) ( )λ y y x y x y x xys s s s s s s= + − + − −

12

42 2 2 22

2 2 2

12

(6.60)

Ces valeurs mesurent la variabilité intrinsèque de la dispersion des positions selon deux axesorthogonaux (perpendiculaires et indépendants) passant par le centre d’activité.

Bien que l’orientation de ces nouveaux axes ne puisse pas se déduire directement des valeurspropres, leurs pentes peuvent être déterminées par les relations,

Page 223: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 220 -

b1 (pente de l’axe principal [le plus long]) = ( )s

s

xy

x yλ − 2 (6.61)

b2 (pente de l’axe secondaire [le plus court]) = − 1

1b (6.62)

Les ordonnées y à l’origine ( )a y b x y b x1 1 1 2 2 2= − = − and a ainsi que les pentes des axescomplètent les calculs nécessaires pour tracer les axes de variabilité. Les équations

y a b x a b x1 1 1 2 2= + = +and y2 (6.63)décrivent respectivement l’axe de variabilité principal et l’axe de variabilité secondaire.

Considérons un ensemble de données géographiques représenté par un nuage de points orientéparallèlement à l’un des axes de la grille. Les écart-types des coordonnées x et y (sx et sy) sontproportionnels aux longueurs des axes principal et secondaire (ou semi-principal et semi-secondaire)d’une ellipse passant par ces points. En utilisant la formule de l’aire d’une ellipse, Ae= πsxsy, on peutobtenir une estimation de la taille du domaine vital. Dans le reste de notre démonstration, nousprendrons pour ellipse type l’ellipse ayant des axes de longueur 2sx et 2s. Si l’axe principal et l’axesecondaire de l’ellipse sont égaux, la figure est un cercle et la formule devient Ac= πr2, où r = sx =sy.

L’un des inconvénients évidents de cette mesure est que les axes calculés de données géographiquesnaturelles sont rarement parfaitement alignés avec les axes d’une grille déterminés arbitrairement. Ils’ensuit que les valeurs sx et sy dont dépend l’aire de l’ellipse, peuvent être affectées par l’orientationet la forme de l’ellipse. Ce problème n’existe pas dans les modèles circulaires de domaine vital. Ilexiste deux méthodes qui permettent de calculer des valeurs de sx et sy, corrigées pour l’orientation(covariance). Dans la première, chaque ensemble de coordonnées est transformé comme suit, avantde calculer l’aire de l’ellipse

x x x y yt = − − −( )cos ( ) sinθ θ (6.64)

et y x x y yt = − + −( ) sin ( )cosθ θ (6.65)où θ = arctan(-b) et b est la pente de l’axe principal de ellipse.

La deuxième méthode, beaucoup plus simple, qui permet de déterminer sx et sy corrigés pourl’orientation de l’ellipse, fait appel aux valeurs propres de la matrice des variances-covariancesdérivées des coordonnées des observations. Puisque ces valeurs propres sont analogues à desvariances, leurs racines carrées fournissent aussi des valeurs équivalentes aux écarts-types des

données géographiques transformées (c’est à dire, ( )λ x xst

12 = et ( )λ y ys

t

12 = .). Bien que cette

seconde procédure soit beaucoup plus simple, les transformations trigonométriques de pointsindividuels des données sont également utiles à plusieurs égards, comme le verrons plus loin.

Le fait de prendre l’ellipse type comme mesure du domaine vital pose un autre problème car lesvariances et covariances utilisées dans les calculs sont des estimations de valeurs paramétriques. Entant que telles, elles sont influencées par la taille de l’échantillon. A partir du moment où les donnéessuivent une loi de distribution normale à deux variables, l’incorporation du critère de test statistique Fdans le calcul de l’ellipse permet de compenser en partie la taille de l’échantillon. La formule,

Page 224: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 221 -

As n

nF np

x yt t=−

−−

πα

s 2 1

22 2

( )( ), (6.66)

peut être utilisée pour éliminer l’incidence de la taille de l’échantillon qui a servi à déterminer ce quiest maintenant devenu une ellipse d’un pourcentage de confiance de [(1-α)100]. Cette mesure estsupposée fournir une estimation fiable de la taille du domaine vital, lorsque les donnéesgéographiques suivent une loi de distribution normale à deux variables. Avant l’introduction du testF, les calculs présentés pourraient s’appliquer à tous les cas où l’éparpillement des donnéesgéographiques est symétrique, unimodal. White et Garrott (1990) ont indiqué les calculssupplémentaires qui doivent être faits pour tracer sur papier l’ellipse de confiance [(1-α)100].

L’application d’un modèle général du domaine vital permet de tirer des conclusions sur la familiaritérelative d’un animal avec un point quelconque situé à l’intérieur de son domaine vital. Cesinformations peuvent être déterminées avec plus de précision par une simple observation, mais ellessont extrêmement coûteuses, en temps, et il est difficile de faire des comparaisons quantitatives entredes individus ou entre des enquêtes. A propos du concept de centre d’activité, Hayne (1949) estimeque, bien qu’il soit tentant d’identifier le centre d’activité avec l’emplacement du domaine vital d’unanimal, cela ne doit pas être fait car ce point est une moyenne des points de capture et n’a pasnécessairement d’autre signification biologique. Mis à part le problème que nous venons dementionner, les écarts inhérents à la normalité des données géographiques peuvent être une sourcede difficultés. Du fait de l’étalement (asymétrie du domaine vital), le centre d’activité se trouve enréalité plus près d’un arc de l’ellipse de confiance que ne le prévoyait le modèle, de sorte que la tailledu domaine vital (l’ellipse de confiance [1-α]100 ) est surestimée. La kurtose (aplatissement) peutaugmenter ou diminuer les estimations de la taille du domaine vital. Si les données sont platikurtiques,la taille du domaine vital est sous-évaluée, et inversement dans le cas de données leptokurtiques. Latransformation trigonométrique de données à deux variables aide à résoudre ce problème enfournissant des distributions non-corrélées des coordonnées x et y. Quoiqu’il en soit, pour vérifier lebien-fondé de l’hypothèse de la distribution normale à deux variables, on peut se référer auxméthodes décrites par White et Garrott (1990), que nous ne développerons pas ici pour ne pascompliquer notre exposé.

La taille de l’échantillon peut avoir une influence importante sur la fiabilité des statistiques présentéesici. Il est assez évident que les petites tailles d’échantillons (ex : n <20), peuvent fausser sérieusementles mesures considérées. Une multitude de facteurs qui n’ont pas été pris en considération dans cetteétude, peuvent également influencer les résultats sans que l’on sache encore comment. C’estnotamment le cas des différences entre les espèces et les individus, du comportement social, dessources de nourriture et de l’hétérogénéité de l’habitat, pour n’en citer que quelques-uns.

Les étapes du calcul du domaine vital sont décrites ci-après, à partir de données simulées obéissantà une loi de distribution normale à deux variables avec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0(White and Garrott (1990)). Ces données sont reportées dans le Tableau 6.23.

Page 225: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 222 -

Tableau 6.23. Données simulées obéissants à une loi de distribution normale à deux variablesavec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0.

N°Observation

x(m)

y(m)

N°Observation

x(m)

y(m)

1 10.6284 8.7061 26 16.9375 11.08072 11.5821 10.2494 27 9.8753 10.97153 15.9756 10.0359 28 13.2040 11.00774 10.0038 10.8169 29 6.1340 7.65225 11.3874 10.1993 30 7.1120 12.06816 11.2546 12.7176 31 8.8229 13.25197 16.2976 9.1149 32 4.7925 12.69878 18.3951 9.3318 33 15.0032 10.26049 12.3938 8.8212 34 11.9726 10.534010 8.6500 8.4404 35 9.8157 10.121411 12.0992 6.1831 36 6.7730 10.815212 5.7292 10.9079 37 11.0163 11.338413 5.4973 15.1300 38 9.2915 8.696214 7.8972 10.4456 39 4.4533 10.195515 12.4883 11.8111 40 14.1811 8.452516 10.0896 11.4690 41 8.5240 9.934217 8.4350 10.4925 42 9.3765 6.788218 13.2552 8.7246 43 10.8769 9.081019 13.8514 9.9629 44 12.4894 11.451820 10.8396 10.6994 45 8.6165 10.210621 7.8637 9.4293 46 7.1520 9.817922 6.8118 12.4956 47 5.5695 11.513423 11.6917 11.5600 48 12.8300 9.608324 3.5964 9.0637 49 4.4900 10.564625 10.7846 10.5355 50 10.0929 11.8786

*Etape 1. Calcul des moyennes, des variances et des covariances

x =+ + +10 63 1158 10 09

50. . ... .

= 10.14

y =+ +8 71 10 25 1188

50. . ... .

=10.35

( )sx2

2 2 21063 1014 1158 1014 1009 101450 1

=− + − + −

−( . . ) ( . ) ...( . . )

=11.78

Page 226: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Cas particuliers

- 223 -

( )sy2

2 2 28 71 10 35 10 25 10 35 1188 10 3550 1

=− + − + −

−( . . ) ( . . ) ...( . . )

= 2.57

( )sxy =−

− − + − − + +

− −

150 1

10 63 1014 8 71 10 35 1158 1014 10 25 10 35

10 09 1014 1188 10 35

( . . )( . . ) ( . . )( . . ) ...

( . . )( . . )

= -1.22

( )sx = 117812.

= 3.43

( )sy = 25712.

= 1.60

*Etape 2. Calcul des valeurs propres et des pentes des axes.

( ) ( )[ ]λ x = + + + − − −

12

257 1178 257 1178 4 2 57 1178 122212. . . . ( . )( . ) ( . )

= 11.6434

( ) ( )[ ]λ y = + − + − − −

12

257 1178 2 57 1178 4 257 1178 122212. . . . ( . )( . ) ( . )

= 2.7076

*Etape 3. Calcul des valeurs de sxtet sy t

.

( )sx xt= λ

12 = ( )116434

12. = 3.4122

( )sy yt= λ

12 = ( )2 7076

12. = 1.6455

*Etape 4. Calcul du domaine vital sur la base du test F à (1-α) = 0.95.

As n

nF np

x yt t=−

−−

πα

s 2 1

22 2

( )( ), .

= ( )( )( )( )

( )3 3 16455 2 50 150 2

3188.1416 .4122 .

.( )−

− = 114.8118 m2 = 0.0115 ha

Page 227: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

224

7. CONCLUSION

Le présent manuel couvre quelques-uns des concepts fondamentaux qui entrent en jeu dans lesstatistiques appliquées à la recherche forestière, tant au niveau théorique que pratique. Toutchercheur digne de ce nom doit comprendre ces concepts pour appliquer avec succès la méthodescientifique dans ses enquêtes. Cependant, les situations que l’on rencontre dans la réalité sontsouvent beaucoup trop complexes pour pouvoir être appréhendées par les techniques et les modèlesde base auxquels se réfère le présent manuel. Ainsi, le recours à une analyse multivariable estsouvent nécessaire, lorsque les observations faites dans les unités expérimentales portent sur demultiples caractères. Très souvent, les hypothèses relatives aux distributions ne sont pas respectées,ce qui impose le recours à des statistiques non paramétriques. De nombreux problèmesd’optimisation imposent l’adoption de techniques de recherche opérationnelle ou d’une approcheconforme à la théorie de la décision. Etant donné que beaucoup d’enquêtes sur les forêts seprolongent sur une longue période, des études de simulation seraient plus appropriées qu’uneapproche expérimentale. Les processus écologiques sont souvent trop complexes pour pouvoir êtremanipulés à travers les modèles simples étudiés dans ce manuel. Malgré ces limites, cet ouvrage aune fonction bien précise, qui est d’inculquer aux chercheurs les principes statistiques les plusélémentaires, dans le domaine de la recherche, et de leur donner la possibilité de communiquer et decollaborer en connaissance de cause avec un expert, pour s’attaquer à des problèmes pluscomplexes.

Page 228: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

225

8. BIBLIOGRAPHIE

Anderson, R. L. et Bancroft, T. A. 1952. Statistical Theory in Research. Mc. Graw Hill Book Co.,New York.

Borders, B. E. et Bailey, R. L. 1986. A compatible system of growth and yield equations for slashpine fitted with restricted three-stage least squares. Forest Science, 32: 185-201.

Brender, E.V. et Clutter, J. L. 1970. Yield of even-aged natural stands of loblolly pine. Report 23,Georgia Forest Research Council.

Boungiorno, J. et Michie, B. R. 1980. A matrix model of uneven-aged forest management. ForestScience, 26(4): 609-625.

Buckland, S. T., Anderson, D. R., Burnham, K. P. et Laake, J. L. 1993. Distance Sampling :Estimating Abundance of Biological Populations. Chapman and Hall, London. 446 p.

Chacko, V. J. 1965. A Manual on Sampling Techniques for Forest Surveys. The Manager ofPublications, Delhi.172 p.

Chakravarty, G. N. et Bagchi, S. K. 1994. Short note: enhancement of the computer program of thepermutated neighbourhood seed orchard design. Silvae-Genetica., 43: 2-3, 177-179.

Chaturvedi, A. N. et Khanna, E. S. 1982. Forest Mensuration. International Book Distributors,India. 406 p.

Clutter, J. L. Fortson, J. C. Pienaar, L.V. Brister, G. H. et Bailey, R. L. 1983. Timber Management:A Quantitative Approach. John Wiley and Sons, New York. 333 p.

Comstock, R. E. et Moll, R. H. 1963. Genotype-environment interactions. In : W. D. Hanson andH. F. Robinson (Eds). Statistical Genetics and Plant Breeding, 164-194.

Crowder M. J. et Hand, D. J. 1990. Analysis of Repeated Measures. Chapman and Hall, NewYork. 257 p.

Das, M. N. et Giri, N. C. 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. NewDelhi. 295 p.

Dixon, W. J. et Massey, F. J. 1951. Introduction to Statistical Analysis. Mc. Graw Hill Book Co.,New York.

Draper, N. R. et Smith, H. 1966. Applied Regression Analysis. John Wiley and Sons, New York.407 p.

Gomez, K. A. rt Gomez, A. A. 1984. Statistical Procedures for Agricultural Research. John Wileyand Sons. New York. 680 p.

Page 229: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Bibliographie

- 226 -

Faulkner, R. 1975. Seed Orchards. Forestry Commission Bulletin No.54. Her Majesty’s StationaryOffice, London. 149 p.

Falconer, D. S. 1960. Introduction to Quantitative Genetics. Longman Group Ltd.,365 p.

Fisher, R. A. et Yates, F. 1963. Statistical Tables for Biological, Agricultural and Medical Research.Longman Group Limited, London. 146 p.

Freeman, G. H. et Perkins, J. M. 1971. Environmental and genotype-environmental components ofvariability. VIII. Relations between genotypes grown in different environments and measureof these environments. Heredity, 26: 15-23.

Hayne, D. W. 1949. Calculation of size of home range. Journal of Mammology, 30: 1-18.

Jain, J. P. 1982. Statistical Techniques in Quantitative Genetics. Tata McGraw-Hill PublishingCompany Ltd. New Delhi. 328 p.

Jeffers, J. N. R. 1978. An Introduction to Systems Analysis : with Ecological Applications. EdwardArnold, London. 198 p.

La Bastide, J. G. A. 1967. A computer programme for the layouts of seed orchards. Euphytica, 16,321-323.

Lahiri, D. B. 1951. A method of sample selection providing unbiased ratio estimates. Bull. Inst. Stat.Inst., 33, (2) 133-140.

Ludwig, J. A. et Reynolds, J. F. 1988. Statistical Ecology : A Primer on Methods and Computing.John Wiley and Sons, New York. 337 p.

Magurran, A. E. 1988. Ecological Diversity and its Measurement. Croom Helm Limited, London.179 p.

Mathew, G, Rugmini, P. et Sudheendrakumar, V. V. 1998. Insect biodiversity in disturbed andundisturbed forests in the Kerala part of Western Ghats. KFRI Research Report No. 135,113 p.

Mood, A. 1950. Introduction to the Theory of Statistics. Mc. Graw Hill Book Co., New York.

Montogomery, D.C. 1991. Design and analysis of Experiments. John Wiley and Sons. New York.649 p.

Montogomery, D. C. et Peck, E. A. 1982. Introduction to Linear Regression Analysis. John Wileyand Sons, New York. 504 p.

Namkoong, G., Snyder, E. B. et Stonecypher, R. W. 1966. Heretability and gain concepts forevaluating breeding systems such as seedling orchards. Silvae Genetica, 15, 76-84.

Page 230: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Bibliographie

- 227 -

Parangpe, S. A. et Gore, A. P. 1997. Effort needed to measure biodiversity. International Journal ofEcology and Environmental Sciences, 23: 173-183.

Searle, S. R. 1966. Matrix Algebra for the Biological Sciences (Including Applications in Statistics).John Wiley and Sons, Inc., New York. 296 p.

Seigel, S. 1956. Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill InternationalBook Company. Tokyo. 312 p.

Snedecor G. W. et Cochran. W. G. Statistical Methods. USA: The Iowa State University Press,1980. pp. 232-237.

Sokal, R. R. et Rolhf, F. J. 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.

Spiegel, M. R. et Boxer, R. W. 1972. Schaum’s Outline of Theory and Problems of Statistics in SIunits. McGraw-Hill International Book Company, New York. 359 p.

Steel, R. G. D. et Torrie, J. A. 1980. Principles and Procedures of Statistics, 2nd ed., USA:McGraw-Hill, pp. 183-193.

Sukhatme, P. V., Sukhatme, B. V., Sukhatme, S. et Asok, C. 1984. Sampling theory of Surveysand Applications. Iowa State University Press, U.S.A. and ISAS, New Delhi. 526 p.

Sullivan, A. D. et Clutter, J. L. 1972. A simultaneous growth and yield model for loblolly pine.Forest Science, 18: 76-86.

Vanclay, J. K. 1991. Seed orchard designs by computer. Silvae-Genetica, 40: 3-4, 89-91.

White, G. C. et Garrott, R. A. 1990. Analysis of Wildlife Radio-Tracking Data. Academic Press,Inc. San Diego. 383 p.

Worton, B. J. 1987. A review of models of home range for animal movement. Ecological modelling,38, 277-298.

Wright, J. W. 1976. Introduction to Forest Genetics. Academic Press, Inc. 463 p.

Page 231: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Bibliographie

- 228 -

Références bibliographiques complémentairessur les plans d’expérience

Box. G.E.P., Hunter W.G., Hunter J.S. – Statistics for experimenters. John wiley & sons, NewYork, 1978.

CEA – Ouvrage collectif. – Statistique appliquée à l’exploitation des mesures. Masson, Paris, 1978.

Chapouille P. – Planification et analyse des expériences. Masson et Cie, 1973.

Cochran W.G. et Cox G.M. – Experimental designs, John Wiley & sons, New York, 1957

Cox D.R. – Planning of experiments. John Wiley & sons, New York, 1958.

Dagnelie P. – Principes d’expérimentation. Les Presses Agronomiques de Gembloux, 1980.

Dagnelie P. – Théorie et méthodes statistiques 1 et 11. Les Presses Agronomiques de Gembloux,1973.

Das M.N., Giri N.C. – Design and analysis of experiments. Wiley Eastern limited, 1979.

Dodge Y. – Analysis of experiments with missing data. John wiley & sons, New York, 1985.

Dogué D. et Girault M. – Analyse de variance et palns d’expérience. Dunod, 1969.

Federer W.T. – Experimental design. Oxford & IBH Publishing, 1955.

Finney D.J. – An introduction to the theory of experimental design. Midway reprint, 1960

Finney D.J. – Statistical method in biological assay. Charles Griffin and Cy, 1978.

Fisher R.A. – The design of experiments. Oliver & Boyd Edinburgh (7ème édition), 1960.

Gomez K.A. et Gomez A.A. – Statistical procedures for agricultural research. John Wiley & sons,New York (2e édition), 1984.

Kempthorne O. – Design and analysis of experiments. John Wiley & sons, New York, 1952.

Lellouch J., Lazar P. – Méthodes statistiques en expérimentation biologique. Flammarion, 1974.

Ogawa J. – Statistical theory of the analysis of experimental designs. Marcel Dekker, New York,1974.

Pearce S.C. – The agricultural field experiment. John Wiley & sons, New York, 1983.

Philippeau G. – Théorie des plans d’expérience (application à l’agronomie).

Page 232: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Bibliographie

- 229 -

Snedecor G.M. et Cochran W.G. – Statistical methods. Iowa State University Press (6èmeédition), 1967.

Sokal R.R. abd Rohlf F.J. – Biometry. W.H. Freeman and Cy (2èmeédition), 1969.

Tassi P. – Méthodes statistiques. Economica, 1985.

Tomassone R., Dervin C. et Masson J.P. – Biométrie modélisation de phénomènes biologiques.Masson, 1993.

Vajda S. – The mathematics of experimental design. Griffin’s statistical monographs & courses,1967.

Vessereau A. – Méthodes statistiques en biologie et en agronomie. J.B. Baillière (2ème édition),1988.

Winer B.J. – Statistical principles in experimental design. McGraw-Hill (2ème édition), 1971.

Page 233: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

230

Annexe 1. Points de pourcentage de la distribution normale

Cette table donne les points de pourcentage de la distribution normale standard. Ce sont les valeursde z pour lesquelles un pourcentage donné, P, de la distribution normale standard est situé en dehorsde la fourchette allant de -z à +z.

P (%) z90 0.125780 0.253370 0.385360 0.5244

50 0.674540 0.841630 1.036420 1.2816

15 1.439510 1.64495 1.96002 2.3263

1 2.57580.50 2.80700.25 3.02330.10 3.29050.01 3.8906

Page 234: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 231 -

Annexe 2. Distribution de t de Student

Cette table donne les points de pourcentage de la distribution de t avec ν degrés de liberté. Ce sontles valeurs de t pour lesquelles un pourcentage donné, P, de la distribution de t est situé en dehorsde la fourchette allant de -t à +t. Au fur et à mesure que le nombre de degrés de liberté augmente, ladistribution se rapproche de la distribution normale standard.

Test unilatéral Test bilatéralPourcentage (P)

Degré deliberté

(v)5% 1% 5% 1%

1 6.31 31.8 12.7 63.72 2.92 6.96 4.30 9.923 2.35 4.54 3.18 5.844 2.13 3.75 2.78 4.605 2.02 3.36 2.57 4.036 1.94 3.14 2.45 3.717 1.89 3.00 2.36 3.508 1.86 2.90 2.31 3.369 1.83 2.82 2.26 3.2510 1.81 2.76 2.23 3.1711 1.80 2.72 2.20 3.1112 1.78 2.68 2.18 3.0513 1.77 2.65 2.16 3.0114 1.76 2.62 2.14 2.9815 1.75 2.60 2.13 2.9516 1.75 2.58 2.12 2.9217 1.74 2.57 2.11 2.9018 1.73 2.55 2.10 2.8819 1.73 2.44 2.09 2.8620 1.72 2.53 2.09 2.8522 1.72 2.51 2.07 2.8224 1.72 2.49 2.06 2.8026 1.71 2.48 2.06 2.7828 1.70 2.47 2.05 2.7630 1.70 2.46 2.04 2.7535 1.69 2.44 2.03 2.7240 1.68 2.42 2.02 2.7045 1.68 2.41 2.01 2.6950 1.68 2.40 2.01 2.6855 1.67 2.40 2.00 2.6760 1.67 2.39 2.00 2.66∞ 1.64 2.33 1.96 2.58

Page 235: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 232 -

Page 236: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 233 -

Annexe 3. Distribution de F (5%)

Cette table donne les valeurs pour lesquelles le pourcentage de la distribution de F dans le titre estsupérieur à la valeur tabulaire de F pour v1 (degrés de liberté du numérateur) et v2 (degrés de libertédu dénominateur) associés au rapport F.

Degré de liberté (v1)Degré

deliberté

(v2)

1 2 3 4 5 6 7 8 10 12 24

2 18.5 19.0 19.2 19.2 9.3 19.3 19.4 19.4 19.4 19.4 19.53 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.79 8.74 8.644 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 5.96 5.91 5.775 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.74 4.68 4.53

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.06 4.00 3.847 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.64 3.57 3.418 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.35 3.28 3.129 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.14 3.07 2.9010 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 2.98 2.91 2.74

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.85 2.79 2.6112 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.75 2.69 2.5113 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.67 2.60 2.4214 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.60 2.53 2.3515 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.54 2.48 2.29

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.49 2.42 2.2417 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.45 2.38 2.1918 4.41 3.55 3.16 2.93 2.77 3.66 2.58 2.51 2.41 2.34 2.1519 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.38 2.31 2.1120 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.35 2.28 2.08

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.30 2.23 2.0324 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.25 2.18 1.9826 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.22 2.15 1.9528 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.19 2.12 1.9130 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.16 2.09 1.89

35 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.11 2.04 1.8340 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.08 2.00 1.7945 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.05 1.97 1.7650 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.03 1.95 1.7455 4.02 3.16 2.77 2.54 2.38 2.27 2.18 2.11 2.01 1.93 1.72

Page 237: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 234 -

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 1.99 1.92 1.70

Page 238: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 235 -

Annexe 4. Distribution de χ2

Cette table présente les points de pourcentage de la distribution chi-carré avec ν degrés de liberté.Ce sont les valeurs de χ2 pour lesquelles un pourcentage donné, P, de la distribution chi-carré estsupérieur à χ2.

Pourcentage (P)Degré de

liberté(ν)

97.5 95 50 10 5 2.5 1 0.1

1 .000982 .00393 0.45 2.71 3.841 5.02 6.64 10.82 0.0506 0.103 1.39 4.61 5.99 7.38 9.21 13.83 0.216 0.352 2.37 6.25 7.81 9.35 11.3 16.34 0.484 0.711 3.36 7.78 9.49 11.1 13.3 18.55 0.831 1.15 4.35 9.24 11.1 12.8 15.1 20.5

6 1.24 1.64 5.35 10.6 12.6 14.5 16.8 22.57 1.69 2.17 6.35 12.0 14.1 16.0 18.5 24.38 2.18 2.73 7.34 13.4 15.5 17.5 20.1 26.19 2.70 3.33 8.34 14.7 16.9 19.0 21.7 27.9

10 3.25 3.94 9.34 16.0 18.3 20.5 23.2 29.6

11 3.82 4.57 10.3 17.3 19.7 21.9 24.7 31.312 4.40 5.23 11.3 18.5 21.0 23.3 26.2 32.913 5.01 5.89 12.3 19.8 22.4 24.7 27.7 34.514 5.63 6.57 13.3 21.1 23.7 26.1 29.1 36.115 6.26 7.26 14.3 22.3 25.0 27.5 30.6 37.7

16 6.91 7.96 15.3 23.5 26.3 28.8 32.0 39.317 7.56 8.67 16.3 24.8 27.6 30.2 33.4 40.818 8.23 9.39 17.3 25.0 28.9 31.5 34.8 42.319 8.91 10.1 18.3 27.2 30.1 32.9 36.2 43.820 9.59 10.9 19.3 28.4 31.4 34.2 37.6 45.3

22 11.0 12.3 21.3 30.8 33.9 36.8 40.3 48.324 12.4 13. 9 23.3 33.2 36.4 39.4 43.0 51.226 13.8 15. 4 25.3 35.6 38.9 41.9 45.6 54.128 15.3 16. 9 27.3 37.9 41.3 44.5 48.3 56.930 16.8 18.5 29.3 40.3 43.8 47.0 50.9 59.7

35 20.6 22.5 34.3 46.1 49.8 53.2 57.3 66.640 24.4 26. 5 39.3 51.8 55.8 59.3 63.7 73.445 28.4 30.6 44.3 57.5 61.7 65.4 70.0 80.150 32.4 34. 8 49.3 63.2 67.5 71.4 76.2 86.755 36.4 39.0 54.3 68.8 73.3 77.4 82.3 93.260 40.5 43. 2 59.3 74.4 79.1 83.3 88.4 99.7

Page 239: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 236 -

Annexe 5. Valeurs significatives du coefficient de corrélation

Cette table présente les valeurs au-delà desquelles le coefficient de corrélation est déclarésignificatif, pour un seuil de signification déterminé et un nombre donné de pairesd’observations de x et y

n .1 .05 .02 .01 .0011 .9877 .9969 .9995 .9999 .99992 .9000 .9500 .9800 .9900 .99903 .8054 .8783 .9343 .9587 .99124 .7293 .8114 .8822 .9172 .97415 .6694 .7545 .8329 .8745 .95076 .6215 .7067 .7887 .8343 .92497 .5822 .6664 .7498 .7977 .89828 .5494 .6319 .7155 .7646 .87219 .5214 .6021 .6851 .7348 .847110 .4973 .5760 .6581 .7079 .823311 .4762 .5529 .6339 .6835 .801012 .4575 .5324 .6120 .6614 .780013 .4409 .5139 .5923 .6411 .760314 .4259 .4973 .5742 .6226 .742015 .4124 .4821 .5577 .6055 .724616 .4000 .4683 .5425 .5897 .708417 .3887 .4555 .5285 .5751 .693218 .3783 .4438 .5155 .5614 .678719 .3687 .4329 .5034 .5487 .665220 .3598 .4227 .4921 .5368 .652425 .3233 .3809 .4451 .4869 .597430 .2960 .3494 .4093 .4487 .554135 .2746 .3246 .3810 .4182 .518940 .2573 .3044 .3578 .3932 .489645 .2428 .2875 .3384 .3721 .464850 .2306 .2732 .3218 .3541 .443360 .2108 .2500 .2948 .3248 .407870 .1954 .2319 .2737 .3017 .379980 .1829 .2172 .2565 .2830 .356890 .1726 .2050 .2422 .2673 .3375100 .1638 .1946 .2301 .2540 .3211

Page 240: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 237 -

Annexe 6. Nombres aléatoires

Tous les chiffres figurant dans la table ci-dessous sont indépendants et ont une probabilité de 1

10. La

table a été calculée à partir d’une population dans laquelle les chiffres de 0 à 9 étaient égalementvraisemblables.

77 21 24 33 39 07 83 00 02 77 28 11 37 3378 02 65 38 92 90 07 13 11 95 58 88 64 5577 10 41 31 90 76 35 00 25 78 80 18 77 3285 21 57 89 27 08 70 32 14 58 81 83 41 5575 05 14 19 00 64 53 01 50 80 01 88 74 2157 19 77 98 74 82 07 22 42 89 12 37 16 5659 59 47 98 07 41 38 12 06 09 19 80 44 1376 96 73 88 44 25 72 27 21 90 22 76 69 6796 90 76 82 74 19 81 28 61 91 95 02 47 3163 61 36 80 48 50 26 71 16 08 25 65 91 7565 02 65 25 45 97 17 84 12 19 59 27 79 1837 16 64 00 80 06 62 11 62 88 59 54 12 5358 29 55 59 57 73 78 43 28 99 91 77 93 8979 68 43 00 06 63 26 10 26 83 94 48 25 3187 92 56 91 74 30 83 39 85 99 11 73 34 9896 86 39 03 67 35 64 09 62 36 46 86 54 1372 20 60 14 48 08 36 92 58 99 15 30 47 8767 61 97 37 73 55 47 97 25 65 67 67 41 3525 09 03 43 83 82 60 26 81 96 51 05 77 7272 14 78 75 39 54 75 77 55 59 71 73 15 5659 93 34 37 34 27 07 66 15 63 14 50 74 2921 48 85 56 91 43 50 71 58 96 14 31 55 6196 32 49 79 42 71 79 69 52 39 45 04 49 9116 85 53 65 11 36 08 14 86 60 40 18 51 1564 28 96 90 23 12 98 92 28 94 57 41 99 1160 54 36 51 15 63 83 42 63 08 01 89 18 5342 86 68 06 36 25 82 26 85 49 76 15 90 1300 49 62 15 53 32 31 28 38 88 14 97 80 3326 64 87 61 67 53 23 68 51 98 60 59 02 3302 95 21 53 34 23 10 82 82 82 48 71 02 3965 47 77 14 75 30 32 81 10 83 03 97 24 3728 55 15 36 46 33 06 22 29 23 81 14 20 9159 75 78 49 51 02 20 17 02 30 32 78 44 7987 54 57 69 63 31 61 25 92 31 16 44 02 1094 53 87 97 15 23 08 71 26 06 25 87 48 9779 43 75 93 39 10 18 51 28 17 65 43 22 0648 38 71 77 53 37 80 13 60 63 59 75 89 7398 30 59 32 90 05 86 12 83 70 50 30 25 6585 80 16 77 35 74 09 32 06 30 91 55 92 3387 03 96 27 05 59 64 25 33 07 03 08 55 58

Page 241: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 238 -

Annexe 7. Concepts mathématiques et statistiques élémentaires

Logarithme: Le logarithme d’un nombre N à base a est le nombre x auquel la base doit être élevéepour égaler le nombre de départ. En symboles, si loga N = x, on a ax = N. Le nombre N est appeléantilogarithme (ou logarithme inverse) de x. Le logarithme à base 10 est appelé logarithme ordinaire(ou logarithme décimal) et est noté log. Le logarithme à base e, une constante mathématique, estappelé logarithme naturel (noté ln).

Factoriel n : n factoriel, noté n!, est défini par n! = n(n-1)(n-2)…1. Par exemple, 5! = 5.4.3.2.1 =120. Par convention, on pose 0! = 1.

Combinaisons : Une combinaison de n objets différents pris r à r est une sélection de r objetsparmi les n objets, sans tenir compte de l’ordre dans lequel ils sont rangés. Le nombre de

combinaisons de n objets pris r à r est noté nr

et est donné par

nr

=

n n n n rr

nr n r

( )( ) . . .( )!

!!( )!

− − − +=

−1 2 1

Par exemple, le nombre de combinaisons de deux des lettres a, b, c est 32

3 22

3

= =

.!

. Ces

combinaisons sont ab, ac, bc. Remarquons que ab est la même combinaison que ba mais avec unepermutation différente.

Espérance mathématique : Si X est une variable aléatoire discrète pouvant prendre les valeurs X1,X2, …, Xk avec les probabilités respectives p1, p2, …, pk où p1+ p2+ …+ pk = 1, l’espérancemathématique de X (ou, simplement, espérance de X), notée E(X), est définie par

E(X) = p1X1 + p2X2 + …+ pkXk ==∑ p Xj jj

k

1 = ∑ pX .

Dans le cas de variables continues, la définition de l’espérance est modifiée comme suit. Soient g(X)une fonction d’une variable aléatoire continue X, et f(x) la fonction de densité de probabilité de X.L’espérance mathématique de g(x) est alors donnée par

E{ ( )} ( ) ( )g X g x f x dxR

= ∫où R représente l’amplitude des valeurs de X (espace-échantillon), à condition que l’intégraleconverge absolument.

Page 242: MANUEL DE STATISTIQUE POUR LA RECHERCHE ...manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du Bhoutan. A cette fin, nous nous

Annexes

- 239 -

Matrice : Une matrice est un tableau rectangulaire de nombres disposés en lignes et colonnes. Leslignes ont la même longueur que les colonnes. Si aij dénote l’élément situé sur la i-éme ligne et la j-ème colonne d’une matrice A constituée de r lignes et c colonnes, A peut s’écrire

Ar x c = A = {aij} =

a a a a

a a a a

a a a a

a a a a

j c

j c

i i ij ic

r r rj rc

11 12 1 1

21 22 2 2

1 2

1 2

... ...

... ...

. . . . ... ...

. . . . ... ...

Un exemple simple de matrice 2 x 3 est A 2 x 3= 4 0 - 3- 7 2 1

Une matrice constituée d’une seule colonne est appelée vecteur-colonne. De même, une matrice

constituée d’une seule ligne est appelée vecteur-ligne. Par exemple, x = 4 - 7

est un vecteur-

colonne et y’ =[ ] 4 2 un vecteur-ligne. Un nombre unique, comme 2, 4 ou –6, est un“ scalaire ”.

La somme de deux matrices A = {aij} et B = {bij} est définie par C ={cij} = {aij+ bij}. Parexemple, si,

A = 4 0 - 3- 7 2 1

et B =

2 1 - 3 1 1 2

, on a C =

6 1 - 6- 6 3 3

Le produit de deux matrices est défini par Cr x s = Ar x c Bc x s où le ij-ème élément de C est donné

par cij = a bik kjk

c

=∑

1. Par exemple, si

A = 4 0 - 3- 7 2 1

et B =

2 1 1 1 2 1

, alors C = 2 1 -10 - 4

Pour avoir de plus amples détails et des exemples tirés de la biologie, le lecteur peut se référer àSearle (1966).