Upload
azzedine-baka
View
258
Download
11
Embed Size (px)
Citation preview
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
1/118
Bio-Statistique1re partie
Discipline : Bio-statistique, Bio-mathmatique et Sciences
de lInformation
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
2/118
OBJECTIFS PEDAGOGIQUES
Raliser limportance du problme de la variabilit inhrente aux donnes mdicales,
comprendre les principaux concepts qui permettent de la grer et ainsi de pouvoir faire leschoix ncessaires la prise en charge des malades avec le minimum derreur.
OBJECTIFS TERMINAUX
1. Enumrer les principales sources de variabilit biologique (les mettre en vidence sur un
exemple simple).
2. Expliquer les concepts dchantillon, de population, de reprsentativit.
3. Comprendre et utiliser les concepts dintervalle de confiance et de test de comparaison.
4. Savoir expliquer ce que reprsente les risques et .
5. Expliquer clairement les phrases : La diffrence observe est significative x% , ou
La diffrence nest pas significative , appliques un exemple concret.
6. Savoir expliquer les concepts de :
- jugement de signification
- jugement de causalit.
7. Savoir interprter une enqute pidmiologique, expliquer les concepts de biais, de facteur
de confusion, de risque relatif : RR, (ou odd ratio : OR), de risque attribuable : RA.
OBJECTIFS CONTRIBUTIFS
1. Reconnatre les diffrents types de variables et expliquer comment lon peut
ventuellement passer dun type lautre.
2. Reconnatre la loi normale, citer les autres lois de probabilit.
3. Dcrire un chantillon par quelques techniques lmentaires : histogramme, fractiles,
calculer une moyenne, une variance, un cart-type, une mdiane, et expliquer la
signification des paramtres prcdents.
4. Estimer une moyenne ou une frquence thorique.
5. Comparer une moyenne observe et une moyenne thorique, deux moyennes observes.6. Comparer une frquence observe une frquence thorique. Comparer deux ou plusieurs
frquences observes (comparaison de %, de Chi2 (2).
7. Lire correctement les tables usuelles : , z, u, t, 2, r.)
8. Reconnatre si deux sries dobservations sont apparies et les comparer.
9. Mesurer le degr de liaison entre deux variables quantitatives par le coefficient de
corrlation linaire. Tester la signification de celui-ci
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
3/118
10.Discuter lintrt respectif de la comparaison de moyennes et du coefficient de corrlation
linaire dans le cas de sries apparies (double mesure sur un individu).
11.Connatre les conditions dapplication de ces calculs.
12.Interprter correctement , et p.
RECHERCHE CLINIQUE ET EPIDEMIOLOGIE
Objectif gnral : tre capable de dfinir les concepts et les mthode lmentaires ncessaires
pour aborder les problmes mdicaux quil sagisse de clinique ou dpidmiologie.
1. Dfinir lpidmiologie. Citer et dfinir ses branches principales.
2. Dfinir les domaines de recherche clinique ncessaires la prise en charge des malades et
indiquer leurs diffrences et leurs liens avec lpidmiologie.
3. Dfinir et distinguer enqute descriptive, enqute tiologique, enqute dintervention :
situation exprimentale et situation dobservation.
4. Dfinir ce quest un registre de population, en donner les avantages et les difficults.
5. Dfinir et calculer un taux brut de mortalit et un taux de mortalit spcifique.
6. Dfinir et calculer un taux dincidence et un taux de prvalence. Indiquer leur intrt en
Sant Publique.
7. Comprendre les principes de la standardisation par tranche dge appliqus aux taux
prcdents (taux standardiss).
8. Parmi les enqutes pidmiologiques, dfinir et distinguer enqute de cohorte et enqute
cas/tmoins. Indiquer les avantages et inconvnients respectifs. Dfinir enqute
transversale et enqute longitudinale.
9. Dfinir ce quest un facteur de risque. Indiquer les arguments qui plaident en faveur du
caractre causal dun facteur de risque.
10.Dfinir, calculer et interprter le risque relatif et le risque attribuable dans un exemple
simple.
11.Connatre les diffrentes phases de lexprimentation thrapeutique et leur stratgie
respective.
12.Citer et dfinir les principaux facteurs qui doivent ou peuvent tre pris en compte dans le
protocole dun essai thrapeutique (choix des facteurs comparer, notion de placebo,
critres de choix ou dexclusion des sujets, moyen dassurer la comparabilit des groupes,
simple ou double aveugle, facteurs intervenant dans la dtermination du nombre de sujet
ncessaire, critres de jugement, rgles dthique et de confidentialit (lois).
13.Evaluer un signe, un examen, une dcision mdicale en calculant leur sensibilit et leurspcificit, leurs valeurs prdictives positives et ngatives.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
4/118
SOMMAIRE
INTRODUCTION A LA METHODE STATISTIQUEEN RECHERCHE CLINIQUEET EPIDEMIOLOGIQUE ....................................................................................................1
I. La finalit ..............................................................................................................................1
II. La valeur des Chiffres ..........................................................................................................2
III. La biostatistique..................................................................................................................5
IV. Solutions statistiques ..........................................................................................................7
V. La causalit ..........................................................................................................................9VI. Conclusions ........................................................................................................................9
Bibliographie de base .............................................................................................................10
CHAPITRE I : Buts et principes ........................................................................................11I. La variabilit .......................................................................................................................11
II. Population, Echantillon......................................................................................................13
III. Variable alatoire..............................................................................................................14
IV. Fluctuations dchantillonnage.........................................................................................15
V. Les lois de la probabilit....................................................................................................17
VI. Quelques dfinitions et exemples.....................................................................................22
Rsum ...................................................................................................................................28
CHAPITRE II : Intervalle de fluctuation dun paramtre ..............................................29I. Introduction .........................................................................................................................29
II. Intervalle de fluctuation dun pourcentage ........................................................................31
III. Intervalle de fluctuation dune moyenne..........................................................................32
Rsum ...................................................................................................................................35
CHAPITRE III : Estimation Intervalle de confiance dun paramtre.........................36I. Introduction .........................................................................................................................36
II. Dfinition et proprits dun estimateur ............................................................................36II.1. Dfinition ...................................................................................................................36II.2. Proprits dun estimateur..........................................................................................37
III. Estimation dune moyenne...............................................................................................37III.1. Estimation ponctuelle ...............................................................................................37III.2. Estimation par intervalle de confiance......................................................................37
IV. Estimation dun pourcentage............................................................................................39IV.1. Estimation ponctuelle ...............................................................................................39IV.2. Estimation par intervalle de confiance .....................................................................39
Rsum ...................................................................................................................................42
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
5/118
CHAPITRE IV : Principe des tests dhypothse risques derreur puissance
et nombre de sujet ncessaire ..............................................................................................43I. Estimation & test : 2 problmes diffrents..........................................................................43
II. Principes des tests statistiques ...........................................................................................44II.1. Formuler lhypothse nulle H0 et lhypothse alternative H1 ....................................45II.2. Dterminer ce que devraient tre les observations si H
0tait vraie...........................46
II.3. Vrifier si les observations sont conformes aux valeurs attenduessous lhypothse nulle........................................................................................................46II.4. Choisir la rgle de dcision ........................................................................................47
III. Le risque = risque de premire espce = seuil de signification ....................................48IV. Le degr de signification ..................................................................................................49
V. Le risque et la puissance dun test statistique.................................................................51
VI. Application au calcul du nombre de sujets ncessaire .....................................................52
VII. Test unilatral ou test bilatral ........................................................................................54
Rfrences bibliographiques ..................................................................................................57
CHAPITRE V : Variables qualitatives : Comparaison de pourcentages
Test du Chi Deux ..................................................................................................................58I. Comparaison de deux pourcentages Test de lcart rduit...............................................58
I.1. Comparaison dun pourcentage observ un pourcentage thorique.........................58I.2. Comparaison de deux pourcentages observs.............................................................61
II. Test du Chi deux en sries indpendantes .........................................................................64II.1. Introduction................................................................................................................64II.2. Comparaison dune distribution observe une distribution thorique.....................64
II.3. Comparaison de plusieurs distributions observes ....................................................70Rsum ...................................................................................................................................76
CHAPITRE VI : Variables quantitatives Comparaison de moyennes............................77I. Comparaison dune moyenne observe une valeur thorique ..........................................77
I.1. Rappel : la moyenne dun chantillon randomis est une variable alatoire ..............78I.2. Les 2 hypothses : nulle et alternative.........................................................................79I.3. Principe des calculs .....................................................................................................80I.4. En pratique...................................................................................................................81
I.5. Lire la table de student ................................................................................................82I.6. Exemples .....................................................................................................................83
II. Comparaison de deux moyennes observes sur des chantillons indpendants................84II.1. Les 2 hypothses : nulle et alternative .......................................................................84II.2. Principe des calculs....................................................................................................85
III. Comparaison de deux moyennes sur des chantillons apparis .......................................89III.1. Hypothses nulle et alternative .................................................................................90III.2. Principe des calculs...................................................................................................90III.3. Exemple ....................................................................................................................91
IV. Comparaison de plusieurs moyennes : introduction lanalyse de variance...................92Rfrences bibliographiques ..................................................................................................95
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
6/118
CHAPITRE VII : Analyse de la liaison entre deux variables
quantitatives la corrlation ..................................................................................................96Introduction ............................................................................................................................96
I. Principe de dtermination de R ...........................................................................................96
I.1. Principales proprits du coefficient de corrlation ....................................................99II. Test de la liaison entre 2 variables...................................................................................101
II.1. Test dindpendance (ou test du coefficient de corrlation) : ..................................101II.2. Interprtation de R....................................................................................................103
III. Intervalle de confiance et statistiques infrentielles .......................................................104III.1. Comparaison de r la valeur thorique p ...............................................................105III.2. Estimation dun coefficient thorique p : Intervalle de confiance de r...................105III.3. Comparaison de 2 coefficients de corrlation observs..........................................106
IV. Corrlation et rgression linaires..................................................................................106IV.1. Cas o les 2 variables tudies sont entirement alatoires par leur nature et leurdistribution.......................................................................................................................106IV.2. Cas o les 2 variables jouent un rle dissymtrique...............................................107
V. Conditions de validit non respectes..............................................................................107V.1. Principe de la corrlation non paramtrique ............................................................107
Rsum .................................................................................................................................108
Annexe : Tables statistiques ..............................................................................................109
Table de Student ...................................................................................................................110
Table du Chi Deux................................................................................................................111Table du coefficient de corrlation.......................................................................................112
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
7/118
Polycopi de Bio-statistique 1Facult de Mdecine de Montpellier-Nmes
INTRODUCTION
A LA METHODE STATISTIQUE
EN RECHERCHE CLINIQUE ET
EPIDEMIOLOGIQUE
I. LA FINALITE
La suppression de la maladie est la finalit de toute recherche dans le domaine mdical.
La finalit spcifique la recherche clinique et lpidmiologie cest destimer si, auniveau de lhomme, les hypothses sur les mcanismes pathologiques et les moyens
daction qui en dcoulent ont un rel impact sur la maladie.
On peut vouloir agir pendant la maladie : la gurir, ou avant la maladie : la prvenir.
Lorsque la maladie est prsente, laction commence au diagnostic que lon va chercher
rendre plus sensible afin quil soit le plus prcoce possible, ce qui peut permettre un
traitement plus efficace et moins lourd ; on peut aussi vouloir rendre le diagnostic plus
spcifique, afin den minimiser les erreurs. Sensibilit et spcificit dun examen
diagnostique peuvent tre values : ainsi le frottis cervical dans le dpistage des cancers
du col de lutrus a une sensibilit de 40% et une spcificit de 98%. Ce qui veut dire que
sur 100 patientes ayant un cancer du col asymptomatique, un 1 er frottis cervical ne sera
positif que 40 fois, par contre lorsque le frottis est positif, la patiente est porteuse dun
cancer du col 98 fois sur 100. La rptition des frottis permet lamlioration de la
sensibilit.
Un 2me type de recherche va tendre amliorer les rsultats thrapeutiques en optimisant
les traitements existants ou en en inventant de nouveaux ; la dtermination de groupe
pronostic diffrent permettra dadapter le traitement lvolution de la maladie.
Par exemple ladjonction dune chimiothrapie au traitement loco-rgional dans les cancers
du sein survenant avant la mnopause, amliore la survie denviron 10% 5 ans, pour les
femmes prsentant beaucoup de ganglions envahis, cette amlioration est de 15% ; alors
quelle napparat pas lorsque les ganglions sont indemnes.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
8/118
Polycopi de Bio-statistique 2Facult de Mdecine de Montpellier-Nmes
Un 3me objectif peut tre dempcher la maladie dapparatre, pour cela il faut en
connatre la ou les causes, ou dfaut les facteurs de risque, ainsi on connat les causes de
nombreuses maladies infectieuses, par contre pour dautres affections comme les cancers
ou les maladies cardio-vasculaires, on ne connat que les facteurs qui favorisent
lapparition de la maladie. On value ainsi que la prise dstrognes la mnopausemultiplie par 6 ou 8 le risque de faire ultrieurement un cancer de lendomtre. Mais
connatre causes ou facteurs de risque ne suffit pas, encore faut-il avoir les moyens de les
supprimer : les vaccinations nont pas supprim toutes les maladies infectieuses et que
faire pour empcher les gens de fumer ?
Ce rapide survol des objectifs de la recherche clinique permet den prciser les
caractristiques :
les recherches seffectuant sur lhomme, le respect de lthique domine lensemble des
travaux et le recueil des donnes se fait dans un contexte mdicalis.
il sagit de recherches pluridisciplinaires ncessitant une troite collaboration entre
fondamentalistes, cliniciens et biologistes qui devront effectuer une dmarche
scientifique commune.
les rsultats sont bass sur des observations dont la stratgie dobtention dune part, et
lanalyse dautre part, doivent permettent linterprtation et lextrapolation dautres
sujets.
II. LA VALEUR DES CHIFFRES
Nous avons vu, dans les exemples cits plus hauts, que les rsultats des diverses recherches
se rsument par des chiffres, ou par des comparaisons de chiffres : un taux de sensibilit,
un taux de survie, un risque, etc Il parat donc indispensable que les chiffres sur
lesquels vont tre bases des dcisions ne soient pas le fruit du hasard, voire le
rsultat dun biais. Il faut donc que la faon dobtenir ces rsultats (stratgie) et
lexactitude de leur valeur (statistique) puissent garantir la justesse des conclusions.
Ainsi apparaissent deux domaines complmentaires : dune part celui de la planification
des tudes, dautre part celui de linterprtation des valeurs observes.
Prenons un exemple : soit deux traitements A et B dune maladie M ; A donne 50% de
gurison et B 60% ; peut-on dire que B et suprieur A ?
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
9/118
Polycopi de Bio-statistique 3Facult de Mdecine de Montpellier-Nmes
Les conditions pour conclure B > A sont :
- 1) Que la diffrence observe ne soit pas due au hasard, en effet si ces pourcentages de
gurison ont t calculs partir de 10 malades, cela veut dire quen fait A donne 50% de
gurison 30% et B 60% 50%, cest dire que si lon faisait une 2me tude on pourrait
trouver A = 60% et B = 50%. On dit que la diffrence observe est le fait du hasard. Par
contre si lon a trouv ces mmes pourcentages de gurison sur 400 malades, cela veut dire
que A donne 50% 5% de succs et B 60% 5% et lon peut conclure (en faisant un
calcul dont nous parlerons ultrieurement) que les rsultats du groupe B sont suprieurs
ceux du groupe A. On dit que la diffrence est significative .
De telles conclusions impliquent donc lutilisation dune mthodologie adquate
permettant de porter des conclusions en minimisant les risques derreur dinterprtation :cette mthodologie est la biostatistique.
- 2) Que la diffrence significative observe entre A et B (=10%) soit la consquence
relle de lapplication de deux traitements diffrents.
Supposons que les malades auxquels on a donn A soient plus gravement atteints que ceux
auxquels on a donn B, la diffrence est alors due une gravit diffrente et non un
traitement diffrent.
Par exemple : les malades traits par radiothrapie compars ceux traits par chirurgie
pour un cancer de la mme localisation et de mme stade, auront toujours une survie plus
basse, car la chirurgie slectionne les bons cas : les oprables .
Une tude de recherche clinique ou dpidmiologie ncessite
donc :
1) une hypothse vrifier,
2) une stratgie ou un plan dtude,
3) le recueil de donnes,
4) lanalyse de ces donnes.
5) linterprtation des rsultats.
- Le choix de la stratgie qui recueillera des informations interprtables, avec le minimum
de biais est le point de dpart essentiel de toute recherche. Les mthodes mathmatiques ne
viennent quensuite et nont de sens que si le problme a dabord t circonscrit et la bonnesolution pour y rpondre choisie.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
10/118
Polycopi de Bio-statistique 4Facult de Mdecine de Montpellier-Nmes
- Le recueil et la validation des donnes : une analyse mathmatique sophistique ne
permettra pas de rendre de la valeur des donnes fausses ou incompltes. La mise la
disposition des cliniciens dun outil informatique est un phnomne inluctable et
souhaitable, mais il faut tre conscient des avantages et des inconvnients de ces moyens.
Certes lordinateur facilite le recueil et permet de mieux matriser les informationsmdicales. Il donne aux mdecins la possibilit de pratiquer des bilans sur des grands
nombres, mais cet avantage est assorti dun effort quant lacquisition dun nouveau mode
de travail et la ncessit denregistrer des donnes de qualit : on ne peut ressortir que ce
que lon a entr. Au moins 3 types dinconvnients, certes vitables, peuvent tre cits :
dordre technique : la duplication du recueil des donnes par plusieurs cliniciens peut tre
source derreurs dun fichier lautre.
dordre psychologique : augmentation de la tendance au sparatisme chacun ayant son
fichier alors que la multi-disciplinarit est srement plus fructueuse.
dordre scientifique : lanalyse statistique devient disponible par touche interpose ce
qui peut donner une pseudo-apparence scientifique des donnes fausses
- Lanalyse des donnes ncessite comme nous lavons vu le recours une mthodologie
adquate, qui permettra dinterprter les rsultats observs en estimant les risques derreur
et donc le degr de confiance que lon pourra accorder aux conclusions de ltude. Ainsi
lorsque les rsultats dune tude sont obtenus, on doit sinterroger pour savoir si les
rsultats observs sont alatoires , cest dire quon les a obtenus par hasard (si on
recommenait ltude on en trouverait dautres), ou au contraires significatifs cest
dire consquence relle du phnomne tudi.
Prenons lexemple dun hypnotique dont on tudie lactivit en mesurant la dure pendant
laquelle il fait dormir. Sur un premier sujet, on observe une dure de sommeil de 5 heures.
Peut-on dire que lhypnotique fait dormir 5 heures ? Certes non, car si lon traite un 2me
sujet, puis un 3me on observera des temps de sommeil variables, par exemple : 1 heure ou
8 heures. Que dire alors de lactivit de lhypnotique ?
Autres exemples :
Si lon dsire connatre la valeur dun enzyme, par exemple la gt, comme test
diagnostique de lalcoolisme, on mesurera la gt dans un groupe de sujets normaux et
dans un groupe dalcooliques. On pourra observer que certains sujets alcooliques ont
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
11/118
Polycopi de Bio-statistique 5Facult de Mdecine de Montpellier-Nmes
des taux plus bas que certains sujets normaux . Que conclure sur la perturbation de la
gt par lalcool ?
Si on veut dterminer le pourcentage normal de lymphocytes sanguins, cest dire le
pourcentage que lon doit retrouver chez tout sujet sain, en faisant la mesure sur 10
sujets nous trouverons presque 10 valeurs diffrentes, alors comment dterminer une
norme ? Quand pourra-t-on dire quun sujet est pathologique ?
III. LA BIOSTATISTIQUE
La conclusion de ces exemples, cest que touts les paramtres que nous voulons tudier ont
comme caractristique commune dtre spontanment variables dun individu
lautre, ou dun groupe lautre, cest ce quon appelle des variations alatoires. Il en estde mme pour lapparition des maladies, leur volution, la rponse aux traitements o les
valeurs observes mlangent des variations alatoires et des variations provoques qui
sont celles qui en fait nous intressent. Il faudrait donc dissocier ce qui est variations
alatoires de ce qui est variations provoques, pour cela il est ncessaire dutiliser une
mthode de raisonnement qui nous permette de conclure malgr cette variabilit alatoire
et cette mthode est linterprtation statistique.
On saperoit ainsi que la statistique (fminin singulier) na rien voir avec les statistiques(fminin pluriel) qui, elles, ne sont que des dnombrements type recensement et ne
permettent aucune extrapolation quant leurs conclusions : ainsi le calcul du nombre de
veuves passes sur le Pont Neuf en 1860 qui est de 13198 et une douteuse, est un simple
dnombrement ! (Rf.D.Schwartz et E.Labiche ...).
Que va faire la statistique ?
Reprenons lexemple de lhypnotique. Si on continue exprimenter le produit sur
dautres sujets, on peut reprsenter les rsultats observs sur un graphique avec en
ordonne le temps de sommeil et en abscisse le nombre de cas, on obtient ainsi un
histogramme dont laspect se modifie au fur et mesure que le nombre de sujets augmente
puis se stabilise mme si on continue augmenter le nombre de sujets (figure 1). Cest
dire quaprs avoir observ suffisamment de cas, la courbe obtenue reprsente
pratiquement lensemble des rsultats que lon peut observer avec un tel hypnotique, donc
on a mis en vidence une certaine constante reprsente par cette courbe. Comment peut-
on rsumer cette courbe ?
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
12/118
Polycopi de Bio-statistique 6Facult de Mdecine de Montpellier-Nmes
figure 1
Le premier indice auquel on pense est la moyenne (x/n), mais cette moyenne
(ici 5 heures) ne rsume pas totalement linformation : supposons un autre hypnotique B
qui donne la courbe B (figure 2). La valeur de la moyenne est la mme que pour A, et
pourtant la forme de la courbe nest pas la mme : plus de sujets sous B que sous A, sont
loin de la moyenne : il y a une plus grande variabilit avec B quavec A. Il faut donc crer
un indice rsumant cette variabilit. Cet indice sappelle la variance et mesure
lcartement des valeurs observes par rapport la moyenne (ou dispersion), ainsi
lhypnotique A a une variance plus petite que lhypnotique B.
figure 2
Le calcul statistique va donc permettre de dfinir les caractristiques (moyenne, variance)de la rpartition (ou distribution) du paramtre tudi, on pourra ensuite comparer ces
caractristiques dun groupe lautre.
Deux points importants sont noter demble :
1)Les rsultats sont rsums partir dun groupe, ils ne sont donc extrapolables qu
un groupe : ainsi, si je dis que lhypnotique A procure en moyenne 5 heures de sommeil,
ce rsultat peut sappliquer lensemble des gens qui vont utiliser ce produit, mais pas un
individu donn de ce groupe qui, lui, peut dormir 2 heures ou 8 heures ! Il est cependant
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
13/118
Polycopi de Bio-statistique 7Facult de Mdecine de Montpellier-Nmes
possible de calculer, pour cet individu, un intervalle probable de sommeil (3 7 heures par
exemple ici), cest ce quon appelle un intervalle de confiance.
Prenons un autre exemple : lorsquon dit que le tabac multiplie par 20 le risque de cancer
du poumon, ceci sapplique lensemble dune population, mais pour un fumeur
particulier ce risque peut-tre infrieur ou suprieur, et se situe dans un intervalle
galement estimable.
2) Les rsultats sexpriment en probabilit et non en certitude.
Ainsi si lon donne lhypnotique A un 2me groupe de sujets, il est probable que ces sujets
dorment en moyenne 5 heures, mais ceci nest pas une certitude, en particulier ce 2me
groupe peut, par hasard, tre constitu dinsomniaques chroniques moins sensibles, donc
dormir en moyenne moins longtemps.Nous avons crit plus haut que lon pouvait calculer lintervalle de la dure de sommeil
dun individu soumis lhypnotique, certes, mais il est cependant possible, bien que peu
probable, que le sujet dorme plus ou moins longtemps que lintervalle prvu. Cet intervalle
ne reprsente donc quune probabilit de dure de sommeil sous lhypnotique A.
Ce raisonnement de type probabiliste est li la nature variable des paramtres tudis
dont les courbes de dispersion tendent vers linfini, et explique bien des rsultats
contradictoires rencontrs dans la littrature, lorsque lon ne tient pas compte de ce
phnomne universel.
IV. SOLUTIONS STATISTIQUES
Aprs avoir dfini pour la variable tudie, dune part sa moyenne dautre part sa
dispersion (par le calcul de la variance), il va tre possible de rpondre aux diverses
questions abordes en recherche clinique, que lon peut classer en 3 types :
1) Dfinir les valeurs dites normales .
De nombreux paramtres biologiques sont utiliss en mdecine et, afin de dfinir des tats
pathologiques, il est tout dabord ncessaire de dfinir des normes hors desquelles les
valeurs seront considres comme anormales . Ceci consiste tablir la courbe de
dispersion du paramtre tudi sur un chantillon de sujets considrs comme normaux,
puis de dfinir lintervalle autour de la moyenne (ou du taux) dans lequel se situera 95% de
la population. En dehors de cet intervalle, les valeurs seront considres comme
pathologiques . Nous voyons demble quen agissant ainsi 5% des sujets, bien que
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
14/118
Polycopi de Bio-statistique 8Facult de Mdecine de Montpellier-Nmes
normaux, seront considrs comme pathologiques (figure 3), mais la prise en compte de
100% des sujets normaux nest pas possible car cela reviendrait prendre en compte toutes
les valeurs possibles jusqu linfini et on ne pourrait plus dfinir dtat normal ou dtat
pathologique.
figure 3 : intervalle 95 %
2) Estimer ces valeurs avec une certaine prcision.
Si lon dsire connatre le taux de gurison obtenu avec un traitement, il est raisonnable de
fixer lavance lintervalle de prcision que lon dsire obtenir. Ainsi si jobtiens, par
exemple, 60% de succs, il est prfrable que lintervalle de confiance de ce taux soit petit,
5%, plutt que grand ( 20%) afin de massurer que, lorsque jappliquerai ce traitement
dautres malades, les rsultats soient proches de 60% et non de 40% comme ils pourraientltre avec un rsultat peu prcis (cest dire avec un grand intervalle de confiance).
3) Comparer des paramtres dun groupe un autre afin de conclure si un groupe est
identique un autre : cest le problme le plus frquent en recherche clinique.
Par exemple : est-ce que les rsultats obtenus avec le traitement A sont les mmes quavec
le traitement B ? Est-ce quun groupe de sujets vaccins fait moins souvent la maladie que
les sujets non vaccins ? Est-ce que les taux de leucocytes sont modifis en cas dinfectionvirale ? Est-ce que les malades porteuses de cancer du sein et prsentant des rcepteurs aux
strognes positifs ont une meilleure survie ? Est-ce que le tabac diminue la fertilit ?
Le principe consiste galement calculer pour les 2 groupes les indicateurs rsumant la
rpartition des valeurs des paramtres tudis (taux ou moyennes, variances) et de
comparer ces indices dans les 2 groupes afin de juger si la diffrence observe est
compatible avec de simples variations alatoires ou au contraire significative, cest dire
que les valeurs observes dans les 2 groupes tudis diffrent trop pour tre compatiblesavec des variations alatoires (figure 4).
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
15/118
Polycopi de Bio-statistique 9Facult de Mdecine de Montpellier-Nmes
Figure 4
V. LA CAUSALITE
Pour pouvoir conclure, il restera encore examiner le problme de la causalit : quelle est
la cause relle de la diffrence observe ? et ces relations causales ne pourront tre tablies
quen fonction de la stratgie utilise pour ltude.
Ainsi, en thrapeutique, une relation causale entre traitement et rsultat pourra tre tablie
si la stratgie dtude permet de nattribuerquau seul traitement la diffrence observe.
Cette situation est ralise dans le cas dessais thrapeutiques avec tirage au sort des
traitements comparer, car il sagit alors dune situation exprimentale o les diffrents
paramtres sont contrls.
Par contre, dans la plupart des autres tudes, et en particulier en pidmiologie, la relation
causale pourra exceptionnellement tre tablie car il sagit toujours de situation
dobservation, o de nombreux facteurs peuvent tre la cause des diffrences observes :
ainsi si lon trouve que les sujets atteints dinfarctus du myocarde ont un taux de
cholestrol plus lev que la normale, on ne peut pas dire que le cholestrol soit la cause de
linfarctus du myocarde, bien dautres facteurs intervenant.
VI. CONCLUSIONS
Pour conclure, nous estimerons notre premier but atteint si nous vous avons fait
comprendre les points suivants : une tude de recherche clinique, pour tre valable,
ncessite :
davoir un but clairement dfini : les enregistrements systmatiques type pche laligne ne servent rien.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
16/118
Polycopi de Bio-statistique 10Facult de Mdecine de Montpellier-Nmes
de suivre une stratgie qui permettra de rpondre au problme pos : nimporte quelle
enqute ne peut rpondre nimporte quelle question.
de recueillir des donnes de qualit, valides.
danalyser les donnes en tenant compte de leur variabilit : la mthode statistique nest
pas lart daligner des chiffres, voire de les manipuler, mais de les interprter.
dinterprter les rsultats, sans oublier le bon sens clinique : une diffrence statistiquement
significative na pas forcment un intrt clinique.
BIBLIOGRAPHIE DE BASE
D.SCHWARTZ Mthodes statistiques lusage des mdecins et des biologistes.,
Flammarion Ed 1963
A.LAPLANCHE, C. COM NOUGUE, R. FLAMANT. Mthodes statistiques appliques
la recherche clinique., Flammarion Ed 1986
E.ESCHWEGE, G.BONNEROT, F.DOYON, A.LACROIX Essais thrapeutiques, mode
demploi., Le Quotidien du Mdecin, INSERM 1990
M.GOLDBERG LEpidmiologie sans peine., Collection prsente par Ed Mdicales
ROLAND BETTEX 1985.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
17/118
Polycopi de bio-statistique 11Facult de Mdecine de Montpellier-Nmes
CHAPITRE I
BUTS ET PRINCIPES
I. LA VARIABILITE
La caractristique essentielle des donnes, dans le domaine du vivant, est la variabilit.
Bien que celle-ci soit, aux yeux de tous, une vidence, on en donnera 4 exemples, dabord
pour dfinir quelques termes et ensuite parce que la force de cette vidence na dgale
que la facult de loublier chaque instant.
Ces 4 exemples concernent la variabilit du nombre de loges capsulaires dans le fruit du
coquelicot (figure 1), le temps dincubation dune maladie virale du tabac (figure 2), la
couleur des cheveux (tableau 1) et la survenue dun cancer bronchique chez les fumeurs
(tableau 2).
20
15
10
5
1,00 1,20 1,40 1,60
Figure 3 : Distribution des glycmies jeun observe sur 74mesures conscutives effectues chez un sujetdiabtique au cours dune priode de 2 ansconsidre comme stable(D. Schwartz, Donnes non publies)
Glycmie en grammes/litre
Nombredexam
ens
80
70
60
50
40
30
20
10
015 20 25 30
Figure 2 : Distribution du temps de latence de lamosaque du tabac observesur 355 plants de tabac inoculs avec levirus de la mosaque(D. Schwartz, Donnes non publies)
Temps de latence en jours
Nombredeplants
300
250
200
150
100
50
06 7 8 9 1011 12 13 14 15 16 17 18 19 20
Figure 1 : Distribution du nombre de loges capsulairesobserve sur 1905 coquelicots (Biometrika,Vol 2, 1902)
Nombre de loges
Nombredecoquelicots
Couleur de cheveux Blond Brun Noir Roux Total
Nombre de sujetsprsentant cette couleur
2 829 2 635 1 223 116 6 800
Tableau 1 : Couleur des cheveux Dnombrement portant sur 6 800 sujets.(Daprs Ammon,, Zur Anthropologie Der Badener)
Eventualit Pas de cancerdu poumon
Cancer duPoumon
Total
Nombre de sujet 3 078 22 3 100
Tableau 2: Cancer du poumonDnombrement portant sur 3 100 sujets de sexe masculin de 50 69 ans, fumant aumoins 40 cigarettes par jour, suivis pendant 44 mois.
(Daprs Hammond et Horn)
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
18/118
Polycopi de bio-statistique 12Facult de Mdecine de Montpellier-Nmes
Les deux premiers caractres mesurables, sont dit quantitatifs, leur variabilit est
reprsente par un diagramme en btons ou histogramme ; celui-ci est fait de traits spars
pour le nombre des loges capsulaires, qui est une variable discontinue, et de rectangles
jointifs pour le temps dincubation de la maladie, qui est continu. Le deux derniers
caractres sont dits qualitatifs, ils ne donnent pas lieu histogramme parce quils ne sontpas logiquement ordonnables sur laxe des abscisses ; le 4e caractres, qualitatif 2 classes,
est le plus simple de tous les caractres ; il traduit aussi la forme la plus simple de la
variabilit : travers des diffrences daspect, ces 4 exemples traduisent le mme fait : une
trs grande variabilit ( cf. Dfinitions 6).
Cette variabilit peut tre rduite par des procds exprimentaux, mais non supprime ;
ainsi, dans lexemple des plants de tabac, linoculation avait t faite dans des conditions
particulirement standardises : suspension de virus parfaitement homogne inocule desplants de tabac gntiquement semblables, sur une feuille de mme rang entre des nervures
de rang donn : le temps de latence a quand mme vari de 13 34 jours.
La variabilit ne se rduit aucunement lerreur de mesure (le nombre de loges capsulaires
dans le fruit du coquelicot est parfaitement mesur), elle la comporte certes dans de
nombreux cas, mais pour lessentiel la variabilit traduit la fluctuation biologique. Elle
porte sur la morphologie (au sens large), la prdisposition une maladie, le temps que
celle-ci met apparatre, son volution, en fait sur la quasi totalit des caractristiques dun
sujet.
On doit aborder les sciences du vivant pntr de lide que la variabilit est, non
lexception, mais la rgle.
Cette rgle est constamment oublie. Cet Anglais nous faire rire qui, voyant une femme
rousse en dbarquant Calais, conclut : Tiens, les Franaises sont rousses . Il nignorait
certes pas que la couleur des cheveux varie dune femme lautre, et pourtant Et si nous
rions de son erreur, chacun de nous la commet sans cesse. Untel, dcouvrant 8 quartiers
dans un fruit de coquelicot, conclura automatiquement : le fruit du coquelicot contient 8
quartiers. Plus grave, ce biologiste qui testera les effets nocifs dune drogue sur 1 singe, sur
5 dans le meilleur des cas. Si vous vous tonnez de ce faible effectif, il voquera dabord le
prix du singe, puis il ajoutera que cette recherche est effectue avec une extrme prcision,
grce au microscope lectronique, oubliant que lessentiel de la variabilit est dordre
biologique : si le produit est dangereux pour 1 singe sur 10, ce qui serait dj norme, il
risque fort de ne rien voir avec un si faible effectif. (* daprs D.Schwartz)
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
19/118
Polycopi de bio-statistique 13Facult de Mdecine de Montpellier-Nmes
Compte tenu de la variabilit de ses caractres infiniment nombreux, un individu ne
ressemble jamais un autre. Cette diversit est dabord dordre gntique. Notre identit
est faonne par des gnes innombrables donc chacun a plusieurs variantes (allles). Il en
rsulte, au moment de la reproduction, qui redistribue les gnes, un nombre quasi infini de
combinaisons possibles. De sorte quexception faite des vrais jumeaux (et encore ) unindividu na pas, na jamais eu et naura jamais son double, lindividu est unique.
Aux diffrences entre les individus, sajoutent les diffrences dans lenvironnement, dans
les hasard de la vie, qui font que certains caractres (pas tous, mais beaucoup) varient dun
moment lautre, cest le cas notamment pour les rsultats dexamens biologiques (cf par
exemple fig.3 : la glycmie dun sujet jeun). A la variabilit inter-individuelle se
superpose donc une variabilit intra-individuelle (encore plus souvent oublie que la
premire). Et lindividu diffre de lui-mme dun moment lautre.
II. POPULATION, ECHANTILLON
II.1. UNE POPULATION est un ensemble dunits sur lesquelles une caractristique peut
tre releve. Le plus souvent, en pidmiologie, les units sont des personnes (ou des
animaux en exprimentation animale). Mais cela peut tre aussi un groupe de personnes
(par exemple la population des familles dont on compte le nombre denfants), ou encore
des entits biologiques (comme des cellules dont on relve le caractre cancreux ou non).
Trs souvent, la population est de grande taille ; dans de nombreux cas, les modles
statistiques que nous verrons supposent quelle est de taille infinie. Les questions que lon
se pose, les hypothses que lon formule concerne la population.
II.2. UN ECHANTILLON est une partie de la population. Il est habituellement de taille
suffisamment petite pour que la caractristique laquelle on sintresse puisse
effectivement tre mesure sur tous les sujets qui le composent. Les observations que lonfait sur un chantillon servent rpondre aux questions que lon sest pos au niveau de la
population. Il est donc important que lchantillon soit constitu de telle sorte quil puisse
remplir ce rle. Cest notamment le cas lorsquil sagit dchantillon reprsentatif, cest
dire un chantillon dont la composition est conforme celle de la population. La faon la
plus simple de constituer un chantillon reprsentatif est de tirer au sort les sujets de
lchantillon au sein de la population.
Dans ltablissement idal du protocole dune enqute pidmiologique, on devrait dfinirsuccessivement la population cible et lchantillon. Il arrive cependant que lchantillon
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
20/118
Polycopi de bio-statistique 14Facult de Mdecine de Montpellier-Nmes
soit constitu en fonction de diverses contraintes pratiques et que la population soit
reconstruite a posteriori en partant de lchantillon (Schwartz 1994). Il est, par exemple,
frquent de raliser des enqutes sur un chantillon de sujets traits dans quelques services
hospitaliers avec lesquels on collabore. Cet chantillon na pas t extrait dune population
dfinie au dpart, mais constitu ainsi pour des raisons de commodits telles que lacollaboration possible avec tel ou tel service. La population correspondante peut tre, selon
le problme que lon tudie, celle de lensemble des malades hospitaliss quel que soit le
service, ou lensemble, fictif, des sujets qui, sils taient malades, seraient hospitaliss
dans lun des services participant lenqute. Lchantillon est alors, par construction,
reprsentatif de la population ainsi dfinie. Cest elle que les observations faites sur
lchantillon peuvent tre gnralises. Il importe donc dans la prsentation et
linterprtation des rsultats de bien dcrire cette population (rpartition par ge, par sexe,par catgories professionnelles ).
III. VARIABLE ALEATOIRE
Une variable alatoire associe une valeur chaque sujet de la population. Cette valeur peut
tre numrique : taille, ou ne pas ltre : malade/non malade, groupe sanguin
Le terme alatoire signifie quon ne peut pas prdire avec certitude, avant la mesure ou
lobservation, la valeur de la variable pour un sujet. La seule information dont on dispose
pour chaque valeur de la variable est la probabilit de trouver un sujet qui ait cette valeur.
Soit, par exemple, la variable X malade/non malade . Pour un sujet dont on ne connat
que le nom, on peut ne pas savoir si X a la valeur malade ou la valeur non malade
avant davoir interrog le sujet ou quil ait t examin par un mdecin. Si lon sait, par
exemple, quil y a 25% de malades dans la population, on peut cependant affirmer que la
probabilit que X = malade est 25% et X = non malade est 75%. Une variable donnant une
caractristique au niveau des sujets (poids, taille, malade/non malade) sera note avec
une lettre majuscule (X) et la valeur prise sur un sujet par une lettre minuscule (x).
On parle aussi de variable alatoire au niveau dun chantillon. Par exemple, la moyenne
ou le pourcentage sont des variables alatoires, puisquelles associent chaque
chantillon une valeur (qui est la moyenne ou le pourcentage observ sur cet chantillon).
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
21/118
Polycopi de bio-statistique 15Facult de Mdecine de Montpellier-Nmes
IV. FLUCTUATIONS DECHANTILLONNAGE
Un chantillon est un sous-ensemble, plus ou moins grand, des sujets de la population. Une
des consquences de la variabilit individuelle est une variabilit au niveau des
chantillons, cest--dire que la composition de deux chantillons tirs de la mme
population nest, en gnral, pas la mme. Ce phnomne, qualifi de fluctuation
dchantillonnage, est important comprendre, car, dans le domaine biomdical, il est
extrmement frquent de travailler sur des chantillons, linclusion dans une enqute de
tous les sujets dune population tant, la plupart du temps, impossible. Pour le prsenter,
prenons lexemple dune population compose de 30% de malades et dans laquelle on
prend des chantillons successifs.
Considrons 10 000 chantillons de 20 sujets dans cette population et comptons le nombre
de malades observ dans chacun dentre eux. Les rsultats obtenus sont illustrs par
lhistogramme de la figure 4. Ce dernier indique que 8 chantillons ne comprennent aucun
malade, que 60 en comprennent 1, etc On observe, par ailleurs, quaucun chantillon ne
comprend plus de 15 malades.
Ces rsultats ne sont quun exemple. Une autre srie de 10 000 chantillons ne conduirait
pas exactement au mme histogramme. Par exemple, il est possible quun chantillon
comprenne jusqu 20 malades, ce qui ne sest pas produit dans la srie que nous
prsentons. Cependant, les conclusions seraient de mme nature : la variabilit individuelle
cest dire ici le fait que les sujets ne sont pas tous malades ou tous non malades
conduit ce que le pourcentage de malades observ varie dun chantillon lautre.
Figure 4 : Histogramme des nombres de malades observes sur 10 000 chantillons de 20 sujets
tirs d'une population o le pourcentage vrai de malades est 30 %
860
288
720
1249
18631940
1626
1120
680
267
11545 13 5 1
0
500
1000
1500
2000
2500
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Nombre de malades par chantillon
Nombresd'chantillons
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
22/118
Polycopi de bio-statistique 16Facult de Mdecine de Montpellier-Nmes
On constate notamment que, bien que la valeur du pourcentage de malades soit 30% dans
lensemble de la population, seuls 1940 parmi les 10 000 chantillons ont un pourcentage
observ de malades exactement gal 30%. Cest certes le cas le plus frquent, mais
dautres valeurs sont observes avec une frquence voisine. De plus, certaines valeurs
sloignent notablement de 30% : cest ainsi quun des chantillons comprend 15 malades,soit 75% de malades.
Il nest donc pas possible de rsumer lensemble des observations par le seul pourcentage
de malades dans la population. Il faut indiquer comment les observations sont disperses.
On peut, par exemple, nous y reviendrons plus loin, donner les limites dans lesquels se
trouvent la plupart des chantillons. Ici on observe que 356 chantillons comprennent
moins de 3 malades et que 179 en comprennent plus de 10. Le pourcentage de malades est
donc compris entre 15% et 50% (bornes incluses) pour prs de 95% des chantillons.
Lallure de lhistogramme et lampleur des fluctuations dchantillonnage dpendent bien
sr de la valeur du pourcentage de malades dans la population, mais elles dpendent aussi
de la taille des chantillons prlevs dans la population. Si, par exemple, on prend des
chantillons de 100 sujets, au lieu de 20, lhistogramme devient celui de la figure 5. Il est
moins dispers : on constate, en particulier, que les limites entre lesquelles se situe le
pourcentage de malades observ pour 95% des chantillons sont cette fois 21% - 39%.
Elles sont donc plus resserres que celles de lhistogramme prcdent (15% - 50%). Cela
correspond bien lintuition : lobservation faite sur un chantillon est dautant plus
proche de la vraie valeur que la taille de lchantillon est grande.
Figure 5 : Histogramme des nombres de malades observs sur 10 000 chantillons de 100 sujets
tirs d'une population o le pourcentage de malades est 30 %
1125
1091
3395
3803
1389
183
130
500
1000
1500
2000
2500
3000
3500
4000
10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49
Nombre de malades par chantillon
Nombred'chantillons
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
23/118
Polycopi de bio-statistique 17Facult de Mdecine de Montpellier-Nmes
V. LES LOIS DE LA PROBABILITE
V.1. LE CONCEPT DE PROBABILITE a t un pas considrable pour lintroduction de
la rigueur dans le domaine de lincertain. Le calcul des probabilits, qui est une branche
particulire des mathmatiques, permet dtablir des lois de probabilit. Une loi de
probabilit indique la probabilit pour quune variable prenne une valeur donne, par
exemple que sur 100 lancers de pices la variable nombre de pile gale 40, ou quune
variable soit comprise dans un intervalle donn, par exemple que sur 100 lancers le nombre
de pile soit compris entre 20 et 30. Un exemple particulirement utilis est celui
dintervalles symtriques autour de la valeur moyenne , par exemple la probabilit pour
que sur 100 lancers, le nombre de pile tombe dans lintervalle allant de 40 60. Le calcul
montre quil y a 95 chances sur 100 de tomber dans cet intervalle dont 5 chances sur 100de tomber lextrieur. Cest l un rsultat intressant, parce qualors que le hasard est
capable de tous les caprices, je peux quand mme faire un pronostic condition daccepter
certains risques derreur : ainsi je peux admettre que le nombre de pile sur 100 lancers sera
compris entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper. Telles sont les lois
du hasard , association de deux mots apparemment incompatibles : ce ne sont pas des lois
de certitude, je ne peux pas affirmer quon trouvera entre 40 et 60 fois pile, mais je peux
presque laffirmer avec un risque derreur faible.
V.2. DISTRIBUTION DE PROBABILITE
La dfinition prcdente nest pas trs oprationnelle pour faire des calculs car elle
demande des simulations chaque fois : si on voulait, par exemple, savoir quelle est la
probabilit que sur 100 tirages de ds il y ait 20 fois le chiffre 4, il faudrait rpter de trs
nombreuses fois 100 tirages de ds pour avoir une valeur assez prcise. En outre, elle
sapplique mal des populations de taille infinie. Il est donc ncessaire de disposer de
formules pour faire le calcul. Pour reprsenter (on dit aussi modliser ) les
distributions observes et permettre les calculs statistiques, on a besoin de lois de
probabilit. Leur rle est dassocier une probabilit de survenue chaque vnement
possible.
Il y a plusieurs lois de probabilit permettant de sadapter aux diffrentes situations que
lon rencontre selon la variable tudie et selon la population concerne. Il faut distinguer
variables qualitatives et quantitative car la faon de dcrire leurs lois de probabilit est
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
24/118
Polycopi de bio-statistique 18Facult de Mdecine de Montpellier-Nmes
assez diffrente. De faon plus prcise, on va considrer dune part les variables discrtes,
englobant sous ce terme les variables qualitatives et continues discrtes, dautres part les
variables continues (cf. Dfinitions VI).
V.2.1.LOIS DE PROBABILITE DISCRETES
Une variable qualitative ou une variable quantitative discrte prend des valeurs que lon
peut numrer : x1, xk Dfinir sa distribution de probabilit consiste donner les
probabilits p1, pkde chacune des valeurs possibles. Les pi peuvent avoir des valeurs
quelconques condition de respecter : 0 pi1 (une probabilit doit tre comprise entre 0
et 1) et pi =1 (cest dire que la probabilit que la variable prenne lune quelconque des
valeurs possibles est 100%).
Exemples :
Le cas le plus simple est celui dune variable dichotomique comme malade/non malade.
Ses deux valeurs sont souvent codes x0 = 0 pour les non malades et x1=1 pour les
malades. Les probabilits correspondantes sont p0 et p1, avec p0+ p1 = 1 ; p1 est souvent
not p ; p0=1- p1 est alors not q.
Considrons le nombre X dobservations prsentant une certaine caractristique (par
exemple le nombre de malades) dans un chantillon de n sujets. X peut prendre les valeurs
entires de 0 n. La loi de probabilit de X sappelle la loi binomiale, ( 5.3.1).
Lorsque la taille de lchantillon est trs grande, X peut prendre de nombreuses valeurs.
Lutilisation de la loi binomiale devient alors laborieuse et on lui prfre la loi de Poisson
dfinie dans le paragraphe 5.3.2.
V.2.2.LOIS DE PROBABILITE CONTINUES, DENSITE DE PROBABILITE
Une variable quantitative continue a une infinit non dnombrable de valeurs possibles. On
ne peut plus dfinir sa distribution de probabilit en donnant la liste des valeurs des
probabilits pi dobserver chacune des valeurs.
La distribution de probabilit pour une variable quantitative continue peut tre dcrite par
une fonction f appele densit de probabilit. La loi normale est la loi la plus utilise pour
les variables continues ( 5.3.3.)
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
25/118
Polycopi de bio-statistique 19Facult de Mdecine de Montpellier-Nmes
V.3. PRINCIPALES LOIS DE PROBABILITE
V.3.1.LA LOI BINOMIALE
- Dfinition de la loi binomiale
Soit X la variable dont la valeur est le nombre de malade k dans un chantillon n de sujets
tirs au sort dans une population o le pourcentage de malade est P.
X suit une loi binomiale dont la distribution est dfinie par :
La loi binomiale est caractrise par deux paramtres : le nombre de sujets dans
lchantillon (n) et la probabilit de maladie dans lensemble de la population (P). Elle est
souvent noteB(n,P)
Exemple :
Considrons une population o le pourcentage de malades est P = 0,30 dou on extrait des
chantillon de taille n = 20. La probabilit dobserver k = 6 malades est :
146 7,03,0
!14!6
!20)6( ==XP
Soit : P(X=6) = 38 760 x 0,000729 x 0,00678 = 0,1916. Cest dire que sur 10 000
chantillons, on sattend en observer 1 916 comprenant 6 malades.
- Tables de la loi binomiale
Comme on le voit, le calcul des probabilits de la loi binomiale est assez laborieux, surtout
lorsque n est grand. Il existe des tables donnant les valeurs de P(X=k). Si n est assez grand
( 30) on peut recourir lapproximation par la loi normale qui conduit des calculs
beaucoup moins lourds.
- Moyenne et variance de la loi binomiale
Si X suit une loi binomiale de paramtres n et P, on montre que :
)!kn(!k
!navecC)P1(PC)kX(P kn
knkkn
===
E(X) = nP et var(X) = nPQ
o E(X) est lesprance mathmatique de X, ou moyenneet var(X) est la variance de X
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
26/118
Polycopi de bio-statistique 20Facult de Mdecine de Montpellier-Nmes
- Application la distribution dun pourcentage.
Plutt que sintresser au nombre X de malades dun chantillon, il est beaucoup plus
frquent de considrer le pourcentage po de malades. En effet, linterprtation de po ne
dpend pas de la taille de lchantillon.
po et X tant lis parn
Xp =0 , la distributionde po se dduit directement de celle de X. On
a notamment :
V.3.2.LA LOI DE POISSON
Comme pour la loi binomiale, nous prenons lexemple dune variable dont les deux
modalits sont malade et non malade , et nous intressons au nombre X de malades
dans un chantillon de taille n. Lorsque n est trs grand, X peut prendre de nombreuses
valeurs et lutilisation de la loi binomiale devient trs laborieuse, notamment cause du
calcul de knC
Pour dcrire la distribution de X, on utilise alors la loi de Poisson dfinie par :
Moyenne et variance de la loi de Poisson
Si X suit une loi de Poisson de paramtre , on montre que E(X) = et var(X) =
V.3.3.LA LOI NORMALE
- Dfinition
La loi normale (ou loi de Gauss, ou encore loi de Laplace-Gauss) est la loi de probabilit la
plus utilise en statistique pour les variables continues. Elle est dfinie par sa densit de
probabilit :
Pn
XEpE ==
)()( 0 et n
PQ)Xvar(
n
1)pvar(
20==
k
k
ekXP
!
)(== ou est une constante
=2
2
2
)(exp
2
1)(
xxf
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
27/118
Polycopi de bio-statistique 21Facult de Mdecine de Montpellier-Nmes
Le graphe de cette fonction est une courbe en cloche (figure 4)
Figure 6 : Densit de probabilit et fonction de rpartition de la loi normale.
La loi normale dpend de deux paramtres et 2. On montre que est sa moyenne et 2sa variance.
- Table de la loi normale
Le calcul des probabilits associes la loi normale nest pratiquement pas possible avec
des moyens simples tels quune calculette de poche. Par exemple, le calcul de P(Xa)
demande celui de lintgrale .2
)(exp
2
12
2
dxx
a
Cest pourquoi il est ncessaire
de recourir des tables.
Il nest cependant pas envisageable de construire une table pour chaque valeur de et 2
On se ramne au cas o = 0 et 2 = 1 par changement de variable. Si X suit une loi
normale de moyenne et de variance 2 , alors
=
xZ suit une loi normale de
moyenne 0 et de variance 1, dite loi normale centre rduite.
Exemples
Le poids de naissance des nouveaux-ns est distribu (approximativement) selon une loi
normale de moyenne = 3,3 kg et dcart type = 0,5 kg.
La probabilit quun nouveau-n ait un poids X infrieur 2,5 kg est P(X2,5). Pour la
calculer, on se ramne une loi centre rduite en considrant5,0
3,3=
XZ
On a alors : )6,1()5,0
3,35,2()5,2( =
= ZPZPXP
densit de probabilit
0
0,1
0,2
0,3
0,4
0,5
0 1 2 3 4 5 6
x
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
28/118
Polycopi de bio-statistique 22Facult de Mdecine de Montpellier-Nmes
La table 1 de la loi normale centre rduite indique que P(Z > -1,6) = 0,945. La
probabilit cherche est donc gale (1 0,945) = 0,055.
V.4. INDEPENDANCE ENTRE DEUX VARIABLES ALEATOIRES
La notion dindpendance entre deux variables est trs utilise en statistique. Sa dfinition
prcise ncessite lexpos de notions de probabilit que nous ne prsentons pas ici .Nous
nous contenterons dune dfinition intuitive : deux variables sont indpendantes si la
distribution de lune ne dpend pas des valeurs de lautre. Par exemple le poids et la
tension artrielle seraient indpendants si la distribution de la tension artrielle est la mme
quel que soit le poids. Dun point de vue pratique, cela signifie que si lon regroupait les
sujets dune population en sous-populations de sujets de mme poids, la distribution de la
tension artrielle serait la mme dans toutes ces sous-populations. Ce nest videmment
pas le cas, ce qui signifie que ces variables ne sont pas indpendantes.
VI. QUELQUES DEFINITIONS ET EXEMPLES
VI.1. DEFINITION DES VARIABLES
VI.1.1.VARIABLES QUALITATIVES NON MESURABLES.
On peut les classer selon leur proprit.Ex : sexe, couleur des cheveux, prsence ou non dune maladie.
VI.1.2. VARIABLES QUANTITATIVES MESURABLES.
Il existe un ordre naturel de lensemble des valeurs possibles.
Ex : poids, taux de cholestrol, nombre denfants.
- Continues : elles peuvent prendre toutes les valeurs situes dans un intervalle : taux de
cholestrol/poids.
- Discontinues ou discrtes : elles ne peuvent prendre quun nombre limit de valeurs
(souvent entires)
Ex : nombre denfants.
VI.1.3.VARIABLE ORDINALE OU QUALITATIVE ORDONNEE
Exemple :
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
29/118
Polycopi de bio-statistique 23Facult de Mdecine de Montpellier-Nmes
Etat de malade :
0 = activit normale
1 = symptme mais tat ambulatoire
2 = alit moins de la moiti du temps
3 = alit plus de la moiti du temps
4 = clou au lit.
Plus le code est lev plus ltat du malade est grave.
VI.1.4.VARIABLE CENSUREE : la survie, variable lie au temps
Si lon tudie la dure de vie des sujets un moment t donn, la dure de vie des sujets
vivants t est tronque , ces sujets vivront encore aprs t pendant un temps x inconnu :on dit quil sagit de donnes censures droite (dans notre mode dcriture de gauche
droite !).
VI.2. DISTRIBUTION
VI.2.1. VARIABLE QUALITATIVE. Rpartition des stades de diagnostic chez 125 malades
atteint de leucmie.
Stade 0 I II III IV TotalEffectif 22 29 39 21 14 125Proportion 18% 23% 31% 17% 11% 100%
VI.2.2.VARIABLE QUANTITATIVE DISCRETE
Rpartition de la taille des mnages sur un chantillon de 1445 mnages tunisiens
16
14
12
10
8
6
4
2
13 1 51 197531
% m n a g es
Ta i l le des
m n a g e s
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
30/118
Polycopi de bio-statistique 24Facult de Mdecine de Montpellier-Nmes
VI.2.3.VARIABLES QUANTITATIVES CONTINUES.
Distribution de la glycmie jeun dans un chantillon de la population du Gouvernorat de
Tunis.
Glycmie Effectif % %
< 6060-7070-8080-9090-100100-110110-120120-130130-140140-150150 et +
1981541129699236910734181970
0.52.315.336.528.010.43.01.00.50.52.0.
0.52.818.154.682.693.096.097.097.598.0100
Total 3 546 100
VI.3. CARACTERISTIQUE DE VALEUR CENTRALE
VI.3.1.LA MOYENNE ARITHMETIQUE :
sur n observations : x1, x2, .. xi..xh sont les valeurs de la variable, alors n
x
m
i=
o n est la taille de lchantillon et ix la somme de toutes les valeurs observes.
Si les observations sont regroupes en classes, alorsn
xnm
ii=
o ni est le nombre de sujets pour la classe xi et xi la valeur centrale de la classe.
VI.3.2. LA MEDIANE : cest la valeur telle que la moiti des observations lui sont
infrieures et la moiti lui sont suprieures.
VI.3.3.LE MODE : cest la valeur de x pour laquelle la frquence est maximale.
histogramme des frquences
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
50 60 70 80 90 100 110 120 130 140 150
glycmie en mg%
frquence cumule
0,0010,00
20,00
30,00
40,00
50,00
60,00
70,00
80,00
90,00
100,00
50 60 70 80 90 100 110 120 130 140 150
glycmie en mg%
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
31/118
Polycopi de bio-statistique 25Facult de Mdecine de Montpellier-Nmes
VI.3.4.EXEMPLES : Moyenne et mdiane
1er
exemple : soit un chantillon o x = 1, 3, 4, 5, 8
m = 4,2 Med = 4
2e exemple : soit un chantillon o x = 1, 3, 4, 5, 24
m = 7,4 Med = 4
4 des 5 observations sont < x.
Ici la moyenne nest pas un bon estimateur de la valeur centrale.
Dans les 2 cas, la mdiane est toujours 4 mme si on ignore la valeur de la plus grande
observation.
Avec des distributions dissymtriques, il vaut mieux utiliser la mdiane que la moyenne.
VI.3.5.EXEMPLE DE VARIABLE QUANTITATIVE DISCRETE
Histogramme des lymphocytes chez 77 sujets atteints de leucmie
m1= 123 155
M1 = 91 908
Mode : classe 90 000 100 000
Si lon regroupe les valeurs extrmes en 1 seule classe, on obtient :
m2 = 117 000
M2= 91 908
Nomb re de cas
Nb Lymphocytes/103
8
6
4
2
60 050 040 030 020 010 010
M 1 m 1
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
32/118
Polycopi de bio-statistique 26Facult de Mdecine de Montpellier-Nmes
VI.3.6.COURBE DE SURVIE
Lorsque lon veut estimer la dure de vie dun groupe o tous les sujets ne sont pas morts
la moyenne de dure de vie ne peut tre estime car nous navons pas de valeur pour les
sujets vivants (donnes tronques droite). On estime donc une courbe de survie en
fonction du temps : variable lie au temps.
On calcule un taux de survivants chaque fois que se produit un dcs ou dans un
intervalle de temps dtermin lavance : tous les 3 6 mois
On peut calculer le temps mdian de survie : temps au bout duquel 50 % des sujets sont
morts, ici = 250 jours.
Autre exemple : Dure de 1re rmission et survie chez sujet atteints de polyglobulies
Temps mdian de rmission = 3 ans et 9 mois. 50% des sujets taient encore en rmission
au bout de 3 ans et 9 mois.
Pour la survie on ne peut dterminer la mdiane : survie > 50%.
20
40
60
80
100
Taux de survie
.Dcsx Vivant
Jours250 500 750 1000 1250
X
XX
X
% de malades en rmission
Rmission
Survie
annes1 2 3 4 5 6 7 8 9 10
20
10
100
90
80
70
60
50
40
30
Temps mdian de rmission 3 ans et 9 mois.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
33/118
Polycopi de bio-statistique 27Facult de Mdecine de Montpellier-Nmes
VI.4. CARACTERISTIQUE DE DISPERSION : La variance et lcart-type
Expression de la variance dune variable x observe sur un chantillon (somme des carrs
des carts la moyenne) :
2
22)(
)( =n
xxmxi
Exemple :
Deux distributions de mme moyenne et dcart type diffrents
Les valeurs de X loignes de la moyenne sont plus frquentes avec = 1,5 qu avec = 1.
La population est plus variable avec = 1,5.
Variance1
)( 22
=
n
mxs
i et cart type 2ss =
0
0,1
0,2
0,3
0,4
0,5
-3 -2 -1 0 1 2 3
M = 0
= 1
fr uenc
0
0,1
0,2
0,3
0,4
0,5
-3 -2 -1 0 1 2 3
fr uenc
M = 0
= 1,5
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
34/118
Polycopi de bio-statistique 28Facult de Mdecine de Montpellier-Nmes
RESUME
Ltude des sciences du vivant est caractrise par la variabilit entre les individus ; elle
traduit essentiellement la fluctuation biologique.
Il est cependant essentiel de faire la part, dans cette variabilit, entre ces fluctuations et deseffets non dus au hasard, comme ceux des traitement par exemple. Lobjectif de la mthode
statistique est de tirer des conclusions applicables aux populations . Toutefois la taille de
ces populations est le plus souvent trop leve pour que des tudes exhaustives soient
ralisables. Cest pourquoi lon travaille sur des chantillons qui doivent tre
reprsentatifs des populations dont ils sont extraits.
Une variable alatoire est lensemble des valeurs prises par un caractre donn dans une
population. La valeur (exprime par une frquence ou une moyenne) dun tel caractredans la population peut tre estim partir de n chantillons tirs de la population : on
obtient alors n valeurs de ce pourcentage qui sont numriquement diffrentes bien que
proches : ceci exprime leffet du hasard sur le calcul du pourcentage, encore appel
fluctuations dchantillonnage .
Les principaux types de variables alatoires sont les suivants :
Variable qualitative : caractrise par le pourcentage de survenue des diffrentes
modalits.
Variable quantitative : caractrise par sa moyenne, son cart-type, sa mdiane et
ses percentiles.
Moyenne :n
xm
i= (
Variance1
)( 22
=
n
mxs
i
Ecart type
2
ss = Ces variables quantitatives peuvent tre continues ou transformes en variables discrtes
par la cration de classes de valeurs.
Variable ordinale ou qualitative ordonne
Variable censure
Les calculs statistiques (que ce soit estimation de paramtres ou test entre des groupes), effectus sur
les variables tudies dans le domaine de la sant, reposent sur trois grandes lois de probabilits : la
loi binomiale, la loi de poisson, la loi normale (la plus utilise dans la suite de ce cours). Ces lois
associent une probabilit de survenue chaque valeur possible du caractre tudi.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
35/118
Polycopi de bio-statistique 29Facult de Mdecine de Montpellier-Nm
CHAPITRE II
INTERVALLE DE FLUCTUATION DUN
PARAMETRE
I. INTRODUCTION
Ltude dun caractre donn dans une population de sujets est gnralement ralise
partir dchantillons tirs de cette population. Toutefois il peut arriver que lon se trouve
dans la situation inverse : on connat la valeur thorique (dans la population) du paramtre
tudier ; lobjectif est alors de prvoir la valeur de ce paramtre dans un chantillon
extrait de cette population. Du paramtre thorique de la population on veut dduire leparamtre observ dans un chantillon tir de cette population1.
Exemple
On connat la frquence dans la population franaise dune maladie infantile M qui est de
20 % ; quelle sera la frquence de cette maladie dans un chantillon denfants, tir au
hasard de cette population ?
I.1. NOTION DE FLUCTUATIONS DECHANTILLONNAGE
Soit une population P au sein de laquelle le caractre tudi a pour valeur thorique : A (ce
caractre peut-tre une variable qualitative ou quantitative).
Les valeurs observs sur n chantillons tirs au hasard de cette population sont : a1, a2
.......an .
1 Les notations diffrent entre valeurs observes et thoriques :moyenne : thorique : observe : m
variance : thorique :
2
observe : s2
cart-type : thorique : observ : spourcentage : thorique : P observ : p0
E1 a1
E2 a2
En an
E A
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
36/118
Polycopi de bio-statistique 30Facult de Mdecine de Montpellier-Nm
Il existe autant de valeurs de a que dchantillons extraits, mais si tous ces chantillons
sont de taille suffisante et reprsentatifs de la population, elles sont toutes proches de A et
les diffrences entre toutes ces valeurs sont faibles : elles tmoignent simplement des
FLUCTUATIONS DECHANTILLONNAGE cest--dire de leffet du hasard sur le
rsultat de chaque tirage, cest--dire sur la composition de chaque chantillon 2.
I.2. DEFINITION DE LINTERVALLE DE FLUCTUATION3
Donner lintervalle de fluctuation dun paramtre, cest indiquer - partir de la vraie valeur
de ce paramtre dans la population - dans quel intervalle doit se trouver la valeur observe
de celui-ci sur un chantillon tir au hasard de cette population.
A partir de la valeur connue dans la population, lon parie que pour un chantillon donn,
la valeur observe de ce paramtre si situera lintrieur des bornes de lintervalle.
Remarque : cet intervalle ne signifie pas que la valeur observe du paramtre est toujours
lintrieur des bornes mais seulement dans une grande proportion de cas, que lon fixe
par avance le plus souvent 95 % (elle correspond alors au risque derreur de 5 %
consenti par lexprimentateur : dans 5% des tirages la valeur sera lextrieur des
bornes de lintervalle)4.
Exemple
Soit une maladie infantile M dont la frquence thorique dans la population est de 20 %.
Si lon tire au hasard de cette population un chantillon de 100 sujets, la frquence
observe de M se situera dans 95 % des cas dans lintervalle [12 % ; 28 %]
Ceci indique autrement dit que dans 5% des cas la frquence observe sera lextrieur
de lintervalle. Le risque que lon prend en pariant que la frquence de M est situe entre
12 % et 28 % est donc de 5 %.
Le calcul de cet intervalle implique que la variable que lon tudie suive une loi normale
dans la population3. On supposera cette condition vrifie, ds lors que lon travaille sur un
chantillon suffisamment grand, soit :
- n 30 si lon cherche lintervalle de fluctuation dune moyenne,
- nP, nQ 5 sil sagit dun pourcentage P (avec Q = 1 P)
2 cf. Chapitre 1 Buts et Principes - Lois de probabilit : Urne de Bernouilli3 Encore appel Intervalle de pari 4 cf. Chapitre 3 : Thorie des tests
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
37/118
Polycopi de bio-statistique 31Facult de Mdecine de Montpellier-Nm
II. INTERVALLE DE FLUCTUATION DUN
POURCENTAGE
Lintervalle de fluctuation dpend de la taille de lchantillon :
II.1. CAS OU LECHANTILLON EST GRAND
Soit une population o la frquence dun caractre tudi est P et E un chantillon de taille
n tir au hasard de cette population. La frquence observe du caractre dans lchantillon
est p0.
Si np0 et nq0 5 on peut dire que
p0 est une variable alatoire qui suit une loi normale de moyenne P et de variance =
n
PQ
donc que
n
PQ
)pp( 0 suit une loi normale centre rduite(0, 1)5
Cela revient crire selon la table de lcart-rduit que :
la quantitn
PQ
)pp( 0
se trouve dans lintervalle [-u ; + u] avec une probabilit (1 - )
Prob (-u H0, soit > 171.33 cm
Si la moyenne observe dans lchantillon vaut m0=171.60 cm, nous avons dj
calcul la statistique 0 qui est gale 2.16 (idem que pour un test bilatral); seule va
changer la rgle de dcision:
Dans le cas bilatral, la rgle de dcision tait:
Si u On rejette H0 avec un risque
Dans le cas unilatral, la rgle de dcision devient:
Si u On rejette H0 avec un risque /2
Ou
Si u2 On rejette H0 avec un risque
Onconstate donc que pour le mme risque derreur, cest la valeur seuil qui change
u pour un test bilatral et u2 pour un test unilatral.
Dans notre exemple,0=2.16; on compare cette valeur la valeur u10% dans la table
de la loi normale centre rduite, soit 1.645; 2.16 > 1.645: on rejette H0 au risque 5%.
On constate donc quavec un test unilatral, pour le mme risque derreur , on
rejette plus souvent H0..
Le choix dun test bilatral ou unilatral doit toujours tre fait a priori, jamais au vu
des rsultats. Cest la condition pour que le risque derreur reste effectivement fix
5% et ne devienne pas gal 10%
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
62/118
Polycopi de bio-statistique 56Facult de Mdecine de Montpellier-Nmes
La loi normale centre rduite est tabule et nous permet donc dassocier une valeur
seuil chaque valeur djusque l, nous avons utilis la table reprsente ci-
dessous:
La table donne la probabilit pour que lcart-rduit gale ou dpasse en valeur
absolue une valeur u (chaque cellule de la table reprsente une valeur u) cest dire
la probabilit extrieure lintervalle [-u;+u]
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 2.576 2.326 2.170 2.054 1.96 1.881 1.812 1.751 1.6950.10 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.3110.20 1.282 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.0580.30 Etc
0.40 0.500.600.700.800.90
Certains auteurs utilisent la table qui donne la probabilit pour que lcart-rduit
gale ou dpasse une valeur z cest dire la probabilit extrieure de lintervalle [+u;
+[ ; cette table figure ci-dessous.
/2/2
/2/2
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
63/118
Polycopi de bio-statistique 57Facult de Mdecine de Montpellier-Nmes
0.00 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 Etc 0.095
0.00 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 ..0.10 1.282 Etc
0.20 0.842
0.30
0.40
0.50
0.60
0.70
0.80
0.90
La 2me table contient deux fois plus de colonnes car elle permet dobtenir les valeurs
seuils de 0.5% en 0.5%.
Remarque: la notation u est utilise pour les valeurs la table bilatrale, la notation zest utilise pour les valeurs de la table unilatrale.
Ces deux tables figurent intgralement en annexe de ce document.
La loi centre rduite a servi de base la prsentation dans ce chapitre du principe
des tests dhypothse, prenant comme exemples la comparaison dune moyenne
observe une moyenne thorique et la comparaison de deux frquences observes
dans le cas de grands chantillons; d autres lois prsentes dans le chapitre sur les
lois de probabilit sont adaptes dautres types de problmes : loi de Student, loi du
2, loi de Fisher
Les chapitres suivants vont dtailler les types de test adapts chaque problme
biostatistique pos; la rsolution de chaque type de problme sappuie sur ce principe
gnral des tests dhypothse.
REFERENCES BIBLIOGRAPHIQUES
Bouyer J.: Mthodes statistiques Mdecine Biologie. Editions INSERM 1996.
Daurs J.P.: Probabilits et statistiques en Mdecine. Sauramps mdical 1993.
Falissard B.: Les statistiques dans les sciences de la vie. Masson diteur 1996.
Valleron A.J.: Introduction la biostatistique. Masson diteur 1998.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
64/118
Polycopi de bio-statistique 58Facult de Mdecine de Montpellier-Nmes
CHAPITRE V
VARIABLES QUALITATIVES :
COMPARAISON DE POURCENTAGES
TEST DU CHI DEUX
En mdecine, l'analyse de variables qualitatives, en particulier sous la forme d'un caractre
deux classes (malade ou non, gurit ou non, complication prsente ou absente, dcd ou
non), est trs frquente.
Exemples :
Le pourcentage de patients guris (taux de gurison) aprs administration du traitement A
est-il meilleur que celui obtenu aprs administration du traitement B ?
Le pourcentage de complications varie t-il en fonction du mode dintervention
chirurgicale, clioscopie ou laparotomie, pour une pathologie donne ?
Comme dans les exemples cits, il s'agit, le plus souvent, de comparer des pourcentages
observs dans deux ou plusieurs chantillons. Mais, il n'est pas rare d'avoir comparer unpourcentage observ une valeur de rfrence.
I. COMPARAISON DE DEUX POURCENTAGES - TEST DE
LECART REDUIT
I.1. COMPARAISON DUN POURCENTAGE OBSERVE A UN POURCENTAGETHEORIQUE
Exemple :
La proportion considre comme habituelle de nouveau-ns prmaturs dans la population
considre est de 4%. Parmi les 170 femmes de plus de 35 ans ayant accouch dans une
maternit donne, on observe 16 naissances prmatures (soit 9,4%). Ce chiffre est-il
diffrent de sa valeur dans la population ?
Le problme pos est le suivant : On observe un pourcentage p0 (9,4%) sur un chantillon
et on veut savoir sil diffre dune valeur de rfrence connue dans la population que nous
noterons PH0 et qui vaut ici 4%.
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
65/118
Polycopi de bio-statistique 59Facult de Mdecine de Montpellier-Nmes
Autrement dit, lchantillon est-il reprsentatif de la population de rfrence dans laquelle
la frquence thorique P du caractre prmatur est gale PH0 ?
La valeur observe sur lchantillon (9,4%) est-elle compatible avec les
fluctuations dchantillonnage autour de la valeur PH0 = 4% ou la diffrence entre 9,4% et
4% est-elle trop leve pour tre due au hasard ?
Pour rpondre cette question, nous allons effectuer le test de l'cart-rduit.
Premire tape du test : spcifier lhypothse nulle H0 et lhypothse alternative H1.
H0:Lchantillon est reprsentatif dune population de rfrence dans laquelle le
caractre tudi a une frquence thorique P= PH0
H1:
9 Test bilatral: P PH0 dans lchantillon le taux de prmatur diffre de celui de la
population (aucune hypothse particulire ne peut tre faite a priori sur le sens de cette
diffrence)
9 Test unilatral: P> PH0 ou P< PH0 (la population des femmes de plus de 35 ans est
connue pour avoir un taux de prmaturit suprieur ou infrieur la population
gnrale)
NB: Les hypothses portent toujours sur la valeur du pourcentage dans la population
(valeur thorique) et non pas sur une valeur observe.
Sous H0, si n est assez grand, en pratique si n PH0 et n(1 - PH0) 5, on peut alors
assimiler :
la distribution de la variable alatoire P0, pourcentage observ sur un chantillon,
une loi de Laplace Gauss de moyenne PH0 et dcart typen
)P1(P 0H0H (p0 peut
prendre toutes les valeurs entre 0 et 100% mais sera plus frquemment proche
quloign de PH0) ou encore,
n
)P1(P
Pp
0H0H
0H0
=
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
66/118
Polycopi de bio-statistique 60Facult de Mdecine de Montpellier-Nmes
la distribution de la variable centre rduite, appele cart rduit , suit une loi de
LG(0,1) :
Sous cette distribution, cette quantit ne dpasse 1,96 en valeur absolue que dans 5% des
cas.
Deuxime tape : Vrifier les conditions de validit du test (n PH0 et n(1- PH0) 5).
Troisime tape : Confronter les valeurs observes aux valeurs attendues sous H0 en
calculant lcart rduit :
n
)P1(P
Pp
0H0H
0H0
=
|p0- PH0| est lcart effectivement observ entre le pourcentage observ dans l'chantillon et
la valeur thorique connue.
La lecture de la table de la loi de L.G., permet de trouver la probabilit que la valeur soit
suprieure ou gale la valeur absolue de lcart rduit observ :
Si cette probabilit est petite, on peut dire que la diffrence |p0- PH0| est un vnement peu
probable sous lhypothse nulle.
On ne rejette pas H0 si le degr de signification (probabilit lue dans la table,
caractristique dun chantillon donn) est suprieur au seuil de probabilit choisi (en
gnral 5%) et on rejette H0 dans le cas contraire.
Reprenons lexemple :
PH0=4% n=170 p0=9,4%
Hypothses :
H0: Lchantillon est reprsentatif dune population dans laquelle le caractre tudi
a une frquence thorique P=0,04
H1: P0,04 ( test bilatral)
Probabilit (| |
n
)P1(P
Pp
0H0H
0H0
/H0)
7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques
67/118
Polycopi de bio-statistique 61Facult de Mdecine de Montpellier-Nmes
Conditions de validit :
1700,04=6,8 et 1700,96=163,2 sont suprieurs ou gaux 5.