Polycop Biostat Tome 1 Methodes Statistiques

7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

1/118

Bio-Statistique1re partie

Discipline : Bio-statistique, Bio-mathmatique et Sciences

de lInformation


2/118

OBJECTIFS PEDAGOGIQUES

Raliser limportance du problme de la variabilit inhrente aux donnes mdicales,

comprendre les principaux concepts qui permettent de la grer et ainsi de pouvoir faire leschoix ncessaires la prise en charge des malades avec le minimum derreur.

OBJECTIFS TERMINAUX

1. Enumrer les principales sources de variabilit biologique (les mettre en vidence sur un

exemple simple).

2. Expliquer les concepts dchantillon, de population, de reprsentativit.

3. Comprendre et utiliser les concepts dintervalle de confiance et de test de comparaison.

4. Savoir expliquer ce que reprsente les risques et .

5. Expliquer clairement les phrases : La diffrence observe est significative x% , ou

La diffrence nest pas significative , appliques un exemple concret.

6. Savoir expliquer les concepts de :

- jugement de signification

- jugement de causalit.

7. Savoir interprter une enqute pidmiologique, expliquer les concepts de biais, de facteur

de confusion, de risque relatif : RR, (ou odd ratio : OR), de risque attribuable : RA.

OBJECTIFS CONTRIBUTIFS

1. Reconnatre les diffrents types de variables et expliquer comment lon peut

ventuellement passer dun type lautre.

2. Reconnatre la loi normale, citer les autres lois de probabilit.

3. Dcrire un chantillon par quelques techniques lmentaires : histogramme, fractiles,

calculer une moyenne, une variance, un cart-type, une mdiane, et expliquer la

signification des paramtres prcdents.

4. Estimer une moyenne ou une frquence thorique.

5. Comparer une moyenne observe et une moyenne thorique, deux moyennes observes.6. Comparer une frquence observe une frquence thorique. Comparer deux ou plusieurs

frquences observes (comparaison de %, de Chi2 (2).

7. Lire correctement les tables usuelles : , z, u, t, 2, r.)

8. Reconnatre si deux sries dobservations sont apparies et les comparer.

9. Mesurer le degr de liaison entre deux variables quantitatives par le coefficient de

corrlation linaire. Tester la signification de celui-ci


3/118

10.Discuter lintrt respectif de la comparaison de moyennes et du coefficient de corrlation

linaire dans le cas de sries apparies (double mesure sur un individu).

11.Connatre les conditions dapplication de ces calculs.

12.Interprter correctement , et p.

RECHERCHE CLINIQUE ET EPIDEMIOLOGIE

Objectif gnral : tre capable de dfinir les concepts et les mthode lmentaires ncessaires

pour aborder les problmes mdicaux quil sagisse de clinique ou dpidmiologie.

1. Dfinir lpidmiologie. Citer et dfinir ses branches principales.

2. Dfinir les domaines de recherche clinique ncessaires la prise en charge des malades et

indiquer leurs diffrences et leurs liens avec lpidmiologie.

3. Dfinir et distinguer enqute descriptive, enqute tiologique, enqute dintervention :

situation exprimentale et situation dobservation.

4. Dfinir ce quest un registre de population, en donner les avantages et les difficults.

5. Dfinir et calculer un taux brut de mortalit et un taux de mortalit spcifique.

6. Dfinir et calculer un taux dincidence et un taux de prvalence. Indiquer leur intrt en

Sant Publique.

7. Comprendre les principes de la standardisation par tranche dge appliqus aux taux

prcdents (taux standardiss).

8. Parmi les enqutes pidmiologiques, dfinir et distinguer enqute de cohorte et enqute

cas/tmoins. Indiquer les avantages et inconvnients respectifs. Dfinir enqute

transversale et enqute longitudinale.

9. Dfinir ce quest un facteur de risque. Indiquer les arguments qui plaident en faveur du

caractre causal dun facteur de risque.

10.Dfinir, calculer et interprter le risque relatif et le risque attribuable dans un exemple

simple.

11.Connatre les diffrentes phases de lexprimentation thrapeutique et leur stratgie

respective.

12.Citer et dfinir les principaux facteurs qui doivent ou peuvent tre pris en compte dans le

protocole dun essai thrapeutique (choix des facteurs comparer, notion de placebo,

critres de choix ou dexclusion des sujets, moyen dassurer la comparabilit des groupes,

simple ou double aveugle, facteurs intervenant dans la dtermination du nombre de sujet

ncessaire, critres de jugement, rgles dthique et de confidentialit (lois).

13.Evaluer un signe, un examen, une dcision mdicale en calculant leur sensibilit et leurspcificit, leurs valeurs prdictives positives et ngatives.


4/118

SOMMAIRE

INTRODUCTION A LA METHODE STATISTIQUEEN RECHERCHE CLINIQUEET EPIDEMIOLOGIQUE ....................................................................................................1

I. La finalit ..............................................................................................................................1

II. La valeur des Chiffres ..........................................................................................................2

III. La biostatistique..................................................................................................................5

IV. Solutions statistiques ..........................................................................................................7

V. La causalit ..........................................................................................................................9VI. Conclusions ........................................................................................................................9

Bibliographie de base .............................................................................................................10

CHAPITRE I : Buts et principes ........................................................................................11I. La variabilit .......................................................................................................................11

II. Population, Echantillon......................................................................................................13

III. Variable alatoire..............................................................................................................14

IV. Fluctuations dchantillonnage.........................................................................................15

V. Les lois de la probabilit....................................................................................................17

VI. Quelques dfinitions et exemples.....................................................................................22

Rsum ...................................................................................................................................28

CHAPITRE II : Intervalle de fluctuation dun paramtre ..............................................29I. Introduction .........................................................................................................................29

II. Intervalle de fluctuation dun pourcentage ........................................................................31

III. Intervalle de fluctuation dune moyenne..........................................................................32

Rsum ...................................................................................................................................35

CHAPITRE III : Estimation Intervalle de confiance dun paramtre.........................36I. Introduction .........................................................................................................................36

II. Dfinition et proprits dun estimateur ............................................................................36II.1. Dfinition ...................................................................................................................36II.2. Proprits dun estimateur..........................................................................................37

III. Estimation dune moyenne...............................................................................................37III.1. Estimation ponctuelle ...............................................................................................37III.2. Estimation par intervalle de confiance......................................................................37

IV. Estimation dun pourcentage............................................................................................39IV.1. Estimation ponctuelle ...............................................................................................39IV.2. Estimation par intervalle de confiance .....................................................................39

Rsum ...................................................................................................................................42


5/118

CHAPITRE IV : Principe des tests dhypothse risques derreur puissance

et nombre de sujet ncessaire ..............................................................................................43I. Estimation & test : 2 problmes diffrents..........................................................................43

II. Principes des tests statistiques ...........................................................................................44II.1. Formuler lhypothse nulle H0 et lhypothse alternative H1 ....................................45II.2. Dterminer ce que devraient tre les observations si H

0tait vraie...........................46

II.3. Vrifier si les observations sont conformes aux valeurs attenduessous lhypothse nulle........................................................................................................46II.4. Choisir la rgle de dcision ........................................................................................47

III. Le risque = risque de premire espce = seuil de signification ....................................48IV. Le degr de signification ..................................................................................................49

V. Le risque et la puissance dun test statistique.................................................................51

VI. Application au calcul du nombre de sujets ncessaire .....................................................52

VII. Test unilatral ou test bilatral ........................................................................................54

Rfrences bibliographiques ..................................................................................................57

CHAPITRE V : Variables qualitatives : Comparaison de pourcentages

Test du Chi Deux ..................................................................................................................58I. Comparaison de deux pourcentages Test de lcart rduit...............................................58

I.1. Comparaison dun pourcentage observ un pourcentage thorique.........................58I.2. Comparaison de deux pourcentages observs.............................................................61

II. Test du Chi deux en sries indpendantes .........................................................................64II.1. Introduction................................................................................................................64II.2. Comparaison dune distribution observe une distribution thorique.....................64

II.3. Comparaison de plusieurs distributions observes ....................................................70Rsum ...................................................................................................................................76

CHAPITRE VI : Variables quantitatives Comparaison de moyennes............................77I. Comparaison dune moyenne observe une valeur thorique ..........................................77

I.1. Rappel : la moyenne dun chantillon randomis est une variable alatoire ..............78I.2. Les 2 hypothses : nulle et alternative.........................................................................79I.3. Principe des calculs .....................................................................................................80I.4. En pratique...................................................................................................................81

I.5. Lire la table de student ................................................................................................82I.6. Exemples .....................................................................................................................83

II. Comparaison de deux moyennes observes sur des chantillons indpendants................84II.1. Les 2 hypothses : nulle et alternative .......................................................................84II.2. Principe des calculs....................................................................................................85

III. Comparaison de deux moyennes sur des chantillons apparis .......................................89III.1. Hypothses nulle et alternative .................................................................................90III.2. Principe des calculs...................................................................................................90III.3. Exemple ....................................................................................................................91

IV. Comparaison de plusieurs moyennes : introduction lanalyse de variance...................92Rfrences bibliographiques ..................................................................................................95


6/118

CHAPITRE VII : Analyse de la liaison entre deux variables

quantitatives la corrlation ..................................................................................................96Introduction ............................................................................................................................96

I. Principe de dtermination de R ...........................................................................................96

I.1. Principales proprits du coefficient de corrlation ....................................................99II. Test de la liaison entre 2 variables...................................................................................101

II.1. Test dindpendance (ou test du coefficient de corrlation) : ..................................101II.2. Interprtation de R....................................................................................................103

III. Intervalle de confiance et statistiques infrentielles .......................................................104III.1. Comparaison de r la valeur thorique p ...............................................................105III.2. Estimation dun coefficient thorique p : Intervalle de confiance de r...................105III.3. Comparaison de 2 coefficients de corrlation observs..........................................106

IV. Corrlation et rgression linaires..................................................................................106IV.1. Cas o les 2 variables tudies sont entirement alatoires par leur nature et leurdistribution.......................................................................................................................106IV.2. Cas o les 2 variables jouent un rle dissymtrique...............................................107

V. Conditions de validit non respectes..............................................................................107V.1. Principe de la corrlation non paramtrique ............................................................107

Rsum .................................................................................................................................108

Annexe : Tables statistiques ..............................................................................................109

Table de Student ...................................................................................................................110

Table du Chi Deux................................................................................................................111Table du coefficient de corrlation.......................................................................................112


7/118

Polycopi de Bio-statistique 1Facult de Mdecine de Montpellier-Nmes

INTRODUCTION

A LA METHODE STATISTIQUE

EN RECHERCHE CLINIQUE ET

EPIDEMIOLOGIQUE

I. LA FINALITE

La suppression de la maladie est la finalit de toute recherche dans le domaine mdical.

La finalit spcifique la recherche clinique et lpidmiologie cest destimer si, auniveau de lhomme, les hypothses sur les mcanismes pathologiques et les moyens

daction qui en dcoulent ont un rel impact sur la maladie.

On peut vouloir agir pendant la maladie : la gurir, ou avant la maladie : la prvenir.

Lorsque la maladie est prsente, laction commence au diagnostic que lon va chercher

rendre plus sensible afin quil soit le plus prcoce possible, ce qui peut permettre un

traitement plus efficace et moins lourd ; on peut aussi vouloir rendre le diagnostic plus

spcifique, afin den minimiser les erreurs. Sensibilit et spcificit dun examen

diagnostique peuvent tre values : ainsi le frottis cervical dans le dpistage des cancers

du col de lutrus a une sensibilit de 40% et une spcificit de 98%. Ce qui veut dire que

sur 100 patientes ayant un cancer du col asymptomatique, un 1 er frottis cervical ne sera

positif que 40 fois, par contre lorsque le frottis est positif, la patiente est porteuse dun

cancer du col 98 fois sur 100. La rptition des frottis permet lamlioration de la

sensibilit.

Un 2me type de recherche va tendre amliorer les rsultats thrapeutiques en optimisant

les traitements existants ou en en inventant de nouveaux ; la dtermination de groupe

pronostic diffrent permettra dadapter le traitement lvolution de la maladie.

Par exemple ladjonction dune chimiothrapie au traitement loco-rgional dans les cancers

du sein survenant avant la mnopause, amliore la survie denviron 10% 5 ans, pour les

femmes prsentant beaucoup de ganglions envahis, cette amlioration est de 15% ; alors

quelle napparat pas lorsque les ganglions sont indemnes.


8/118


Un 3me objectif peut tre dempcher la maladie dapparatre, pour cela il faut en

connatre la ou les causes, ou dfaut les facteurs de risque, ainsi on connat les causes de

nombreuses maladies infectieuses, par contre pour dautres affections comme les cancers

ou les maladies cardio-vasculaires, on ne connat que les facteurs qui favorisent

lapparition de la maladie. On value ainsi que la prise dstrognes la mnopausemultiplie par 6 ou 8 le risque de faire ultrieurement un cancer de lendomtre. Mais

connatre causes ou facteurs de risque ne suffit pas, encore faut-il avoir les moyens de les

supprimer : les vaccinations nont pas supprim toutes les maladies infectieuses et que

faire pour empcher les gens de fumer ?

Ce rapide survol des objectifs de la recherche clinique permet den prciser les

caractristiques :

les recherches seffectuant sur lhomme, le respect de lthique domine lensemble des

travaux et le recueil des donnes se fait dans un contexte mdicalis.

il sagit de recherches pluridisciplinaires ncessitant une troite collaboration entre

fondamentalistes, cliniciens et biologistes qui devront effectuer une dmarche

scientifique commune.

les rsultats sont bass sur des observations dont la stratgie dobtention dune part, et

lanalyse dautre part, doivent permettent linterprtation et lextrapolation dautres

sujets.

II. LA VALEUR DES CHIFFRES

Nous avons vu, dans les exemples cits plus hauts, que les rsultats des diverses recherches

se rsument par des chiffres, ou par des comparaisons de chiffres : un taux de sensibilit,

un taux de survie, un risque, etc Il parat donc indispensable que les chiffres sur

lesquels vont tre bases des dcisions ne soient pas le fruit du hasard, voire le

rsultat dun biais. Il faut donc que la faon dobtenir ces rsultats (stratgie) et

lexactitude de leur valeur (statistique) puissent garantir la justesse des conclusions.

Ainsi apparaissent deux domaines complmentaires : dune part celui de la planification

des tudes, dautre part celui de linterprtation des valeurs observes.

Prenons un exemple : soit deux traitements A et B dune maladie M ; A donne 50% de

gurison et B 60% ; peut-on dire que B et suprieur A ?


9/118


Les conditions pour conclure B > A sont :

- 1) Que la diffrence observe ne soit pas due au hasard, en effet si ces pourcentages de

gurison ont t calculs partir de 10 malades, cela veut dire quen fait A donne 50% de

gurison 30% et B 60% 50%, cest dire que si lon faisait une 2me tude on pourrait

trouver A = 60% et B = 50%. On dit que la diffrence observe est le fait du hasard. Par

contre si lon a trouv ces mmes pourcentages de gurison sur 400 malades, cela veut dire

que A donne 50% 5% de succs et B 60% 5% et lon peut conclure (en faisant un

calcul dont nous parlerons ultrieurement) que les rsultats du groupe B sont suprieurs

ceux du groupe A. On dit que la diffrence est significative .

De telles conclusions impliquent donc lutilisation dune mthodologie adquate

permettant de porter des conclusions en minimisant les risques derreur dinterprtation :cette mthodologie est la biostatistique.

- 2) Que la diffrence significative observe entre A et B (=10%) soit la consquence

relle de lapplication de deux traitements diffrents.

Supposons que les malades auxquels on a donn A soient plus gravement atteints que ceux

auxquels on a donn B, la diffrence est alors due une gravit diffrente et non un

traitement diffrent.

Par exemple : les malades traits par radiothrapie compars ceux traits par chirurgie

pour un cancer de la mme localisation et de mme stade, auront toujours une survie plus

basse, car la chirurgie slectionne les bons cas : les oprables .

Une tude de recherche clinique ou dpidmiologie ncessite

donc :

1) une hypothse vrifier,

2) une stratgie ou un plan dtude,

3) le recueil de donnes,

4) lanalyse de ces donnes.

5) linterprtation des rsultats.

- Le choix de la stratgie qui recueillera des informations interprtables, avec le minimum

de biais est le point de dpart essentiel de toute recherche. Les mthodes mathmatiques ne

viennent quensuite et nont de sens que si le problme a dabord t circonscrit et la bonnesolution pour y rpondre choisie.


10/118


- Le recueil et la validation des donnes : une analyse mathmatique sophistique ne

permettra pas de rendre de la valeur des donnes fausses ou incompltes. La mise la

disposition des cliniciens dun outil informatique est un phnomne inluctable et

souhaitable, mais il faut tre conscient des avantages et des inconvnients de ces moyens.

Certes lordinateur facilite le recueil et permet de mieux matriser les informationsmdicales. Il donne aux mdecins la possibilit de pratiquer des bilans sur des grands

nombres, mais cet avantage est assorti dun effort quant lacquisition dun nouveau mode

de travail et la ncessit denregistrer des donnes de qualit : on ne peut ressortir que ce

que lon a entr. Au moins 3 types dinconvnients, certes vitables, peuvent tre cits :

dordre technique : la duplication du recueil des donnes par plusieurs cliniciens peut tre

source derreurs dun fichier lautre.

dordre psychologique : augmentation de la tendance au sparatisme chacun ayant son

fichier alors que la multi-disciplinarit est srement plus fructueuse.

dordre scientifique : lanalyse statistique devient disponible par touche interpose ce

qui peut donner une pseudo-apparence scientifique des donnes fausses

- Lanalyse des donnes ncessite comme nous lavons vu le recours une mthodologie

adquate, qui permettra dinterprter les rsultats observs en estimant les risques derreur

et donc le degr de confiance que lon pourra accorder aux conclusions de ltude. Ainsi

lorsque les rsultats dune tude sont obtenus, on doit sinterroger pour savoir si les

rsultats observs sont alatoires , cest dire quon les a obtenus par hasard (si on

recommenait ltude on en trouverait dautres), ou au contraires significatifs cest

dire consquence relle du phnomne tudi.

Prenons lexemple dun hypnotique dont on tudie lactivit en mesurant la dure pendant

laquelle il fait dormir. Sur un premier sujet, on observe une dure de sommeil de 5 heures.

Peut-on dire que lhypnotique fait dormir 5 heures ? Certes non, car si lon traite un 2me

sujet, puis un 3me on observera des temps de sommeil variables, par exemple : 1 heure ou

8 heures. Que dire alors de lactivit de lhypnotique ?

Autres exemples :

Si lon dsire connatre la valeur dun enzyme, par exemple la gt, comme test

diagnostique de lalcoolisme, on mesurera la gt dans un groupe de sujets normaux et

dans un groupe dalcooliques. On pourra observer que certains sujets alcooliques ont


11/118


des taux plus bas que certains sujets normaux . Que conclure sur la perturbation de la

gt par lalcool ?

Si on veut dterminer le pourcentage normal de lymphocytes sanguins, cest dire le

pourcentage que lon doit retrouver chez tout sujet sain, en faisant la mesure sur 10

sujets nous trouverons presque 10 valeurs diffrentes, alors comment dterminer une

norme ? Quand pourra-t-on dire quun sujet est pathologique ?

III. LA BIOSTATISTIQUE

La conclusion de ces exemples, cest que touts les paramtres que nous voulons tudier ont

comme caractristique commune dtre spontanment variables dun individu

lautre, ou dun groupe lautre, cest ce quon appelle des variations alatoires. Il en estde mme pour lapparition des maladies, leur volution, la rponse aux traitements o les

valeurs observes mlangent des variations alatoires et des variations provoques qui

sont celles qui en fait nous intressent. Il faudrait donc dissocier ce qui est variations

alatoires de ce qui est variations provoques, pour cela il est ncessaire dutiliser une

mthode de raisonnement qui nous permette de conclure malgr cette variabilit alatoire

et cette mthode est linterprtation statistique.

On saperoit ainsi que la statistique (fminin singulier) na rien voir avec les statistiques(fminin pluriel) qui, elles, ne sont que des dnombrements type recensement et ne

permettent aucune extrapolation quant leurs conclusions : ainsi le calcul du nombre de

veuves passes sur le Pont Neuf en 1860 qui est de 13198 et une douteuse, est un simple

dnombrement ! (Rf.D.Schwartz et E.Labiche ...).

Que va faire la statistique ?

Reprenons lexemple de lhypnotique. Si on continue exprimenter le produit sur

dautres sujets, on peut reprsenter les rsultats observs sur un graphique avec en

ordonne le temps de sommeil et en abscisse le nombre de cas, on obtient ainsi un

histogramme dont laspect se modifie au fur et mesure que le nombre de sujets augmente

puis se stabilise mme si on continue augmenter le nombre de sujets (figure 1). Cest

dire quaprs avoir observ suffisamment de cas, la courbe obtenue reprsente

pratiquement lensemble des rsultats que lon peut observer avec un tel hypnotique, donc

on a mis en vidence une certaine constante reprsente par cette courbe. Comment peut-

on rsumer cette courbe ?


12/118


figure 1

Le premier indice auquel on pense est la moyenne (x/n), mais cette moyenne

(ici 5 heures) ne rsume pas totalement linformation : supposons un autre hypnotique B

qui donne la courbe B (figure 2). La valeur de la moyenne est la mme que pour A, et

pourtant la forme de la courbe nest pas la mme : plus de sujets sous B que sous A, sont

loin de la moyenne : il y a une plus grande variabilit avec B quavec A. Il faut donc crer

un indice rsumant cette variabilit. Cet indice sappelle la variance et mesure

lcartement des valeurs observes par rapport la moyenne (ou dispersion), ainsi

lhypnotique A a une variance plus petite que lhypnotique B.

figure 2

Le calcul statistique va donc permettre de dfinir les caractristiques (moyenne, variance)de la rpartition (ou distribution) du paramtre tudi, on pourra ensuite comparer ces

caractristiques dun groupe lautre.

Deux points importants sont noter demble :

1)Les rsultats sont rsums partir dun groupe, ils ne sont donc extrapolables qu

un groupe : ainsi, si je dis que lhypnotique A procure en moyenne 5 heures de sommeil,

ce rsultat peut sappliquer lensemble des gens qui vont utiliser ce produit, mais pas un

individu donn de ce groupe qui, lui, peut dormir 2 heures ou 8 heures ! Il est cependant


13/118


possible de calculer, pour cet individu, un intervalle probable de sommeil (3 7 heures par

exemple ici), cest ce quon appelle un intervalle de confiance.

Prenons un autre exemple : lorsquon dit que le tabac multiplie par 20 le risque de cancer

du poumon, ceci sapplique lensemble dune population, mais pour un fumeur

particulier ce risque peut-tre infrieur ou suprieur, et se situe dans un intervalle

galement estimable.

2) Les rsultats sexpriment en probabilit et non en certitude.

Ainsi si lon donne lhypnotique A un 2me groupe de sujets, il est probable que ces sujets

dorment en moyenne 5 heures, mais ceci nest pas une certitude, en particulier ce 2me

groupe peut, par hasard, tre constitu dinsomniaques chroniques moins sensibles, donc

dormir en moyenne moins longtemps.Nous avons crit plus haut que lon pouvait calculer lintervalle de la dure de sommeil

dun individu soumis lhypnotique, certes, mais il est cependant possible, bien que peu

probable, que le sujet dorme plus ou moins longtemps que lintervalle prvu. Cet intervalle

ne reprsente donc quune probabilit de dure de sommeil sous lhypnotique A.

Ce raisonnement de type probabiliste est li la nature variable des paramtres tudis

dont les courbes de dispersion tendent vers linfini, et explique bien des rsultats

contradictoires rencontrs dans la littrature, lorsque lon ne tient pas compte de ce

phnomne universel.

IV. SOLUTIONS STATISTIQUES

Aprs avoir dfini pour la variable tudie, dune part sa moyenne dautre part sa

dispersion (par le calcul de la variance), il va tre possible de rpondre aux diverses

questions abordes en recherche clinique, que lon peut classer en 3 types :

1) Dfinir les valeurs dites normales .

De nombreux paramtres biologiques sont utiliss en mdecine et, afin de dfinir des tats

pathologiques, il est tout dabord ncessaire de dfinir des normes hors desquelles les

valeurs seront considres comme anormales . Ceci consiste tablir la courbe de

dispersion du paramtre tudi sur un chantillon de sujets considrs comme normaux,

puis de dfinir lintervalle autour de la moyenne (ou du taux) dans lequel se situera 95% de

la population. En dehors de cet intervalle, les valeurs seront considres comme

pathologiques . Nous voyons demble quen agissant ainsi 5% des sujets, bien que


14/118


normaux, seront considrs comme pathologiques (figure 3), mais la prise en compte de

100% des sujets normaux nest pas possible car cela reviendrait prendre en compte toutes

les valeurs possibles jusqu linfini et on ne pourrait plus dfinir dtat normal ou dtat

pathologique.

figure 3 : intervalle 95 %

2) Estimer ces valeurs avec une certaine prcision.

Si lon dsire connatre le taux de gurison obtenu avec un traitement, il est raisonnable de

fixer lavance lintervalle de prcision que lon dsire obtenir. Ainsi si jobtiens, par

exemple, 60% de succs, il est prfrable que lintervalle de confiance de ce taux soit petit,

5%, plutt que grand ( 20%) afin de massurer que, lorsque jappliquerai ce traitement

dautres malades, les rsultats soient proches de 60% et non de 40% comme ils pourraientltre avec un rsultat peu prcis (cest dire avec un grand intervalle de confiance).

3) Comparer des paramtres dun groupe un autre afin de conclure si un groupe est

identique un autre : cest le problme le plus frquent en recherche clinique.

Par exemple : est-ce que les rsultats obtenus avec le traitement A sont les mmes quavec

le traitement B ? Est-ce quun groupe de sujets vaccins fait moins souvent la maladie que

les sujets non vaccins ? Est-ce que les taux de leucocytes sont modifis en cas dinfectionvirale ? Est-ce que les malades porteuses de cancer du sein et prsentant des rcepteurs aux

strognes positifs ont une meilleure survie ? Est-ce que le tabac diminue la fertilit ?

Le principe consiste galement calculer pour les 2 groupes les indicateurs rsumant la

rpartition des valeurs des paramtres tudis (taux ou moyennes, variances) et de

comparer ces indices dans les 2 groupes afin de juger si la diffrence observe est

compatible avec de simples variations alatoires ou au contraire significative, cest dire

que les valeurs observes dans les 2 groupes tudis diffrent trop pour tre compatiblesavec des variations alatoires (figure 4).


15/118


Figure 4

V. LA CAUSALITE

Pour pouvoir conclure, il restera encore examiner le problme de la causalit : quelle est

la cause relle de la diffrence observe ? et ces relations causales ne pourront tre tablies

quen fonction de la stratgie utilise pour ltude.

Ainsi, en thrapeutique, une relation causale entre traitement et rsultat pourra tre tablie

si la stratgie dtude permet de nattribuerquau seul traitement la diffrence observe.

Cette situation est ralise dans le cas dessais thrapeutiques avec tirage au sort des

traitements comparer, car il sagit alors dune situation exprimentale o les diffrents

paramtres sont contrls.

Par contre, dans la plupart des autres tudes, et en particulier en pidmiologie, la relation

causale pourra exceptionnellement tre tablie car il sagit toujours de situation

dobservation, o de nombreux facteurs peuvent tre la cause des diffrences observes :

ainsi si lon trouve que les sujets atteints dinfarctus du myocarde ont un taux de

cholestrol plus lev que la normale, on ne peut pas dire que le cholestrol soit la cause de

linfarctus du myocarde, bien dautres facteurs intervenant.

VI. CONCLUSIONS

Pour conclure, nous estimerons notre premier but atteint si nous vous avons fait

comprendre les points suivants : une tude de recherche clinique, pour tre valable,

ncessite :

davoir un but clairement dfini : les enregistrements systmatiques type pche laligne ne servent rien.


16/118


de suivre une stratgie qui permettra de rpondre au problme pos : nimporte quelle

enqute ne peut rpondre nimporte quelle question.

de recueillir des donnes de qualit, valides.

danalyser les donnes en tenant compte de leur variabilit : la mthode statistique nest

pas lart daligner des chiffres, voire de les manipuler, mais de les interprter.

dinterprter les rsultats, sans oublier le bon sens clinique : une diffrence statistiquement

significative na pas forcment un intrt clinique.

BIBLIOGRAPHIE DE BASE

D.SCHWARTZ Mthodes statistiques lusage des mdecins et des biologistes.,

Flammarion Ed 1963

A.LAPLANCHE, C. COM NOUGUE, R. FLAMANT. Mthodes statistiques appliques

la recherche clinique., Flammarion Ed 1986

E.ESCHWEGE, G.BONNEROT, F.DOYON, A.LACROIX Essais thrapeutiques, mode

demploi., Le Quotidien du Mdecin, INSERM 1990

M.GOLDBERG LEpidmiologie sans peine., Collection prsente par Ed Mdicales

ROLAND BETTEX 1985.


17/118

Polycopi de bio-statistique 11Facult de Mdecine de Montpellier-Nmes

CHAPITRE I

BUTS ET PRINCIPES

I. LA VARIABILITE

La caractristique essentielle des donnes, dans le domaine du vivant, est la variabilit.

Bien que celle-ci soit, aux yeux de tous, une vidence, on en donnera 4 exemples, dabord

pour dfinir quelques termes et ensuite parce que la force de cette vidence na dgale

que la facult de loublier chaque instant.

Ces 4 exemples concernent la variabilit du nombre de loges capsulaires dans le fruit du

coquelicot (figure 1), le temps dincubation dune maladie virale du tabac (figure 2), la

couleur des cheveux (tableau 1) et la survenue dun cancer bronchique chez les fumeurs

(tableau 2).

20

15

10

5

1,00 1,20 1,40 1,60

Figure 3 : Distribution des glycmies jeun observe sur 74mesures conscutives effectues chez un sujetdiabtique au cours dune priode de 2 ansconsidre comme stable(D. Schwartz, Donnes non publies)

Glycmie en grammes/litre

Nombredexam

ens

80

70

60

50

40

30

20

10

015 20 25 30

Figure 2 : Distribution du temps de latence de lamosaque du tabac observesur 355 plants de tabac inoculs avec levirus de la mosaque(D. Schwartz, Donnes non publies)

Temps de latence en jours

Nombredeplants

300

250

200

150

100

50

06 7 8 9 1011 12 13 14 15 16 17 18 19 20

Figure 1 : Distribution du nombre de loges capsulairesobserve sur 1905 coquelicots (Biometrika,Vol 2, 1902)

Nombre de loges

Nombredecoquelicots

Couleur de cheveux Blond Brun Noir Roux Total

Nombre de sujetsprsentant cette couleur

2 829 2 635 1 223 116 6 800

Tableau 1 : Couleur des cheveux Dnombrement portant sur 6 800 sujets.(Daprs Ammon,, Zur Anthropologie Der Badener)

Eventualit Pas de cancerdu poumon

Cancer duPoumon

Total

Nombre de sujet 3 078 22 3 100

Tableau 2: Cancer du poumonDnombrement portant sur 3 100 sujets de sexe masculin de 50 69 ans, fumant aumoins 40 cigarettes par jour, suivis pendant 44 mois.

(Daprs Hammond et Horn)


18/118


Les deux premiers caractres mesurables, sont dit quantitatifs, leur variabilit est

reprsente par un diagramme en btons ou histogramme ; celui-ci est fait de traits spars

pour le nombre des loges capsulaires, qui est une variable discontinue, et de rectangles

jointifs pour le temps dincubation de la maladie, qui est continu. Le deux derniers

caractres sont dits qualitatifs, ils ne donnent pas lieu histogramme parce quils ne sontpas logiquement ordonnables sur laxe des abscisses ; le 4e caractres, qualitatif 2 classes,

est le plus simple de tous les caractres ; il traduit aussi la forme la plus simple de la

variabilit : travers des diffrences daspect, ces 4 exemples traduisent le mme fait : une

trs grande variabilit ( cf. Dfinitions 6).

Cette variabilit peut tre rduite par des procds exprimentaux, mais non supprime ;

ainsi, dans lexemple des plants de tabac, linoculation avait t faite dans des conditions

particulirement standardises : suspension de virus parfaitement homogne inocule desplants de tabac gntiquement semblables, sur une feuille de mme rang entre des nervures

de rang donn : le temps de latence a quand mme vari de 13 34 jours.

La variabilit ne se rduit aucunement lerreur de mesure (le nombre de loges capsulaires

dans le fruit du coquelicot est parfaitement mesur), elle la comporte certes dans de

nombreux cas, mais pour lessentiel la variabilit traduit la fluctuation biologique. Elle

porte sur la morphologie (au sens large), la prdisposition une maladie, le temps que

celle-ci met apparatre, son volution, en fait sur la quasi totalit des caractristiques dun

sujet.

On doit aborder les sciences du vivant pntr de lide que la variabilit est, non

lexception, mais la rgle.

Cette rgle est constamment oublie. Cet Anglais nous faire rire qui, voyant une femme

rousse en dbarquant Calais, conclut : Tiens, les Franaises sont rousses . Il nignorait

certes pas que la couleur des cheveux varie dune femme lautre, et pourtant Et si nous

rions de son erreur, chacun de nous la commet sans cesse. Untel, dcouvrant 8 quartiers

dans un fruit de coquelicot, conclura automatiquement : le fruit du coquelicot contient 8

quartiers. Plus grave, ce biologiste qui testera les effets nocifs dune drogue sur 1 singe, sur

5 dans le meilleur des cas. Si vous vous tonnez de ce faible effectif, il voquera dabord le

prix du singe, puis il ajoutera que cette recherche est effectue avec une extrme prcision,

grce au microscope lectronique, oubliant que lessentiel de la variabilit est dordre

biologique : si le produit est dangereux pour 1 singe sur 10, ce qui serait dj norme, il

risque fort de ne rien voir avec un si faible effectif. (* daprs D.Schwartz)


19/118


Compte tenu de la variabilit de ses caractres infiniment nombreux, un individu ne

ressemble jamais un autre. Cette diversit est dabord dordre gntique. Notre identit

est faonne par des gnes innombrables donc chacun a plusieurs variantes (allles). Il en

rsulte, au moment de la reproduction, qui redistribue les gnes, un nombre quasi infini de

combinaisons possibles. De sorte quexception faite des vrais jumeaux (et encore ) unindividu na pas, na jamais eu et naura jamais son double, lindividu est unique.

Aux diffrences entre les individus, sajoutent les diffrences dans lenvironnement, dans

les hasard de la vie, qui font que certains caractres (pas tous, mais beaucoup) varient dun

moment lautre, cest le cas notamment pour les rsultats dexamens biologiques (cf par

exemple fig.3 : la glycmie dun sujet jeun). A la variabilit inter-individuelle se

superpose donc une variabilit intra-individuelle (encore plus souvent oublie que la

premire). Et lindividu diffre de lui-mme dun moment lautre.

II. POPULATION, ECHANTILLON

II.1. UNE POPULATION est un ensemble dunits sur lesquelles une caractristique peut

tre releve. Le plus souvent, en pidmiologie, les units sont des personnes (ou des

animaux en exprimentation animale). Mais cela peut tre aussi un groupe de personnes

(par exemple la population des familles dont on compte le nombre denfants), ou encore

des entits biologiques (comme des cellules dont on relve le caractre cancreux ou non).

Trs souvent, la population est de grande taille ; dans de nombreux cas, les modles

statistiques que nous verrons supposent quelle est de taille infinie. Les questions que lon

se pose, les hypothses que lon formule concerne la population.

II.2. UN ECHANTILLON est une partie de la population. Il est habituellement de taille

suffisamment petite pour que la caractristique laquelle on sintresse puisse

effectivement tre mesure sur tous les sujets qui le composent. Les observations que lonfait sur un chantillon servent rpondre aux questions que lon sest pos au niveau de la

population. Il est donc important que lchantillon soit constitu de telle sorte quil puisse

remplir ce rle. Cest notamment le cas lorsquil sagit dchantillon reprsentatif, cest

dire un chantillon dont la composition est conforme celle de la population. La faon la

plus simple de constituer un chantillon reprsentatif est de tirer au sort les sujets de

lchantillon au sein de la population.

Dans ltablissement idal du protocole dune enqute pidmiologique, on devrait dfinirsuccessivement la population cible et lchantillon. Il arrive cependant que lchantillon


20/118


soit constitu en fonction de diverses contraintes pratiques et que la population soit

reconstruite a posteriori en partant de lchantillon (Schwartz 1994). Il est, par exemple,

frquent de raliser des enqutes sur un chantillon de sujets traits dans quelques services

hospitaliers avec lesquels on collabore. Cet chantillon na pas t extrait dune population

dfinie au dpart, mais constitu ainsi pour des raisons de commodits telles que lacollaboration possible avec tel ou tel service. La population correspondante peut tre, selon

le problme que lon tudie, celle de lensemble des malades hospitaliss quel que soit le

service, ou lensemble, fictif, des sujets qui, sils taient malades, seraient hospitaliss

dans lun des services participant lenqute. Lchantillon est alors, par construction,

reprsentatif de la population ainsi dfinie. Cest elle que les observations faites sur

lchantillon peuvent tre gnralises. Il importe donc dans la prsentation et

linterprtation des rsultats de bien dcrire cette population (rpartition par ge, par sexe,par catgories professionnelles ).

III. VARIABLE ALEATOIRE

Une variable alatoire associe une valeur chaque sujet de la population. Cette valeur peut

tre numrique : taille, ou ne pas ltre : malade/non malade, groupe sanguin

Le terme alatoire signifie quon ne peut pas prdire avec certitude, avant la mesure ou

lobservation, la valeur de la variable pour un sujet. La seule information dont on dispose

pour chaque valeur de la variable est la probabilit de trouver un sujet qui ait cette valeur.

Soit, par exemple, la variable X malade/non malade . Pour un sujet dont on ne connat

que le nom, on peut ne pas savoir si X a la valeur malade ou la valeur non malade

avant davoir interrog le sujet ou quil ait t examin par un mdecin. Si lon sait, par

exemple, quil y a 25% de malades dans la population, on peut cependant affirmer que la

probabilit que X = malade est 25% et X = non malade est 75%. Une variable donnant une

caractristique au niveau des sujets (poids, taille, malade/non malade) sera note avec

une lettre majuscule (X) et la valeur prise sur un sujet par une lettre minuscule (x).

On parle aussi de variable alatoire au niveau dun chantillon. Par exemple, la moyenne

ou le pourcentage sont des variables alatoires, puisquelles associent chaque

chantillon une valeur (qui est la moyenne ou le pourcentage observ sur cet chantillon).


21/118


IV. FLUCTUATIONS DECHANTILLONNAGE

Un chantillon est un sous-ensemble, plus ou moins grand, des sujets de la population. Une

des consquences de la variabilit individuelle est une variabilit au niveau des

chantillons, cest--dire que la composition de deux chantillons tirs de la mme

population nest, en gnral, pas la mme. Ce phnomne, qualifi de fluctuation

dchantillonnage, est important comprendre, car, dans le domaine biomdical, il est

extrmement frquent de travailler sur des chantillons, linclusion dans une enqute de

tous les sujets dune population tant, la plupart du temps, impossible. Pour le prsenter,

prenons lexemple dune population compose de 30% de malades et dans laquelle on

prend des chantillons successifs.

Considrons 10 000 chantillons de 20 sujets dans cette population et comptons le nombre

de malades observ dans chacun dentre eux. Les rsultats obtenus sont illustrs par

lhistogramme de la figure 4. Ce dernier indique que 8 chantillons ne comprennent aucun

malade, que 60 en comprennent 1, etc On observe, par ailleurs, quaucun chantillon ne

comprend plus de 15 malades.

Ces rsultats ne sont quun exemple. Une autre srie de 10 000 chantillons ne conduirait

pas exactement au mme histogramme. Par exemple, il est possible quun chantillon

comprenne jusqu 20 malades, ce qui ne sest pas produit dans la srie que nous

prsentons. Cependant, les conclusions seraient de mme nature : la variabilit individuelle

cest dire ici le fait que les sujets ne sont pas tous malades ou tous non malades

conduit ce que le pourcentage de malades observ varie dun chantillon lautre.

Figure 4 : Histogramme des nombres de malades observes sur 10 000 chantillons de 20 sujets

tirs d'une population o le pourcentage vrai de malades est 30 %

860

288

720

1249

18631940

1626

1120

680

267

11545 13 5 1

0

500

1000

1500

2000

2500

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Nombre de malades par chantillon

Nombresd'chantillons


22/118


On constate notamment que, bien que la valeur du pourcentage de malades soit 30% dans

lensemble de la population, seuls 1940 parmi les 10 000 chantillons ont un pourcentage

observ de malades exactement gal 30%. Cest certes le cas le plus frquent, mais

dautres valeurs sont observes avec une frquence voisine. De plus, certaines valeurs

sloignent notablement de 30% : cest ainsi quun des chantillons comprend 15 malades,soit 75% de malades.

Il nest donc pas possible de rsumer lensemble des observations par le seul pourcentage

de malades dans la population. Il faut indiquer comment les observations sont disperses.

On peut, par exemple, nous y reviendrons plus loin, donner les limites dans lesquels se

trouvent la plupart des chantillons. Ici on observe que 356 chantillons comprennent

moins de 3 malades et que 179 en comprennent plus de 10. Le pourcentage de malades est

donc compris entre 15% et 50% (bornes incluses) pour prs de 95% des chantillons.

Lallure de lhistogramme et lampleur des fluctuations dchantillonnage dpendent bien

sr de la valeur du pourcentage de malades dans la population, mais elles dpendent aussi

de la taille des chantillons prlevs dans la population. Si, par exemple, on prend des

chantillons de 100 sujets, au lieu de 20, lhistogramme devient celui de la figure 5. Il est

moins dispers : on constate, en particulier, que les limites entre lesquelles se situe le

pourcentage de malades observ pour 95% des chantillons sont cette fois 21% - 39%.

Elles sont donc plus resserres que celles de lhistogramme prcdent (15% - 50%). Cela

correspond bien lintuition : lobservation faite sur un chantillon est dautant plus

proche de la vraie valeur que la taille de lchantillon est grande.

Figure 5 : Histogramme des nombres de malades observs sur 10 000 chantillons de 100 sujets

tirs d'une population o le pourcentage de malades est 30 %

1125

1091

3395

3803

1389

183

130

500

1000

1500

2000

2500

3000

3500

4000

10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49

Nombre de malades par chantillon

Nombred'chantillons


23/118


V. LES LOIS DE LA PROBABILITE

V.1. LE CONCEPT DE PROBABILITE a t un pas considrable pour lintroduction de

la rigueur dans le domaine de lincertain. Le calcul des probabilits, qui est une branche

particulire des mathmatiques, permet dtablir des lois de probabilit. Une loi de

probabilit indique la probabilit pour quune variable prenne une valeur donne, par

exemple que sur 100 lancers de pices la variable nombre de pile gale 40, ou quune

variable soit comprise dans un intervalle donn, par exemple que sur 100 lancers le nombre

de pile soit compris entre 20 et 30. Un exemple particulirement utilis est celui

dintervalles symtriques autour de la valeur moyenne , par exemple la probabilit pour

que sur 100 lancers, le nombre de pile tombe dans lintervalle allant de 40 60. Le calcul

montre quil y a 95 chances sur 100 de tomber dans cet intervalle dont 5 chances sur 100de tomber lextrieur. Cest l un rsultat intressant, parce qualors que le hasard est

capable de tous les caprices, je peux quand mme faire un pronostic condition daccepter

certains risques derreur : ainsi je peux admettre que le nombre de pile sur 100 lancers sera

compris entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper. Telles sont les lois

du hasard , association de deux mots apparemment incompatibles : ce ne sont pas des lois

de certitude, je ne peux pas affirmer quon trouvera entre 40 et 60 fois pile, mais je peux

presque laffirmer avec un risque derreur faible.

V.2. DISTRIBUTION DE PROBABILITE

La dfinition prcdente nest pas trs oprationnelle pour faire des calculs car elle

demande des simulations chaque fois : si on voulait, par exemple, savoir quelle est la

probabilit que sur 100 tirages de ds il y ait 20 fois le chiffre 4, il faudrait rpter de trs

nombreuses fois 100 tirages de ds pour avoir une valeur assez prcise. En outre, elle

sapplique mal des populations de taille infinie. Il est donc ncessaire de disposer de

formules pour faire le calcul. Pour reprsenter (on dit aussi modliser ) les

distributions observes et permettre les calculs statistiques, on a besoin de lois de

probabilit. Leur rle est dassocier une probabilit de survenue chaque vnement

possible.

Il y a plusieurs lois de probabilit permettant de sadapter aux diffrentes situations que

lon rencontre selon la variable tudie et selon la population concerne. Il faut distinguer

variables qualitatives et quantitative car la faon de dcrire leurs lois de probabilit est


24/118


assez diffrente. De faon plus prcise, on va considrer dune part les variables discrtes,

englobant sous ce terme les variables qualitatives et continues discrtes, dautres part les

variables continues (cf. Dfinitions VI).

V.2.1.LOIS DE PROBABILITE DISCRETES

Une variable qualitative ou une variable quantitative discrte prend des valeurs que lon

peut numrer : x1, xk Dfinir sa distribution de probabilit consiste donner les

probabilits p1, pkde chacune des valeurs possibles. Les pi peuvent avoir des valeurs

quelconques condition de respecter : 0 pi1 (une probabilit doit tre comprise entre 0

et 1) et pi =1 (cest dire que la probabilit que la variable prenne lune quelconque des

valeurs possibles est 100%).

Exemples :

Le cas le plus simple est celui dune variable dichotomique comme malade/non malade.

Ses deux valeurs sont souvent codes x0 = 0 pour les non malades et x1=1 pour les

malades. Les probabilits correspondantes sont p0 et p1, avec p0+ p1 = 1 ; p1 est souvent

not p ; p0=1- p1 est alors not q.

Considrons le nombre X dobservations prsentant une certaine caractristique (par

exemple le nombre de malades) dans un chantillon de n sujets. X peut prendre les valeurs

entires de 0 n. La loi de probabilit de X sappelle la loi binomiale, ( 5.3.1).

Lorsque la taille de lchantillon est trs grande, X peut prendre de nombreuses valeurs.

Lutilisation de la loi binomiale devient alors laborieuse et on lui prfre la loi de Poisson

dfinie dans le paragraphe 5.3.2.

V.2.2.LOIS DE PROBABILITE CONTINUES, DENSITE DE PROBABILITE

Une variable quantitative continue a une infinit non dnombrable de valeurs possibles. On

ne peut plus dfinir sa distribution de probabilit en donnant la liste des valeurs des

probabilits pi dobserver chacune des valeurs.

La distribution de probabilit pour une variable quantitative continue peut tre dcrite par

une fonction f appele densit de probabilit. La loi normale est la loi la plus utilise pour

les variables continues ( 5.3.3.)


25/118


V.3. PRINCIPALES LOIS DE PROBABILITE

V.3.1.LA LOI BINOMIALE

- Dfinition de la loi binomiale

Soit X la variable dont la valeur est le nombre de malade k dans un chantillon n de sujets

tirs au sort dans une population o le pourcentage de malade est P.

X suit une loi binomiale dont la distribution est dfinie par :

La loi binomiale est caractrise par deux paramtres : le nombre de sujets dans

lchantillon (n) et la probabilit de maladie dans lensemble de la population (P). Elle est

souvent noteB(n,P)

Exemple :

Considrons une population o le pourcentage de malades est P = 0,30 dou on extrait des

chantillon de taille n = 20. La probabilit dobserver k = 6 malades est :

146 7,03,0

!14!6

!20)6( ==XP

Soit : P(X=6) = 38 760 x 0,000729 x 0,00678 = 0,1916. Cest dire que sur 10 000

chantillons, on sattend en observer 1 916 comprenant 6 malades.

- Tables de la loi binomiale

Comme on le voit, le calcul des probabilits de la loi binomiale est assez laborieux, surtout

lorsque n est grand. Il existe des tables donnant les valeurs de P(X=k). Si n est assez grand

( 30) on peut recourir lapproximation par la loi normale qui conduit des calculs

beaucoup moins lourds.

- Moyenne et variance de la loi binomiale

Si X suit une loi binomiale de paramtres n et P, on montre que :

)!kn(!k

!navecC)P1(PC)kX(P kn

knkkn

===

E(X) = nP et var(X) = nPQ

o E(X) est lesprance mathmatique de X, ou moyenneet var(X) est la variance de X


26/118


- Application la distribution dun pourcentage.

Plutt que sintresser au nombre X de malades dun chantillon, il est beaucoup plus

frquent de considrer le pourcentage po de malades. En effet, linterprtation de po ne

dpend pas de la taille de lchantillon.

po et X tant lis parn

Xp =0 , la distributionde po se dduit directement de celle de X. On

a notamment :

V.3.2.LA LOI DE POISSON

Comme pour la loi binomiale, nous prenons lexemple dune variable dont les deux

modalits sont malade et non malade , et nous intressons au nombre X de malades

dans un chantillon de taille n. Lorsque n est trs grand, X peut prendre de nombreuses

valeurs et lutilisation de la loi binomiale devient trs laborieuse, notamment cause du

calcul de knC

Pour dcrire la distribution de X, on utilise alors la loi de Poisson dfinie par :

Moyenne et variance de la loi de Poisson

Si X suit une loi de Poisson de paramtre , on montre que E(X) = et var(X) =

V.3.3.LA LOI NORMALE

- Dfinition

La loi normale (ou loi de Gauss, ou encore loi de Laplace-Gauss) est la loi de probabilit la

plus utilise en statistique pour les variables continues. Elle est dfinie par sa densit de

probabilit :

Pn

XEpE ==

)()( 0 et n

PQ)Xvar(

n

1)pvar(

20==

k

k

ekXP

!

)(== ou est une constante

=2

2

2

)(exp

2

1)(

xxf


27/118


Le graphe de cette fonction est une courbe en cloche (figure 4)

Figure 6 : Densit de probabilit et fonction de rpartition de la loi normale.

La loi normale dpend de deux paramtres et 2. On montre que est sa moyenne et 2sa variance.

- Table de la loi normale

Le calcul des probabilits associes la loi normale nest pratiquement pas possible avec

des moyens simples tels quune calculette de poche. Par exemple, le calcul de P(Xa)

demande celui de lintgrale .2

)(exp

2

12

2

dxx

a

Cest pourquoi il est ncessaire

de recourir des tables.

Il nest cependant pas envisageable de construire une table pour chaque valeur de et 2

On se ramne au cas o = 0 et 2 = 1 par changement de variable. Si X suit une loi

normale de moyenne et de variance 2 , alors

=

xZ suit une loi normale de

moyenne 0 et de variance 1, dite loi normale centre rduite.

Exemples

Le poids de naissance des nouveaux-ns est distribu (approximativement) selon une loi

normale de moyenne = 3,3 kg et dcart type = 0,5 kg.

La probabilit quun nouveau-n ait un poids X infrieur 2,5 kg est P(X2,5). Pour la

calculer, on se ramne une loi centre rduite en considrant5,0

3,3=

XZ

On a alors : )6,1()5,0

3,35,2()5,2( =

= ZPZPXP

densit de probabilit

0

0,1

0,2

0,3

0,4

0,5

0 1 2 3 4 5 6

x


28/118


La table 1 de la loi normale centre rduite indique que P(Z > -1,6) = 0,945. La

probabilit cherche est donc gale (1 0,945) = 0,055.

V.4. INDEPENDANCE ENTRE DEUX VARIABLES ALEATOIRES

La notion dindpendance entre deux variables est trs utilise en statistique. Sa dfinition

prcise ncessite lexpos de notions de probabilit que nous ne prsentons pas ici .Nous

nous contenterons dune dfinition intuitive : deux variables sont indpendantes si la

distribution de lune ne dpend pas des valeurs de lautre. Par exemple le poids et la

tension artrielle seraient indpendants si la distribution de la tension artrielle est la mme

quel que soit le poids. Dun point de vue pratique, cela signifie que si lon regroupait les

sujets dune population en sous-populations de sujets de mme poids, la distribution de la

tension artrielle serait la mme dans toutes ces sous-populations. Ce nest videmment

pas le cas, ce qui signifie que ces variables ne sont pas indpendantes.

VI. QUELQUES DEFINITIONS ET EXEMPLES

VI.1. DEFINITION DES VARIABLES

VI.1.1.VARIABLES QUALITATIVES NON MESURABLES.

On peut les classer selon leur proprit.Ex : sexe, couleur des cheveux, prsence ou non dune maladie.

VI.1.2. VARIABLES QUANTITATIVES MESURABLES.

Il existe un ordre naturel de lensemble des valeurs possibles.

Ex : poids, taux de cholestrol, nombre denfants.

- Continues : elles peuvent prendre toutes les valeurs situes dans un intervalle : taux de

cholestrol/poids.

- Discontinues ou discrtes : elles ne peuvent prendre quun nombre limit de valeurs

(souvent entires)

Ex : nombre denfants.

VI.1.3.VARIABLE ORDINALE OU QUALITATIVE ORDONNEE

Exemple :


29/118


Etat de malade :

0 = activit normale

1 = symptme mais tat ambulatoire

2 = alit moins de la moiti du temps

3 = alit plus de la moiti du temps

4 = clou au lit.

Plus le code est lev plus ltat du malade est grave.

VI.1.4.VARIABLE CENSUREE : la survie, variable lie au temps

Si lon tudie la dure de vie des sujets un moment t donn, la dure de vie des sujets

vivants t est tronque , ces sujets vivront encore aprs t pendant un temps x inconnu :on dit quil sagit de donnes censures droite (dans notre mode dcriture de gauche

droite !).

VI.2. DISTRIBUTION

VI.2.1. VARIABLE QUALITATIVE. Rpartition des stades de diagnostic chez 125 malades

atteint de leucmie.

Stade 0 I II III IV TotalEffectif 22 29 39 21 14 125Proportion 18% 23% 31% 17% 11% 100%

VI.2.2.VARIABLE QUANTITATIVE DISCRETE

Rpartition de la taille des mnages sur un chantillon de 1445 mnages tunisiens

16

14

12

10

8

6

4

2

13 1 51 197531

% m n a g es

Ta i l le des

m n a g e s


30/118


VI.2.3.VARIABLES QUANTITATIVES CONTINUES.

Distribution de la glycmie jeun dans un chantillon de la population du Gouvernorat de

Tunis.

Glycmie Effectif % %

< 6060-7070-8080-9090-100100-110110-120120-130130-140140-150150 et +

1981541129699236910734181970

0.52.315.336.528.010.43.01.00.50.52.0.

0.52.818.154.682.693.096.097.097.598.0100

Total 3 546 100

VI.3. CARACTERISTIQUE DE VALEUR CENTRALE

VI.3.1.LA MOYENNE ARITHMETIQUE :

sur n observations : x1, x2, .. xi..xh sont les valeurs de la variable, alors n

x

m

i=

o n est la taille de lchantillon et ix la somme de toutes les valeurs observes.

Si les observations sont regroupes en classes, alorsn

xnm

ii=

o ni est le nombre de sujets pour la classe xi et xi la valeur centrale de la classe.

VI.3.2. LA MEDIANE : cest la valeur telle que la moiti des observations lui sont

infrieures et la moiti lui sont suprieures.

VI.3.3.LE MODE : cest la valeur de x pour laquelle la frquence est maximale.

histogramme des frquences

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

40,00

50 60 70 80 90 100 110 120 130 140 150

glycmie en mg%

frquence cumule

0,0010,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

50 60 70 80 90 100 110 120 130 140 150

glycmie en mg%


31/118


VI.3.4.EXEMPLES : Moyenne et mdiane

1er

exemple : soit un chantillon o x = 1, 3, 4, 5, 8

m = 4,2 Med = 4

2e exemple : soit un chantillon o x = 1, 3, 4, 5, 24

m = 7,4 Med = 4

4 des 5 observations sont < x.

Ici la moyenne nest pas un bon estimateur de la valeur centrale.

Dans les 2 cas, la mdiane est toujours 4 mme si on ignore la valeur de la plus grande

observation.

Avec des distributions dissymtriques, il vaut mieux utiliser la mdiane que la moyenne.

VI.3.5.EXEMPLE DE VARIABLE QUANTITATIVE DISCRETE

Histogramme des lymphocytes chez 77 sujets atteints de leucmie

m1= 123 155

M1 = 91 908

Mode : classe 90 000 100 000

Si lon regroupe les valeurs extrmes en 1 seule classe, on obtient :

m2 = 117 000

M2= 91 908

Nomb re de cas

Nb Lymphocytes/103

8

6

4

2

60 050 040 030 020 010 010

M 1 m 1


32/118


VI.3.6.COURBE DE SURVIE

Lorsque lon veut estimer la dure de vie dun groupe o tous les sujets ne sont pas morts

la moyenne de dure de vie ne peut tre estime car nous navons pas de valeur pour les

sujets vivants (donnes tronques droite). On estime donc une courbe de survie en

fonction du temps : variable lie au temps.

On calcule un taux de survivants chaque fois que se produit un dcs ou dans un

intervalle de temps dtermin lavance : tous les 3 6 mois

On peut calculer le temps mdian de survie : temps au bout duquel 50 % des sujets sont

morts, ici = 250 jours.

Autre exemple : Dure de 1re rmission et survie chez sujet atteints de polyglobulies

Temps mdian de rmission = 3 ans et 9 mois. 50% des sujets taient encore en rmission

au bout de 3 ans et 9 mois.

Pour la survie on ne peut dterminer la mdiane : survie > 50%.

20

40

60

80

100

Taux de survie

.Dcsx Vivant

Jours250 500 750 1000 1250

X

XX

X

% de malades en rmission

Rmission

Survie

annes1 2 3 4 5 6 7 8 9 10

20

10

100

90

80

70

60

50

40

30

Temps mdian de rmission 3 ans et 9 mois.


33/118


VI.4. CARACTERISTIQUE DE DISPERSION : La variance et lcart-type

Expression de la variance dune variable x observe sur un chantillon (somme des carrs

des carts la moyenne) :

2

22)(

)( =n

xxmxi

Exemple :

Deux distributions de mme moyenne et dcart type diffrents

Les valeurs de X loignes de la moyenne sont plus frquentes avec = 1,5 qu avec = 1.

La population est plus variable avec = 1,5.

Variance1

)( 22

=

n

mxs

i et cart type 2ss =

0

0,1

0,2

0,3

0,4

0,5

-3 -2 -1 0 1 2 3

M = 0

= 1

fr uenc

0

0,1

0,2

0,3

0,4

0,5

-3 -2 -1 0 1 2 3

fr uenc

M = 0

= 1,5


34/118


RESUME

Ltude des sciences du vivant est caractrise par la variabilit entre les individus ; elle

traduit essentiellement la fluctuation biologique.

Il est cependant essentiel de faire la part, dans cette variabilit, entre ces fluctuations et deseffets non dus au hasard, comme ceux des traitement par exemple. Lobjectif de la mthode

statistique est de tirer des conclusions applicables aux populations . Toutefois la taille de

ces populations est le plus souvent trop leve pour que des tudes exhaustives soient

ralisables. Cest pourquoi lon travaille sur des chantillons qui doivent tre

reprsentatifs des populations dont ils sont extraits.

Une variable alatoire est lensemble des valeurs prises par un caractre donn dans une

population. La valeur (exprime par une frquence ou une moyenne) dun tel caractredans la population peut tre estim partir de n chantillons tirs de la population : on

obtient alors n valeurs de ce pourcentage qui sont numriquement diffrentes bien que

proches : ceci exprime leffet du hasard sur le calcul du pourcentage, encore appel

fluctuations dchantillonnage .

Les principaux types de variables alatoires sont les suivants :

Variable qualitative : caractrise par le pourcentage de survenue des diffrentes

modalits.

Variable quantitative : caractrise par sa moyenne, son cart-type, sa mdiane et

ses percentiles.

Moyenne :n

xm

i= (

Variance1

)( 22

=

n

mxs

i

Ecart type

2

ss = Ces variables quantitatives peuvent tre continues ou transformes en variables discrtes

par la cration de classes de valeurs.

Variable ordinale ou qualitative ordonne

Variable censure

Les calculs statistiques (que ce soit estimation de paramtres ou test entre des groupes), effectus sur

les variables tudies dans le domaine de la sant, reposent sur trois grandes lois de probabilits : la

loi binomiale, la loi de poisson, la loi normale (la plus utilise dans la suite de ce cours). Ces lois

associent une probabilit de survenue chaque valeur possible du caractre tudi.


35/118

Polycopi de bio-statistique 29Facult de Mdecine de Montpellier-Nm

CHAPITRE II

INTERVALLE DE FLUCTUATION DUN

PARAMETRE

I. INTRODUCTION

Ltude dun caractre donn dans une population de sujets est gnralement ralise

partir dchantillons tirs de cette population. Toutefois il peut arriver que lon se trouve

dans la situation inverse : on connat la valeur thorique (dans la population) du paramtre

tudier ; lobjectif est alors de prvoir la valeur de ce paramtre dans un chantillon

extrait de cette population. Du paramtre thorique de la population on veut dduire leparamtre observ dans un chantillon tir de cette population1.

Exemple

On connat la frquence dans la population franaise dune maladie infantile M qui est de

20 % ; quelle sera la frquence de cette maladie dans un chantillon denfants, tir au

hasard de cette population ?

I.1. NOTION DE FLUCTUATIONS DECHANTILLONNAGE

Soit une population P au sein de laquelle le caractre tudi a pour valeur thorique : A (ce

caractre peut-tre une variable qualitative ou quantitative).

Les valeurs observs sur n chantillons tirs au hasard de cette population sont : a1, a2

.......an .

1 Les notations diffrent entre valeurs observes et thoriques :moyenne : thorique : observe : m

variance : thorique :

2

observe : s2

cart-type : thorique : observ : spourcentage : thorique : P observ : p0

E1 a1

E2 a2

En an

E A


36/118


Il existe autant de valeurs de a que dchantillons extraits, mais si tous ces chantillons

sont de taille suffisante et reprsentatifs de la population, elles sont toutes proches de A et

les diffrences entre toutes ces valeurs sont faibles : elles tmoignent simplement des

FLUCTUATIONS DECHANTILLONNAGE cest--dire de leffet du hasard sur le

rsultat de chaque tirage, cest--dire sur la composition de chaque chantillon 2.

I.2. DEFINITION DE LINTERVALLE DE FLUCTUATION3

Donner lintervalle de fluctuation dun paramtre, cest indiquer - partir de la vraie valeur

de ce paramtre dans la population - dans quel intervalle doit se trouver la valeur observe

de celui-ci sur un chantillon tir au hasard de cette population.

A partir de la valeur connue dans la population, lon parie que pour un chantillon donn,

la valeur observe de ce paramtre si situera lintrieur des bornes de lintervalle.

Remarque : cet intervalle ne signifie pas que la valeur observe du paramtre est toujours

lintrieur des bornes mais seulement dans une grande proportion de cas, que lon fixe

par avance le plus souvent 95 % (elle correspond alors au risque derreur de 5 %

consenti par lexprimentateur : dans 5% des tirages la valeur sera lextrieur des

bornes de lintervalle)4.

Exemple

Soit une maladie infantile M dont la frquence thorique dans la population est de 20 %.

Si lon tire au hasard de cette population un chantillon de 100 sujets, la frquence

observe de M se situera dans 95 % des cas dans lintervalle [12 % ; 28 %]

Ceci indique autrement dit que dans 5% des cas la frquence observe sera lextrieur

de lintervalle. Le risque que lon prend en pariant que la frquence de M est situe entre

12 % et 28 % est donc de 5 %.

Le calcul de cet intervalle implique que la variable que lon tudie suive une loi normale

dans la population3. On supposera cette condition vrifie, ds lors que lon travaille sur un

chantillon suffisamment grand, soit :

- n 30 si lon cherche lintervalle de fluctuation dune moyenne,

- nP, nQ 5 sil sagit dun pourcentage P (avec Q = 1 P)

2 cf. Chapitre 1 Buts et Principes - Lois de probabilit : Urne de Bernouilli3 Encore appel Intervalle de pari 4 cf. Chapitre 3 : Thorie des tests


37/118


II. INTERVALLE DE FLUCTUATION DUN

POURCENTAGE

Lintervalle de fluctuation dpend de la taille de lchantillon :

II.1. CAS OU LECHANTILLON EST GRAND

Soit une population o la frquence dun caractre tudi est P et E un chantillon de taille

n tir au hasard de cette population. La frquence observe du caractre dans lchantillon

est p0.

Si np0 et nq0 5 on peut dire que

p0 est une variable alatoire qui suit une loi normale de moyenne P et de variance =

n

PQ

donc que

n

PQ

)pp( 0 suit une loi normale centre rduite(0, 1)5

Cela revient crire selon la table de lcart-rduit que :

la quantitn

PQ

)pp( 0

se trouve dans lintervalle [-u ; + u] avec une probabilit (1 - )

Prob (-u H0, soit > 171.33 cm

Si la moyenne observe dans lchantillon vaut m0=171.60 cm, nous avons dj

calcul la statistique 0 qui est gale 2.16 (idem que pour un test bilatral); seule va

changer la rgle de dcision:

Dans le cas bilatral, la rgle de dcision tait:

Si u On rejette H0 avec un risque

Dans le cas unilatral, la rgle de dcision devient:

Si u On rejette H0 avec un risque /2

Ou

Si u2 On rejette H0 avec un risque

Onconstate donc que pour le mme risque derreur, cest la valeur seuil qui change

u pour un test bilatral et u2 pour un test unilatral.

Dans notre exemple,0=2.16; on compare cette valeur la valeur u10% dans la table

de la loi normale centre rduite, soit 1.645; 2.16 > 1.645: on rejette H0 au risque 5%.

On constate donc quavec un test unilatral, pour le mme risque derreur , on

rejette plus souvent H0..

Le choix dun test bilatral ou unilatral doit toujours tre fait a priori, jamais au vu

des rsultats. Cest la condition pour que le risque derreur reste effectivement fix

5% et ne devienne pas gal 10%


62/118


La loi normale centre rduite est tabule et nous permet donc dassocier une valeur

seuil chaque valeur djusque l, nous avons utilis la table reprsente ci-

dessous:

La table donne la probabilit pour que lcart-rduit gale ou dpasse en valeur

absolue une valeur u (chaque cellule de la table reprsente une valeur u) cest dire

la probabilit extrieure lintervalle [-u;+u]

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 2.576 2.326 2.170 2.054 1.96 1.881 1.812 1.751 1.6950.10 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.3110.20 1.282 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.0580.30 Etc

0.40 0.500.600.700.800.90

Certains auteurs utilisent la table qui donne la probabilit pour que lcart-rduit

gale ou dpasse une valeur z cest dire la probabilit extrieure de lintervalle [+u;

+[ ; cette table figure ci-dessous.

/2/2

/2/2


63/118


0.00 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 Etc 0.095

0.00 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 ..0.10 1.282 Etc

0.20 0.842

0.30

0.40

0.50

0.60

0.70

0.80

0.90

La 2me table contient deux fois plus de colonnes car elle permet dobtenir les valeurs

seuils de 0.5% en 0.5%.

Remarque: la notation u est utilise pour les valeurs la table bilatrale, la notation zest utilise pour les valeurs de la table unilatrale.

Ces deux tables figurent intgralement en annexe de ce document.

La loi centre rduite a servi de base la prsentation dans ce chapitre du principe

des tests dhypothse, prenant comme exemples la comparaison dune moyenne

observe une moyenne thorique et la comparaison de deux frquences observes

dans le cas de grands chantillons; d autres lois prsentes dans le chapitre sur les

lois de probabilit sont adaptes dautres types de problmes : loi de Student, loi du

2, loi de Fisher

Les chapitres suivants vont dtailler les types de test adapts chaque problme

biostatistique pos; la rsolution de chaque type de problme sappuie sur ce principe

gnral des tests dhypothse.

REFERENCES BIBLIOGRAPHIQUES

Bouyer J.: Mthodes statistiques Mdecine Biologie. Editions INSERM 1996.

Daurs J.P.: Probabilits et statistiques en Mdecine. Sauramps mdical 1993.

Falissard B.: Les statistiques dans les sciences de la vie. Masson diteur 1996.

Valleron A.J.: Introduction la biostatistique. Masson diteur 1998.


64/118


CHAPITRE V

VARIABLES QUALITATIVES :

COMPARAISON DE POURCENTAGES

TEST DU CHI DEUX

En mdecine, l'analyse de variables qualitatives, en particulier sous la forme d'un caractre

deux classes (malade ou non, gurit ou non, complication prsente ou absente, dcd ou

non), est trs frquente.

Exemples :

Le pourcentage de patients guris (taux de gurison) aprs administration du traitement A

est-il meilleur que celui obtenu aprs administration du traitement B ?

Le pourcentage de complications varie t-il en fonction du mode dintervention

chirurgicale, clioscopie ou laparotomie, pour une pathologie donne ?

Comme dans les exemples cits, il s'agit, le plus souvent, de comparer des pourcentages

observs dans deux ou plusieurs chantillons. Mais, il n'est pas rare d'avoir comparer unpourcentage observ une valeur de rfrence.

I. COMPARAISON DE DEUX POURCENTAGES - TEST DE

LECART REDUIT

I.1. COMPARAISON DUN POURCENTAGE OBSERVE A UN POURCENTAGETHEORIQUE

Exemple :

La proportion considre comme habituelle de nouveau-ns prmaturs dans la population

considre est de 4%. Parmi les 170 femmes de plus de 35 ans ayant accouch dans une

maternit donne, on observe 16 naissances prmatures (soit 9,4%). Ce chiffre est-il

diffrent de sa valeur dans la population ?

Le problme pos est le suivant : On observe un pourcentage p0 (9,4%) sur un chantillon

et on veut savoir sil diffre dune valeur de rfrence connue dans la population que nous

noterons PH0 et qui vaut ici 4%.


65/118


Autrement dit, lchantillon est-il reprsentatif de la population de rfrence dans laquelle

la frquence thorique P du caractre prmatur est gale PH0 ?

La valeur observe sur lchantillon (9,4%) est-elle compatible avec les

fluctuations dchantillonnage autour de la valeur PH0 = 4% ou la diffrence entre 9,4% et

4% est-elle trop leve pour tre due au hasard ?

Pour rpondre cette question, nous allons effectuer le test de l'cart-rduit.

Premire tape du test : spcifier lhypothse nulle H0 et lhypothse alternative H1.

H0:Lchantillon est reprsentatif dune population de rfrence dans laquelle le

caractre tudi a une frquence thorique P= PH0

H1:

9 Test bilatral: P PH0 dans lchantillon le taux de prmatur diffre de celui de la

population (aucune hypothse particulire ne peut tre faite a priori sur le sens de cette

diffrence)

9 Test unilatral: P> PH0 ou P< PH0 (la population des femmes de plus de 35 ans est

connue pour avoir un taux de prmaturit suprieur ou infrieur la population

gnrale)

NB: Les hypothses portent toujours sur la valeur du pourcentage dans la population

(valeur thorique) et non pas sur une valeur observe.

Sous H0, si n est assez grand, en pratique si n PH0 et n(1 - PH0) 5, on peut alors

assimiler :

la distribution de la variable alatoire P0, pourcentage observ sur un chantillon,

une loi de Laplace Gauss de moyenne PH0 et dcart typen

)P1(P 0H0H (p0 peut

prendre toutes les valeurs entre 0 et 100% mais sera plus frquemment proche

quloign de PH0) ou encore,

n

)P1(P

Pp

0H0H

0H0

=


66/118


la distribution de la variable centre rduite, appele cart rduit , suit une loi de

LG(0,1) :

Sous cette distribution, cette quantit ne dpasse 1,96 en valeur absolue que dans 5% des

cas.

Deuxime tape : Vrifier les conditions de validit du test (n PH0 et n(1- PH0) 5).

Troisime tape : Confronter les valeurs observes aux valeurs attendues sous H0 en

calculant lcart rduit :

n

)P1(P

Pp

0H0H

0H0

=

|p0- PH0| est lcart effectivement observ entre le pourcentage observ dans l'chantillon et

la valeur thorique connue.

La lecture de la table de la loi de L.G., permet de trouver la probabilit que la valeur soit

suprieure ou gale la valeur absolue de lcart rduit observ :

Si cette probabilit est petite, on peut dire que la diffrence |p0- PH0| est un vnement peu

probable sous lhypothse nulle.

On ne rejette pas H0 si le degr de signification (probabilit lue dans la table,

caractristique dun chantillon donn) est suprieur au seuil de probabilit choisi (en

gnral 5%) et on rejette H0 dans le cas contraire.

Reprenons lexemple :

PH0=4% n=170 p0=9,4%

Hypothses :

H0: Lchantillon est reprsentatif dune population dans laquelle le caractre tudi

a une frquence thorique P=0,04

H1: P0,04 ( test bilatral)

Probabilit (| |

n

)P1(P

Pp

0H0H

0H0

/H0)


67/118


Conditions de validit :

1700,04=6,8 et 1700,96=163,2 sont suprieurs ou gaux 5.

Documents

Polycop Biostat Tome 1 Methodes Statistiques