Upload
vothu
View
221
Download
0
Embed Size (px)
Citation preview
[0:01] Nous avons vu dans le chapitre précédent à quoi correspondaient les fameux p. Il faut
d'ailleurs constater que dans la réalité des travaux scientifiques, les tests statistiques se
résument à des successions de ces p. Pourtant à l'école, quand on apprend les tests statistiques,
on apprend tout autre chose. En particulier, la fameuse théorie des tests d'hypothèse
de Neyman et Pearson. C'est là-dessus que nous allons nous pencher maintenant.
1
2
[0:28] Les tests d'hypothèse selon la théorie de Neyman et Pearson reposent sur une
formulation assez formelle. De façon assez caricaturale voire même assez simpliste, on va
considérer que nous avons à choisir entre deux hypothèses l'une dénommée H0, l'autre
dénommée H1.
H0 en général, c'est le statu quo, le profil bas. Au contraire, H1, c'est le but de l'expérience, c'est
ce que souhaite démontrer le scientifique. Dans le cas de l'essai thérapeutique du chapitre
précédent, H0 ça serait que "les deux médicaments ont la même efficacité", alors que H1, "les
deux médicaments ont une efficacité différente".
Comme il y a un choix à faire entre deux hypothèses, il y a deux façons de se tromper. Soit
d'accepter H1 alors que H0 est vraie, soit d'accepter H0 alors que H1 est vraie. Comme il y a deux
possibilités d'erreur, il y a deux risques correspondants. α correspond au premier, la probabilité
d'accepter H1 alors que H0 est vraie, on dit que α est souvent le risque de première espèce. ß lui,
appelé risque de seconde espèce, c'est la probabilité d'accepter H0 alors que H1 est vraie. Nous
avons à choisir entre H0 et H1. Nous allons prendre des risques. L'objectif, bien entendu, est de
proposer une règle de décision qui va minimiser ces risques. Le problème c'est que minimiser de
façon conjointe deux paramètres, il y a une infinité de façons de le faire. Par exemple, minimiser
α+ß, minimiser α²+ß², minimiser le max de α et de ß.
3
[2:05] Neyman et Pearson ont proposé comme règle de décision de minimiser ß pour α fixé, en
général à 5%. Alors, tout ça paraît très simple, clair, limpide. En réalité, de façon sous-jacente, il
y a une certaine idée préconçue de ce que c'est que la prise de risque dans le cadre d'une
expérimentation scientifique.
En effet, selon la règle de Neyman et Pearson, α apparaît comme plus important que ß, puisque
α est fixé à une certaine valeur, alors que ß il est juste minimisé. Donc, ß peut valoir, 30, 40,
60%. Et, d'ailleurs, il est vrai qu'en général, ß est plus grand que α. Alors, pourquoi cette règle ?
Parce que quand on regarde à la loupe H0 et H1, tels qu’ils sont formulés, effectivement, la prise
de risque n'est pas symétrique. H1, c'est le nouveau, l'expérimentateur, il a envie de montrer H1.
Alors que l'expérimentateur va être déçu de dire qu'il y a H0. L'expérimentateur va tout faire
pour montrer que H1 est vraie. Et donc, il est licite de protéger la communauté contre les
expérimentateurs, peut-être trop enthousiastes, qui à tout prix, ont envie de vendre leur H1.
Donc, on va minimiser α de façon à minimiser le risque de dire que H1 est vraie alors que ce n'est
pas vrai. Au contraire, ß c'est la probabilité d'accepter H0 alors que H1 est vraie mais ça, c'est un
peu le problème de l'expérimentateur. C'est à lui de faire une expérience suffisamment bien
menée pour qu'il ait toutes les chances de montrer que H1 est vraie quand elle l’est. Et donc,
minimiser le risque de conclure à H0 quand H1 est vraie.
4
[3:47] Alors, tout ça ne nous dit pas bien entendu comment faire un test d'hypothèse en
pratique.
Ça n'est pas bien compliqué.
• Vous disposez de H0,
• H1,
• vous avez fixé α à 5%,
• ß, il vaut ce qu’il vaut,
• vous avez votre jeu de données,
• vous calculez tout simplement le p.
Si p est plus petit que α, alors vous acceptez H1 et sinon, vous acceptez H0. Alors, bien sûr,
comment calculer p en pratique ? Eh bien, ça va être un logiciel, ça va être R qui va calculer le p
et nous le verrons dans le chapitre suivant. Autrefois, on faisait tous ces calculs à la main. Par
exemple, pour comparer deux pourcentages, on utilisait une petite formule toute simple pour
calculer un z puis après, on allait regarder dans une table et ce z donnait le p. Puisqu'on vient
de voir que pour faire un test d'hypothèse selon la théorie de Neyman et Pearson, il suffit de
calculer un p, de le comparer à α qui vaut toujours 5% et donc si p<5%, on accepte H1, alors que
si p>5%, on accepte H0, à quoi ça sert de développer une règle formelle aussi sophistiquée que
celle de Neyman et Pearson, alors qu'en fait, de regarder le p dans le blanc des yeux ça suffit ?
Cette interrogation a conduit à un débat au sein de la communauté des statisticiens, voire même
des philosophes et des épistémologues, et ce débat n'est toujours pas tranché.
5
[5:12] Nous allons juste, nous, constater qu'en pratique, c'est-à-dire d'un point de vue un peu
sociologique relatif à l'usage que font les scientifiques des tests statistiques, il y a bien deux
situations complètement différentes : une où on ne fait que regarder le p, et l'autre où il y a bel
et bien un test d'hypothèse.
6
[5:35] Il faut d'ores et déjà constater que c'est vrai fondamentalement, la règle de Neyman et
Pearson n'est pas la même que la règle de Fisher. Avec Neyman et Pearson, si votre p vaut 4,9%
ou s'il vaut 1‰o, la conclusion est toujours la même, on accepte H1. Alors que si votre p vaut
4,9% ou 5,1% ; dans le premier cas, on accepte H1 ; dans le deuxième cas, on accepte H0. A la
limite même, avec la règle de Neyman et Pearson, il n’y aurait même pas besoin de présenter
dans les résultats le p. A la limite, seuls les statisticiens devraient calculer le p. Ils devraient
regarder si le p est plus petit ou plus grand que 5% et ils devraient juste dire H1 ou H0.
Au contraire, avec la règle Fisher, avec l'heuristique de Fisher, on regarde le p. Et plus le p est
petit, plus on se dit ah, le hasard aurait vraiment beaucoup de mal à expliquer tout ça à lui tout
seul donc le résultat est très significatif. Avec un p à 1‰, 1‰o, on considère souvent que le
résultat est très significatif. Alors qu'avec un p à 4%, on va dire qu'il est tout juste significatif,
qu'à 7% il sera à la limite de la significativité, à 10% il y a une tendance et puis à 20%, ce n'est
pas significatif. On voit qu'avec le p et la règle d'inférence de Fisher, il y a une gradation dans
l'intensité de la preuve, alors qu'avec Neyman et Pearson, c'est complètement binaire.
Et d'ailleurs, entre nous, un expérimentateur a plutôt envie d'utiliser la règle de Fisher plus
souple qui correspond plus à ce qu'il a envie de faire qu'à une règle caricaturale comme celle de
Neyman et Pearson qui est complètement binaire. C'est pour cette raison sûrement que dans les
articles, on voit bien plus souvent des p que des tests statistiques d'hypothèse au sens de
Neyman et Pearson. Alors, quel est l'intérêt de recourir à Neyman et Pearson ?
7
[7:34] C'est qu'avec Neyman et Pearson, on parle de risque. On ne parle pas d'un p qui est en
fait une plausibilité que le hasard puisse expliquer ce que l'on a observé. Un risque, c'est bien
plus fort que ça. Un risque, c'est fixé avant de faire une expérience. Quand un assureur assure
une maison, il propose un contrat d'assurance avant que ne se passe une éventuelle
catastrophe. Alors que quand vous calculez un p, vous calculez un p à partir des données que
vous avez observées. Vous pouvez toujours calculer a posteriori la probabilité que des
inondations aient pu arriver à un endroit donné. Un assureur, il ne fait pas ça. Un assureur, il
calcule a priori le risque qu'il y a que des inondations puissent dégrader une maison. Donc, fixer
un risque a priori et savoir dans quelle direction on s'engage, savoir le risque que l'on va prendre
d'accepter ou non une hypothèse nulle ou une hypothèse alternative, c'est quelque chose qui
est scientifiquement beaucoup plus fort que de regarder simplement a posteriori la plausibilité
des résultats qui ont été observés. C'est pour ça que, dans certaines situations expérimentales,
on va préférer Neyman et Pearson, et dans d'autres, on va préférer Fisher et le p.
8
[8:43] On va notamment préférer Neyman et Pearson quand il va y avoir une prise de décision
concrète et très importante à l'issue de l'expérience. C'est typiquement le cas des essais
thérapeutiques qui évaluent l'efficacité de médicaments. Si vous avez un essai qui montre que le
médicament est meilleur qu’un comparateur, les autorités de santé sont susceptibles de donner
une autorisation de mise sur le marché, après quoi tous les patients vont pouvoir bénéficier du
traitement. On doit donc exactement savoir où on en est et quel est le risque que l'on prend de
dire à tort qu'un nouveau médicament est plus efficace qu'un ancien. De là, le recours exclusif
avec la règle de Neyman et Pearson, et avec un essai randomisé de ce type, si le p vaut 6%, alors
on ne peut pas dire que le médicament est supérieur à son comparateur. Au contraire, si le p
vaut 4%, alors on peut le dire. Et, un p à 4% a la même signification qu'un p à 1‰. En dehors de
ces situations où il y a des prises de décision importantes à l'issue de l'expérience, alors, les
scientifiques préfèrent utiliser le p, parce qu'effectivement, c'est plus proche des résultats qu'ils
ont envie d'entendre, ou l'on va avoir une forte confiance dans les résultats avec un p tout
petit, ou au contraire, on aura un certain doute sur la significativité quand le p est autour de 5%.