8
[0:01] Nous avons vu dans le chapitre précédent à quoi correspondaient les fameux p. Il faut d'ailleurs constater que dans la réalité des travaux scientifiques, les tests statistiques se résument à des successions de ces p. Pourtant à l'école, quand on apprend les tests statistiques, on apprend tout autre chose. En particulier, la fameuse théorie des tests d'hypothèse de Neyman et Pearson. C'est là-dessus que nous allons nous pencher maintenant. 1

p tests d'hypothèse de Neyman et Pearson - fun-mooc.fr · 2 [0:28] Les tests d'hypothèse selon la théorie de Neyman et Pearson reposent sur une formulation assez formelle. De façon

  • Upload
    vothu

  • View
    221

  • Download
    0

Embed Size (px)

Citation preview

[0:01] Nous avons vu dans le chapitre précédent à quoi correspondaient les fameux p. Il faut

d'ailleurs constater que dans la réalité des travaux scientifiques, les tests statistiques se

résument à des successions de ces p. Pourtant à l'école, quand on apprend les tests statistiques,

on apprend tout autre chose. En particulier, la fameuse théorie des tests d'hypothèse

de Neyman et Pearson. C'est là-dessus que nous allons nous pencher maintenant.

1

2

[0:28] Les tests d'hypothèse selon la théorie de Neyman et Pearson reposent sur une

formulation assez formelle. De façon assez caricaturale voire même assez simpliste, on va

considérer que nous avons à choisir entre deux hypothèses l'une dénommée H0, l'autre

dénommée H1.

H0 en général, c'est le statu quo, le profil bas. Au contraire, H1, c'est le but de l'expérience, c'est

ce que souhaite démontrer le scientifique. Dans le cas de l'essai thérapeutique du chapitre

précédent, H0 ça serait que "les deux médicaments ont la même efficacité", alors que H1, "les

deux médicaments ont une efficacité différente".

Comme il y a un choix à faire entre deux hypothèses, il y a deux façons de se tromper. Soit

d'accepter H1 alors que H0 est vraie, soit d'accepter H0 alors que H1 est vraie. Comme il y a deux

possibilités d'erreur, il y a deux risques correspondants. α correspond au premier, la probabilité

d'accepter H1 alors que H0 est vraie, on dit que α est souvent le risque de première espèce. ß lui,

appelé risque de seconde espèce, c'est la probabilité d'accepter H0 alors que H1 est vraie. Nous

avons à choisir entre H0 et H1. Nous allons prendre des risques. L'objectif, bien entendu, est de

proposer une règle de décision qui va minimiser ces risques. Le problème c'est que minimiser de

façon conjointe deux paramètres, il y a une infinité de façons de le faire. Par exemple, minimiser

α+ß, minimiser α²+ß², minimiser le max de α et de ß.

3

[2:05] Neyman et Pearson ont proposé comme règle de décision de minimiser ß pour α fixé, en

général à 5%. Alors, tout ça paraît très simple, clair, limpide. En réalité, de façon sous-jacente, il

y a une certaine idée préconçue de ce que c'est que la prise de risque dans le cadre d'une

expérimentation scientifique.

En effet, selon la règle de Neyman et Pearson, α apparaît comme plus important que ß, puisque

α est fixé à une certaine valeur, alors que ß il est juste minimisé. Donc, ß peut valoir, 30, 40,

60%. Et, d'ailleurs, il est vrai qu'en général, ß est plus grand que α. Alors, pourquoi cette règle ?

Parce que quand on regarde à la loupe H0 et H1, tels qu’ils sont formulés, effectivement, la prise

de risque n'est pas symétrique. H1, c'est le nouveau, l'expérimentateur, il a envie de montrer H1.

Alors que l'expérimentateur va être déçu de dire qu'il y a H0. L'expérimentateur va tout faire

pour montrer que H1 est vraie. Et donc, il est licite de protéger la communauté contre les

expérimentateurs, peut-être trop enthousiastes, qui à tout prix, ont envie de vendre leur H1.

Donc, on va minimiser α de façon à minimiser le risque de dire que H1 est vraie alors que ce n'est

pas vrai. Au contraire, ß c'est la probabilité d'accepter H0 alors que H1 est vraie mais ça, c'est un

peu le problème de l'expérimentateur. C'est à lui de faire une expérience suffisamment bien

menée pour qu'il ait toutes les chances de montrer que H1 est vraie quand elle l’est. Et donc,

minimiser le risque de conclure à H0 quand H1 est vraie.

4

[3:47] Alors, tout ça ne nous dit pas bien entendu comment faire un test d'hypothèse en

pratique.

Ça n'est pas bien compliqué.

• Vous disposez de H0,

• H1,

• vous avez fixé α à 5%,

• ß, il vaut ce qu’il vaut,

• vous avez votre jeu de données,

• vous calculez tout simplement le p.

Si p est plus petit que α, alors vous acceptez H1 et sinon, vous acceptez H0. Alors, bien sûr,

comment calculer p en pratique ? Eh bien, ça va être un logiciel, ça va être R qui va calculer le p

et nous le verrons dans le chapitre suivant. Autrefois, on faisait tous ces calculs à la main. Par

exemple, pour comparer deux pourcentages, on utilisait une petite formule toute simple pour

calculer un z puis après, on allait regarder dans une table et ce z donnait le p. Puisqu'on vient

de voir que pour faire un test d'hypothèse selon la théorie de Neyman et Pearson, il suffit de

calculer un p, de le comparer à α qui vaut toujours 5% et donc si p<5%, on accepte H1, alors que

si p>5%, on accepte H0, à quoi ça sert de développer une règle formelle aussi sophistiquée que

celle de Neyman et Pearson, alors qu'en fait, de regarder le p dans le blanc des yeux ça suffit ?

Cette interrogation a conduit à un débat au sein de la communauté des statisticiens, voire même

des philosophes et des épistémologues, et ce débat n'est toujours pas tranché.

5

[5:12] Nous allons juste, nous, constater qu'en pratique, c'est-à-dire d'un point de vue un peu

sociologique relatif à l'usage que font les scientifiques des tests statistiques, il y a bien deux

situations complètement différentes : une où on ne fait que regarder le p, et l'autre où il y a bel

et bien un test d'hypothèse.

6

[5:35] Il faut d'ores et déjà constater que c'est vrai fondamentalement, la règle de Neyman et

Pearson n'est pas la même que la règle de Fisher. Avec Neyman et Pearson, si votre p vaut 4,9%

ou s'il vaut 1‰o, la conclusion est toujours la même, on accepte H1. Alors que si votre p vaut

4,9% ou 5,1% ; dans le premier cas, on accepte H1 ; dans le deuxième cas, on accepte H0. A la

limite même, avec la règle de Neyman et Pearson, il n’y aurait même pas besoin de présenter

dans les résultats le p. A la limite, seuls les statisticiens devraient calculer le p. Ils devraient

regarder si le p est plus petit ou plus grand que 5% et ils devraient juste dire H1 ou H0.

Au contraire, avec la règle Fisher, avec l'heuristique de Fisher, on regarde le p. Et plus le p est

petit, plus on se dit ah, le hasard aurait vraiment beaucoup de mal à expliquer tout ça à lui tout

seul donc le résultat est très significatif. Avec un p à 1‰, 1‰o, on considère souvent que le

résultat est très significatif. Alors qu'avec un p à 4%, on va dire qu'il est tout juste significatif,

qu'à 7% il sera à la limite de la significativité, à 10% il y a une tendance et puis à 20%, ce n'est

pas significatif. On voit qu'avec le p et la règle d'inférence de Fisher, il y a une gradation dans

l'intensité de la preuve, alors qu'avec Neyman et Pearson, c'est complètement binaire.

Et d'ailleurs, entre nous, un expérimentateur a plutôt envie d'utiliser la règle de Fisher plus

souple qui correspond plus à ce qu'il a envie de faire qu'à une règle caricaturale comme celle de

Neyman et Pearson qui est complètement binaire. C'est pour cette raison sûrement que dans les

articles, on voit bien plus souvent des p que des tests statistiques d'hypothèse au sens de

Neyman et Pearson. Alors, quel est l'intérêt de recourir à Neyman et Pearson ?

7

[7:34] C'est qu'avec Neyman et Pearson, on parle de risque. On ne parle pas d'un p qui est en

fait une plausibilité que le hasard puisse expliquer ce que l'on a observé. Un risque, c'est bien

plus fort que ça. Un risque, c'est fixé avant de faire une expérience. Quand un assureur assure

une maison, il propose un contrat d'assurance avant que ne se passe une éventuelle

catastrophe. Alors que quand vous calculez un p, vous calculez un p à partir des données que

vous avez observées. Vous pouvez toujours calculer a posteriori la probabilité que des

inondations aient pu arriver à un endroit donné. Un assureur, il ne fait pas ça. Un assureur, il

calcule a priori le risque qu'il y a que des inondations puissent dégrader une maison. Donc, fixer

un risque a priori et savoir dans quelle direction on s'engage, savoir le risque que l'on va prendre

d'accepter ou non une hypothèse nulle ou une hypothèse alternative, c'est quelque chose qui

est scientifiquement beaucoup plus fort que de regarder simplement a posteriori la plausibilité

des résultats qui ont été observés. C'est pour ça que, dans certaines situations expérimentales,

on va préférer Neyman et Pearson, et dans d'autres, on va préférer Fisher et le p.

8

[8:43] On va notamment préférer Neyman et Pearson quand il va y avoir une prise de décision

concrète et très importante à l'issue de l'expérience. C'est typiquement le cas des essais

thérapeutiques qui évaluent l'efficacité de médicaments. Si vous avez un essai qui montre que le

médicament est meilleur qu’un comparateur, les autorités de santé sont susceptibles de donner

une autorisation de mise sur le marché, après quoi tous les patients vont pouvoir bénéficier du

traitement. On doit donc exactement savoir où on en est et quel est le risque que l'on prend de

dire à tort qu'un nouveau médicament est plus efficace qu'un ancien. De là, le recours exclusif

avec la règle de Neyman et Pearson, et avec un essai randomisé de ce type, si le p vaut 6%, alors

on ne peut pas dire que le médicament est supérieur à son comparateur. Au contraire, si le p

vaut 4%, alors on peut le dire. Et, un p à 4% a la même signification qu'un p à 1‰. En dehors de

ces situations où il y a des prises de décision importantes à l'issue de l'expérience, alors, les

scientifiques préfèrent utiliser le p, parce qu'effectivement, c'est plus proche des résultats qu'ils

ont envie d'entendre, ou l'on va avoir une forte confiance dans les résultats avec un p tout

petit, ou au contraire, on aura un certain doute sur la significativité quand le p est autour de 5%.