14
Caractère de vérité possible de quelque chose : La vraisemblance d'une explication. Probabilité proche de la certitude : Il y a peu de vraisemblance que ça se passe ainsi. Conformité à la réalité : Respecter la vraisemblance au théâtre. L’estimation des coefficients se fait par la maximisation du Logarithme de la vraisemblance. o La vraisemblance est la probabilité d’observer l’échantillon compte tenu du modèle et de ses paramètres o Exemple : si binomial avec une probabilité « p » d’avoir un résultat « pair » alors la probabilité d’observer un échantillon avec 3 pair et 2 impair est p.p.p.(1-p).(1-p) soit p^3.(1-p)^2 o Pour rendre plus facilement manipulable la vraisemblance on passe d’un produit à une somme en passant par les Log et en prenant le négatif pour minimiser. Dans sa forme générale, la vraisemblance est la probabilité conditionnelle d’observer les données sous un modèle particulier. Étant donné un modèle qui spécifie les probabilités d’observer différents évènements, la vraisemblance L d’obtenir les données observées peut être calculée : LX = Pr (X | H), où Pr (X | H) est la probabilité conditionnelle d’observer les données X sous l’hypothèse H. Notion de vraisemblance Etant donné un échantillon observé et une loi de probabilité ,

Maximum de Vraisemblance

Embed Size (px)

DESCRIPTION

aa

Citation preview

Page 1: Maximum de Vraisemblance

Caractère de vérité possible de quelque chose : La vraisemblance d'une explication.

Probabilité proche de la certitude : Il y a peu de vraisemblance que ça se passe ainsi.

Conformité à la réalité : Respecter la vraisemblance au théâtre.

L’estimation des coefficients se fait par la maximisation du Logarithme de la vraisemblance.

o La vraisemblance est la probabilité d’observer l’échantillon compte tenu du modèle et

de ses paramètres o Exemple : si binomial avec une probabilité « p » d’avoir un résultat « pair » alors la probabilité d’observer un échantillon avec 3 pair et 2 impair est p.p.p.(1-p).(1-p) soit p^3.(1-p)^2 o Pour rendre plus facilement manipulable la vraisemblance on passe d’un produit à

une somme en passant par les Log et en prenant le négatif pour minimiser.

Dans sa forme générale, la vraisemblance est la probabilité conditionnelle d’observer les données sous un modèle particulier.

Étant donné un modèle qui spécifie les probabilités d’observer différents évènements, la vraisemblance L d’obtenir les données observées peut être calculée :

LX = Pr (X | H), où Pr (X | H) est la probabilité conditionnelle d’observer les données X sous l’hypothèse H.

Notion de vraisemblance

Etant donné un échantillon observé   et une loi de

probabilité  , la vraisemblance quantifie la probabilité que les observations proviennent effectivement d'un échantillon (théorique) de

la loi  .

Prenons l'exemple de 10 lancers de pièce. L'échantillon binaire observé est par exemple :

Page 2: Maximum de Vraisemblance

Pour un échantillon de taille 10 de la loi de Bernoulli de paramètre  ,

la probabilité d'une telle réalisation est  . Voici quelquesvaleurs numériques.

0.2 0.3 0.4 0.5 0.6 0.7 0.8

Il est naturel de choisir comme estimation de  , celle pour laquelle

la probabilité de l' échantillon observé est la plus forte, à savoir ici 0.6.

Définition 2.5   Soit   un ensemble fini,   une famille de lois de probabilité sur  , et   un entier.

On appelle vraisemblance  associée à la famille  , la fonction qui à

un  -uplet   d'éléments de   et à une valeur   du paramètre associe la quantité :

L'interprétation est la suivante. Considérons

un échantillon théorique   de la loi  . Par définition,

les variables aléatoires  sont indépendantes et de même

loi  . Donc la probabilité que l'échantillon théorique   

ait pour réalisation l'échantillon observé   est le produit des

probabilités pour que   prenne la valeur  , à savoir :

Page 3: Maximum de Vraisemblance

Dans le cas d'un modèle continu, la loi   a une densité sur  , et la probabilité pour que l'échantillon prenne une valeur particulière est

toujours nulle. Il faut alors remplacer la probabilité   par sa densité dans la définition de la vraisemblance.

Ads by Video PlayerAd Options

Définition 2.6   Soit   une famille de lois de probabilité

continues sur   et   un entier. Notons   la densité de probabilité de

la loi  . On appelle vraisemblance associée à la famille  , la

fonction qui à un  -uplet   d'éléments de   et à une valeur   du paramètre associe la quantité :

Pour apprendre les probabilités, il est de coutume d’utiliser une urne remplie d’objets, et de faire des tirages au hasard dedans. Imaginons donc une urne qui contient 100 objets, pouvant avoir deux formes (carré ou triangle) et deux couleurs (bleu ou rouge). La composition détaillée de l’urne est donnée sur le dessin ci-contre.

Page 4: Maximum de Vraisemblance

Une main innocente tire un objet au hasard, quel est la probabilité que ce soit un carré ? Facile ! Il y a 100 objets, 60 sont des carrés, donc la réponse est 60%. Jusqu’ici tout va bien.

Imaginez maintenant que la main innocente tire un objet, et que vous parveniez à distinguer rapidement que cet objet est rouge. Quel est la probabilité que ce soit un carré ? Facile aussi, il y a 45 objets rouges, dont 9 qui sont à la fois rouges et carrés, la « probabilité d’être un carré sachant qu’il est rouge » est donc 9/45 = 20%.

Si vous comparez ces deux situations, vous constatez que la probabilité que l’objet soit un carré est fortement affectée par le fait de savoir qu’il est rouge. La « probabilité que l’objet soit carré » n’est pas la même que la « probabilité que l’objet soit carré sachant qu’il est rouge ».

Les mathématiciens parlent de probabilités « conditionnelles », et utilisent la barre verticale | pour symboliser l’expression « sachant que ». Dans les exemples précédents, on a donc

P(Carré) = 60%

P(Carré | Rouge) = 20%

Maintenant je vous invite à faire le calcul inverse. Vous tirez un objet les yeux bandés, vous sentez dans votre main qu’il est carré : quel est la probabilité qu’il soit rouge ? Si vous regardez attentivement la composition de l’urne, il y a 60 objets carrés, dont 9 qui sont rouges, donc

P(Rouge | Carré ) = 9/60 = 15%

Une leçon importante dans cette affaire, c’est que P(Rouge | Carré ) n’est pas la même chose que P(Carré | Rouge).

Nous avons vu dans notre exemple du cancer que notre erreur venait justement de la confusion entre P(Malade | Positif) et P(Positif | Malade). Il est donc important de pouvoir passer de l’un à l’autre dans un calcul. Etcomment connaître P(B|A) si on connait P(A|B) ?

C’est là qu’intervient une formule découverte par le révérend Thomas Bayes au XVIIIème siècle, mais qui – hasard de la science – n’a été publiée qu’après sa mort.

L’inférence bayésienne (Bayes level 2)Préliminaire : Ce billet est la suite de celui de la semaine dernière, qui portait sur les probabilités conditionnelles et introduisait la formule de Bayes. Si ces notions vous sont familières, vous n’êtes pas obligés d’aller le lire. Dans le cas contraire, n’hésitez pas à vous rafraîchir la mémoire   !

Page 5: Maximum de Vraisemblance

La semaine dernière, je vous ai présenté la célèbre règle de Bayes, qui permet de relier la probabilité conditionnelle de "A sachant B" à celle de "B sachant A"

Nous avions vu un cas simple, où A et B désignaient respectivement le fait d’être rouge et carré pour un objet que l’on tire au hasard dans une urne ("quelle est la probabilité qu’il soit carré sachant qu’il est rouge"), ainsi qu’un cas plus subtil où il était question de dépistage du cancer.

L’idée était de souligner la différence entre "la probabilité d’avoir le cancer sachant qu’on est dépisté positif", notée P(C | +), et  "la probabilité d’être dépisté positif sachant qu’on a le cancer", notée P(+ | C). D’après la formule de Bayes, on peut relier les deux par :

Aujourd’hui, nous allons voir en quoi la formule de Bayes peut s’interpréter dans un contexte plus général, et devenir un outil formidable pour quantifier la manière dont nous raisonnons, et même dont notre cerveau fonctionne !

Bayes dans toute sa splendeur

Reconsidérons l’exemple du dépistage du cancer. On peut dire que dans ce problème, nous avons

D’un côté, une hypothèse : "J’ai le cancer"

Page 6: Maximum de Vraisemblance

De l’autre côté, une observation : "Je suis testé positif"

Quand on souhaite connaître "la probabilité d’avoir le cancer sachant qu’on est positif", on est en train de chercherla probabilité que l’hypothèse soit vraie étant donnée notre observation. Si on récrit la formule de Bayes de manière plus abstraite, en considérant une hypothèse H et une observation O, on a

Voici la formule de Bayes dans toute sa puissance ! Vous avez peut être l’impression que j’ai écrit la même formule qu’au début, en changeant juste les lettres, mais du point de vue de l’interprétation, il y a une grosse différence ! Cette formule nous permet en effet de quantifier de quelle manière des observations permettent d’ajouter du crédit à une hypothèse. La formule de Bayes, c’est l’outil idéal pour structurer les raisonnements, qu’il s’agisse de diagnostic médical, d’un raisonnement scientifique, ou bien de la recherche du coupable d’un crime.

Raisonnement déductif et raisonnement inductif

Dans les exemples que je cite ci-dessus (en sciences, en médecine ou dans le domaine de la justice), nous pratiquons très fréquemment des raisonnements inductifs. Rappelons un peu de quoi il s’agit.

Page 7: Maximum de Vraisemblance

Considérons la formule habituelle

"Tous les hommes sont mortels. Socrate est un homme. Donc Socrate est mortel".

Il s’agit d’un raisonnement déductif, du type "A implique B. A est vrai. Donc B est vrai". Dans un raisonnement déductif, la conclusion est imparable, indiscutable, et ne laisse pas de place au doute.

Mais souvent nous avons tendance à faire la démarche dans l’autre sens :

"Tous les hommes sont mortels. Socrate est mortel. Donc il y a des chances que Socrate soit un homme".

Il s’agit cette fois d’un raisonnement inductif "A implique B. B est vrai. Donc il y a des chances que A soit vrai". Comme vous le voyez, le raisonnement inductif ne donne pas des certitudes absolues. Il ne fait que donner des indices qui poussent à une conclusion. On peut d’ailleurs se tromper en faisant un raisonnement inductif. Comme dans le fameux exemple "Tous les chats sont mortels. Socrate est mortel. Donc Socrate est un chat".

L’exemple du chat et de Socrate semble fait pour ridiculiser le raisonnement inductif, mais en réalité le raisonnement inductif est partout ! En sciences pour valider une théorie à partir des expériences, dans le domaine de la justice pour

Page 8: Maximum de Vraisemblance

décider d’un coupable à partir de preuves, ou en médecine pour faire un diagnostic à partir de symptômes.

Le point faible du raisonnement inductif, c’est qu’il laisse la place au doute. On n’est jamais complètement sûr, et on quand on dit "il y a des chances que", on ne semble même pas capables de quantifier notre degré de confiance. Et c’est là qu’intervient la géniale formule de Bayes : elle permet de mettre des chiffres sur les raisonnements inductifs !

Anatomie de l’induction bayésienne

Pour faire le lien entre le raisonnement inductif et la formule de Bayes, il suffit d’observer que le raisonnement inductif consiste à réaliser des observations (Socrate est mortel), et à considérer que ces observations viennent supporter une hypothèse (Socrate est un homme). Or c’est exactement ce que fait pour nous la formule de Bayes :

Pour cela, il suffit d’interpréter p(H) comme le degré de confiance que l’on a vis-à-vis de l’hypothèse H avant de prendre en compte les observations, on l’appelle probabilité a priori. Ensuite on interprète P(H | O) comme le degré de confiance après la prise en compte des observations, on l’appelle probabilité a posteriori. Le terme P(O | H) s’appelle la vraisemblance, et quantifie le degré de compatibilité de l’hypothèse H et des observations O.

La formule de Bayes est alors un moyen de relier la probabilité a posteriori, et la probabilité a priori. C’est donc une formule qui permet de réviser nos degrés de confiance en fonction des observations et de rendre quantitatif le raisonnement inductif.

Par exemple : j’avais 0.1% de risque d’avoir ce cancer (probabilité a priori), maintenant que je sais que je suis positif au test (observations), le risque est de 2.9% (probabilité a posteriori). (voir  le billet précédent  pour savoir d’où viennent ces valeurs).

Page 9: Maximum de Vraisemblance

A part le diagnostic médical, le raisonnement bayésien est utilisé pour le filtrage du spam. L’hypothèse initiale H est par exemple "tel message est un spam", puis l’algorithme réalise un certain nombre d’observations concernant le contenu du message (son expéditeur, les mots employés, la présences de liens, etc.) A chacune de ces observations, grâce à la règle de Bayes, l’algorithme met à jour son estimation de la probabilité que le message soit un spam. Une fois toutes les observations effectuées, en fonction de la valeur de la probabilité a posteriori, il peut décider de classer ou non le message comme spam.

Maximum de vraisemblance

La vraisemblance

J’ouvre mon Petit Larousse et je lis : « Vraisemblance n.f. Caractère de ce qui est vraisemblable, a l’apparence de la vérité. »

Qu’est-ce-que la vérité pour un statisticien ? Je ne vais pas vous dispenser un cours de philosophie, ce n’est pas mon fort. Il y a peut-être le statisticien irréaliste qui cherche LE modèle qui décrira parfaitement toute situation réelle et le statisticien modeste pour qui une loi de probabilité constitue déjà une forme de perfection. Donc, hypothèse : nous sommes modestes.

La vraisemblance (Likelihood) mesure l’adéquation entre la distribution observée sur unéchantillon   aléatoire  et une loi de probabilité supposée décrire la réalité sur la population dont l'échantillon est issu. Comment ?

Par hypothèse, nous connaissons la fonction de densité de la loi de probabilité théorique, discrète ou continue, la mieux adaptée à la population. Cependant, c’est une COQUILLE VIDE puisque nous ignorons son ou ses paramètres (espérance, variance…). N’ayant pas le choix, nous estimons ceux-ci à partir de notre échantillon. Intuitivement, on pourrait penser qu'il suffit de reporter sur la population les paramètres observés et que le tour est joué mais on se tromperait. Il existe plusieurs techniques pour trouver l'estimateur le plus pertinent.

Page 10: Maximum de Vraisemblance

L’utilisation de la vraisemblance est l’une d’entre elles. Supposons que l’on compare notre distribution à une loi discrète, de Poisson par exemple. Pour chaque observation indépendante des autres (mettons 0, 1, 2…), on ne retient pas la probabilité observée mais celle que l’on aurait obtenue en appliquant la loi de Poisson (on remplace le x de la formule de la distribution de Poisson par 0, 1, 2…), loi munie du paramètre à estimer. Leproduit de toutes ces probabilités s’appelle la vraisemblance. Bon, ce n’est plus vraiment la définition du Petit Larousse…

Certes, cette mesure est réductrice puisqu’une adéquation est résumée par un seul chiffre mais il s’agit là d’une démarche habituelle en statistiques…

Plus la vraisemblance est proche de zéro, moins l’adéquation à la loi est bonne.

La fonction de vraisemblance

Maintenant que nous avons défini la vraisemblance, nous comprenons qu’elle varie en fonction du ou des paramètres de la loi en question. Il peut s’agir du paramètre de la loi de Poisson, de la moyenne et de l’écart-type d’une loi normale, etc. Habituellement, quand on parle d’un paramètre de façon générale, on le nomme « thêta » (comme on appelle « lambda » l’homme de la rue…). La fonction de vraisemblance s’écrit alors ainsi (sous thêta peuvent se cacher un ou plusieurs paramètres) :

Le grand intérêt de cette fonction est de permettre la détermination de la ou des valeurs de θ pour lesquelles la fonction de vraisemblance sera maximale.

Le   maximum de vraisemblance

En fait, il est plus pratique d’utiliser le logarithme de cette fonction (on n’a jamais fait mieux pour remplacer un produit par une somme). Dans la mesure où la fonction ln estcroissante, le maximum de la fonction de vraisemblance est aussi celui de la log-vraisemblance.

Une dérivée partielle nulle étant un moyen éprouvé pour trouver un extremum, on pose l’équation de vraisemblance. On dérive la fonction par rapport au paramètre à estimer.

Page 11: Maximum de Vraisemblance

En général, dans les démonstrations, on étudie aussi la dérivée seconde pour s’assurer qu’il s’agit bien d’un maximum (histoire de vérifier qu’on n’a pas bêtement choisi le pire estimateur…).

Deux démonstrations figurent en page calculs de maximums de vraisemblance (il s'agit du paramètre de la loi exponentielle et de la moyenne d'une loi normale).

Utilisation

Tout ceci semble bien théorique. Un intérêt pratique est que le calcul de l’estimateur du maximum de vraisemblance (EMV) est réalisé par les logiciels qui ajustent les observations d’un échantillon à une distribution (proposant parfois d’autres méthodes). La présentation des étapes que je reprends ci-dessous doit beaucoup au manuel du logiciel @RISK de Palisade :

L’état des lieux : vous observez une ou plusieurs variables sur un ou plusieurs échantillons et vous souhaitez vous en servir pour estimer une fonction de densité (ou une fonction cumulative) représentative de toute la population, ceci afin d'utiliser ce modèle pour estimer un tas de choses passionnantes.

Donc, vous ou votre logiciel choisissez un certain nombre de distributions candidates. À titre d’exemple, @RISK connaît une quarantaine de lois de probabilité.

Étape suivante, le logiciel détermine le ou les paramètres des lois candidates par la méthode de l’EMV (ou d’autres approches).

Enfin, les distributions candidates, armées de leurs paramètres estimés par maximum de vraisemblance, sont toutes comparées à la distribution empirique. Ici aussi, il existe un choix de techniques pour juger la meilleure adéquation (Kolmogorov-Smirnov, khi²,indicateurs d’écart…).

Et c’est ainsi qu’un pauvre histogramme s’habille d’une sublime loi de probabilité qui lui colle au corps comme aucune autre…