41
) | ( ) | ( ) , | ( ) , | ( M D p M p M D p M D p Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent . Théorème de Bayes s de Monte Carlo: échantillonner la distribution a ) | ( D p K k k .. 1 ) ( ~ (K = 10 000) té a posteriori = fréquence d´apparition dans l ´éc

Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Embed Size (px)

Citation preview

Page 1: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

)|(

)|(),|(),|(

MDp

MpMDpMDp

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation(performance globale du modèle)

Résumé cours précédent1. Théorème de Bayes

2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori

)|( Dp Kkk ..1)( ~ (K = 10 000)

Probabilité a posteriori = fréquence d´apparition dans l ´échantillon

Page 2: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Modèles stochastiques Bayésiens

données : (D)),( lThypothèse :(alignement)(phylogénie)

modèle : (M)(processus d´évolution par accumulation de mutations)

Page 3: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

27000

28000

29000

30000

31000

32000

33000

E =-ln L

burn in(discarded)

sample

Monte Carlo Markov chain (MCMC)

)|( Dp Kkk ..1)( ),( kkk lT

Total

T

K

KMDTp ),|(

For any topology T :

~

Chick

CatFishSnailFlyHydraPolyp

Man

posterior consensus

67

87

90

45

78

Page 4: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Réseaux Bayésiens

• Example introductif

• Définition

• Méthodes de Monte Carlo

• Problème inverse : apprendre la structure du réseau, à partir de données observées– problème n°1 : apprendre les lois locales

– problème n°2 : apprendre la structure globale

• Application : réseaux de régulation génétique

Page 5: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Représenter les dépendances statistiques entre plusieurs variables

essencebougiespropres

démarrageniveauréservoir

),|()|()()(),,,( bedperpbpepdbrep

Page 6: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

essencebougiespropres

démarrageniveauréservoir

oui 0.98

non 0.02

oui 0.96

non 0.04

e = oui e = non

b = oui 0.99 / 0.01 0 / 1

b = non 0.01 / 0.99 0 / 1

e = oui e = non

plein 0.39 0.01

mi-plein 0.60 0.01

vide 0.01 0.98

),|( bedp

)(ep )(bp

)|( erp

),|()|()()(),,,( bedperpbpepdbrep

Page 7: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Définition

un ensemble de variables aléatoires),...,,( 21 nxxxx

Un réseau Bayésien est une représentation graphique de ladistribution de probabilité conjointe ),...,,( 21 nxxxp

Elle est caractérisée par deux éléments :

1. un graphe acyclique orienté (à n sommets)

2. n distributions conditionnelles

))(|( iG

i xPaxp

G

où )( iG xPa est l´ensemble des parents de ix

Page 8: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Calcul de la distribution conjointeà partir du graphe

1x 2x 3x 6x

5x4x

)|,( 231 xxxi

),,,,,( 654321 xxxxxxp

),|(),|()|()|()|()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Indépendances conditionnelles:

),|,( 5364 xxxxi ...

Page 9: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classe d´équivalence : indistinguabilité

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Page 10: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classe d´équivalence : indistinguabilité

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Page 11: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

),,,,,1( 6543211 xxxxxxpp

Echantillonnage de Gibbs(Chaque admet pour valeurs possibles les entiers k=1..K)ix

),,,,,2( 6543212 xxxxxxpp

),,,,,( 654321 xxxxxKxppK ....

Essayer toutes les valeurs possibles pour et recalculer laprobabilité conjointe à chaque fois :

Tirer une nouvelle valeur pour en fonction de ces probabilités

1x

1x

Page 12: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

Echantillonnage de Gibbs

Appliquer la même procédure à , puis , ... jusqu´à 2x 3x 6x

...

Recommencer un très grand nombre de fois (K=10 000)

KkkX ..1)( ),...,,( 621

kkkk xxxX échantillon : avec

distribué suivant la probabilité conjointe ),,,,,( 654321 xxxxxxp

Par exemple:total

kx

K

Kkxp 6)( 6

Page 13: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

),,,,,1( 654321 xxxxxxp

),|(),|()|()|()1|()1( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

),,,,,2( 654321 xxxxxxp

),|(),|()|()|()2|()2( 5364352423121 xxxpxxxpxxpxxpxxpxp

...

Page 14: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

),,,,1,( 654321 xxxxxxp

),|(),|()1|()1|()|1()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

...

),,,,2,( 654321 xxxxxxp

),|(),|()2|()2|()|2()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Page 15: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Echantillonnage de Gibbs

Page 16: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Calcul de probabilités conditionnelles

On connait la valeur des variables 26, 22, 16.

Calculer alors la probabilité des différentes valeurs possibles pour 8

Page 17: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Calcul de probabilités conditionnelles

Faire un Gibbs en laissant fixes les variables 26, 22, 16.

Mesurer alors la fréquence des différentes valeurs observées en 8

asymptotiquement égales aux probabilités recherchées

Page 18: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Problème inverse :Inférer les lois conditionnelles locales

Données: structure du réseau (G) + table d´observations (D)

Inconnues à estimer: lois de probabilités locales

(G) (D)

Page 19: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

Lois conditionnelles localespour les réseaux binaires

),|( 536 xxxp

(Chaque admet pour valeurs possibles 0 ou 1)ix

0 0

0 1

1 0

1 1

)1( 6 xp006016106116

3x 5x

))((2 ixPaCard

Nombres de paramètresà déterminer:

: ensemble des paramètresdu réseau

Page 20: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné

: données observées (10 piles et 5 faces)D

Estimation rapide (efficace si beaucoup d´observations) : 15

10ˆ

Inférence Bayésienne (incertitude mieux prise en compte)

)(p

)|( Dp

0.66

)|(

)|(),|(),|(

MDp

MpMDpMDp

Métropolis sur

Page 21: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Page 22: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Inférence Bayésienne des paramètres du réseau

)|(

)|(),|(),|(

GDp

GpGDpGDp

D

G Structure du réseau

Table d´observations

Paramètres du réseau

dGpGDpGDp )|(),|()|(

Page 23: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Algorithme de Metropolis

),|(

),|( *

GDp

GDpa

n

n

*1 nn

nn 1

*nn 1. proposer modif

2. calculer

3. accepter avec une proba p=Min(1,a)

si accepté :

si refusé :

4. recommencer à partir de 2.

),|( MSp

N

nnN 1

1

Page 24: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classificateur Bayésien « naïf »

C

A1 A2 An...

Classe

Attributs )|( CAp i

)(Cp

n

ii CApCAp

1

)|()|(

),...,,( 21 nAAAA

l

lCplCAp

kCpkCApAkCp

)()|(

)()|()|(

Page 25: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classificateur Bayésien « naïf »méthode d´apprentissage

C

A1 A2 An...

Classe

Attributs )|( CAp i

)(Cp ?

?

Jeu d´apprentissage:

A1 A2 ... An C

item1

item2

...

Application des méthodes mentionnées auparavant

Page 26: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classificateur Bayésien avec corrélations entre attributs

C

A1 A2 An...

Classe

AttributsA3

n

ii CApCAp

1

)|()|(

),...,,( 21 nAAAA

Cas particulier: le graphe restreint aux attributs est un arbre.

Page 27: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Problème inverse général :inférer la structure du réseau

?

D Table d´observations

G Structure du réseau

Page 28: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Inférence Bayésienne de la structure du réseau

)(

)()|()|(

Dp

GpGDpDGp

DG Structure du réseau

Table d´observations

dGpGDpGDp )|(),|()|(

Paramètres du réseau

(calculable analytiquement)

)(Gp Prior sur les réseaux possibles

Uniforme : trop flexiblePrior pénalisant les réseaux trop riches en liens

Page 29: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Inférence Bayésienne de la structure du réseau

)(

)()|()|(

Dp

GpGDpDGp

DG Structure du réseau

Table d´observations

dGpGDpGDp )|(),|()|(

Paramètres du réseau

Données suffisamment riches pour inférer le réseau avec certitude:rechercher graphe G qui maximise (NP difficile))|( DGp

Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori )|( DGp

(calculable analytiquement)

Page 30: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classe d´équivalence : indistinguabilité

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Page 31: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Classe d´équivalence : indistinguabilité

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Page 32: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Validation de la méthode par simulations

Page 33: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Cas réel : projets d´études supérieures

SEX : sexeSES : statut socio-économiquePE : encouragement parentalIQ : quotient intellectuelCP : projets d´études supérieures

Page 34: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Page 35: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Cycle cellulaire

division

synthèse d´ADN (duplication du génome)

Page 36: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème
Page 37: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Mesure de l´expression de 6177 gènes de la levure de boulanger76 mesures au total: 6 séries temporelles sur cellules synchronisées

Explorer les classes d´équivalence de réseaux de 6178 sommets- 6177 sommets correspondant aux gènes analysés- 1 sommet supplémentaire : phase du cycle cellulaire

(contraint comme racine du graphe)Méthode Monte Carlo

Discrétisation des niveaux d´expression de chaque gène-1 : sous-exprimé 0 : normal+1 : sur-exprimé

Page 38: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

1x 2x 3x 6x

5x4x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Page 39: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Relations de Markov

Page 40: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Gènes dominants (en amont des autres)

Page 41: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème

Relations de Markov