28
Réseaux bayésiens Chap. 14 Sections 1 – 3

Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Embed Size (px)

Citation preview

Page 1: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Réseaux bayésiens

Chap. 14

Sections 1 – 3

Page 2: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Plan

• Syntaxe

• Semantique

• Distribution paramétrisée

Page 3: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Réseaux bayésiens

• Une notation graphique simple pour des affirmations d’indépendance conditionnelle, et donc une spécification compacte de distributions conjointes complètes

• Syntaxe:– Un ensemble de nœuds, un par variable– Un graphe dirigé, non cyclique (lien ≈ "influences directes")– Une distribution conditionnelle pour chaque nœud, sachant ses

parents:P (Xi | Parents (Xi))

• Dans le cas le plus simple, une distribution conditionnelle est représentée par une table de probabilité conditionnelle (CPT), qui donne la distribution sur Xi pour chaque combinaison des valeurs des parents.

Page 4: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple• La topologie du réseau représente les affirmations

d’indépendance conditionnelle:

• Weather est indépendante des autres variables• Toothache (mal aux dents) et Catch (accroché) sont

indépendantes conditionnellement sachant Cavity (carie)

Page 5: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple• Je suis au travail. Le voisin John appelle pour me signaler que mon alarme

à la maison sonne, mais ma voisine Mary ne m’appelle pas. Quelques fois, l’alarme est déclenchée par un petit tremblement de terre. Quelques fois, les voisins entendent mal. Et-ce qu’il y a un vol (burglar)?

• Variables: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls

• La topologie du réseau reflète les connaissances « causales »:– Un cambriolage peut déclencher l’alarme– Un tremblement de terre peut déclencher l’alarme– L’alarme peut causer l’appel de Mary– L’alarme peut causer l’appel de John

• Comparaison:– Si l’alarme, alors un cambriolage– Si Mary appelle, alors l’alarme

Page 6: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Topologie du réseau

Page 7: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Compacticité• Une CPT (table de prob. conditionnelle) pour une variable booléenne Xi avec k

parents booléens a 2k lignes pour des combinaisons des valeurs des parents

• Chaque ligne requiert une valeur p pour Xi = true(la valeur pour Xi = false est juste 1-p)

• Si chaque variable n’a pas plus de k parents, the réseau requiert O(n · 2k) valeurs

• I.e., la taille augmente linéairement avec n, vs. O(2n) pour la distribution conjointe complète (cf. règle de chaîne)

• Pour l’exemple de vol, le nombre de valeurs = 1 + 1 + 4 + 2 + 2 = 10 (vs. 25-1 = 31 pour une distribution conjoint complète)

– P(B): 1– P(E): 1– P(A|B,E): 4, …

Page 8: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Semantique

La distribution conjointe complète est définie par le produit des distributions conditionnelles locales:

e.g., P(j m a b e)

= P (j | a) P (m | a) P (a | b, e) P (b) P (e)

= 0.9 * 0.7 * 0.001 * 0.999 * 0.998

≈ 0.00063

Page 9: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Sémantique locale• Sémantique locale: chaque nœud est conditionnellement

indépendant de ses non-descendants sachant ses parents

• Théorème: Sémantique gobale = Sémantique locale

Page 10: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Couverture Markov• Chaque nœud est conditionnellement indépendant de

tous les autres nœuds sachant sa couverture Markov: parents + enfants + parents des enfants

Page 11: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Construire un réseau bayésien

1. Choisir un ordre des variables X1, … ,Xn

2. Pour i = 1 à n1. Ajouter Xi dans le réseau

2. Sélectionner les parents parmi X1, … ,Xi-1 tels que

P (Xi | Parents(Xi)) = P (Xi | X1, ... Xi-1)

Ce choix de parents garantie:(règle de

chaîne)(par

construction)

Page 12: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

• Supposons que nous choisissons l’ordre M, J, A, B, E

P(J | M) = P(J)?

Exemple

Page 13: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

• Supposons que nous choisissons l’ordre M, J, A, B, E

P(J | M) = P(J)?

P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?

Non

Exemple

Page 14: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

• Supposons que nous choisissons l’ordre M, J, A, B, E

P(J | M) = P(J)?

P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non

P(B | A, J, M) = P(B | A)?

P(B | A, J, M) = P(B)?

Non

Exemple

Page 15: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

• Supposons que nous choisissons l’ordre M, J, A, B, E

P(J | M) = P(J)?

P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non

P(B | A, J, M) = P(B | A)? Oui

P(B | A, J, M) = P(B)? Non

P(E | B, A ,J, M) = P(E | A)?

P(E | B, A, J, M) = P(E | A, B)?

Non

Exemple

Page 16: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

• Supposons que nous choisissons l’ordre M, J, A, B, E

P(J | M) = P(J)?

P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non

P(B | A, J, M) = P(B | A)? Oui

P(B | A, J, M) = P(B)? Non

P(E | B, A ,J, M) = P(E | A)? Non

P(E | B, A, J, M) = P(E | A, B)? Oui

Non

Exemple

Page 17: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple

• Décider des indépendnces conditionnelles est difficile dans une direction non-causale

• (Les modèles causaux et les indépendances conditionnelles causales semblent bien ancrés chez les humains!)

• Le réseau qui utilise des liens non-causaux est moins compact: 1 + 2 + 4 + 2 + 4 = 13 valeurs requises

••

Page 18: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple

L’ordre est important!

Page 19: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple: diagnostic de voiture• Évidence initiale: La voiture ne démarre pas• Variables testables (vert), variables causes (pannes) (orange)• Variables cachées (gris) assure une structure éparse (sparse)

permettant de réduire les paramètres

Page 20: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Exemple: Assurance de voiture

Page 21: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Distributions conditionnelles compactes

• CPT augmente exponentiellement avec le nombre de parents

• CPT devient infinie avec des parents ou enfants de valeur continue

• Solution: distributions canoniques qui sont définies de façon compacte

• Nœuds déterministes sont des cas simples:– Valeur de X déterminée par celles de ses parents

X = f(Parents(X)) pour une certaine fonction f

– E.g. Fonctions booléennes

– E.g. Relations numériques entre les variables continues

Page 22: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Distributions conditionnelles compactes• OU-bruité (Noisy-OR): modèle de distributions pour des causes

multiples non-interactives– Parents U1…Uk sont toutes les causes possibles (éventuellement ajouter

un nœud de fuite – leak node – pour les causes restantes)

– Supposons la probabilité d’échec indépendante qi pour chaque cause seule

– Nombre de paramètres linéaire par rapport au nombre de parents

Page 23: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Réseaux hybrids (var. discrètes + continues)• Discrètes (Subsidy? Et Buy?); continues (Harvest et Cost)

• Option 1: discrétisation – erreurs larges possibles, grande CPT

• Option 2: familles de modèles canoniques paramétrisés finis – Variable continues, parents discrets + continus (e.g. Cost)

– Variable discrète, parents continus (e.g. Buys?)

Page 24: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Variables enfants continues

• Nécessite une fonction de densité conditionnelle pour la variable enfant, sachant les parents continus, pour chaque assignation de valeur possible pour des parents discrets

• Le plus souvent: modèle linéaire gaussien. E.g.:

• Une formulation similaire pour Subsidy? = false• La moyenne de Cost varie linéairement avec Harvest, la variance

est fixée.• Variance linéaire est non-raisonnable sur toute la portée de valeur,

mais OK si la portée espérée de Harvest est étroite

Page 25: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Variables enfants continues

•c) = moyenne de a) et b) (supposons que chacun a la prob. 0.5)•Réseau composé de variables continues avec gaussiennes linéaires:

– Distribution conjointe complète est une gaussienne multivariée

Page 26: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Variable discrète avec parents continus

• Prob. de Buy? sachant Cost doit être un seuil « soft »:

• Distribution Probit utilise l’intégral de gaussienne:

Page 27: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Enfants discrets• Distribution Sigmoïde (ou logit) est aussi utilisé dans les

réseaux de neurones

• Une forme similaire à Probit, mais avec des queux plus longues

Page 28: Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée

Sommaire• Réseaux bayésiens = une représentation naturelle

d’indépendance conditionnelle (déduit de causalité)• Topologie + CPTs = une représentation compacte de

distribution conjointe• Sa construction est faite par des experts du domaine

(selon la compréhension des liens de causalité)• Couverture Markov• Distribution canonique (e.g. Noisy-OR)• Variables continues et discrètes: distribution

paramétrisée (e.g. gaussienne linéaire)