Download pdf - De l'identification de structure de réseaux bayésiens à la

1/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

De l’identification de structure de réseaux bayésiensà la reconnaissance de formes

à partir d’informations complètes ou incomplètes

Olivier FRANÇOIS

Encadrant : Philippe LERAY

Directeur : Stéphane CANU

Laboratoire LITIS , Rouen

présenté le mardi 28 novembre 2006

2/37


2/37


Etat Emotionnel

2/37


Etat Emotionnel

Perdue

2/37


Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

2/37


Etat Emotionnel

Perdue

Electronique


Système de

Agenda

2/37


Etat Emotionnel

Perdue

Electronique


Système de

Agenda

2/37


Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique


Système de

Agenda

Conductivitéde la peau

2/37


Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


2/37


Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


2/37


Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda

Conductivitéde la peau Conseil

2/37


Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


3/37


Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Lieu ; tranche horraire)

Conseil

3/37


Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


4/37


Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé


OuiNon


Afficher l’agenda

CommerceRue


(Commerce ; 9H−9H30)

Conseil

4/37



Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé


OuiNon


Afficher l’agenda

CommerceRue



0.5 −> 0.010.1 −> 0.990.4 −> 0.00Conseil

4/37



Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé


OuiNon


Afficher l’agenda

CommerceRue



0.5 −> 0.010.1 −> 0.990.4 −> 0.00

0.2 −> 0.99

Conseil

4/37



Etat Emotionnel

PerdueRythme

respiratoire



Système de

Agenda


5/37


Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.


Génération de bases d’exemples incomplètes

5/37


Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.


Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.


Génération de bases d’exemples incomplètes

5/37


Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

6/37


Apprentissage de structure

Deux classes d’algorithmes :

Méthodes à base de contraintesUtiliser des tests statistiques pour identifier lesindépendances conditionnelles des attributs et endéduire une structure.→ test du χ2

→ test du rapport devraisemblance

→ information mutuelle

→ étude des corrélations. . .

Méthodes à base de scoreMaximiser une mesure/approximation dela vraisemblance marginale dans un espace destructures.→ scores BD, BDe, BDeu

→ critères AIC et BIC

→ M inimum Description Length

→ approximation de Laplace aun-ième ordre

→ AICc, ICL . . .

7/37


Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

7/37


Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

8/37


Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An

Co

ntra

inte

s PC CPDAG 93

BNPC CPDAG 02

Sco

res

MWST arbres 94K2 ordre fixe 92

GS DAG 95GES CPDAG 02

8/37


Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An Autres mé-thodes

An

Co

ntra

inte

s PC CPDAG 93 IC/IC* 93,00FCI/QFCI/AFCI 00,03,06

BNPC CPDAG 02 RAI 05MFC 06

Sco

res

MWST arbres 94K2 ordre fixe 92 MCMC 00

Fourmis 02GS DAG 95 Algos G 04,06GES CPDAG 02 K2+GSno+GES 06

Co

nt.

CPDAG Grow-Shrink 03MaxMin HillC 05

9/37


Problèmes d’initialisation : K2

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

9/37


Problèmes d’initialisation : K2

Orig.

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

MWST

K2+T

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

K2-T

10/37


Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

GS

MWST

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

GS+T

10/37


Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

6s

0, 2s

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque


Perdue

Etat emotionnel

GPS

Agenda

Decision

2, 5s

11/37


Des réseaux et des tests. . .

2

1

3

4 65

1

2

4

53

1 2 3

4

6

75

X

A S

BLT

E

D

SocioEcon

GoodStudent RiskAversion

VehicleYear MakeModel

AntiTheft HomeBase

OtherCar

Age

DrivingSkill

SeniorTrain

MedCost

DrivQuality DrivHistRuggedAuto AntilockCarValue Airbag

Accident

ThisCarDam OtherCarCost ILiCost

ThisCarCost

Cushioning

Mileage

PropCost

Theft

→ retrouver ces structures à partir de bases de différentes tailles.314 problèmes synthétiques et 17 problèmes réels (UCI, Statlog).

Nous avons testé :

performances KLperformances distance d’édition

recherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calcul

11/37



Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

11/37



Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

12/37


Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGESbic

12/37


Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicK2RndK2pTK2mTGESbic

1 exécution

Meilleur résultat pour 5 exécutions

1 exécution

12/37


Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGSbic0GSbicTGESbic

13/37


Le réseau Naïf

augmenté par un arbre (TAN)

Supposons que les attributs soient indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

13/37


Le réseau Naïf augmenté par un arbre (TAN)

Supposons que les attributs NE soient PLUS indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe

14/37


Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC 250s 95s

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

(17 prbs de UCI)

14/37



64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1


Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

320s

1,5s

(17 prbs de UCI)

15/37


Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

16/37


Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?

AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

16/37


Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

17/37


Motivation

Vu précédement (RFIA’04)MWST : bon rapport complexité/performanceGS+T : permet de gagner en stabilitéSEM = GS avec BIC/MDL + EM

MWST-EM = MWST + EM

Le rapport complexité/perfs. de MWST-EM est-il bon ?MWST-EM est-t’il une bonne initialisation pour SEM ?−→ SEM+T

18/37


Donner un score à partir d’une base incomplète

Soit S(M|Dc), un critère de score pour un modèle Met des données complètes Dc

Comment évaluer S lorsque la base est incomplète ?

D =< O, H >

Prendre l’espérance ?

QS(M|D) = EH∼P(H|O,µ)

[S(M|O, H)

]Mais la loi P(H|O, µ) est inconnue ! ! !

18/37


Donner un score à partir d’une base incomplète

Utiliser un modèle ?

Principe EM : E. . .

Supposons que M0 a généré D

QS(M|D) ≈ QS(M : M0|D)= EH∼P(H|O,M0)

[S(M|O, H)

]= ∑

HS(M|O, H)P(H|O,M0)

Ou la loi a posteriori P(H|O,M0) est connue.

19/37


Structural-EM

Principe EM : . . .et M

Choisir un modèle M0 (⇒ P(H|O,M0))

Trouver un modèle Mi+1 qui maximise∗∗

le score QS(M : Mi |D)

Utiliser le nouveau modèle comme référencepour l’itération suivante jusqu’à convergence.

∗∗ Mi+1 = {G i+1, Θi+1}Comment maximiser ?

20/37


algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter

3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0(T ,O )

T

0

20/37




2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax




9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)


Q(T i+1, Θ : T i , Θi ,j)


O

0,0

0,j

(T ,O )

T

(T ,O )0

0

20/37








9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

procédure de type Kruskal


Q(T i+1, Θ : T i , Θi ,j)


O

0,0

0,j

(T ,O )

T

(T ,O )0

0

1 T

20/37








9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)


Q(T i+1, Θ : T i , Θi ,j)


1,0(T ,O )

1

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

20/37








9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)


Q(T i+1, Θ : T i , Θi ,j)


2,0(T ,O )

2

2,j(T ,O )

2

1,0(T ,O )

1

O

0,0

1,j

0,j

(T ,O )

(T ,O )

T

(T ,O )

1

0

0

21/37


Nos propositions MWST-EM et TAN-EM

SEM : le nouveau modèle est choisi parmis les voisins dugraphe courant.

→ nombreuses itérations

MWST-EM : nous trouvons le ’meilleur’ modèle dansl’espace des arbres. (AKRR’05), (EGC’05)

→ peu d’itérations

Utilisation d’une méthode de type ’Kruskal itératif’[MQ

ij

]i ,j

=[Qbic(Xi , Pi = {Xj} : T ∗)−Qbic(Xi , Pi = ∅ : T ∗)

]

22/37


Nos propositions SEM+T et TAN-EM

SEM+T : le résultat de MWST-EM est utilisé pour initialiserSEM.

→ nombreuses itérations ?

TAN-EM : nous trouvons le ’meilleur’ Réseau NaïfAugmenté par un Arbre. (PGM’06)

→ peu d’itérations

[MQ

ij

]i ,j 6=C

=[Qbic(Xi , Pi = {Xj , C} : T ∗)−Qbic(Xi , Pi = {C} : T ∗)

]

23/37


Bases générés pour tester les méthodes

2

1

3

4 65

1

2

4

53

1 2

3

5

4

1 2 3

4

6

75

2

61 3

4

5

7

9

8

10

11

2 3 6 5 10

7

1

4

8

9

2 3

1 4

5

6

7

8

9

10 11

1213 X

A S

BLT

E

D

?

?

??

?

?

aléatoire

possiblesarcs

Structure

1 i n

1 i n

i1 n

M M M

H H H

O OO

Taux de données manquantes : {0, 2; 0, 3; 0, 4; 0, 5},Tailles des bases d’exemples : {100; 200; 400; 600; 1000; 2000}.−→ 2160 problèmes MCAR synthétiques,−→ 2160 problèmes MAR sythétiques et 5 problèmes réels.

24/37


Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

24/37


Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

25/37


Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

95,7%

20% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

25/37



0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

77,2%

30% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

25/37



0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

EM

AC

A

30% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

25/37



0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

AC

A


25/37



0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

EM

AC

A


26/37


performances KL

20 25 30 35 40 45 500

0.2

0.4

Taux de donnes manquantes

Div

erg

en

ce

de

KL

mo

ye

nn

e

MWST−ACAGS−ACAGS+T−ACAMWST−EMSEMSEM+T

27/37


Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais indépendamment

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

Ce qu’il est possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

27/37


Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais plus indépendamment

A B DC E F G

Classe

Ce qu’il est toujours possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

28/37


Résultats en classification

N N app N test #C %EIHepatitis 20 90 65 2 8.4

House 17 290 145 2 46.7Horse 28 300 300 2 88.0

Thyroid 22 2800 972 2 29.9Mushrooms 23 5416 2708 2 30.5

65 70 75 80 85 90 95 100

0.7

0.75

0.8

0.85

0.9

0.95

1

NB−EMMWST−EMTAN−EMSEMSEM+T

29/37


Temps de calculs

NB-EM MWST-EM TAN-EM SEM SEM+T

tps de calcul 1,00 2,57 2,56 48,89 33,00taux de classif 84,72 82,80 87,24 78,68 78,96

’moyens’

30/37


Conclusions

Nous avons étudié empiriquement les performances del’arbre couvrant de poids maximal et introduit laméthode pour son apprentissage à partir de basesd’exemples incomplètes.

Bases d’exemples complètes ou incomplètes :Donne un bon résultat lorsque la taille de la based’exemples est faible.Donne un bon résultat lorsque le taux de donnéesmanquantes est élevé.Est très stable par rapport à la taille de la based’exemple.Est très stable par rapport au taux de donnéesmanquantes.

31/37


Conclusions

Nous avons étudié empiriquement la pertinenced’initialiser des méthodes gloutonnes avec un arbrecouvrant de poids maximal.Bases d’exemples complètes ou incomplètes :

Augmente les performances et la stabilité del’algorithme K2.Augmente la stabilité et diminue le temps de calculde la méthode GS pour des performanceséquivalentes ou légèrement meilleures.

32/37


Conclusions

Nous avons généralisé la méthode TAN aux basesd’exemples incomplètes.

Bases d’exemples incomplètes :Très bonnes performances en classification.Temps d’apprentissage très court.

33/37


Conclusions

Nous avons introduit un formalisme de modélisation desdonnées manquantes.

Formalisme génératif.Aisé à comprendre pour les données MCAR et MAR.Complexe algorithmiquement lorsque le nombred’attributs augmente (→ inférence approchée).

. . .Et diffusé le code de toutes les fonctions utilisées.

34/37


Perspectives à court terme

Données ComplètesTester plus de méthodes(notamment les méthodes mixtes IC/score etcelles d’identification de la frontière de Markov).Mettre en œuvre certaines méthodes pour les basesmixtes.Adapter les méthodes d’apprentissage àl’identification de la causalité entre les attributs,

Génération de basesMettre en œuvre la méthode aux données mixtes.

35/37


Perspectives à court terme

Apprentissage avec données incomplètes(en cours) Etendre MWST-EM à la recherche deforêts optimales → Forest-EM.Etendre à la recherche de structure optimale avec unnombre de parents fixé (> 1).(en cours) Etendre SEM à la recherche dans l’espacedes équivalents de Markov → GES-EM.(en cours) Tester Forest-EM(en cours) Tester FAN-EM en classification.Généraliser TAN-EM et FAN-EM au non-supervisé.

36/37


Perspectives à plus long terme

ApprentissageAdapter les méthodes à base de tests statistiques auxbases incomplètes.Etendre ces méthodes d’apprentissage aux RBD.Etendre les méthodes d’apprentissage auxdiagrammes d’influence.(bientôt) Etendre les méthodes d’apprentissage auxPOMDP (processus de décision markoviens).(bientôt) Permettre une prise en compted’information experte plus simplement.Permettre un apprentissage incrémental/adaptatifpour les bases non stationnaires.Passer aux modèles partiellement orientés.

37/37


Revues :Leray, P. et François, O. : Réseaux Bayésiens pour laClassification - Méthodologie et Illustration dans lecadre du Diagnostic Médical, Revue d’IntelligenceArtificielle, ISBN : 2-7462-0912-8, vol. 18, no 2/2004, pp169-193, 2004

François, O. et Leray, P. : Etude Comparatived’Algorithmes d’Apprentissage de Structure dans lesRéseaux Bayésiens, Journal électronique d’intelligenceartificielle, vol. 5, no 39, pp1–19, 2004. Best paper de RJCIA’03.

Conférences internationales :François, O.C.H et Leray, P. : Learning the TreeAugmented Naive Bayes Classifier from incompletedatasets, Proceedings of the Third European Workshop onProbabilistic Graphical Models (PGM’06), Prague, Czech Republic,ISBN : 80-86742-14-8, pp91-98, 2006.

Leray, P. et François, O. : Bayesian Network StructuralLearning and Incomplete Data, International andInterdisciplinary Conference on Adaptive KnowledgeRepresentation and Reasoning (AKRR’05), pp33-40, Finland, 2005.

Conférences nationales :François, O. et Leray, P. : Apprentissage de structuredans les réseaux bayésiens et données incomplètes,journées Extraction et Gestion de Connaissances (Best paper deEGC’05), Revue des Nouvelles Technologies de l’Information(RNTI-E-3), Cépaduès Ed., ISBN : 2-85428-677-4, pp127–132, 2005,

François, O. et Leray, P. : Evaluation d’algorithmesd’apprentissage de structure pour les réseauxbayésiens, 14ieme Congrès francophone de Reconnaissancedes formes et d’Intelligence artificielle (RFIA’04), pp1453-1460, 2004.

Autre publication :Leray, P. et François, O. : BNT Structure LearningPackage : Documentation and Experiments, Rapporttechnique du Laboratoire PSI, INSA de Rouen, no 2004/PhLOF, 2004.

http://bnt.insa-rouen.fr/

Merci pour votre attention.Questions ?

Remarques ?Suggestions ?

http://bnt.insa-rouen.fr/