1/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
De l’identification de structure de réseaux bayésiensà la reconnaissance de formes
à partir d’informations complètes ou incomplètes
Olivier FRANÇOIS
Encadrant : Philippe LERAY
Directeur : Stéphane CANU
Laboratoire LITIS , Rouen
présenté le mardi 28 novembre 2006
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
Perdue
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
Perdue
Electronique
positionnementGaliléo
Système de
Agenda
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
Perdue
Electronique
positionnementGaliléo
Système de
Agenda
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
Perdue
Electronique
positionnementGaliléo
Système de
Agenda
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau Conseil
2/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau Conseil
3/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Définition d’un Réseau Bayésien
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
FaibleNormalElevé
FaibleNormaleForte
FaibleNormalElevé
Non agoisséeAngoissée
OuiNon
Ne rien faireAfficher la carte
Afficher l’agenda
CommerceRue
SoinsFamilleDomicile
(Lieu ; tranche horraire)
Conseil
3/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Définition d’un Réseau Bayésien
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau Conseil
4/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure : Pourquoi ?
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
FaibleNormalElevé
FaibleNormaleForte
FaibleNormalElevé
Non agoisséeAngoissée
OuiNon
Ne rien faireAfficher la carte
Afficher l’agenda
CommerceRue
SoinsFamilleDomicile
(Commerce ; 9H−9H30)
Conseil
4/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure : Pourquoi ?
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
FaibleNormalElevé
FaibleNormaleForte
FaibleNormalElevé
Non agoisséeAngoissée
OuiNon
Ne rien faireAfficher la carte
Afficher l’agenda
CommerceRue
SoinsFamilleDomicile
(Commerce ; 9H−9H30)
0.5 −> 0.010.1 −> 0.990.4 −> 0.00Conseil
4/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure : Pourquoi ?
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau
FaibleNormalElevé
FaibleNormaleForte
FaibleNormalElevé
Non agoisséeAngoissée
OuiNon
Ne rien faireAfficher la carte
Afficher l’agenda
CommerceRue
SoinsFamilleDomicile
(Commerce ; 9H−9H30)
0.5 −> 0.010.1 −> 0.990.4 −> 0.00
0.2 −> 0.99
Conseil
4/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure : Pourquoi ?
Etat Emotionnel
PerdueRythme
respiratoire
Rythmecardiaque Electronique
positionnementGaliléo
Système de
Agenda
Conductivitéde la peau Conseil
5/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Plan de l’exposé
Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.
Utilisation de Benchmarks existants (jouets ou réels)
Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.
Utilisation de Benchmarks existants (jouets ou réels)
Génération de bases d’exemples incomplètes
5/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Plan de l’exposé
Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.
Utilisation de Benchmarks existants (jouets ou réels)
Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.
Utilisation de Benchmarks existants (jouets ou réels)
Génération de bases d’exemples incomplètes
5/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Plan de l’exposé
1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats
2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM
3) Conclusion et Perspectives
6/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure
Deux classes d’algorithmes :
Méthodes à base de contraintesUtiliser des tests statistiques pour identifier lesindépendances conditionnelles des attributs et endéduire une structure.→ test du χ2
→ test du rapport devraisemblance
→ information mutuelle
→ étude des corrélations. . .
Méthodes à base de scoreMaximiser une mesure/approximation dela vraisemblance marginale dans un espace destructures.→ scores BD, BDe, BDeu
→ critères AIC et BIC
→ M inimum Description Length
→ approximation de Laplace aun-ième ordre
→ AICc, ICL . . .
7/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Espaces de recherche
Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace
nDAG(n) = n2O(n)
nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018
Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents
espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)
→ CPDAG : représentants ’minimaux’ des classes d’équivalence
7/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Espaces de recherche
Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace
nDAG(n) = n2O(n)
nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018
Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents
espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)
→ CPDAG : représentants ’minimaux’ des classes d’équivalence
8/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure à partir de données complètes
Méthodestestées
Espaces An
Co
ntra
inte
s PC CPDAG 93
BNPC CPDAG 02
Sco
res
MWST arbres 94K2 ordre fixe 92
GS DAG 95GES CPDAG 02
8/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Apprentissage de structure à partir de données complètes
Méthodestestées
Espaces An Autres mé-thodes
An
Co
ntra
inte
s PC CPDAG 93 IC/IC* 93,00FCI/QFCI/AFCI 00,03,06
BNPC CPDAG 02 RAI 05MFC 06
Sco
res
MWST arbres 94K2 ordre fixe 92 MCMC 00
Fourmis 02GS DAG 95 Algos G 04,06GES CPDAG 02 K2+GSno+GES 06
Co
nt.
CPDAG Grow-Shrink 03MaxMin HillC 05
9/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Problèmes d’initialisation : K2
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
9/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Problèmes d’initialisation : K2
Orig.
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
MWST
K2+T
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
K2-T
10/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Problèmes d’initialisation : Greedy Search
Orig.
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
GS
MWST
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
GS+T
10/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Problèmes d’initialisation : Greedy Search
Orig.
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
6s
0, 2s
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
Rythme respiratoire
Rythme cardiaque
Conductivite de la peau
Perdue
Etat emotionnel
GPS
Agenda
Decision
2, 5s
11/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Des réseaux et des tests. . .
2
1
3
4 65
1
2
4
53
1 2 3
4
6
75
X
A S
BLT
E
D
SocioEcon
GoodStudent RiskAversion
VehicleYear MakeModel
AntiTheft HomeBase
OtherCar
Age
DrivingSkill
SeniorTrain
MedCost
DrivQuality DrivHistRuggedAuto AntilockCarValue Airbag
Accident
ThisCarDam OtherCarCost ILiCost
ThisCarCost
Cushioning
Mileage
PropCost
Theft
→ retrouver ces structures à partir de bases de différentes tailles.314 problèmes synthétiques et 17 problèmes réels (UCI, Statlog).
Nous avons testé :
performances KLperformances distance d’édition
recherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calcul
11/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Des réseaux et des tests. . .
Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification
11/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Des réseaux et des tests. . .
Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification
12/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performances BIC
100 200 300 400 500 600 700 800 900 1000
−4.85
−4.8
−4.75
−4.7
−4.65
−4.6
−4.55
x 104
MWSTbicGESbic
12/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performances BIC
100 200 300 400 500 600 700 800 900 1000
−4.85
−4.8
−4.75
−4.7
−4.65
−4.6
−4.55
x 104
MWSTbicK2RndK2pTK2mTGESbic
1 exécution
Meilleur résultat pour 5 exécutions
1 exécution
12/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performances BIC
100 200 300 400 500 600 700 800 900 1000
−4.85
−4.8
−4.75
−4.7
−4.65
−4.6
−4.55
x 104
MWSTbicGSbic0GSbicTGESbic
13/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Le réseau Naïf
augmenté par un arbre (TAN)
Supposons que les attributs soient indépendants 2 à 2conditionnellement à la classe, alors
A B DC E F G
Classe [P(C=i)] i
[P(A=a|C=i)] a,i
13/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Le réseau Naïf augmenté par un arbre (TAN)
Supposons que les attributs NE soient PLUS indépendants 2 à 2conditionnellement à la classe, alors
A B DC E F G
Classe
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC 250s 95s
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
GES
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
GES
GS−BD
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
GES
GS−BD
GS+T−BD
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
GES
GS−BD
GS+T−BD
TAN−BIC
(17 prbs de UCI)
14/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Performance en classification
64 66 68 70 72 74 760.7
0.75
0.8
0.85
0.9
0.95
1
Taux de classification moyen
Sco
re B
IC n
orm
alis
e
PC
MWST BIC
K2 Rnd
NB
K2+T
K2−T
GS−BIC GS+T−BIC
GES
GS−BD
GS+T−BD
TAN−BIC
320s
1,5s
(17 prbs de UCI)
15/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Plan de l’exposé
1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats
2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM
3) Conclusion et Perspectives
16/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Réseaux Bayésiens et données incomplètes
- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.
- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.
Qu’en est-il pour l’apprentissage de structure ?
AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)
16/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Réseaux Bayésiens et données incomplètes
- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.
- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.
Qu’en est-il pour l’apprentissage de structure ?AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)
17/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Motivation
Vu précédement (RFIA’04)MWST : bon rapport complexité/performanceGS+T : permet de gagner en stabilitéSEM = GS avec BIC/MDL + EM
MWST-EM = MWST + EM
Le rapport complexité/perfs. de MWST-EM est-il bon ?MWST-EM est-t’il une bonne initialisation pour SEM ?−→ SEM+T
18/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Donner un score à partir d’une base incomplète
Soit S(M|Dc), un critère de score pour un modèle Met des données complètes Dc
Comment évaluer S lorsque la base est incomplète ?
D =< O, H >
Prendre l’espérance ?
QS(M|D) = EH∼P(H|O,µ)
[S(M|O, H)
]Mais la loi P(H|O, µ) est inconnue ! ! !
18/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Donner un score à partir d’une base incomplète
Utiliser un modèle ?
Principe EM : E. . .
Supposons que M0 a généré D
QS(M|D) ≈ QS(M : M0|D)= EH∼P(H|O,M0)
[S(M|O, H)
]= ∑
HS(M|O, H)P(H|O,M0)
Ou la loi a posteriori P(H|O,M0) est connue.
19/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Structural-EM
Principe EM : . . .et M
Choisir un modèle M0 (⇒ P(H|O,M0))
Trouver un modèle Mi+1 qui maximise∗∗
le score QS(M : Mi |D)
Utiliser le nouveau modèle comme référencepour l’itération suivante jusqu’à convergence.
∗∗ Mi+1 = {G i+1, Θi+1}Comment maximiser ?
20/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
algorithme MWST-EM détaillé
1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)
2: Répéter
3: j = 04: Répéter5: Θi ,j+1 = argmax
ΘQ(T i , Θ : T i , Θi ,j)
6: j = j + 17: Jusqu’à convergence de Θi ,j
8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors
9: T i+1 = argmaxT
Q(T , • : T i , Θi ,j)
10: Θi+1,0 = argmaxΘ
Q(T i+1, Θ : T i , Θi ,j)
11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai
O
0,0(T ,O )
T
0
20/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
algorithme MWST-EM détaillé
1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)
2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax
ΘQ(T i , Θ : T i , Θi ,j)
6: j = j + 17: Jusqu’à convergence de Θi ,j
8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors
9: T i+1 = argmaxT
Q(T , • : T i , Θi ,j)
10: Θi+1,0 = argmaxΘ
Q(T i+1, Θ : T i , Θi ,j)
11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai
O
0,0
0,j
(T ,O )
T
(T ,O )0
0
20/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
algorithme MWST-EM détaillé
1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)
2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax
ΘQ(T i , Θ : T i , Θi ,j)
6: j = j + 17: Jusqu’à convergence de Θi ,j
8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors
9: T i+1 = argmaxT
Q(T , • : T i , Θi ,j)
procédure de type Kruskal
10: Θi+1,0 = argmaxΘ
Q(T i+1, Θ : T i , Θi ,j)
11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai
O
0,0
0,j
(T ,O )
T
(T ,O )0
0
1 T
20/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
algorithme MWST-EM détaillé
1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)
2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax
ΘQ(T i , Θ : T i , Θi ,j)
6: j = j + 17: Jusqu’à convergence de Θi ,j
8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors
9: T i+1 = argmaxT
Q(T , • : T i , Θi ,j)
10: Θi+1,0 = argmaxΘ
Q(T i+1, Θ : T i , Θi ,j)
11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai
1,0(T ,O )
1
O
0,0
0,j
(T ,O )
T
(T ,O )0
0
20/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
algorithme MWST-EM détaillé
1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)
2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax
ΘQ(T i , Θ : T i , Θi ,j)
6: j = j + 17: Jusqu’à convergence de Θi ,j
8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors
9: T i+1 = argmaxT
Q(T , • : T i , Θi ,j)
10: Θi+1,0 = argmaxΘ
Q(T i+1, Θ : T i , Θi ,j)
11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai
2,0(T ,O )
2
2,j(T ,O )
2
1,0(T ,O )
1
O
0,0
1,j
0,j
(T ,O )
(T ,O )
T
(T ,O )
1
0
0
21/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Nos propositions MWST-EM et TAN-EM
SEM : le nouveau modèle est choisi parmis les voisins dugraphe courant.
→ nombreuses itérations
MWST-EM : nous trouvons le ’meilleur’ modèle dansl’espace des arbres. (AKRR’05), (EGC’05)
→ peu d’itérations
Utilisation d’une méthode de type ’Kruskal itératif’[MQ
ij
]i ,j
=[Qbic(Xi , Pi = {Xj} : T ∗)−Qbic(Xi , Pi = ∅ : T ∗)
]
22/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Nos propositions SEM+T et TAN-EM
SEM+T : le résultat de MWST-EM est utilisé pour initialiserSEM.
→ nombreuses itérations ?
TAN-EM : nous trouvons le ’meilleur’ Réseau NaïfAugmenté par un Arbre. (PGM’06)
→ peu d’itérations
[MQ
ij
]i ,j 6=C
=[Qbic(Xi , Pi = {Xj , C} : T ∗)−Qbic(Xi , Pi = {C} : T ∗)
]
23/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Bases générés pour tester les méthodes
2
1
3
4 65
1
2
4
53
1 2
3
5
4
1 2 3
4
6
75
2
61 3
4
5
7
9
8
10
11
2 3 6 5 10
7
1
4
8
9
2 3
1 4
5
6
7
8
9
10 11
1213 X
A S
BLT
E
D
?
?
??
?
?
aléatoire
possiblesarcs
Structure
1 i n
1 i n
i1 n
M M M
H H H
O OO
Taux de données manquantes : {0, 2; 0, 3; 0, 4; 0, 5},Tailles des bases d’exemples : {100; 200; 400; 600; 1000; 2000}.−→ 2160 problèmes MCAR synthétiques,−→ 2160 problèmes MAR sythétiques et 5 problèmes réels.
24/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Protocol de tests
Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.
sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .
24/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Protocol de tests
Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.
sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .
25/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :
0 0.5 1 1.5 2 2.50
0.5
1
1.5
2
2.5
EM
CC
A
95,7%
20% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T
25/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :
0 0.5 1 1.5 2 2.50
0.5
1
1.5
2
2.5
EM
CC
A
77,2%
30% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T
25/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
EM
AC
A
30% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T
25/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :
0 0.5 1 1.5 2 2.50
0.5
1
1.5
2
2.5
EM
AC
A
40% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T
25/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
EM
AC
A
50% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T
26/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
performances KL
20 25 30 35 40 45 500
0.2
0.4
Taux de donnes manquantes
Div
erg
en
ce
de
KL
mo
ye
nn
e
MWST−ACAGS−ACAGS+T−ACAMWST−EMSEMSEM+T
27/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Le réseau Naïf
Supposons que la classe a une influence sur toutes les variables,mais indépendamment
A B DC E F G
Classe [P(C=i)] i
[P(A=a|C=i)] a,i
Ce qu’il est possible de faire :
l’apprentissage des paramètres avec DI (par ex. avec EM),
l’inférence avec des Données Incomplètes.
etsi l’on veut ajouter ces dépendances automatiquement ?
−→ TAN-EM
27/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Le réseau Naïf
Supposons que la classe a une influence sur toutes les variables,mais plus indépendamment
A B DC E F G
Classe
Ce qu’il est toujours possible de faire :
l’apprentissage des paramètres avec DI (par ex. avec EM),
l’inférence avec des Données Incomplètes.
etsi l’on veut ajouter ces dépendances automatiquement ?
−→ TAN-EM
28/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Résultats en classification
N N app N test #C %EIHepatitis 20 90 65 2 8.4
House 17 290 145 2 46.7Horse 28 300 300 2 88.0
Thyroid 22 2800 972 2 29.9Mushrooms 23 5416 2708 2 30.5
65 70 75 80 85 90 95 100
0.7
0.75
0.8
0.85
0.9
0.95
1
NB−EMMWST−EMTAN−EMSEMSEM+T
29/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Temps de calculs
NB-EM MWST-EM TAN-EM SEM SEM+T
tps de calcul 1,00 2,57 2,56 48,89 33,00taux de classif 84,72 82,80 87,24 78,68 78,96
’moyens’
30/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Conclusions
Nous avons étudié empiriquement les performances del’arbre couvrant de poids maximal et introduit laméthode pour son apprentissage à partir de basesd’exemples incomplètes.
Bases d’exemples complètes ou incomplètes :Donne un bon résultat lorsque la taille de la based’exemples est faible.Donne un bon résultat lorsque le taux de donnéesmanquantes est élevé.Est très stable par rapport à la taille de la based’exemple.Est très stable par rapport au taux de donnéesmanquantes.
31/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Conclusions
Nous avons étudié empiriquement la pertinenced’initialiser des méthodes gloutonnes avec un arbrecouvrant de poids maximal.Bases d’exemples complètes ou incomplètes :
Augmente les performances et la stabilité del’algorithme K2.Augmente la stabilité et diminue le temps de calculde la méthode GS pour des performanceséquivalentes ou légèrement meilleures.
32/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Conclusions
Nous avons généralisé la méthode TAN aux basesd’exemples incomplètes.
Bases d’exemples incomplètes :Très bonnes performances en classification.Temps d’apprentissage très court.
33/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Conclusions
Nous avons introduit un formalisme de modélisation desdonnées manquantes.
Formalisme génératif.Aisé à comprendre pour les données MCAR et MAR.Complexe algorithmiquement lorsque le nombred’attributs augmente (→ inférence approchée).
. . .Et diffusé le code de toutes les fonctions utilisées.
34/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Perspectives à court terme
Données ComplètesTester plus de méthodes(notamment les méthodes mixtes IC/score etcelles d’identification de la frontière de Markov).Mettre en œuvre certaines méthodes pour les basesmixtes.Adapter les méthodes d’apprentissage àl’identification de la causalité entre les attributs,
Génération de basesMettre en œuvre la méthode aux données mixtes.
35/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Perspectives à court terme
Apprentissage avec données incomplètes(en cours) Etendre MWST-EM à la recherche deforêts optimales → Forest-EM.Etendre à la recherche de structure optimale avec unnombre de parents fixé (> 1).(en cours) Etendre SEM à la recherche dans l’espacedes équivalents de Markov → GES-EM.(en cours) Tester Forest-EM(en cours) Tester FAN-EM en classification.Généraliser TAN-EM et FAN-EM au non-supervisé.
36/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Perspectives à plus long terme
ApprentissageAdapter les méthodes à base de tests statistiques auxbases incomplètes.Etendre ces méthodes d’apprentissage aux RBD.Etendre les méthodes d’apprentissage auxdiagrammes d’influence.(bientôt) Etendre les méthodes d’apprentissage auxPOMDP (processus de décision markoviens).(bientôt) Permettre une prise en compted’information experte plus simplement.Permettre un apprentissage incrémental/adaptatifpour les bases non stationnaires.Passer aux modèles partiellement orientés.
37/37
Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion
Revues :Leray, P. et François, O. : Réseaux Bayésiens pour laClassification - Méthodologie et Illustration dans lecadre du Diagnostic Médical, Revue d’IntelligenceArtificielle, ISBN : 2-7462-0912-8, vol. 18, no 2/2004, pp169-193, 2004
François, O. et Leray, P. : Etude Comparatived’Algorithmes d’Apprentissage de Structure dans lesRéseaux Bayésiens, Journal électronique d’intelligenceartificielle, vol. 5, no 39, pp1–19, 2004. Best paper de RJCIA’03.
Conférences internationales :François, O.C.H et Leray, P. : Learning the TreeAugmented Naive Bayes Classifier from incompletedatasets, Proceedings of the Third European Workshop onProbabilistic Graphical Models (PGM’06), Prague, Czech Republic,ISBN : 80-86742-14-8, pp91-98, 2006.
Leray, P. et François, O. : Bayesian Network StructuralLearning and Incomplete Data, International andInterdisciplinary Conference on Adaptive KnowledgeRepresentation and Reasoning (AKRR’05), pp33-40, Finland, 2005.
Conférences nationales :François, O. et Leray, P. : Apprentissage de structuredans les réseaux bayésiens et données incomplètes,journées Extraction et Gestion de Connaissances (Best paper deEGC’05), Revue des Nouvelles Technologies de l’Information(RNTI-E-3), Cépaduès Ed., ISBN : 2-85428-677-4, pp127–132, 2005,
François, O. et Leray, P. : Evaluation d’algorithmesd’apprentissage de structure pour les réseauxbayésiens, 14ieme Congrès francophone de Reconnaissancedes formes et d’Intelligence artificielle (RFIA’04), pp1453-1460, 2004.
Autre publication :Leray, P. et François, O. : BNT Structure LearningPackage : Documentation and Experiments, Rapporttechnique du Laboratoire PSI, INSA de Rouen, no 2004/PhLOF, 2004.
http://bnt.insa-rouen.fr/
Merci pour votre attention.Questions ?
Remarques ?Suggestions ?