29
Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France

Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Embed Size (px)

Citation preview

Page 1: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Journée des Treillis Lorrains

Nancy, France – Décembre 2008

Nathalie Girard

Encadrantes : Karell Bertet – Muriel Visani

Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France

Page 2: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

2

LIENS

Page 3: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

3

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Quantitatives Qualitatives

Ordinales Sur une échelle tailles

S/M/L/XL

NominalesFemme

/ Homme

Nombre de modalités

Infini Dénombrable Dénombrable

Relations d’ordre sur les

modalités

OUI Écarts

quantifiablesNON

OUIEcarts non

quantifiables

Exhaustive / Continue

À valeur dans ℝNb exemples

=Nb modalités

Nb exemples =

Nb modalités

Discrète À valeur dans ℕNb exemples

<Nb modalités

Nb exemples <

Nb modalités

Page 4: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

A partir d’une base de données construction d’une table objets/attributs

Méthode utilisée => mise en forme de la table :

◦ Discrétisation des variables continues Ex : intervalles de valeurs

◦ Codage disjonctif (complet ou non) Variables discrètes = Variables à deux modalités (V/F)

4

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Changements de type

Page 5: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

O

I CLASSE

a b ca1[0-3]

a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

O

I CLASSE

a b C

1 [0-3] [0-4] [11-20]S1

2 [0-3] [0-4] [11-20]

3 [0-3] [12-20] [11-20]

S24 [0-3] [12-20] [11-20]

5 [0-3] [12-20] [11-20]

6 [6-20] [12-20] [11-20]

S37 [6-20] [12-20] [11-20]

8 [6-20] [12-20] [11-20]

9 [6-20] [0-4] [0-2]S4

10 [6-20] [12-20] [0-2]

OI

CLASSEa b c

1 1 0 14S1

2 3 3 17

3 3 16 15

S24 2 18 20

5 0 14 11

6 6 19 18

S37 8 13 16

8 20 12 11

9 15 4 0S4

10 17 15 2

Discrétisation des données continues

5

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

+ codage binaire

Page 6: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Méthode utilisée => Utilisation différente des données :

◦ Utilisation d’une partie des données pour l’apprentissage, de l’autre pour la validation

◦ Sélection d’attributs pertinents◦ Suppression des objets/données « aberrantes »◦ Transformation des attributs◦ Codage des données◦ …

6

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 7: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Objectif, pour les nouveaux objets : ◦ Inférer la variable à prédire

Une classe Une valeur pour un attributs …

Classifieurs statistiques◦ SVM, …

Classifieurs probabilistes◦ Bayésiens, …

Classifieurs symboliques◦ Arbre de décision◦ Treillis de Galois◦ … 7

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 8: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

1. Défini à partir d’un ensemble de données2. Classifier avec un Arbre de Décision :

a. Nœud : test sur un attributb. Feuille : classe

3. Constructiona. De la racine (= O) aux feuillesb. Requiert deux critères

i. Critère de Division (supervisé ou non)ii. Critère d’arrêt (supervisé ou non)

4. Eventuellement, élagage

8

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 9: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

O

I CLASSE

a b ca1

[0-3]a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × × 9

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 10: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

10

Contexte C = (O,I,(f,g))

Prop : = f g est un opérateur de fermeture sur I

Le Treillis de Galois de C =(K, ≤)

avec:

(A,B) K f(A)=B et g(B)=A pour A O, B I,

(A,B) ≤ (A2,B2) A A2  B B2

O = { objets labélisés}I = {attributs}(f,g) = correspondance de Galois

K = {concepts}≤ = relation d’ordre entre concepts

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 11: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Treillis de Galois

Correspondance de Galois f(1) = {a1,b1,c2} g(b1) = {1, 2, 9}

Contexte / Table

OI

Classea1

[0-3]a2

[6-20]b1

[0-4]b2

[12-20]c1

[0-2]C2

[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

11

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Fermeture : (a1) = {a1, c2} = f(g(a1))

Page 12: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

12

Méthodes orientées Sélection

Méthodes orientées Navigation

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 13: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

NAVIGALA (Guillas, Bertet, Ogier, 2007)

1. Préparation des données : 1. Extraction de Signatures des images de symbole.2. Discrétisation supervisée des Signatures (contexte multi-valué)3. Séparation ensemble d’apprentissage/ensemble de validation

2. Apprentissage supervisé de l’ensemble de données :1. Génération du Treillis de Galois à partir de l’ensemble

d’apprentissage (aucun paramètre nécessaire)2. Labellisation de chaque concept terminal par sa classe

majoritaire 3. Etape de Reconnaissance – Ensemble de validation:

1. Classification des symboles de l’ensemble de validation par navigation dans le treillis par validation d’intervalles jusqu’à atteindre un concept terminal

2. Classification de nouveaux symboles bruités à partir de leur signature par navigation dans le treillis (comme dans un arbre de décision)

13

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 14: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

OI

Classea1

[0-3]a2

[6-20]b1

[0-4]b2

[12-20]c1

[0-2]C2

[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Nouvel objet

11 × × × ?

14

Objet 11

Classe 2

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 15: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

15

Plusieurs chemins dans le Treillis de Galois

Robustesse pour les images de données bruitées

Version bruitée de l’objet 11

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 16: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

16

LIENS

Page 17: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

17

Définition 1: Un treillis est dichotomique lorsque pour

tout concept (A1,B1) il existe un concept

V-complémentaire (A2,B2)

(A1,B1) (K, ≤), (A2,B2) (K, ≤) tel que

(A1,B1) (A2,B2) = (,I) = concept maximal

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 18: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

18

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

O

I CLASSE

a b ca1[0-3]

a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Page 19: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Contexte Dichotomique

Treillis Dichotomique

Complémentarité sur les Attributs (Kuznetsov04) : x I, ! x I tel que y O

f(y) = x ou f(y) = x

V-Complémentarité sur les Concepts : X I, X un ensemble d’attributs tel

que

g(X) g(X ) =

19

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 20: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

O

I CLASSE

a b ca1

[0-3]a2

[4-5]a3[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Complémentarité entre attributs : Non◦ Pour a1, a2, a3

Complémentarité entre concepts : Oui

◦ g(a1) g({a2,a3}) =

20

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 21: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Proposition 1:Chaque arbre de décision est inclus dans

le treillis dichotomique, lorsque les deux structures sont construites à

partir de la même table.

Points clés de la preuve :

21

Arbre de Décision Treillis Dichotomique

Deux nœuds différents N1, N2

Deux concepts différents (A1,B1), (A2,B2)

N1 est un prédécesseur de N2 (A2,B2) ≤ (A1,B1)

N1 n’est pas un prédécesseur de N2

(A2,B2) ≥ (A1,B1) et (A2,B2) ≤ (A1,B1)

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 22: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

22

N1

N2N3

N4 N7N6

N5

N1

N2

N3

N4 N5N6

N7

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 23: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Points clés de la preuve :1. Par construction d’un sous-arbre inclus dans le treillis

dichotomique2. Utilisation de la propriété de V-complémentarité

Proposition 2:Un treillis dichotomique est l’union de tout

les arbres de décision, lorsque les deux structures sont construites à partir de la

même table.

23

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 24: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

24

LIENS

Page 25: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

25

Arbres de Décision et Treillis de Galois sont utilisés comme des classifieurs.

Utilisation d’un treillis de Galois Robustesse avec les symboles bruités.

Résultats : liens structurels forts arbres de décision/treillis dichotomiques

Prop.1: Ti, Ti L

Prop.2: L = Ti

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 26: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Etude expérimentales dans un contexte de classification :

1. Considérer et comparer différents sous arbres pris dans le treillis selon différents critères :1. Le nombre de sous concept (J. Outrata)2. Le nombre d’objet d’un concept3. La hauteur/largeur de l’arbre4. …

2. Conception d'une nouvelle méthode de classification hybride alliant treillis dichotomiques et arbres de décision.

26

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 27: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Etude structurelle des treillis dichotomique :

1. Positionnement par rapport à des classes de treillis connues• => Extension du cadre d’application des liens de

fusion/inclusion à d’autres types de données

2. Possibilité de génération incrémentales (lié aux duplications?/discrétisation au fur et à mesure)

27

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 28: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

28

(Carpineto, Romano93) C. Capineto and G. Romano. Galois: An order-theoretic approach to conceptual clustering.In Proceedings of ICML’93, p33-40, Amherst, July 1993

(Liquière, Mephu-Nguifo90) M. Liquière and E. Mephu-Nguifo. LEGAL: Learning with Galois Lattice.In Actes des Journées Françaises sur l’Apprentissage (JFA), p93-113, Lannion, France, avril 1990.

(Oosthuizen88) G. Oosthuizen. The use of a lattice in Knowmedge Processing. PhD thesis, University of Strathclyde, Glasgow, 1988.

(Sahami95) M. Sahami. Learning classification rules using lattices . In Nada Lavrac and Stephan Wrobel, editors, Processing of ECML’95, p343-346, Heraclion, Crete,

Greece, April 1995.

(Kuznetsov04) S. Kuznetsov. Machine learning and formal concept analysis. Innovations in applied artificial intelligence :   Ottawa, 3029:287–312, 2004.

(Njiwoua, Mephu-Nguifo99) P. Njiwoua and E. Mephu-Nguifo. Améliorer l’apprentissage à partir d’instances grâce à l’induction de concepts : le système CIBLe.

Revue d’intelligence Artificielle (RIA), 13(2): 413-440, 1999, Hermès Science.

(Guillas, Bertet, Visani, Ogier, 2008) S. Guillas, K. Bertet, M. Visani, J.M. Ogier. A propos des liens entre arbre de décision et treillis dichotomique.

CIFED’2008, Rouen, France, Novembre 28-30 2008.

Page 29: Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I

Merci pour votre attention !