86
Outils de clustering diachronique pour analyser l’´ evolution de la production scientifique Nicolas Dugu ´ e-S´ eminaire SYNALP 1 juillet 2016

Outils de clustering diachronique pour analyser ́ l’ evolution de la production scientifique

Embed Size (px)

Citation preview

Page 1: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

Outils de clustering diachronique pour analyserl’evolution de la production scientifique

Nicolas Dugue - Seminaire SYNALP

1 juillet 2016

Page 2: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Contexte

Projet ISTEX

Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.

2/38N. Dugue

Page 3: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Contexte

Projet ISTEX

Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.

2/38N. Dugue

Page 4: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Contexte

Projet ISTEX

Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.

→ Outils pour explorer, fouiller la base de publications : ISTEX-R.

2/38N. Dugue

Page 5: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Contexte

Projet ISTEX

Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.

ISTEX-RSuivre l’evolution de la recherche dans un domaine ;

2/38N. Dugue

Page 6: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.

3/38N. Dugue

Page 7: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.

3/38N. Dugue

Page 8: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.

3/38N. Dugue

Page 9: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Analyse diachronique : Pourquoi ?

Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.

3/38N. Dugue

Page 10: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Analyse diachronique : Pourquoi ?

Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.

3/38N. Dugue

Page 11: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Analyse diachronique : Pourquoi ?

Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.

3/38N. Dugue

Page 12: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Analyse diachronique : Pourquoi ?

Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.

3/38N. Dugue

Page 13: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.

3/38N. Dugue

Page 14: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.

3/38N. Dugue

Page 15: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.

3/38N. Dugue

Page 16: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.

3/38N. Dugue

Page 17: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Methodologie non supervisee

Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.

3/38N. Dugue

Page 18: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Methodologie non supervisee

Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.

3/38N. Dugue

Page 19: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Methodologie non supervisee

Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.

3/38N. Dugue

Page 20: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Methodologie non supervisee

Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.

3/38N. Dugue

Page 21: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique

Methodologie non supervisee

Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.

3/38N. Dugue

Page 22: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

4/38N. Dugue

Page 23: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Feature F-MesureIntuitive ;Interpretable ;Contexte supervise : Selection de variables [LC14] ;Contexte non supervise : Etiquetage de clusters [LFG15] ;Sans parametre.

5/38N. Dugue

Page 24: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Un exemple supervise

Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F

6/38N. Dugue

Page 25: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Representativite Versus Typicite

FPc(f )=W f

cWc→ representativite, dominance

7/38N. Dugue

Page 26: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Representativite Versus Typicite

FPc(f )=W f

cWc→ representativite, dominance

FRc(f )=W f

cW f → typicite, saillance

7/38N. Dugue

Page 27: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Representativite Versus Typicite

FPc(f )=W f

cWc→ representativite, dominance

FRc(f )=W f

cW f → typicite, saillance

FF la moyenne harmonique.

7/38N. Dugue

Page 28: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Un exemple supervise

Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F

W TaillePiedsM = 27

8/38N. Dugue

Page 29: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Un exemple supervise

Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F

W TaillePiedsM = 27

W TaillePieds = 43

8/38N. Dugue

Page 30: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Un exemple supervise

Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F

W TaillePiedsM = 27

W TaillePieds = 43

WM = 78

FRM(TaillePieds) =2743

FPM(TaillePieds) =2778

8/38N. Dugue

Page 31: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Selection de variables

Sc ={

f ∈ F |FFc(f ) > FF (f ),FFc(f ) > FF}

avecFF (f ) F-Mesure moyenne de fFF la F-Mesure moyenne

9/38N. Dugue

Page 32: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Selection de variables

Taille Pieds Longueur Cheveux Taille Nez0.46 0.39 0.3 FFM(f )0.22 0.66 0.24 FFF (f )

0.34 0.53 0.27 FF (f )

0.38 FF

→ Taille du nez pas selectionnee

10/38N. Dugue

Page 33: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Selection de variables : Contraste

Gc(f ) =FFc(f )FF (f )

Gc(f ) > 1→ f est active pour le cluster cGc(f ) < 1→ f est passive pour le cluster c

11/38N. Dugue

Page 34: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

12/38N. Dugue

Page 35: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Discours des presidents Chirac et Mitterrand : DEFT’05 challenge

73255 phrases de J. Chirac11320 phrases de F. Mitterrand

→ Identifier les phrases de Mitterrand dans un texte sans noms niannees.

13/38N. Dugue

Page 36: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Chirac VS Mitterrand : le challenge

14/38N. Dugue

Page 37: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

15/38N. Dugue

Page 38: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;

Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;

Qualite de clustering.

16/38N. Dugue

Page 39: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;

Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;

Qualite de clustering.

16/38N. Dugue

Page 40: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;

Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;

Qualite de clustering.

16/38N. Dugue

Page 41: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

17/38N. Dugue

Page 42: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering

Indice de DunnMaximiser

min1≤i<j≤k dist(Ci ,Cj)

maxm=1,··· ,k diamDU(Cm)

18/38N. Dugue

Page 43: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering

Indice de DunnMaximiser

min1≤i<j≤k dist(Ci ,Cj)

maxm=1,··· ,k diamDU(Cm)

Davis BouldinMinimiser

1k

k∑i=1

maxj=1,··· ,k ;i 6=j

{diamDB(ci) + diamDB(cj)

DistDB(Ci ,Cj)}

18/38N. Dugue

Page 44: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering

Compacite des clusters ;

Bonne separaration des cluster ;

Distance Euclidienne ;

Distance aux centroides ;

18/38N. Dugue

Page 45: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering

Compacite des clusters ;

Bonne separaration des cluster ;

Distance Euclidienne ;

Distance aux centroides ;

18/38N. Dugue

Page 46: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering

Controler qualite de la partition en fonction de l’etiquetage :Clusters compacts et separes : partagent les memes featuressaillantes ;

PC =1k

k∑i=1

1ni

∑f∈Si

Gi(f )

Clusters compacts et tres separes : Features actives dans uncluster, passives dans les autres.

18/38N. Dugue

Page 47: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clusteringControler qualite de la partition en fonction de l’etiquetage :

Clusters compacts et separes : partagent les memes featuressaillantes ;

PC =1k

k∑i=1

1ni

∑f∈Si

Gi(f )

Clusters compacts et tres separes : Features actives dans uncluster, passives dans les autres.

EC =1k

k∑i=1

|si |ni

∑f∈Si

Gi(f ) +|si |ni

∑h∈Si

1Gi (h)

|si |+ |si |

18/38

N. Dugue

Page 48: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

19/38N. Dugue

Page 49: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Qualite de clustering pour la diachronie

TABLE : Jeux de donnees de faible dimension

IRIS IRIS-b WINE PEN SOYNbr. class 3 3 3 10 16Nbr data 150 150 178 10992 292Nbr feat. 4 12 13 16 84

TABLE : Jeux de donnees de dimension moyenne a elevee

ZOO VRBF R8 R52Nbr. class 7 12-16 8 52Nbr data 101 2183 7674 9100Nbr feat. 114 231 3497 7369

20/38N. Dugue

Page 50: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Resultats

Meilleurs resultats obtenus avec K-Means, GNG [F+95],IGNG-F [LFG15] de k=2 a k=3·Nb class

TABLE : Resultats sur donnees en basse dimension.

IRIS IRIS-b WINE PEN SOYDB 2 5 5 7 19 2/5CH 2 3 6 8 5 1/5DU 1 1 8 17 8 0/5SI 4 2 7 14 14 1/5PC 3 3 4 9 16 4/5EC 3 3 4 9 16 4/5

MaxP 3 3 5 11 19Nbr. class 3 3 3 10 16

21/38N. Dugue

Page 51: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Resultats

Meilleurs resultats obtenus avec K-Means, GNG [F+95],IGNG-F [LFG15] de k=2 a k=3·Nb class

TABLE : Resultats sur donnees en dimension elevee.

ZOO VRBF R8 R52DB 8 -out- 5 58 1/4CH 4 7 6 -out- 1/4DU 8 2 -out- -out- 1/4SI 4 -out- -out- 54 1/4PC 7 18 -out- -out- 1/4EC 7 15 6 52 4/4

MaxP 10 12-16 6 50-55Nbr. class 7 12-16 8 52

21/38N. Dugue

Page 52: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Resultats

FIGURE : Valeur d’EC et PC sur Reuters 52

21/38N. Dugue

Page 53: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Resultats

TABLE : Resultats sur donnees ZOO bruitees : 7 classes de reference.

ZOOZOONoise10%

ZOONoise20%

ZOONoise30%

DB 8 4 3 3 1/4CH 4 5 3 3 0/4DU 8 2 2 2 1/4SI 14 -out- -out- -out- 0/4PC 6 4 11 9 1/4EC 7 5 6 9 2/4

MaxP 10 7 10 10

21/38N. Dugue

Page 54: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Resultats

FIGURE : Valeurs d’EC sur ZOO et ZOO bruites

21/38N. Dugue

Page 55: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

EC efficace en basse et haute dimension ;

EC moins sensible aux donnees bruitees ;

Independant de la methode de clustering utilisee ;

Particulierement adapte pour l’etiquetage ;

TODO : Sensibilite a chevauchement, sparsite ?

22/38N. Dugue

Page 56: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

EC efficace en basse et haute dimension ;

EC moins sensible aux donnees bruitees ;

Independant de la methode de clustering utilisee ;

Particulierement adapte pour l’etiquetage ;

TODO : Sensibilite a chevauchement, sparsite ?

22/38N. Dugue

Page 57: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

EC efficace en basse et haute dimension ;

EC moins sensible aux donnees bruitees ;

Independant de la methode de clustering utilisee ;

Particulierement adapte pour l’etiquetage ;

TODO : Sensibilite a chevauchement, sparsite ?

22/38N. Dugue

Page 58: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

EC efficace en basse et haute dimension ;

EC moins sensible aux donnees bruitees ;

Independant de la methode de clustering utilisee ;

Particulierement adapte pour l’etiquetage ;

TODO : Sensibilite a chevauchement, sparsite ?

22/38N. Dugue

Page 59: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Dans un contexte non supervise

EC efficace en basse et haute dimension ;

EC moins sensible aux donnees bruitees ;

Independant de la methode de clustering utilisee ;

Particulierement adapte pour l’etiquetage ;

TODO : Sensibilite a chevauchement, sparsite ?

22/38N. Dugue

Page 60: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

23/38N. Dugue

Page 61: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Propager l’activation d’un cluster a d’autres clusters via leursetiquettes

P(t |s) =∑

f∈Ss∩StFFt(f )∑

f∈StFFt(f )

24/38N. Dugue

Page 62: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Propager l’activation d’un cluster a d’autres clusters via leursetiquettes

P(t |s) =∑

f∈Ss∩StFFt(f )∑

f∈StFFt(f )

P( gr1 | red ) =22

P( gr2 | red ) =11

24/38N. Dugue

Page 63: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Propager l’activation d’un cluster a d’autres clusters via leursetiquettes

P(t |s) =∑

f∈Ss∩StFFt(f )∑

f∈StFFt(f )

P( red | gr1 ) =23

24/38N. Dugue

Page 64: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Calculer les activations moyennes :

D’un cluster

PA(s) =1

|Env(s)|∑

t∈Env(s)

P(t |s)

D’une partition

As =1|S|

∑s∈S

PA(s)

25/38N. Dugue

Page 65: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Clusters similaires si :

Dans un sens...

P(t |s) > PA(s) et P(t |s) > As + σs

... et dans l’autre !

P(s|t) > PA(t) et P(s|t) > At + σt

26/38N. Dugue

Page 66: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Raisonnement bayesien pour l’analysediachronique

Methode sans parametres pour detecter :Clusters similaires ;

Clusters qui se separent ;

Clusters qui fusionnent.

27/38N. Dugue

Page 67: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

28/38N. Dugue

Page 68: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Corpus VieillissementPresque 10.000 documents ;Lies a la thematique du vieillissement, gerontologie ;3 periodes : de 1996 a 2010

Demonstrateurhttps://github.com/nicolasdugue/istex-demonstrateur

Demonstrateurhttp://localhost:3000/

29/38N. Dugue

Page 69: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Plan

1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise

2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation

3 Analyse diachronique [DLC16b]

4 Visualisation [DLC16a]

5 Conclusion et integration

30/38N. Dugue

Page 70: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Conclusion

1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;

31/38N. Dugue

Page 71: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Conclusion

1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;

2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]

31/38N. Dugue

Page 72: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Conclusion

1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;

2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]

3 Raisonnement BayesienPropager l’activation d’un cluster a d’autres clusters via leursetiquettes [DLC16b]

31/38N. Dugue

Page 73: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Conclusion

1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;

2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]

3 Raisonnement BayesienPropager l’activation d’un cluster a d’autres clusters via leursetiquettes [DLC16b]

1 + 2 + 3 + Visu = Analyse diachronique [DLC16a]

31/38N. Dugue

Page 74: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Conclusion

Outil Java/Python : Feature F-Mesure et Mesures de qualite ;

Outil Javascript : Visualisation [DLC16a].

→ https://github.com/nicolasdugue/

32/38N. Dugue

Page 75: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Perspectives

Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;

Resume automatique avec Feature F-Mesure ;

Algorithme agglomeratif pour optimiser EC ou PC ?

33/38N. Dugue

Page 76: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Perspectives

Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;

Resume automatique avec Feature F-Mesure ;

Algorithme agglomeratif pour optimiser EC ou PC ?

33/38N. Dugue

Page 77: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION

Perspectives

Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;

Resume automatique avec Feature F-Mesure ;

Algorithme agglomeratif pour optimiser EC ou PC ?

33/38N. Dugue

Page 78: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References I

[CFR11] Dominique Cardon, Guilhem Fouetillou, and Camille Roth.Two paths of glory-structural positions and trajectories of websiteswithin their topical territory.In ICWSM, 2011.

[DLC16a] Nicolas Dugue, Jean-Charles Lamirel, and Pascal Cuxac.Keep track of your clusters !In Research Challenges in Information Science (RCIS), 2016.

[DLC16b] Nicolas Dugue, Jean-Charles Lamirel, and Pascal Cuxac.Visualisation pour la detection d’evolution dans des corpus depublications scientifiques.In Les Cahiers Du Numerique, 2016.

33/38N. Dugue

Page 79: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References II

[DTCL15] Nicolas Dugue, Ali Tebbakh, Pascal Cuxac, and Jean-charlesLamirel.

Feature selection and complex networks methods for an analysisof collaboration evolution in science : an application to the istexdigital library.

In ISKO-MAGHREB, 2015.

[F+95] Bernd Fritzke et al.

A growing neural gas network learns topologies.

Advances in neural information processing systems, 7 :625–632,1995.

34/38N. Dugue

Page 80: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References III

[FGL12] Ingrid Falk, Claire Gardent, and Jean-Charles Lamirel.Classifying french verbs using french and english lexical resources.

In Association for Computational Linguistics : Long Papers-Volume1, pages 854–863, 2012.

[LC14] J. C. Lamirel and P. Cuxac.Improving textual data classification and discrimination using anad-hoc metric : Application to a famous text discriminationchallenge.In ISKO-Maghreb : Concepts and Tools for knowledgeManagement, pages 1–6, 2014.

35/38N. Dugue

Page 81: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References IV

[LDC16] Jean-Charles Lamirel, Nicolas Dugue, and Pascal Cuxac.

New efficient clustering quality indices.

In International Joint Conference on Neural Networks (IJCNN),2016.

Soumis.

[LFG15] Jean-Charles Lamirel, Ingrid Falk, and Claire Gardent.

Federating clustering and cluster labelling capabilities with a singleapproach based on feature maximization : French verb classesidentification with igngf neural clustering.

Neurocomputing, 147 :136–146, 2015.

36/38N. Dugue

Page 82: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References V

[LTA08] Jean-Charles Lamirel, Anh Phuong Ta, and Mohammed Attik.Novel labeling strategies for hierarchical representation ofmultidimensional data analysis results.In IASTED International Conference on Artificial Intelligence andApplications (AIA), Innsbruck, Austria, 2008.

[OPC13] Elisa Omodei, Thierry Poibeau, and Jean-Philippe Cointet.A symmetric approach to understand the dynamics of scientificcollaborations and knowledge production.In 4e conference sur les modeles et l’analyse des reseaux :Approches mathematiques et informatiques, pages 10–p, 2013.

[Per13] Maria-Pilar Perea.Dynamic cartography with diachronic data : Dialectal stratigraphy.Literary and linguistic computing, 28(1) :147–156, 2013.

37/38N. Dugue

Page 83: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

References VI

[TF15] Roberto Theron and Laura Fontanillo.

Diachronic-information visualization in historical dictionaries.

Information Visualization, 14(2) :111–136, 2015.

38/38N. Dugue

Page 84: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

Resume automatique

38/38N. Dugue

Page 85: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

Resume automatique

38/38N. Dugue

Page 86: Outils de clustering diachronique pour analyser  ́ l’ evolution de la production scientifique

Resume automatique

38/38N. Dugue