Upload
nicolas-dugue
View
56
Download
0
Embed Size (px)
Citation preview
Outils de clustering diachronique pour analyserl’evolution de la production scientifique
Nicolas Dugue - Seminaire SYNALP
1 juillet 2016
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Contexte
Projet ISTEX
Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.
2/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Contexte
Projet ISTEX
Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.
2/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Contexte
Projet ISTEX
Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.
→ Outils pour explorer, fouiller la base de publications : ISTEX-R.
2/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Contexte
Projet ISTEX
Bibliotheque numerique de publications ;Enseignement superieur et recherche ;> 13M de documents.
ISTEX-RSuivre l’evolution de la recherche dans un domaine ;
2/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Suivre l’evolution de la production scientifique : Pourquoi ?Faciliter bibliographie ;Faciliter evaluation de l’innovation ;Financement, gouvernance de la recherche.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donnees de fenetres de temps distinctes ;Analyses fines ;Utilise par sociologues [CFR11], linguistes [Per13],historiens [TF15] ;Pratique pour la visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
ISTEX-R : Corpus de demonstration10.000 documents ;Tous de la meme thematique...Le vieillissement, la gerontologie !3 periodes : de 1996 a 2010.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Methodologie non supervisee
Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Methodologie non supervisee
Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Methodologie non supervisee
Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Methodologie non supervisee
Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Suivre l’evolution de la production scientifiqued’un domaine : analyse diachronique
Methodologie non supervisee
Indexation des documents dans chaque periode ;Clustering des documents dans chaque periode→Thematiques ;Identification des labels de cluster/thematique ;Analyse diachronique ;Visualisation.
3/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
4/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Feature F-MesureIntuitive ;Interpretable ;Contexte supervise : Selection de variables [LC14] ;Contexte non supervise : Etiquetage de clusters [LFG15] ;Sans parametre.
5/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Un exemple supervise
Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F
6/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Representativite Versus Typicite
FPc(f )=W f
cWc→ representativite, dominance
7/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Representativite Versus Typicite
FPc(f )=W f
cWc→ representativite, dominance
FRc(f )=W f
cW f → typicite, saillance
7/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Representativite Versus Typicite
FPc(f )=W f
cWc→ representativite, dominance
FRc(f )=W f
cW f → typicite, saillance
FF la moyenne harmonique.
7/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Un exemple supervise
Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F
W TaillePiedsM = 27
8/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Un exemple supervise
Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F
W TaillePiedsM = 27
W TaillePieds = 43
8/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Un exemple supervise
Taille Pieds Longueur Cheveux Taille Nez Classe9 5 5 M9 10 5 M9 20 6 M5 15 5 F6 25 6 F5 25 5 F
W TaillePiedsM = 27
W TaillePieds = 43
WM = 78
FRM(TaillePieds) =2743
FPM(TaillePieds) =2778
8/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Selection de variables
Sc ={
f ∈ F |FFc(f ) > FF (f ),FFc(f ) > FF}
avecFF (f ) F-Mesure moyenne de fFF la F-Mesure moyenne
9/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Selection de variables
Taille Pieds Longueur Cheveux Taille Nez0.46 0.39 0.3 FFM(f )0.22 0.66 0.24 FFF (f )
0.34 0.53 0.27 FF (f )
0.38 FF
→ Taille du nez pas selectionnee
10/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Selection de variables : Contraste
Gc(f ) =FFc(f )FF (f )
Gc(f ) > 1→ f est active pour le cluster cGc(f ) < 1→ f est passive pour le cluster c
11/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
12/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Discours des presidents Chirac et Mitterrand : DEFT’05 challenge
73255 phrases de J. Chirac11320 phrases de F. Mitterrand
→ Identifier les phrases de Mitterrand dans un texte sans noms niannees.
13/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Chirac VS Mitterrand : le challenge
14/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
15/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;
Qualite de clustering.
16/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;
Qualite de clustering.
16/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
Classification des verbes du francais→ Etiquetage declusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hierarchique→ Etiquetagedes feuilles [LTA08] ;
Qualite de clustering.
16/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
17/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering
Indice de DunnMaximiser
min1≤i<j≤k dist(Ci ,Cj)
maxm=1,··· ,k diamDU(Cm)
18/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering
Indice de DunnMaximiser
min1≤i<j≤k dist(Ci ,Cj)
maxm=1,··· ,k diamDU(Cm)
Davis BouldinMinimiser
1k
k∑i=1
maxj=1,··· ,k ;i 6=j
{diamDB(ci) + diamDB(cj)
DistDB(Ci ,Cj)}
18/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering
Compacite des clusters ;
Bonne separaration des cluster ;
Distance Euclidienne ;
Distance aux centroides ;
18/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering
Compacite des clusters ;
Bonne separaration des cluster ;
Distance Euclidienne ;
Distance aux centroides ;
18/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering
Controler qualite de la partition en fonction de l’etiquetage :Clusters compacts et separes : partagent les memes featuressaillantes ;
PC =1k
k∑i=1
1ni
∑f∈Si
Gi(f )
Clusters compacts et tres separes : Features actives dans uncluster, passives dans les autres.
18/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clusteringControler qualite de la partition en fonction de l’etiquetage :
Clusters compacts et separes : partagent les memes featuressaillantes ;
PC =1k
k∑i=1
1ni
∑f∈Si
Gi(f )
Clusters compacts et tres separes : Features actives dans uncluster, passives dans les autres.
EC =1k
k∑i=1
|si |ni
∑f∈Si
Gi(f ) +|si |ni
∑h∈Si
1Gi (h)
|si |+ |si |
18/38
N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
19/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Qualite de clustering pour la diachronie
TABLE : Jeux de donnees de faible dimension
IRIS IRIS-b WINE PEN SOYNbr. class 3 3 3 10 16Nbr data 150 150 178 10992 292Nbr feat. 4 12 13 16 84
TABLE : Jeux de donnees de dimension moyenne a elevee
ZOO VRBF R8 R52Nbr. class 7 12-16 8 52Nbr data 101 2183 7674 9100Nbr feat. 114 231 3497 7369
20/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Resultats
Meilleurs resultats obtenus avec K-Means, GNG [F+95],IGNG-F [LFG15] de k=2 a k=3·Nb class
TABLE : Resultats sur donnees en basse dimension.
IRIS IRIS-b WINE PEN SOYDB 2 5 5 7 19 2/5CH 2 3 6 8 5 1/5DU 1 1 8 17 8 0/5SI 4 2 7 14 14 1/5PC 3 3 4 9 16 4/5EC 3 3 4 9 16 4/5
MaxP 3 3 5 11 19Nbr. class 3 3 3 10 16
21/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Resultats
Meilleurs resultats obtenus avec K-Means, GNG [F+95],IGNG-F [LFG15] de k=2 a k=3·Nb class
TABLE : Resultats sur donnees en dimension elevee.
ZOO VRBF R8 R52DB 8 -out- 5 58 1/4CH 4 7 6 -out- 1/4DU 8 2 -out- -out- 1/4SI 4 -out- -out- 54 1/4PC 7 18 -out- -out- 1/4EC 7 15 6 52 4/4
MaxP 10 12-16 6 50-55Nbr. class 7 12-16 8 52
21/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Resultats
FIGURE : Valeur d’EC et PC sur Reuters 52
21/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Resultats
TABLE : Resultats sur donnees ZOO bruitees : 7 classes de reference.
ZOOZOONoise10%
ZOONoise20%
ZOONoise30%
DB 8 4 3 3 1/4CH 4 5 3 3 0/4DU 8 2 2 2 1/4SI 14 -out- -out- -out- 0/4PC 6 4 11 9 1/4EC 7 5 6 9 2/4
MaxP 10 7 10 10
21/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Resultats
FIGURE : Valeurs d’EC sur ZOO et ZOO bruites
21/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
EC efficace en basse et haute dimension ;
EC moins sensible aux donnees bruitees ;
Independant de la methode de clustering utilisee ;
Particulierement adapte pour l’etiquetage ;
TODO : Sensibilite a chevauchement, sparsite ?
22/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
EC efficace en basse et haute dimension ;
EC moins sensible aux donnees bruitees ;
Independant de la methode de clustering utilisee ;
Particulierement adapte pour l’etiquetage ;
TODO : Sensibilite a chevauchement, sparsite ?
22/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
EC efficace en basse et haute dimension ;
EC moins sensible aux donnees bruitees ;
Independant de la methode de clustering utilisee ;
Particulierement adapte pour l’etiquetage ;
TODO : Sensibilite a chevauchement, sparsite ?
22/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
EC efficace en basse et haute dimension ;
EC moins sensible aux donnees bruitees ;
Independant de la methode de clustering utilisee ;
Particulierement adapte pour l’etiquetage ;
TODO : Sensibilite a chevauchement, sparsite ?
22/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Dans un contexte non supervise
EC efficace en basse et haute dimension ;
EC moins sensible aux donnees bruitees ;
Independant de la methode de clustering utilisee ;
Particulierement adapte pour l’etiquetage ;
TODO : Sensibilite a chevauchement, sparsite ?
22/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
23/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Propager l’activation d’un cluster a d’autres clusters via leursetiquettes
P(t |s) =∑
f∈Ss∩StFFt(f )∑
f∈StFFt(f )
24/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Propager l’activation d’un cluster a d’autres clusters via leursetiquettes
P(t |s) =∑
f∈Ss∩StFFt(f )∑
f∈StFFt(f )
P( gr1 | red ) =22
P( gr2 | red ) =11
24/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Propager l’activation d’un cluster a d’autres clusters via leursetiquettes
P(t |s) =∑
f∈Ss∩StFFt(f )∑
f∈StFFt(f )
P( red | gr1 ) =23
24/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Calculer les activations moyennes :
D’un cluster
PA(s) =1
|Env(s)|∑
t∈Env(s)
P(t |s)
D’une partition
As =1|S|
∑s∈S
PA(s)
25/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Clusters similaires si :
Dans un sens...
P(t |s) > PA(s) et P(t |s) > As + σs
... et dans l’autre !
P(s|t) > PA(t) et P(s|t) > At + σt
26/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Raisonnement bayesien pour l’analysediachronique
Methode sans parametres pour detecter :Clusters similaires ;
Clusters qui se separent ;
Clusters qui fusionnent.
27/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
28/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Corpus VieillissementPresque 10.000 documents ;Lies a la thematique du vieillissement, gerontologie ;3 periodes : de 1996 a 2010
Demonstrateurhttps://github.com/nicolasdugue/istex-demonstrateur
Demonstrateurhttp://localhost:3000/
29/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Plan
1 Selection de variables pour l’etiquetageLa methodeChirac VS MitterrandNon supervise
2 Clustering et qualite [LDC16]De nouvelles mesuresEvaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et integration
30/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Conclusion
1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;
31/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Conclusion
1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;
2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]
31/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Conclusion
1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;
2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]
3 Raisonnement BayesienPropager l’activation d’un cluster a d’autres clusters via leursetiquettes [DLC16b]
31/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Conclusion
1 Une mesure, la Feature F-MesureSans parametres ;Supervise : Selection de variables ;Non supervise : Etiquetage de clusters ;
2 Qualite du clustering pour l’etiquetage, independant du critere etde la methode de clustering [LDC16]
3 Raisonnement BayesienPropager l’activation d’un cluster a d’autres clusters via leursetiquettes [DLC16b]
1 + 2 + 3 + Visu = Analyse diachronique [DLC16a]
31/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Conclusion
Outil Java/Python : Feature F-Mesure et Mesures de qualite ;
Outil Javascript : Visualisation [DLC16a].
→ https://github.com/nicolasdugue/
32/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Perspectives
Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;
Resume automatique avec Feature F-Mesure ;
Algorithme agglomeratif pour optimiser EC ou PC ?
33/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Perspectives
Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;
Resume automatique avec Feature F-Mesure ;
Algorithme agglomeratif pour optimiser EC ou PC ?
33/38N. Dugue
INTRODUCTION ETIQUETAGE CLUSTERING,QUALITE DIACHRONIE VISUALISATION CONCLUSION ET INTEGRATION
Perspectives
Analyse diachronique des reseaux de collaborations entreauteurs [DTCL15, OPC13] ;
Resume automatique avec Feature F-Mesure ;
Algorithme agglomeratif pour optimiser EC ou PC ?
33/38N. Dugue
References I
[CFR11] Dominique Cardon, Guilhem Fouetillou, and Camille Roth.Two paths of glory-structural positions and trajectories of websiteswithin their topical territory.In ICWSM, 2011.
[DLC16a] Nicolas Dugue, Jean-Charles Lamirel, and Pascal Cuxac.Keep track of your clusters !In Research Challenges in Information Science (RCIS), 2016.
[DLC16b] Nicolas Dugue, Jean-Charles Lamirel, and Pascal Cuxac.Visualisation pour la detection d’evolution dans des corpus depublications scientifiques.In Les Cahiers Du Numerique, 2016.
33/38N. Dugue
References II
[DTCL15] Nicolas Dugue, Ali Tebbakh, Pascal Cuxac, and Jean-charlesLamirel.
Feature selection and complex networks methods for an analysisof collaboration evolution in science : an application to the istexdigital library.
In ISKO-MAGHREB, 2015.
[F+95] Bernd Fritzke et al.
A growing neural gas network learns topologies.
Advances in neural information processing systems, 7 :625–632,1995.
34/38N. Dugue
References III
[FGL12] Ingrid Falk, Claire Gardent, and Jean-Charles Lamirel.Classifying french verbs using french and english lexical resources.
In Association for Computational Linguistics : Long Papers-Volume1, pages 854–863, 2012.
[LC14] J. C. Lamirel and P. Cuxac.Improving textual data classification and discrimination using anad-hoc metric : Application to a famous text discriminationchallenge.In ISKO-Maghreb : Concepts and Tools for knowledgeManagement, pages 1–6, 2014.
35/38N. Dugue
References IV
[LDC16] Jean-Charles Lamirel, Nicolas Dugue, and Pascal Cuxac.
New efficient clustering quality indices.
In International Joint Conference on Neural Networks (IJCNN),2016.
Soumis.
[LFG15] Jean-Charles Lamirel, Ingrid Falk, and Claire Gardent.
Federating clustering and cluster labelling capabilities with a singleapproach based on feature maximization : French verb classesidentification with igngf neural clustering.
Neurocomputing, 147 :136–146, 2015.
36/38N. Dugue
References V
[LTA08] Jean-Charles Lamirel, Anh Phuong Ta, and Mohammed Attik.Novel labeling strategies for hierarchical representation ofmultidimensional data analysis results.In IASTED International Conference on Artificial Intelligence andApplications (AIA), Innsbruck, Austria, 2008.
[OPC13] Elisa Omodei, Thierry Poibeau, and Jean-Philippe Cointet.A symmetric approach to understand the dynamics of scientificcollaborations and knowledge production.In 4e conference sur les modeles et l’analyse des reseaux :Approches mathematiques et informatiques, pages 10–p, 2013.
[Per13] Maria-Pilar Perea.Dynamic cartography with diachronic data : Dialectal stratigraphy.Literary and linguistic computing, 28(1) :147–156, 2013.
37/38N. Dugue
References VI
[TF15] Roberto Theron and Laura Fontanillo.
Diachronic-information visualization in historical dictionaries.
Information Visualization, 14(2) :111–136, 2015.
38/38N. Dugue
Resume automatique
38/38N. Dugue
Resume automatique
38/38N. Dugue
Resume automatique
38/38N. Dugue