Upload
anika-valencia
View
15
Download
2
Embed Size (px)
DESCRIPTION
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la RI médicale. Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008. Contexte. Recherche d’information orientée précision - PowerPoint PPT Presentation
Citation preview
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision :
application aux graphes pour la RI médicale
Présentation de Loïc Maisonnasse
Équipe DRIM, laboratoire LIRIS
Le 19 septembre 2008
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 2 / 36
Contexte
Recherche d’information orientée précision Des besoins experts et ciblésDes besoins multilinguesLes mots-clés ne suffisent plus
Besoin d’expressivité
Modéliser l’expressivitéComparer les modèles Choisir le modèle approprié
Supports de vocabulaires
"Montre-moi des images d'une pneumonie du lobe médial droit."
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 3 / 36
La nocivité du mercure Le mercure se retrouve
concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer.
Je suis à la recherche des dangers des plombages au mercure chez l’enfant
Le mercure sans dangerLes amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants.
Mercury in FillingsMercury in dental work does
not hinder children's development.
mercure, danger,
amalgame, dentaire, enfant, …
Ensemble de motsMots clefsRelations
document
Je suis à la recherche des dangers des plombages au mercure chez l’enfant
Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques
pour l’enfant. Les piles au plomb
danger, mercure, vapeur, enfant,
plomb, …
nocivité, mercure, poisson,
plombage, dentaire, …
mercury,filling,hinder,
children, ...
{danger, risque…}{amalgame dentaire,
plombage…} {mercure,
vif-argent…}
{nocivité, danger …}, {amalgame dentaire,
plombage …} {mercure,
vif-argent…}
{filling, dental work, plombage, …}
{mercury,mercure...}{children, enfant…}
(danger - enfant)(plombage - mercure)(plombage - enfant)(mercure - danger)
…
(nocivité - mercure)(plombage - mercure)
…
{danger, risque …} {toxique, poison},
{plomb,Pb…}…
(plombage - mercure)(Mercure - enfant)
…
(danger - pile)(Mercure - toxique)(toxique - enfant)
(pile - plomb)…
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 4 / 36
Rendre compte de l’expressivité
L’expressivité 1.Plusieurs points de vue
2.L’espace d’expression de chacun de ces points de vue.
Modéliser l’expressivité par des supports de vocabulaires
1.Plusieurs vocabulaires
2.Vocabulaire
ExpressivitéForteFaible
Mots-Clefs
Langages complexes
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 5 / 36
Objectifs
Modéliser l’expressivité en recherche d’information
Proposer des modèles à expressivité forte Modèle de recherche d’information Local
Modèle de recherche d’information Global
Appliquer ces modèles à la recherche d’information
Besoin d’information Corpus de documents
Pertinence
Requête Indexation
?
Modèle de requête Modèle de document
Correspondance
Expressivité
Support de vocabulaires
Support de vocabulaires
modèle
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 6 / 36
Application des modèles à la recherche d’information orienté précision
Cadre de modélisation
Deux Modèles d’expressivité forte
Modèlelocal
Modèle global
Instanciation au texte
Application au médical
Modèle
Représentation intermédiaire
Supports de vocabulaires Corpus de documents
Représentation &Correspondance
Représentation &Correspondance
Modélisation de l’expressivité Système orienté précision
Corpus de documents
Modèle intermédiaire
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 7 / 36
Plan
État de l’art à travers l’expressivité
Modélisation de l’expressivité basée sur les supports de vocabulairesCadre de formalisationModèle finaux : modèle local et modèle global
Application à la recherche d’information orientée précisionModèle intermédiaireModèle finaux : modèle local et modèle global
ExpérimentationModèle intermédiaireModèle localModèle global
ConclusionContributionsPerspectives
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 8 / 36
La dimension expressivité en recherche d’information
Expressivité
Mots-Clefs
Modèles intégrant la dépendance
Informations syntaxiques
Informations sémantiquesFamilles de
langages d’indexation
en recherche d’information
ForteFaible
(Gaussier et al., 2000)(Strzalkowski et al., 1994)(Zhai et al., 1997)
Syntagmes
(Ho, 2004)(Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999)
Structures syntaxiques
(Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004)
(Vintar et al., 2003)
(Aronson et al., 1994)
Concepts
(Sebastiani, 1994)(Berrut, 1988)(Chevallet, 1992) (Genest, 2000)(Mulhem, 2001)
Structure sémantique
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 9 / 36
Comparer l’expressivité des modèles est difficileQuels sont les vocabulaires ?
Quel est leur espace d’expression ?
Comment sont-ils utilisés ?
Modéliser l’expressivité
Pour la recherche d’information orientée précisionPlusieurs vocabulaires
Forte expressivité Graphe de concepts
Difficulté d’extraction
Bilan
ExpressivitéForteFaible
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 10 / 36
Plan
État de l’art à travers l’expressivité
Modélisation de l’expressivité basée sur les supports de vocabulairesCadre de formalisationModèle finaux : modèle local et modèle global
Application à la recherche d’information orientée précisionModèle intermédiaireModèle finaux : modèle local et modèle global
ExpérimentationModèle intermédiaireModèle localModèle global
ConclusionContributionsPerspectives
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Modélisation de l’expressivité en recherche d’information
Loïc MAISONNASSEPage 11 / 36
Cadre de modélisation Deux Modèles d’expressivité forte
Modèle local
Modèle global
Modèle
Supports de vocabulaires
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLANSupport de vocabulaires
Loïc MAISONNASSEPage 12 / 36
vocabulaires
Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) …
Vocabulaire simple C081(poumon)C022(cage thoracique),…
Vocabulaire complexe( (C081(poumon), partie de, C022(cage thoracique))…
SV=(V1, V2, …,Vn)
types
Nom de relationlocalisation, mesure, partie de, touche, …
Nom de conceptC003(plèvre),C001(cœur),C022(cage thoracique),…
ST=(T1, T2, …,Tn)
V1 V2 V3
T2T1
Support de vocabulaires
Support de types
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 13 / 36
Représenter à l’aide d’un support de vocabulairesDéfinir le support de vocabulaire de la représentation
Un ou plusieurs vocabulaires
Définir la représentationSélection sur les vocabulaires
avec ,...,,...,1 iinvdi VDVDVDVDVdi
d
Document
(C081(poumon),partie de, C022(cage thoracique), 0.4,0.7)
(C003(plèvre),partie de, C022(cage thoracique), 0.26,0.39)(C08( poumon), touche, C003(plèvre), 0.15, 0.5)
Dans la cage thoracique, la
plèvre touche les poumons.
(C081(poumon)) (C003(plèvre))
(C022(cage thoracique))
ConceptsDV ionspoidsRelatDV
Exemple de document indexé à l’aide d’un support de vocabulaire
,...,,...,1 nvi VVVSV
, ionspoidsRelatConceptsGraphes VVSV
ionspoidsRelatConcepts DVDVdi ,
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Modèle de recherche d’information basé sur des supports de vocabulaires
Loïc MAISONNASSEPage 14 / 36
Relation decorrespondance
RC
M= (ST, SVQ, SVD, RC)
Support de typesST
Utilisateur
Besoin d’informationCorpus de documents
Pertinence
Requête Indexation
?
Modèle de requête
Modèle de document
Correspondance
Support de vocabulaires
de documentSVD
Support de vocabulaires
de requêteSVQ
modèle
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLANDeux modèles expressifs
Modèle local Modèle global
Modèle de base Graphes conceptuels Modèle de langue
expressivité Forte, à base de graphes
Support de type Nom de concepts et Nom de relations
Vocabulaires
Concepts
Couples
Relations
Support de vocabulaire
Relation de correspondance
Projection + degrés de correspondance
Vraisemblance de la requête
Loïc MAISONNASSEPage 15 / 36
(C081(poumon), partie de, C022(cage thoracique) )
(C081(poumon), C022(cage thoracique))
C081(poumon)
MLocrelationsD
MLcconceptsDoML VVSVD , MG
ocrelationsDMGcouplesDoc
MGcconceptsDoMG VVVSVD ,,
MLeqrelationsR
MLqconceptsReML VVSVQ , relationscouplesconceptsMG VVVSVQ ,,
relation
concept
relationrelation
conceptconceptdiq
,
,, gDQQ
gDQ
gDQ
MCRP
MCPMGP
,
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 16 / 36
Récapitulatif:Modélisation de l’expressivité
Cadre de modélisation Deux modèles d’expressivité forte
Modèle local
Modèle global
Modèle
Supportsde vocabulaires
de requête
Supportsde vocabulaires
de document
Support de typesSupport de types
Supportsde vocabulaires
de document
Supportsde vocabulaires
de requête
Supportsde vocabulaires
de document
Supportsde vocabulaires
de requête
RC
RC
RC
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 17 / 36
Plan
État de l’art à travers l’expressivité
Modélisation de l’expressivité basée sur les supports de vocabulairesCadre de formalisationModèle finaux : modèle local et modèle global
Application à la recherche d’information orientée précisionModèle intermédiaireModèle finaux : modèle local et modèle global
ExpérimentationModèle intermédiaireModèle localModèle global
ConclusionContributionsPerspectives
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 18 / 36
Système orienté précision
Modèle intermédiaire
Modèle local
Modèle global
Instanciation au texte
Applicationau médical
représentation intermédiaire
Corpus de documents
Représentation &Correspondance
Représentation &Correspondance
UMLS
détection
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 19 / 36
Modèle intermédiaire
Ensemble de graphesUn par phraseSupport de vocabulaire
Concepts Relations
Utilise deux pondérationsFréquenceScore de confiance
Défini à l’aide d’UMLS (Unified Medical Language System)
Concepts : méta-thésaurusRelations : réseau sémantique
partie de|1,0.25
partie de | 1,0.1
touche |1,0.62
C081(poumon) | 2 ,0.3
C003(plèvre) |1,0.2
C022(cage thoracique) | 1,0.5
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 20 / 36
Détection des concepts : 3 méthodesMapTreeTagger
Analyse morphosyntaxique TreeTaggerCorrespondance de termes
MapMiniParAnalyse morphosyntaxique MiniParCorrespondance de termes
MetaMap (Aronson, 2001)
Détection des relationsDétection au niveau de la phrase Calcul d’un score de confiance a posteriori sur MapMiniPar
Méthodes de détection de la représentation intermédiaire
UMLS
Détection des concepts Détection des relationsphrase
représentation intermédiaire
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 21 / 36
Représentation et correspondance
Modèle local Modèle global
Représentation document
Concaténation des graphes de phrases
Modélisation de l’ensemble des graphes
de phrases
Correspondance Intersection de graphe puis pondération de l’intersection
Probabilité de la requête
Modèle expressif
représentation intermédiaire
Représentation &Correspondance
dri
dconfiance
qri
qconfiance pppp
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 22 / 36
Plan
État de l’art à travers l’expressivité
Modélisation de l’expressivité basée sur les supports de vocabulairesCadre de formalisationModèle finaux : modèle local et modèle global
Application à la recherche d’information orientée précisionModèle intermédiaireModèle finaux : modèle local et modèle global
ExpérimentationModèle intermédiaireModèle localModèle global
ConclusionContributionsPerspectives
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 23 / 36
Plan d’expérimentation
Mise en œuvreCollection CLEF médicale (2005-07)
85 requêtes50 000 documents
Ressources UMLS1 million de concepts pour 5 millions de termes54 relations sémantiques
MesuresPrécision moyennePrécision à 5 documents
ExpériencesModèle intermédiaire
Détection des concepts
Modèle localMéthode MapMiniPar (avec confiance sur les relations)
Modèle globalAvec étiquettes
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle interm Modèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 24 / 36
Modèle intermédiaire :détection des concepts
Détection des concepts MapTreeTagger
Correspondance
Filtrages
Comparaison des méthodes
étiquettes syntaxiques
types sémantiques
thésaurus tf.idf DFR
0,156 0,165X 0,157 0,186X X 0,155 0,184X X X 0,154 0,183
filtrages précision moyenne
tf.idf DFR tf.idf DFRMapTreeTagger + filtrages 0,154 0,183 0,304 0,448
MapMiniPar + filtrages 0,146 0,178 0,312 0,440MetaMap 0,164 0,198 0,304 0,440
Précision moyenne Précision à 5 documents
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 25 / 36
Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf)
Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf)
Modèle localModèle intermédiaire
Modèle local : MapMiniPar avec confiance(relation)
0,2
0,25
0,3
0,35
0,4
0,45
0,5
mots-clefs relation concept sans confiance avec confiance
Modèle localModèle intermédiaire
0,12
0,16
0,2
0,24
0,28
mots-clefs relation concept sans confiance avec confiance
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 26 / 36
méthode résultat résultatMetaMap 0,2 0.4733 0.1 0.7 0.4600
MapMiniPar 0.1 0.4533 0.1 0.1 0.4867MapTreeTagger 0.1 0.4533 0.1 0.1 0.4733
modèle de langue modèle de grapheconcept relationconcept
0,42
0,45
0,48
0,51
MapTreeTagger MapMiniPar MetaMap
unigramme
global
Précision moyenne Collection CLEF médical 2005 et 2006
Précision à 5 documents Collection CLEF médical 2005 et 2006
méthode résultat résultatMetaMap 0.1 0.3371 0.1 0.4 0.3437
MapMiniPar 0.1 0.3390 0.1 0.4 0.3486MapTreeTagger 0.1 0.3653 0.1 0.4 0.3722
modèle de langue modèle de grapheconcept relationconcept
Modèle Global : avec étiquettes
0,3
0,33
0,36
0,39
MapTreeTagger MapMiniPar MetaMap
unigramme
global
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 27 / 36
Comparaison des deux modèles
Meilleurs résultats des deux méthodes Collection CLEF médical 2006
RésultatsPrécisions moyennes fortement différentes
Précisions à 5 documents proches
ModèlesModèle global : adapté à des corpus stables
Modèle local : bons résultats sur les premiers documents
méthode Modèle local Modèle global Modèle local Modèle globalMapTreeTagger 0.2935 0.3722 0.4400 0.4733
MapMiniPar 0.2893 0.3486 0.4933 0.4867MetaMap 0.2802 0.3437 0.3733 0.4600
Précision à 5 documentsPrécision moyenne
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèle
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLANPlan
État de l’art à travers l’expressivité
Modélisation de l’expressivité basée sur les supports de vocabulairesCadre de formalisationModèle finaux : modèle local et modèle global
Application à la recherche d’information orientée précisionModèle intermédiaireModèle finaux : modèle local et modèle global
ExpérimentationModèle intermédiaireModèle localModèle global
ConclusionContributionsPerspectives
Loïc MAISONNASSEPage 28 / 36
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 29 / 36
Contributions
Niveau modélisationProposition d’un cadre générique pour la modélisation de
l’expressivité
Description de deux modèles expressifs dans ce cadre
Niveau traitementMéthodes d’extraction de graphe
Score de confiance
Méthode générique en deux étapes
Non supervisé
RésultatsMeilleurs résultats à CLEF 2007 sur la tâche médicale
Montre l’intérêt des modèle à expressivité forte
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 30 / 19
Étude de Intérêt de l’expressivité
0,05
0,07
0,09
0,11
0,13
0,15
0,17
0,19
tf idf tf.idf
résultats en précision moyennelemmes
ML avec structures syntaxiques
concepts
ML avec graphes
Expressivité
Mots-Clefs Structures syntaxiques
GraphesConcepts
ForteFaible
4 Modèles d’expressivité variable
Cadre de modélisation similaire Variations du tf.idf et Produits scalaires
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
ApplicationModèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 31 / 36
Perspectives
Court termeDétection des graphes
Améliorer la détection des concepts et des relations
Apprentissage ou interactif
Modèle Autres types de relations
Autres corpusCLEF 08
Long termeAutres domaines
Textes généraux (vecteur conceptuel)
Autres médiasImages, vidéo
ApplicationsAide au diagnostic, annotation médicale
Story Link détection, Novelty Détection, opinion
MERCI
IntroductionContexteObjectifs
État de l’art
Modélisation Cadre Modèles
Application
Modèle intermModèles finaux
ExpérimentationModèle intermModèle localModèle global
ConclusionContributionsPerspectives
PLAN
Loïc MAISONNASSEPage 33 / 36
Exhaustif Spécifique
Portée des vocabulaires
Explorer les possibilités du support de vocabulaires
Deux modèles
Portée des représentations de documents
Document seul
Vocabulaires
Expressivité
Modèle global
Modèle local