Upload
estee-charles
View
103
Download
0
Embed Size (px)
Citation preview
Fouille de textes : Extraction Itérative de la Terminologie
Mathieu ROCHE (Équipe IA-TAO du LRI)
12 novembre 2003
Journées de l’Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003
2
Axe « fouille de textes » de l’équipe IA-TAO
Yves KodratoffAhmed Amrani
Jérôme AzéThomas Heitz
Oriane Matte-TailliezMathieu Roche
Journée de l'Ecole Doctorale 2003
3
Plan de l’exposé
Approche globale
EXIT : EXtraction Itérative de la Terminologie– La méthode utilisée– L’évaluation des résultats
Conclusion et perspectives
Journée de l'Ecole Doctorale 2003
4
Approche globale- - - - -
- - - - -
- - - - -
Corpus brut
- - - - -
- - - - -
- - - - -
Corpus nettoyé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
TermesTraces de concepts
- découverte de règles d’association
- extraction d’information par patrons d’extraction
Nettoyeur Etiqueteur
EXIT
Détection des traces de
concepts
Extraction d’informations
Journée de l'Ecole Doctorale 2003
5
Étape 1 : Nettoyage
Description du corpus
La question biologique : Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae.
DNA-binding proteins Yeast 6000 textes (10 Mo)
MEDLINE - NCBI
6000 résumés d’articles = CORPUS
Journée de l'Ecole Doctorale 2003
6
Étape 1 : Nettoyage
Nettoyage lié au format du corpus1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86
The modulation of the biological activities of mitochondrial histone Abf2p byyeast PKA and its possible role in the regulation of mitochondrial DNA contentduring glucose repression.
Cho JH, Lee YK, Chae CB.
Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea
The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential forthe maintenance of mitochondrial DNA (mtDNA) and appears to play an importantrole in the recombination and copy number determination of mtDNA.
PMID: 11779632 [PubMed - in process]
Journée de l'Ecole Doctorale 2003
7
Étape 1 : Nettoyage
Uniformisation du corpusRègles :Grâce à une liste de près de 2000 alias
de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique.
Ex : ISE1, LIS1, SED6 ERG6
alias
Journée de l'Ecole Doctorale 2003
8
- - - - - - - - - - - - - - - - - - - - - - - - - -
Étiqueteurgrammatical
Corpus nettoyé Corpus étiqueté
- - - - - - - - - - - - - - - - - - - - - - - - - -
Étape 2 : Étiquetage
The modulation of the biological activities of mitochondrial histone Abf2-protein ...
The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ...
Étiqueteur de Brill
Journée de l'Ecole Doctorale 2003
9
- - - - - - - - - - - - - - - - - - - - - - - - - -
Étiqueteurgrammatical
Corpus nettoyé Corpus étiqueté
- - - - - - - - - - - - - - - - - - - - - - - - - -
Étape 2 : Étiquetage
ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI).
Journée de l'Ecole Doctorale 2003
10
Étape 3 : EXIT (Extraction Itérative de la Terminologie)
- - - - - - - - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - - - - - - - -
Corpus étiqueté
DNA binding
TATA binding
binding motif
transcription factor
Liste de termes
Termes extraits :
Nom-Nom
Adjectif-Nom
Nom-Préposition-Nom
Nom-verbe_gérondif
Formule-Nom
Journée de l'Ecole Doctorale 2003
11
Étape 4 : Détection de traces de concepts
Exemple de traces de concepts en biologie
TRANSCRIPTION-ACTIVATOR-GENE
TRANSCRIPTIONINITIATION
TRANSCRIPTIONREGULATION
TRANSCRIPTION
TFIID-complexSAGA-complex
TRANSCRIPTIONINITIATION MACHINERY
MSN4MSN2
Journée de l'Ecole Doctorale 2003
12
Étape 4 : Détection de traces de concepts
Exemples d’instances de concepts– (bending:Sujet,influence:Verbe) Bendng– transcription-factor Regulfactor
Caractérisation des traces de concepts dans les textes – utilisation du logiciel de visualisation
ROWAN– induction en extension sur les concepts
Journée de l'Ecole Doctorale 2003
13
2 patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation detranscription :
MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur
Étape 5 : Extraction d’informations
Extraction d'informations par patrons d'extraction
Exemple:…MSN2 encodes a zinc-finger transcriptional activator
, ...…MSN4 encodes a DNA-binding component of the stress
responsive system , ...
Journée de l'Ecole Doctorale 2003
14
1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avecla connaissance sémantique.
$TranscriptionActivitor encodes SpécificitéFacteur
Étape 5 : Extraction d’informations
Extraction d'informations par patrons d'extraction
Exemple:…MSN2 encodes a zinc-finger transcriptional activator ,
...…MSN4 encodes a DNA-binding component of the stress
responsive system , ...
Journée de l'Ecole Doctorale 2003
15
Étape 5 : Extraction d’informations
Extraction de règles d’associations [Kodratoff et al., 2003]
(bending:Sujet,influence:Verbe) BendngDNA-duplex DNAconformatntranscription-factor Regulfactorgal4-binding Regulfactorinteraction-with-TFIIB Transcriptn
Bendng, DNAconformatn, Regulfactor Transcriptn
Journée de l'Ecole Doctorale 2003
16
Approche globale- - - - -
- - - - -
- - - - -
Corpus brut
- - - - -
- - - - -
- - - - -
Corpus nettoyé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
TermesTraces de concepts
- découverte de Règles d’association
- extraction d’informations par patrons d’extraction
Nettoyeur Etiqueteur
EXIT
Détection des traces de
concepts
Extraction d’informations
Journée de l'Ecole Doctorale 2003
17
- - - - - - - - - - - - - - - - - - - - - - - - - -
Étiqueteurgrammatical
Extraction des collocations
Sélection des “meilleurs”
collocations
Corpus nettoyé Corpus étiqueté
- - - - - - - - - - - - - - - - - - - - - - - - - -
insertion mutation
hydrogen peroxide
DNA binding
SH2 domain
EXIT : la méthode utilisée (1/5)
DNA binding
TATA binding
binding motif
transcription factor
Journée de l'Ecole Doctorale 2003
18
EXIT : la méthode utilisée (2/5)
Une méthode statistique
Information Mutuelle [Church et Hanks, 1990]
P(X)P(Y)
P(X,Y)YXIM 2log),(
Journée de l'Ecole Doctorale 2003
19
EXIT : la méthode utilisée (3/5) Une méthode statistique Rapport de vraisemblance [Dunning, 1993]
RV = a log(a) + b log(b) + c log(c)
+ d log(d) - (a+b) log(a+b) - (a+c) log(a+c)
- (b+d) log(b+d) - (c+d) log(c+d)
+ (a+b+c+d) log(a+b+c+d)
y y' avec y' y
x a b
x' avec x' x c d
Journée de l'Ecole Doctorale 2003
20
EXIT : la méthode utilisée (4/5) Paramètres ajoutés [Roche, 2003]
Privilégier les termes qui apparaissent dans des textes différents.
…
Journée de l'Ecole Doctorale 2003
21
EXIT : la méthode utilisée (5/5)
Interface développée en Java par Thomas Heitz
Journée de l'Ecole Doctorale 2003
22
EXIT : évaluation des résultats (1/5)
La précision
extraits termesde nombre
pertinents extraits termesde nombreprécision
1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…
1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…
Termes extraits
Journée de l'Ecole Doctorale 2003
23
EXIT : évaluation des résultats (2/5)
Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert
Journée de l'Ecole Doctorale 2003
24
EXIT : évaluation des résultats(3/5)
Le rappel
pertinents termesde nombre
pertinentsextraits termesde nombrerappel
Impossible à calculer !!
Journée de l'Ecole Doctorale 2003
25
EXIT : évaluation des résultats(4/5)
Comparaison de mesures [Roche et al., 2003]
Nb de termes proposés à l'expert
100 200 500 1000
Information mutuelle 89.0 % 90.8 % 92.2% 91.9 % Information mutuelle au cube 96.0 % 97.5 % 94.0 % 94.1 % Mesure d'association 90.0 % 91.2 % 93.0 % 92.5 % Coefficient de Dice 92.0 % 92.9 % 92.6 % 93.0 % Rapport de vraisemblance 98.0 % 97.5 % 95.4 % 94.1 % J-mesure 89.0 % 89.1 % 89.4 % 95.2 % Conviction 96.9 % 97.4 % 97.2 % 95.2 % Sebag-Schoenauer 93.1 % 94.9 % 94.7 % 94.7 % Moindre contradiction 96.0 % 96.1 % 95.3 % 95.9 % Intensité d'implication 99.0 % 96.6 % 95.5 % 93.0 % Intensité d'implication nor. 99.0 % 96.6 % 95.5 % 92.8 %
Journée de l'Ecole Doctorale 2003
26
EXIT : évaluation des résultats(5/5)
Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance
Journée de l'Ecole Doctorale 2003
27
Conclusion et perspectives
Expérimenter les mesures d’induction mises en place
Étudier les textes entiers.
Journée de l'Ecole Doctorale 2003
28
Approche globale- - - - -
- - - - -
- - - - -
Corpus brut
- - - - -
- - - - -
- - - - -
Corpus nettoyé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
TermesTraces de concepts
- découverte de règles d’association
- extraction d’information par patrons d’extraction
Nettoyeur Etiqueteur
EXIT
Détection des traces de
concepts
Extraction d’informations