Upload
severino-ferrara
View
214
Download
1
Embed Size (px)
Citation preview
UNIVERSITÀ DEGLI STUDI DI BARI
FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI
CORSO DI LAUREA IN INFORMATICA
TESI DI LAUREAIN
METODI AVANZATI DI PROGRAMMAZIONE
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Relatori: Prof. Donato MalerbaCorrelatore:Dr. Corrado Loglisci Laureando:
Pietro La Grotta
Information ExtractionInformation Extraction
• Un sistema di Information Extraction (IE) : Dato un testo scritto in un linguaggio naturale e contenente informazione non strutturata, IE identifica informazione di interesse e la rappresenta in forma strutturata.
• Tale informazione può essere utilizzata in processi di Text Mining (TM) ovvero il Data Mining applicato a collezioni di testi.
IE – Attività:
• Named Entity Recognition (NE) • Coreference Resolution (CO)• Template Element Construction (TE) • Template Relation Construction (TR) • Scenario Template Production (ST)
TM – Algoritmi:
• Classificazione• Clustering• Scoperta di trend• Scoperta di pattern• Summarization• Scoperta di dipendenze
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition eTemplate Filling
Named Entity Recognition eTemplate Filling
TF: riconoscere un insieme di entità nominate e legate tra loro concettualmente e rappresentare questa informazione in strutture pre-definite
NER: riconoscere entità nominate di interesse presenti all’interno dei testi. Il processo di identificazione impiega features morfologiche, sintattiche e semantiche delle entità.
… starting approximately 35kb upstream (telomeric) to the GJB2 gene was identified in 7 patients from 4 unrelated Jewish Ashkenazi families with non-syndromic hearing loss. These patients were heterozygous for one of the common mutations 167delT or 35delG …
genemalattia
mutazione
…The authors describe a novel pathogenic G5540A transition in the mitochondrial transfer RNA(tRNA)Trp gene of a sporadic encephalomyopathy characterized by spinocerebellar ataxia. Clinicalfeatures also included neurosensorial deafness, peripheral neuropathy, and dementia”…
disease symptoms clinics
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Ambito della TesiAmbito della Tesi
1. Named Entity Recognition per un task di Textual Profile Clustering
2. Named Entity Recognition per un task di Semantic Search Engine
3. Template Filling con strutture Predicato-Argomento per un task di Pattern Discovery
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition per Textual Profile ClusteringNamed Entity Recognition
per Textual Profile Clustering Textual Profile Clustering (TPC): Tecnica di raggruppamento di testi basata su similarità tra testi rappresentati in forma di textual profile: un profile tiene conto di keyword presenti nel testo e di loro caratteristiche (posizione, frequenza,…)
Ruolo di NER per TPC:
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
•…of inheritance of GJB2 and GJB6 genes that encode two different
connexins; connexin 26 and connexin 30, or it may abolish…
GJB2 GJB6
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
1. Riconoscimento delle Entità Biomediche di interesse presenti nei documenti
2. Normalizzazione di nomi varianti (sinonimie, abbreviazioni, acronimi) con nomi canonici
3. Interpretazione delle entità secondo conoscenza di dominio
Soluzione Proposta
…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
…connexin 26 and connexin 30, or it may abolish…
GJB6
…35kb upstream to the GJB2 gene
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition per Textual Profile ClusteringNamed Entity Recognition
per Textual Profile Clustering
•Impiego di librerie di Text Analytics (GATE)
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
1. Riconoscimento di Entità Biomediche di interesse
2. Normalizzazione di varianti con canonici
3. Interpretazione delle entità
Named Entity Recognition per Textual Profile ClusteringNamed Entity Recognition
per Textual Profile Clustering
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition per Textual Profile ClusteringNamed Entity Recognition
per Textual Profile ClusteringRisultati Sperimentali
•Dataset: 10 artificiali + 10 reali •Sperimentazioni condotte per il riconoscimento di 1)entità del problema specifico, 2)entità biomediche generali)•Valutazione manuale Precision & Recall
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition per Textual Profile ClusteringNamed Entity Recognition
per Textual Profile ClusteringRisultati Sperimentali
Mutation CD44 the Genes GJB2 encoding GJB2 , a RGS6PL-5283, have been shown to be responsible WWOX a majority BRIP1 recessive nonsyndromic hereditary hearing impairment CD44 children. Over 60 different Mutation CD44 GJB2 have been reported. To obviate the need WWOX direct sequencing BRIP1 each specimen, a variety BRIP1 screening techniques have been used to detect Mutation CD44 GJB2.
Mutations in the gene GJB2 encoding connexin 26 (Cx26), a gap junction protein, have been shown to be responsible for a majority of recessive nonsyndromic hereditary hearing impairment in children. Over 60 different mutations in Cx26 have been reported. To obviate the need for direct sequencing of each specimen, a variety of screening techniques have been used to detect mutations in Cx26.
input
output
Named Entity Recognition per Semantic Search Engine
Named Entity Recognition per Semantic Search Engine
Semantic Search Engine (SSE): Tecnica di Information Retrieval basata su indicizzazione semantica dei termini rappresentativi del documento (index term): operazioni di trasformazione del testo sono necessarie per ridurre il numero degli index term
Ruolo di NER per SSE:
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
•…of inheritance of GJB2 and GJB6 genes that encode two different
connexins; connexin 26 and connexin 31, or it may abolish…
GJB6
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Soluzione Proposta
Named Entity Recognition per Semantic Search Engine
Named Entity Recognition per Semantic Search Engine
1. Riconoscimento delle Entità Biomediche di interesse presenti nei documenti
2. Interpretazione delle entità secondo conoscenza di dominio
3. Labeling di entità riconosciute
4. Rappresentazione in formalismo standard IOB-2
GJB6 B – Genes Index Term Singoli Connexin B – Connexins 31 I Index Term Multi-Word
…35kb upstream to the GJB2 gene
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
•…of inheritance of GJB2 and GJB6 genes that encode two different
connexins; connexin 26 and connexin 31, or it may abolish…
Genes
Connexins
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
•Impiego di librerie di Text Analytics (GATE)
1. Riconoscimento di Entità Biomediche di interesse
2. Interpretazione delle entità
Named Entity Recognition per Semantic Search Engine
Named Entity Recognition per Semantic Search Engine
1. Riconoscimento di Entità Biomediche di interesse
3.& 4. Labeling & Rappresentazione IOB-2
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Named Entity Recognition per Semantic Search Engine
Named Entity Recognition per Semantic Search Engine
•Dataset: 10 artificiali + 10 reali •Sperimentazioni condotte per il riconoscimento di 1)entità del problema specifico, 2)entità biomediche generali)•Valutazione manuale Precision & Recall
Risultati Sperimentali
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Pattern Discovery (PD): Estrazione di regolarità statistiche nella forma di co-occorrenze di items/eventi. L’uso di strutture Predicato-Argomento (PAS) supporta la scoperta di co-occorrenze di items in termini di predicati verbali che li mettono in relazione.
Ruolo di Template Filling per PD:
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
•…A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)…
• PAS-truncate template
Pubblicazioni Scientifiche
Pattern Discovery RelazionaleTemplate FillingEstrazione di PAS
1. Estrazione di PAS dai testi
2. Filling di Templates pre-definiti sulla base di PAS di background
3. Rappresentazione in formalismo relazionale (Datalog)
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Soluzione Proposta
predicate
…A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)… ["truncate" "342-kb deletion" "GJB6 Gene“]
chromosomal name
locus name
gene name
["truncate" "342-kb " "GJB6 “]
pas(paper_1,structure_1). predicate(structure_1,truncate). chromosomal_name(structure_1,342-kb). gene_name(structure_1,GJB6). locus_name(structure_1,generic_locus_name).
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
•Impiego di librerie di Text Analytics (MontyLingua, GATE)
1.Estrazione di PAS dai testi
2. Filling di PAS templates
3.Rappres. in formalismo relazionale
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Risultati Sperimentali
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
Template Filling basato su Strutture Predicato-Argomento per Pattern Discovery
•Pubblicazioni con minimo 5 istanze PAS• 13 PAS templates di background•Dataset: 6584•Minsup: 2%
•2382 Pattern relazionali in termini di PAS•Pattern più informativi (4) con PAS-structure inhibit
abs(A),pas(A,B),verb_rule(B,inhibit), homosapiens_gene_role0(B,prkab1),chemicals_and_drugs_role2(B,metformin), biological_sciences_role1(B,growth) supporto:2.9%
abs(A),pas(A,B),verb_rule(B,inhibit),organisms_role2(B,brucella_abortus),homosapiens_gene_role1(B,sema6a), homosapiens_gene_role0(B,taf8) supporto: 2.9%
Laureando: Pietro La Grotta
Laureando: Pietro La Grotta
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Conclusioni & Sviluppi Futuri Conclusioni & Sviluppi Futuri
•Sviluppo di tre strumenti di IE a supporto della investigazione di biomedicina basata su analisi di dati testuali.
•Valutazione dell’ accuratezza mostra buona performance degli strumenti di NER.
•Applicazione dello strumento di TF per PD ad insiemi di testi più voluminosi e ad altri domini (esempio, web news).
GRAZIEPER LA VOSTRA
CORTESE ATTENZIONE