12
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore: Candidato: Prof. Sonia Bergamaschi Simone Ferrari Anno Accademico 2005 2006 Information Extraction: il rapporto GATE – Named Entity Recognition

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Embed Size (px)

Citation preview

Page 1: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Università degli Studi di Modena e Reggio Emilia

Facoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria Informatica – Nuovo Ordinamento

Relatore: Candidato:Prof. Sonia Bergamaschi Simone Ferrari

Anno Accademico 2005 – 2006

Information Extraction: il rapporto

GATE – Named Entity Recognition

Page 2: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Iter seguito• Differenziazione Information Retrievial – Information Extraction

• Discussione Information Extraction Named Entity Recognition

• Descrizione GATE ANNIE

• Applicazione a siti web di GATE per NER Valutazione prestazioni

• Conclusioni e sviluppi futuri

Page 3: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Information Retrievial vs Information Extraction

Sistema IRInput: insieme di documenti (corpus) + query (key words)Output: documenti rilevanti + score

Sistema IEInput: insieme di documenti (corpus) + query (key words)Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito

Vantaggi IE:• minor tempo d’analisi • formato dell’output

Svantaggi IE:• difficoltà d’implementazione• in alcuni casi meno accurato rispetto alla lettura umana

Page 4: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Information Extraction

• Concetto nato all’interno delle MUCs

• In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST)

• Successore di MUC : ACE (1999)

Jim bought 300 shares of Acme Corp. in 2006

<ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX

TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>

Page 5: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

GATE

a General Architecture for Text Engineering

Hamish Cunningham (University of Sheffield)

versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/

algoritmi + dati + GUI = applicazioni• Language Resources (LRs)• Processing Resources (PRs)• Visual Resources (VRs)

= CREOLE

a Collection of REusable Objects for Language Engineering

Page 6: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

ANNIE

• A Nearly New IE system

• contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)

Page 7: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Attività sperimentale

NER utilizzando GATE applicato a siti WISDOM (http://dbgroup.unimo.it/wisdom/)

• output

• codice

• prestazioni

• modifiche e prestazioni2

Page 8: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Booking.com

InputOutput

Page 9: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

XML Booking.com• Attività preliminare del Tokeniser

− <TextWithNodes> <Node id="0"/> BOOKING <Node id="7"/> . <Node id="8"/> COM <Node id="11"/> <Node id="12"/> online <Node id="18"/> <Node id="19"/> hotel <Node id="24"/> <Node id="25"/> reservations <Node id="37"/> (…) </TextWithNodes>

Serialized Nodes

• Creazione dell’annotation set di default da parte del Tokeniser− <Annotation Id="2567" Type="Location" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">rule1</Name> <Value className="java.lang.String">Location1</Value> </Feature> − <Feature> <Name className="java.lang.String">rule2</Name> <Value className="java.lang.String">LocFinal</Value> </Feature> − <Feature> <Name className="java.lang.String">locType</Name> <Value className="java.lang.String">city</Value> </Feature> − <Feature> <Name className="java.lang.String">matches</Name> <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686</Value> </Feature> </Annotation>

<Node id="450"/>Berlin<Node id="456"/>

− <Annotation Id="2317" Type="Lookup" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">majorType</Name> <Value className="java.lang.String">location</Value> </Feature> − <Feature> <Name className="java.lang.String">minorType</Name> <Value className="java.lang.String">city</Value> </Feature> </Annotation>

Berlin→city.lst:location:city

Page 10: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Valutazione delle prestazioniTramite l’AnnotationDiff Tool di GATE

• consente di confrontare due set di annotazioni

Confronto prestazioni di GATE nell’IE:

• inglese vs italiano

• inglese referenziato vs inglese

• italiano referenziato vs italiano

Page 11: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Inglese referenziato vs Inglese

Default

Modifiche:Norwalk, Loulè→city.lst; Tuscany→region.lst; PT →country_cap.lst

Dopo

48,84% 58,14%

Miss rimanenti: mancanza di regole adeguate

Page 12: Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Conclusioni e sviluppi futuri• Sistema GATE fornito in modalità “primitiva”: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger)

• Training pesante (centinaia di testi, mesi)

• Sviluppo multilingua recente (molto da implementare)

• PRs sempre più intelligenti → background working