23
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Embed Size (px)

Citation preview

Page 1: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

InformationsekstraktionWettbewerbe und Kongresse

Daniel Liem

Page 2: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

TIPSTER

● 1991 ins Leben gerufen durch DARPA● von unter anderem DoD, NIST, CIA und

SPARWAR gesponsort ● Ziel: die Entwicklung eines effizienteren und

effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form

● 1998 wegen mangelder Finanzierung eingestellt

Page 3: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

TIPSTER(2)

● die drei Schwerpunkte der Untersuchungen● Dokument Detection● Information Extraction● Summarization

Page 4: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Phase 1 des TIPSTER

● Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion

● Entwicklung von Bewertungs- bzw. Messungsverfahren

● Ergebnisse: – Dokumentendetektion: von 30% zu 75%– Informationsextraktion:

● Recall: von 49% zu 65%● Precission: von 55% zu 59%

Page 5: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Phase 2 des TIPSTER

● Software Architektur Entwicklung: – Standardisierung von technischen Komponenten– “plug and play” von unterschiedlichen Werkzeugen

ermöglichen– das Software-sharing vorantreiben

● MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge

Page 6: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Phase 3 des TIPSTER

● Weiterentwicklung in Grundlagenforschung der Textverarbeitung– Detektion: Suchalgorithmus, Ergebnisfusion

verschiedener Maschine– Extraktion: Abstimmung für neue Domain, erhöhte

Treffsicherheit– Summarizing: Textzusammenfassung

Page 7: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Phase3 des TIPSTER(2)

● Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache

● Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion

Page 8: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

TREC(Text Retrieval Conference)

● Von ARPA initiiert und von NIST organisiert ● Ziel: Evaluation von Text Retrieval Systemen

und Benutzer● Evaluation durch sogenanntes “Cranfield

Paradigm”● Teilung in Arbeitsbereiche (“Tracks”)

Page 9: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

TREC(2)

Tracks :– Cross-Language Track– Filtering Track– Genome Track (neu)– HARD Track– Novelty Track

...

Page 10: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC (Message Understanding Conference)

● Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten

● von NOSC initiiert, von NRAD, RDT&E .... gesponsort

● 1998 (MUC 7) eingestellt

Page 11: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC – Historische Entwicklung

● 1987: MUC 1 – Erkundungsphase– Kein gemeinsames Ergebnisformat– Selbstbewertung

● 1989: MUC 2– Einführung von Templates als Ergebnisformat (10

Slots)– Auseindersetzung mit den Bewertungskriterien (recall

and precision)– Aufgabe: Militärische Meldungen

Page 12: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC – Historische Entwicklung (2)

● 1991: MUC 3 – Aufgabenbereich : terroristische Ereignisse – 18 slots

● 1992: MUC 4– 24 slots

Page 13: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC – Historische Entwicklung

● 1993: MUC 5 – Teil des TIPSTER Projekts der Regierung– zwei Tasks: (International Joint Venture und Electonic

Circuit Fabrication) – Multilingualität– Komplexität: (für Joint Venture Task) 11 Templates

und 47 Slots– Einführung von verschachtelten Templates

(hierarchisch)– Ergebnisse: 57% Recall und 64%Precision, 73%

Recall und 74% in den vier “core tasks”

Page 14: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC 6

● Ziel: – aufgabenunabhängige technische Komponenten der

IE, die bald ausgenutzt werden können– Portabilität der IE Systeme– Einarbeitung in das “tiefere Verständnis” der Systeme

Page 15: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC 6(2)

● Aufgabenbereich :– Kurzfristige Aufgabe: praktische Komponenten zu

erkennen; named entity tasks (ENAMEX und NUMEX)

– Portabilität; Einfachere Templates

Page 16: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC 6 (3)

● Verständnis auf Basis Technologien; SemEval:– Coreference– Word sense disambiguation– Predicate-argument structure

Page 17: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

MUC 7

● Systeme (von IE Task):– American University in Cairo's System– SIFT System (BBN)– Lockheed Martin's NLToolset (AATM7)– Proteus/PET System (NYU)– IE2 System (SRA)– TASC System

Page 18: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

senseval

● Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache)

● Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE

Page 19: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

senseval (historisch)

– SIGLEX-97: “Tagging Text with Lexical Semantics”– SIGLEX-99: “Standardising Lexical Resources” – senseval – 1– senseval – 2– ACL-02 Workshop

Page 20: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

ACE(Automatic Content Extraction)

● Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format

● ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse

● Drei Eingaben: – newswire– broadcast news– newspaper

Page 21: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

ACE

Teilnehmer:● BBN● MITRE● LDC ● NIST ● NYU ● SRI

Page 22: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Phasen der ACE

● Phase 1 (99-00): Entity Detection and Tracking

● Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen)

● evtl. Einstellung wegen mangelnder Finanzierung

Page 23: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Quelle

● http://trec.nist.gov● http://www.itl.nist.gov/iad/894.02/

related_projects/muc/proceedings/muc_7_toc.html

● http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/

● http://www.senseval.org/● http://www.itl.nist.gov/iad/894.01/tests/ace/