Bessere Suchergebnisse durch Named Entity Recognition

Bessere Suchergebnisse durch

Named Entity Recognition

Historische Zeitungen im digitalen Zeitalter /I giornali storici nell’era digitale

27.10.2014 EURAC Bozen / Bolzano

Clemens Neudecker, State Library Berlin

@cneudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2

Was ist eigentlich „Named Entity Recognition“?

• Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.

• Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.

• Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.

http://ec.europa.eu/ict_psp

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Oder: Was ist eigentlich ein „Named Entity“?

• PERSON: • Personennamen, Familiennamen, aber auch Namen von fiktiven

Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)

• ORGANISATION: • Bezeichnungen von Firmen, Regierungs- oder Nicht-

Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)

• ORT: • Städte, Provinzen, Länder, Gebiete, usw.

(„Paris“, „Südtirol“, „Alpen“)

3



NER (I)

4

1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext



NER (II)

5

2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen



NER (III)

6

3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)



Sprachunterstützung

3 Sprachen:

• Deutsch

• Niederländisch

• Französisch

7



Ansatz

• Machine learning vs. Regelbasierter (rule-based) Ansatz

• Vorteile Machine-learning: • Keine (quasi) linguistische Expertise notwendig• Verarbeitung von großen Mengen möglich

• Vorteile Regelbasiert:• Sehr hohe Genauigkeiten möglich• Berücksichtigung spezieller Grammatiken

8



Software

• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL

• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner

9


https://github.com/KBNLresearch/europeananp-ner

https://github.com/KBNLresearch/europeananp-ner


Training

• Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora

• Veröffentlichung des annotierten Korpus als Open Data

10



Probleme und Herausforderungen

• OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung

• Historische Schreibvarianten für Orts- und Personennamen

• In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen

Anpassungen der Software für OCR Problematik

11



Erste Resultate: Niederländisch

12

Personen Orte Organisationen

Precision 0.940 0.950 0.942

Recall 0.588 0.760 0.559

F-measure 0.689 0.838 0.671



Warum überhaupt Named Entity Recognition?

• Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte

(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)

13


http://dharchive.org/paper/DH2014/Paper-310.xml




Beispiel für die Präsentation aus Nutzersicht: Digi20

• Digi20 Projekt der BSB

14

http://digi20.digitale-sammlungen.de/




Danke für Ihre Aufmerksamkeit!Grazie per la vostra attenzione!@eurnews

http://www.europeana-newspapers.eu

http://www.theeuropeanlibrary.org/tel4/newspapers

http://www.europeana.eu/

https://twitter.com/eurnews

https://twitter.com/eurnews

http://www.europeana-newspapers.eu/





Technology

Bessere Suchergebnisse durch Named Entity Recognition