33
Der Einsatz automatisierter Verfahren zur vertieften Erschließung historischer Zeitungsbestände. Ein DFG- Pilotprojekt der ULB Sachsen- Anhalt Europeana Newspapers Project Information Day Berlin, 27. Februar 2014 Kay Heiligenhaus semantics GmbH, Aachen

Europeana Newspapers German infoday - Semantics

Embed Size (px)

Citation preview

Page 1: Europeana Newspapers German infoday - Semantics

Der Einsatz automatisierter

Verfahren zur vertieften

Erschließung historischer

Zeitungsbestände. Ein DFG-

Pilotprojekt der ULB Sachsen-

Anhalt

Europeana Newspapers ProjectInformation Day Berlin, 27. Februar 2014

Kay Heiligenhaus

semantics GmbH, Aachen

Page 2: Europeana Newspapers German infoday - Semantics

Einführung

Teilprojekt der

ULB Sachsen-Anhalt

Page 3: Europeana Newspapers German infoday - Semantics

Digitalisierung des Halleschen Tageblattes

∙Laufzeit von Mai 2013 bis April 2015

∙Digitalisierung von 117 Bänden

unterschiedlichen Formats (vom Original in

Farbe)

∙durch Strukturdaten inhaltlich erschlossen

∙durch Fraktur-OCR im Volltext erschlossen

∙persistent adressierbar bis auf Ausgabe-,

Artikel- und Seitenebene

Page 4: Europeana Newspapers German infoday - Semantics

Digitalisierung des Halleschen Tageblattes

Zeitraum Format Anzahl der

Bände

Anzahl der

Seiten

1799 - 1855 Oktav 68 74.280

1856 - 1864 Quart 9 13.611

1865 -1871 Folio 4° 8 11.586

1872 -1892 Folio 2° 32 42.922

Gesamt 117 142.399

Page 5: Europeana Newspapers German infoday - Semantics

TEIL I

Rahmenbedingungen

Page 6: Europeana Newspapers German infoday - Semantics

DFG-Positionspapier (2012): Digitalisierung

Ausschuss für Wissen-

schaftliche Bibliotheken und

Informationssysteme: Die

digitale Transformation weiter

gestalten – Der Beitrag der

Deutschen Forschungs-

gemeinschaft zu einer

innovativen Informations-

infrastruktur für die Forschung,

Bonn, 3. Juli 2012.

http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf

Page 7: Europeana Newspapers German infoday - Semantics

DFG-Positionspapier (2012): Förderschwerpunkte

Zur weiteren Umsetzung der

digitalen Transformation analoger

Überlieferung wird sich der

Schwerpunkt der

Förderaktivitäten im Bereich

Digitalisierung nach und nach von

Drucken hin zu historischen

Zeitungen und unikalem

Material […] verschieben. (S. 10)

Page 8: Europeana Newspapers German infoday - Semantics

DFG-Positionspapier (2012): Pilotprojekt Zeitungen

Bei der […] Förderung von

Digitalisierungsmaßnahmen im

Bereich historischer Zeitungen

[…] wird es in erster Linie darum

gehen, im Rahmen von

Pilotphasen methodische,

organisatorische und

technische Rahmen-

bedingungen […] zu definieren.

(S. 10)

Page 9: Europeana Newspapers German infoday - Semantics

DFG-Positionspapier (2012): Automatisierung

Vor dem Hintergrund technischer

Weiterentwicklungen sollte […]

eruiert werden, wie

automatisierte Verfahren zur

vertieften Erschließung […]

Anwendung finden können. Dabei

soll auch die Entwicklung neuer

Methoden, zum Beispiel im Bereich

des Machine Learning, gefördert

werden. (S. 12)

Page 10: Europeana Newspapers German infoday - Semantics

TEIL II

Ziele des Projektes

Page 11: Europeana Newspapers German infoday - Semantics

Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945

o Zeitungen in der ZDB:

~ 50.000 Titel;

o Zeitungen, eingeschränkt auf

Deutschland:

~ 30.000 Titel;

o Zeitungen, eingeschränkt auf

Deutschland vor 1945:

~ 16.000 Titel.

http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG

Page 12: Europeana Newspapers German infoday - Semantics

Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer

Page 13: Europeana Newspapers German infoday - Semantics

Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)

Page 14: Europeana Newspapers German infoday - Semantics

Ist-Stand: Manuelle Strukturdatenerfassung

Page 15: Europeana Newspapers German infoday - Semantics

Mengengerüst und Kosten: Minimal-Erschließung

o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,

~ 1 Mrd. Seiten)

o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8

Stunden/Tag, 250 Arbeitstage/Jahr)

o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro

Seite)

� Herausforderung: Reduktion der Erschließungskosten.

Page 16: Europeana Newspapers German infoday - Semantics

TEIL II

Lösungsansätze

Page 17: Europeana Newspapers German infoday - Semantics

Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader

Page 18: Europeana Newspapers German infoday - Semantics

Lösungsoption I: Kernproblem ist die Erkennung vonFrakturschriften

Page 19: Europeana Newspapers German infoday - Semantics

Kosten der Lösungsoption I:

Einsatz von Abbyy Finereader

o ~ 10 Mio. EUR Lizenzkosten OCR

o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre

auf aktueller Server-Hardware)

o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung)

� ~ 17,25 Mio. EUR Gesamtkosten

(~ 50% Einsparung)

Page 20: Europeana Newspapers German infoday - Semantics

Lösungsoption II: Mustererkennung

Page 21: Europeana Newspapers German infoday - Semantics

Lösungsoption II: Musterwiederholungen beiperiodischen Werken

Page 22: Europeana Newspapers German infoday - Semantics

Lösungsoption II: Ermittlung eines Fingerprints

Page 23: Europeana Newspapers German infoday - Semantics

Lösungsoption II: Technische Parameter zurErmittlung des Fingerprints

o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen.

o Objektgröße

o Erosion/Dilation

o Position

o Objektanzahl(min/max)

o 11 Mio. Kombinationen(50 x 15 x 250 x 600)

o ~ 1 Seite/Sekunde pro Core

Page 24: Europeana Newspapers German infoday - Semantics

Einsatz in der Projekt-Praxis: AutomatischeSegmentierung eines Jahrgangs

Page 25: Europeana Newspapers German infoday - Semantics

Einsatz in der Projekt-Praxis: Qualitätssicherung dersegmentierten Jahrgänge

Page 26: Europeana Newspapers German infoday - Semantics

Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe

Page 27: Europeana Newspapers German infoday - Semantics

Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe II

Page 28: Europeana Newspapers German infoday - Semantics

Kosten der Lösungsoption II:

Einsatz von Mustererkennung

o ~ ? EUR Entwicklungs-/Lizenzkosten

o ~ ? EUR Verarbeitungskosten

o ~ 3,5 Mio. EUR Personalkosten (90%

Effizienzsteigerung)

� ~ ? Mio. EUR Gesamtkosten

(> 75% Einsparung)

Page 29: Europeana Newspapers German infoday - Semantics

TEIL IV

Ausblick

Page 30: Europeana Newspapers German infoday - Semantics

Ausblick I: Vertiefte Erschließung von Rubriken,

Artikeln, Einzelseiten

Page 31: Europeana Newspapers German infoday - Semantics

Ausblick II: Nutzung von OCR / Vertiefte

Volltextrecherche (im DFG-Viewer)

Page 32: Europeana Newspapers German infoday - Semantics

Ausblick III: Persistente Adressierung

von Artikeln

Page 33: Europeana Newspapers German infoday - Semantics

Ausblick III: Persistente Adressierung

von Einzelseiten