Europeana Newspapers German infoday - Semantics

Preview:

Citation preview

Der Einsatz automatisierter

Verfahren zur vertieften

Erschließung historischer

Zeitungsbestände. Ein DFG-

Pilotprojekt der ULB Sachsen-

Anhalt

Europeana Newspapers ProjectInformation Day Berlin, 27. Februar 2014

Kay Heiligenhaus

semantics GmbH, Aachen

Einführung

Teilprojekt der

ULB Sachsen-Anhalt

Digitalisierung des Halleschen Tageblattes

∙Laufzeit von Mai 2013 bis April 2015

∙Digitalisierung von 117 Bänden

unterschiedlichen Formats (vom Original in

Farbe)

∙durch Strukturdaten inhaltlich erschlossen

∙durch Fraktur-OCR im Volltext erschlossen

∙persistent adressierbar bis auf Ausgabe-,

Artikel- und Seitenebene

Digitalisierung des Halleschen Tageblattes

Zeitraum Format Anzahl der

Bände

Anzahl der

Seiten

1799 - 1855 Oktav 68 74.280

1856 - 1864 Quart 9 13.611

1865 -1871 Folio 4° 8 11.586

1872 -1892 Folio 2° 32 42.922

Gesamt 117 142.399

TEIL I

Rahmenbedingungen

DFG-Positionspapier (2012): Digitalisierung

Ausschuss für Wissen-

schaftliche Bibliotheken und

Informationssysteme: Die

digitale Transformation weiter

gestalten – Der Beitrag der

Deutschen Forschungs-

gemeinschaft zu einer

innovativen Informations-

infrastruktur für die Forschung,

Bonn, 3. Juli 2012.

http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf

DFG-Positionspapier (2012): Förderschwerpunkte

Zur weiteren Umsetzung der

digitalen Transformation analoger

Überlieferung wird sich der

Schwerpunkt der

Förderaktivitäten im Bereich

Digitalisierung nach und nach von

Drucken hin zu historischen

Zeitungen und unikalem

Material […] verschieben. (S. 10)

DFG-Positionspapier (2012): Pilotprojekt Zeitungen

Bei der […] Förderung von

Digitalisierungsmaßnahmen im

Bereich historischer Zeitungen

[…] wird es in erster Linie darum

gehen, im Rahmen von

Pilotphasen methodische,

organisatorische und

technische Rahmen-

bedingungen […] zu definieren.

(S. 10)

DFG-Positionspapier (2012): Automatisierung

Vor dem Hintergrund technischer

Weiterentwicklungen sollte […]

eruiert werden, wie

automatisierte Verfahren zur

vertieften Erschließung […]

Anwendung finden können. Dabei

soll auch die Entwicklung neuer

Methoden, zum Beispiel im Bereich

des Machine Learning, gefördert

werden. (S. 12)

TEIL II

Ziele des Projektes

Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945

o Zeitungen in der ZDB:

~ 50.000 Titel;

o Zeitungen, eingeschränkt auf

Deutschland:

~ 30.000 Titel;

o Zeitungen, eingeschränkt auf

Deutschland vor 1945:

~ 16.000 Titel.

http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG

Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer

Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)

Ist-Stand: Manuelle Strukturdatenerfassung

Mengengerüst und Kosten: Minimal-Erschließung

o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,

~ 1 Mrd. Seiten)

o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8

Stunden/Tag, 250 Arbeitstage/Jahr)

o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro

Seite)

� Herausforderung: Reduktion der Erschließungskosten.

TEIL II

Lösungsansätze

Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader

Lösungsoption I: Kernproblem ist die Erkennung vonFrakturschriften

Kosten der Lösungsoption I:

Einsatz von Abbyy Finereader

o ~ 10 Mio. EUR Lizenzkosten OCR

o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre

auf aktueller Server-Hardware)

o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung)

� ~ 17,25 Mio. EUR Gesamtkosten

(~ 50% Einsparung)

Lösungsoption II: Mustererkennung

Lösungsoption II: Musterwiederholungen beiperiodischen Werken

Lösungsoption II: Ermittlung eines Fingerprints

Lösungsoption II: Technische Parameter zurErmittlung des Fingerprints

o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen.

o Objektgröße

o Erosion/Dilation

o Position

o Objektanzahl(min/max)

o 11 Mio. Kombinationen(50 x 15 x 250 x 600)

o ~ 1 Seite/Sekunde pro Core

Einsatz in der Projekt-Praxis: AutomatischeSegmentierung eines Jahrgangs

Einsatz in der Projekt-Praxis: Qualitätssicherung dersegmentierten Jahrgänge

Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe

Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe II

Kosten der Lösungsoption II:

Einsatz von Mustererkennung

o ~ ? EUR Entwicklungs-/Lizenzkosten

o ~ ? EUR Verarbeitungskosten

o ~ 3,5 Mio. EUR Personalkosten (90%

Effizienzsteigerung)

� ~ ? Mio. EUR Gesamtkosten

(> 75% Einsparung)

TEIL IV

Ausblick

Ausblick I: Vertiefte Erschließung von Rubriken,

Artikeln, Einzelseiten

Ausblick II: Nutzung von OCR / Vertiefte

Volltextrecherche (im DFG-Viewer)

Ausblick III: Persistente Adressierung

von Artikeln

Ausblick III: Persistente Adressierung

von Einzelseiten