31
DIGITALISIERUNG ALS DIENSTLEISTUNG Images, Metadaten, Strukturdaten Stefan Krause Editura GmbH & Co. KG, Berlin http://www.editura.de

DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

DIGITALISIERUNG ALS DIENSTLEISTUNGImages, Metadaten, Strukturdaten

Stefan KrauseEditura GmbH & Co. KG, Berlin

http://www.editura.de

Page 2: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Editura GmbH & Co. KG

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

• Dienstleister für Digitalisierungsprojekte

•Kunden: Archive, Bibliotheken, Verlage, wissenschaftliche Einrichtungen

• Imagedigitalisierung: Bücher, Zeitschriften, Akten, Fotosammlungen usw.

•Volltexterfassung und Strukturierung: Findmittel, Bibliothekskataloge, alle Arten von Literatur

•Datenverarbeitung: Prüfen, Korrigieren, Konvertieren, Verknüpfen

Page 3: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Projektbeispiele

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 4: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Beispiel Volltexterfassung und Strukturierung

•Retrokonversion von Findmitteln

•Arbeitsformat Editura-intern, Zielformat EAD

•METS für Images der Vorlagen

•Verknüpfung von Findbuch und Images für einfache Kontrolle und Korrektur

•MidosaXML und METSview

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 5: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 6: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 7: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<verzeinh>! <vzerschlang>! ! <bemerk>ID: DC15-1</bemerk>! ! <bemerk>Image: DC15\DC15_01\IMG_0010a.jpg</bemerk>! ! <laufzeit>März 1948 - Sept. 1949 (1948- 1949)</laufzeit>! ! <signatur>DC 15/713</signatur>! ! <titel>Organisation und Arbeitsweise der DWK</titel>! ! <dao>! ! ! <dateiname>../METS/METSview.html?ID=FID_DC15-DC15_01-IMG_0010a.jpg</dateiname>! ! ! <beschreibung>Image der Vorlage</beschreibung>! ! </dao>! ! <provenienz>! ! ! <vorprovenienz>Sekretariat des Vors. der DWK H. Rau</vorprovenienz>! ! ! <endprovenienz>Deutsche Wirtschaftskommission</endprovenienz>! ! </provenienz>! </vzerschlang></verzeinh>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Link zur Anwendung mit File-ID

Pfad im Dateisystem

Page 8: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<fileSec> <fileGrp ID="FID_DC15"> […] <file ID="FID_DC15-DC15_01-IMG_0010a.jpg">! <FLocat LOCTYPE="URL" xlink:href="DC15/DC15_01/IMG_0010a.jpg"! ! xlink:title="Image von DC15/DC15_01/IMG_0010a.jpg"/> </file>[…]

<structMap> <div LABEL="DC15" ID="ID_DC15"> <div ID="ID_DC15-DC15_01" LABEL="DC15_01"> […] <div TYPE="standard" ID="ID_SGF_DC15-DC15_01-IMG_0010a.jpg" LABEL="IMG_0010a.jpg"> <fptr FILEID="FID_DC15-DC15_01-IMG_0010a.jpg"/> </div>[…]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

aus den LABEL-Attributen wird die Baumansicht erzeugt

die File-ID ist das

Sprungziel für die Verlinkung aus EAD

Page 9: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Beispiel Imagedigitalisierung und Datenverarbeitung

•Scannen von verfilmten Akten und Verknüpfung mit EAD-Findbuch

•Arbeits- und Zielformate: EAD und METS für MEX/MIDEX

•Erzeugen von METS-Dateien und HTML-Ansichten

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 10: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 11: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 12: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<c03 level="file"> <head>Betriebskostenentwicklung</head> <did> <unitid type="bestellnummer"> 19</unitid> <unittitle>Betriebskostenentwicklung</unittitle> <unitdate normal="1925-01-01/1932-12-31">1925 - 1932</unitdate> <abstract encodinganalog="EnthaeltDarin" type="enthaelt">Enthält u. a.: Bericht zur Lohnbewegung […]</abstract> <dao xlink:href="31072_019_mets.xml" xlink:title="Akte einsehen"/> </did></c03>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Link auf METS-Datei, MEX/MIDEX erzeugen den korrekten Link und die

Benutzungsoberflächen

Page 13: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<fileSec>! <fileGrp ID="FID_31072" USE="nutz">! ! <file ID="FID_31072_31072_019-31072_019_001" MIMETYPE="image/png"! ! ! USE="nutz">! ! ! <FLocat LOCTYPE="URL"! ! ! ! xlink:href="dao/31072_019/31072_019_001.png"/>! ! </file> […]

<structMap>! <div>! ! <div ID="ID_SGF_31072_019-31072_019_001" TYPE="standard">! ! ! <fptr FILEID="FID_31072_31072_019-31072_019_001"/>! ! </div>! ! <div ID="ID_SGF_31072_019-31072_019_002" TYPE="bika"! ! ! LABEL="Titelblatt">! ! ! <fptr FILEID="FID_31072_31072_019-31072_019_002"/>! ! </div>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

über TYPE-Attribute wird die Darstellung in

der Benutzeroberfläche gesteuert

Page 14: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Beispiel Imagedigitalisierung

•Scannen von Zeitschriften

•Ausgabe als TIFF, JPEG und PDF (mit hinterlegter OCR)

•METS-Dateien zum Transport der Strukturdaten und zur Überprüfung auf Vollständigkeit und Integrität

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 15: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 16: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<mets:file ID="id3E491636EFE0923FE4EBC931B0E2F118" MIMETYPE="image/jpeg" SEQ="0" SIZE="5554162" CREATED="2011-01-31T22:03:28Z" CHECKSUM="AE563748136ACC3006493C744DA50031" CHECKSUMTYPE="MD5">! <mets:FLocat LOCTYPE="URL" xlink:href="SinglePageImagesBig\0004.jpg"/>! <mets:FContent>! ! <mets:xmlData>! ! ! <mix:mix>! ! ! ! […]! ! ! ! <mix:BasicImageInformation>! ! ! ! ! <mix:BasicImageCharacteristics>! ! ! ! ! ! <mix:imageWidth>4075</mix:imageWidth>! ! ! ! ! ! <mix:imageHeight>5572</mix:imageHeight>! ! ! ! ! ! <mix:PhotometricInterpretation>! ! ! ! ! ! ! <mix:colorSpace>RGB</mix:colorSpace>! ! ! ! ! ! </mix:PhotometricInterpretation>! ! ! ! ! </mix:BasicImageCharacteristics>! ! ! ! </mix:BasicImageInformation>! ! ! ! […]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

mit diesen Angaben kann geprüft werden, ob die Dateien

im Dateisystem bzw. auf der Festplatte unverändert sind

eingebundene MIX-Daten: technische Metadaten zum

Dateiinhalt, hier Pixelmaße und Farbtiefe

Page 17: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Beispiel Image- und Volltextdigitalisierung

•Scannen von Zeitschriften (durch SLUB)

•Ausgabe der Images als TIFF und JPEG

•Ausgabe der Volltexte als TEI

•METS-Dateien aus TEI generiert, zur Darstellungim DFG-Viewer

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 18: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 19: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<mets:dmdSec ID="dMD32258227Z_pj001"> <mets:mdWrap MIMETYPE="text/xml" MDTYPE="MODS"> <mets:xmlData> <mods:mods> <mods:titleInfo> <mods:title>Polytechnisches Journal</mods:title> <mods:subTitle>Herausgegeben von Dr. Johann Gottfried Dingler, Chemiker und Fabrikanten etc. </mods:subTitle> <mods:subTitle>Mit 10 Kupfertafeln. </mods:subTitle> </mods:titleInfo> <mods:name type="personal"> <mods:displayForm authority="gnd">Dr. Johann Gottfried Dingler! ! ! </mods:displayForm> <mods:namePart type="family">Dingler</mods:namePart> <mods:namePart type="given">Johann Gottfried</mods:namePart> <mods:namePart type="date">1778-1855</mods:namePart> […]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

eingebundene MODS-Daten mit bibliographischen Angaben

Page 20: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

<mets:structMap TYPE="LOGICAL">! <mets:div ID="LOGdiv32258227Zd4" TYPE="volume" ! ! ! DMDID="dMD32258227Z_pj001" ADMID="aMD32258227Z" ! ! ! LABEL="Polytechnisches Journal. Band 1">! ! <mets:div ID="LOGdiv32258227Zd4e686" TYPE="titlePage" ! ! ! LABEL="Titelblatt" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e721" TYPE="preface" ! ! ! LABEL="Vorwort" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e761" TYPE="contents" ! ! ! LABEL="Inhaltsverzeichnis" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e1355" TYPE="issue" ! ! ! LABEL="Heft 1" DMDID="dMD32258227Z_is001001">! ! ! <mets:div ID="LOGdiv32258227Zd4e1358" TYPE="article" ! ! ! ! LABEL="I. Marechaux über die hydraulische Presse." ! ! ! ! DMDID="dMD32258227Z_ar001001"/>! ! ! <mets:div ID="LOGdiv32258227Zd4e3254" TYPE="article" ! ! ! ! LABEL="III. Kurrer über den neuen Seidendruck mittelst ! ! ! ! ! ! örtlicher Farben." DMDID="dMD32258227Z_ar001003"/>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Strukturdaten: Schachtelung von div-Elementen, Beschriftung in den LABEL-Attributen

Page 21: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

METS bei Editura

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 22: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

(unsere) Anwendungsfälle für METS

•Präsentation offline

•Präsentation online

•Metadatentransport

•Datenüberprüfung/Langzeitarchivierung

• (Abrechnung)

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 23: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

verwaltete Dateien

• Images (Master und Derivate) als TIFF, JPEG, PNG, PDF usw.

•Textdateien, teilweise strukturiert, als TXT, EAD, TEI usw.

•HTML-Präsentationen

•u.v.a.

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 24: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Arten von Metadaten

• technische Metadaten•Dateipfade•Größe, Änderungsdatum, Checksumme• Informationen zum Inhalt: Mediatype, Pixelmaße, Auflösung, Farbprofil u.v.m.

• inhaltliche Metadaten•Strukturdaten•alle anderen beschreibenden Daten wie Angaben zu Bestand, Signatur, Autor

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 25: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Plädoyer für Strukturdaten

•Technische Metadaten lassen sich sehr einfach erstellen, während inhaltliche Metadaten, besonders Strukturdaten, einen nennenswerten intellektuellen Aufwand erfordern.

•Aber: Strukturdaten erschließen die Digitalisate und bestimmen i.d.R. die Darstellung und Navigation für Benutzer und tragen damit wesentlich zum Erfolg eines Imagedigitalisierungsprojektes bei.

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 26: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

• Photograph © Andrew Dunn – Website: http://www.andrewdunnphoto.com/ – CC-by-SA 2.0

Page 27: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Profile

•Profile legen fest, wie die verfügbaren Elemente eingesetzt werden, um Daten abzubilden. Sie treffen eine Auswahl unter Alternativen.

•Beispiele:

•DFG-Viewer

•MEX/MIDEX

•weitere unter http://www.loc.gov/standards/mets/mets-profiles.html

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 28: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Einsatz von METS-Profilen bei Editura

•alle Profile, die unsere Kunden benötigen

• Im Zweifel bevorzugen wir die richtige Darstellung auf dem Zielsystem ggü. der »richtigen« Semantik.

•eigenes Profil für Archivierung, eigene Software zur METS-Erzeugung und Überprüfung archivierter Dateien

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 29: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

unsere Wünsche an ein Profil

•ein Profil; wenige Pflichtelemente, unterschiedliche Anwendungsfälle durch optionale Elemente abdecken

•eher weniger Funktionen resp. Elemente und Attribute, diese aber überall vollständig unterstützt

•dauerhafte Pflege des Profils (Präzisierungen, Aktualisierungen, Dokumentation)

•Schema zur Validierung der Daten

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 30: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

unsere Wünsche an eine Software

•vollständige Unterstützung des jeweiligen Profils

•Erzeugung von offline-fähigen Präsentationen, d.h. ohne Internetzugang und Serverunterstützung ausführbar

•Präsentation unterstützt Deep-Links, d.h. Sprung zu einem konkreten Image, mit Aufbau des Kontextes

•Datei-Überprüfung und Statistik

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Page 31: DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

DIGITALISIERUNG ALS DIENSTLEISTUNGImages, Metadaten, Strukturdaten

Herzlichen Dank für Ihre Aufmerksamkeit!

Stefan KrauseEditura GmbH & Co. KG, Berlin

http://www.editura.de

• Photograph © Andrew Dunn – Website: http://www.andrewdunnphoto.com/ – CC-by-SA 2.0