DIGITALISIERUNG ALS DIENSTLEISTUNG€¦ · ! !!ID: DC15-1!!Image: DC15\DC15_01\IMG_0010a.jpg!!März

Preview:

Citation preview

DIGITALISIERUNG ALS DIENSTLEISTUNGImages, Metadaten, Strukturdaten

Stefan KrauseEditura GmbH & Co. KG, Berlin

http://www.editura.de

Editura GmbH & Co. KG

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

• Dienstleister für Digitalisierungsprojekte

•Kunden: Archive, Bibliotheken, Verlage, wissenschaftliche Einrichtungen

• Imagedigitalisierung: Bücher, Zeitschriften, Akten, Fotosammlungen usw.

•Volltexterfassung und Strukturierung: Findmittel, Bibliothekskataloge, alle Arten von Literatur

•Datenverarbeitung: Prüfen, Korrigieren, Konvertieren, Verknüpfen

Projektbeispiele

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Beispiel Volltexterfassung und Strukturierung

•Retrokonversion von Findmitteln

•Arbeitsformat Editura-intern, Zielformat EAD

•METS für Images der Vorlagen

•Verknüpfung von Findbuch und Images für einfache Kontrolle und Korrektur

•MidosaXML und METSview

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

<verzeinh>! <vzerschlang>! ! <bemerk>ID: DC15-1</bemerk>! ! <bemerk>Image: DC15\DC15_01\IMG_0010a.jpg</bemerk>! ! <laufzeit>März 1948 - Sept. 1949 (1948- 1949)</laufzeit>! ! <signatur>DC 15/713</signatur>! ! <titel>Organisation und Arbeitsweise der DWK</titel>! ! <dao>! ! ! <dateiname>../METS/METSview.html?ID=FID_DC15-DC15_01-IMG_0010a.jpg</dateiname>! ! ! <beschreibung>Image der Vorlage</beschreibung>! ! </dao>! ! <provenienz>! ! ! <vorprovenienz>Sekretariat des Vors. der DWK H. Rau</vorprovenienz>! ! ! <endprovenienz>Deutsche Wirtschaftskommission</endprovenienz>! ! </provenienz>! </vzerschlang></verzeinh>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Link zur Anwendung mit File-ID

Pfad im Dateisystem

<fileSec> <fileGrp ID="FID_DC15"> […] <file ID="FID_DC15-DC15_01-IMG_0010a.jpg">! <FLocat LOCTYPE="URL" xlink:href="DC15/DC15_01/IMG_0010a.jpg"! ! xlink:title="Image von DC15/DC15_01/IMG_0010a.jpg"/> </file>[…]

<structMap> <div LABEL="DC15" ID="ID_DC15"> <div ID="ID_DC15-DC15_01" LABEL="DC15_01"> […] <div TYPE="standard" ID="ID_SGF_DC15-DC15_01-IMG_0010a.jpg" LABEL="IMG_0010a.jpg"> <fptr FILEID="FID_DC15-DC15_01-IMG_0010a.jpg"/> </div>[…]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

aus den LABEL-Attributen wird die Baumansicht erzeugt

die File-ID ist das

Sprungziel für die Verlinkung aus EAD

Beispiel Imagedigitalisierung und Datenverarbeitung

•Scannen von verfilmten Akten und Verknüpfung mit EAD-Findbuch

•Arbeits- und Zielformate: EAD und METS für MEX/MIDEX

•Erzeugen von METS-Dateien und HTML-Ansichten

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

<c03 level="file"> <head>Betriebskostenentwicklung</head> <did> <unitid type="bestellnummer"> 19</unitid> <unittitle>Betriebskostenentwicklung</unittitle> <unitdate normal="1925-01-01/1932-12-31">1925 - 1932</unitdate> <abstract encodinganalog="EnthaeltDarin" type="enthaelt">Enthält u. a.: Bericht zur Lohnbewegung […]</abstract> <dao xlink:href="31072_019_mets.xml" xlink:title="Akte einsehen"/> </did></c03>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Link auf METS-Datei, MEX/MIDEX erzeugen den korrekten Link und die

Benutzungsoberflächen

<fileSec>! <fileGrp ID="FID_31072" USE="nutz">! ! <file ID="FID_31072_31072_019-31072_019_001" MIMETYPE="image/png"! ! ! USE="nutz">! ! ! <FLocat LOCTYPE="URL"! ! ! ! xlink:href="dao/31072_019/31072_019_001.png"/>! ! </file> […]

<structMap>! <div>! ! <div ID="ID_SGF_31072_019-31072_019_001" TYPE="standard">! ! ! <fptr FILEID="FID_31072_31072_019-31072_019_001"/>! ! </div>! ! <div ID="ID_SGF_31072_019-31072_019_002" TYPE="bika"! ! ! LABEL="Titelblatt">! ! ! <fptr FILEID="FID_31072_31072_019-31072_019_002"/>! ! </div>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

über TYPE-Attribute wird die Darstellung in

der Benutzeroberfläche gesteuert

Beispiel Imagedigitalisierung

•Scannen von Zeitschriften

•Ausgabe als TIFF, JPEG und PDF (mit hinterlegter OCR)

•METS-Dateien zum Transport der Strukturdaten und zur Überprüfung auf Vollständigkeit und Integrität

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

<mets:file ID="id3E491636EFE0923FE4EBC931B0E2F118" MIMETYPE="image/jpeg" SEQ="0" SIZE="5554162" CREATED="2011-01-31T22:03:28Z" CHECKSUM="AE563748136ACC3006493C744DA50031" CHECKSUMTYPE="MD5">! <mets:FLocat LOCTYPE="URL" xlink:href="SinglePageImagesBig\0004.jpg"/>! <mets:FContent>! ! <mets:xmlData>! ! ! <mix:mix>! ! ! ! […]! ! ! ! <mix:BasicImageInformation>! ! ! ! ! <mix:BasicImageCharacteristics>! ! ! ! ! ! <mix:imageWidth>4075</mix:imageWidth>! ! ! ! ! ! <mix:imageHeight>5572</mix:imageHeight>! ! ! ! ! ! <mix:PhotometricInterpretation>! ! ! ! ! ! ! <mix:colorSpace>RGB</mix:colorSpace>! ! ! ! ! ! </mix:PhotometricInterpretation>! ! ! ! ! </mix:BasicImageCharacteristics>! ! ! ! </mix:BasicImageInformation>! ! ! ! […]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

mit diesen Angaben kann geprüft werden, ob die Dateien

im Dateisystem bzw. auf der Festplatte unverändert sind

eingebundene MIX-Daten: technische Metadaten zum

Dateiinhalt, hier Pixelmaße und Farbtiefe

Beispiel Image- und Volltextdigitalisierung

•Scannen von Zeitschriften (durch SLUB)

•Ausgabe der Images als TIFF und JPEG

•Ausgabe der Volltexte als TEI

•METS-Dateien aus TEI generiert, zur Darstellungim DFG-Viewer

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

<mets:dmdSec ID="dMD32258227Z_pj001"> <mets:mdWrap MIMETYPE="text/xml" MDTYPE="MODS"> <mets:xmlData> <mods:mods> <mods:titleInfo> <mods:title>Polytechnisches Journal</mods:title> <mods:subTitle>Herausgegeben von Dr. Johann Gottfried Dingler, Chemiker und Fabrikanten etc. </mods:subTitle> <mods:subTitle>Mit 10 Kupfertafeln. </mods:subTitle> </mods:titleInfo> <mods:name type="personal"> <mods:displayForm authority="gnd">Dr. Johann Gottfried Dingler! ! ! </mods:displayForm> <mods:namePart type="family">Dingler</mods:namePart> <mods:namePart type="given">Johann Gottfried</mods:namePart> <mods:namePart type="date">1778-1855</mods:namePart> […]

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

eingebundene MODS-Daten mit bibliographischen Angaben

<mets:structMap TYPE="LOGICAL">! <mets:div ID="LOGdiv32258227Zd4" TYPE="volume" ! ! ! DMDID="dMD32258227Z_pj001" ADMID="aMD32258227Z" ! ! ! LABEL="Polytechnisches Journal. Band 1">! ! <mets:div ID="LOGdiv32258227Zd4e686" TYPE="titlePage" ! ! ! LABEL="Titelblatt" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e721" TYPE="preface" ! ! ! LABEL="Vorwort" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e761" TYPE="contents" ! ! ! LABEL="Inhaltsverzeichnis" DMDID="dMD32258227Z_pj001"/>! ! <mets:div ID="LOGdiv32258227Zd4e1355" TYPE="issue" ! ! ! LABEL="Heft 1" DMDID="dMD32258227Z_is001001">! ! ! <mets:div ID="LOGdiv32258227Zd4e1358" TYPE="article" ! ! ! ! LABEL="I. Marechaux über die hydraulische Presse." ! ! ! ! DMDID="dMD32258227Z_ar001001"/>! ! ! <mets:div ID="LOGdiv32258227Zd4e3254" TYPE="article" ! ! ! ! LABEL="III. Kurrer über den neuen Seidendruck mittelst ! ! ! ! ! ! örtlicher Farben." DMDID="dMD32258227Z_ar001003"/>

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Strukturdaten: Schachtelung von div-Elementen, Beschriftung in den LABEL-Attributen

METS bei Editura

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

(unsere) Anwendungsfälle für METS

•Präsentation offline

•Präsentation online

•Metadatentransport

•Datenüberprüfung/Langzeitarchivierung

• (Abrechnung)

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

verwaltete Dateien

• Images (Master und Derivate) als TIFF, JPEG, PNG, PDF usw.

•Textdateien, teilweise strukturiert, als TXT, EAD, TEI usw.

•HTML-Präsentationen

•u.v.a.

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Arten von Metadaten

• technische Metadaten•Dateipfade•Größe, Änderungsdatum, Checksumme• Informationen zum Inhalt: Mediatype, Pixelmaße, Auflösung, Farbprofil u.v.m.

• inhaltliche Metadaten•Strukturdaten•alle anderen beschreibenden Daten wie Angaben zu Bestand, Signatur, Autor

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Plädoyer für Strukturdaten

•Technische Metadaten lassen sich sehr einfach erstellen, während inhaltliche Metadaten, besonders Strukturdaten, einen nennenswerten intellektuellen Aufwand erfordern.

•Aber: Strukturdaten erschließen die Digitalisate und bestimmen i.d.R. die Darstellung und Navigation für Benutzer und tragen damit wesentlich zum Erfolg eines Imagedigitalisierungsprojektes bei.

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

• Photograph © Andrew Dunn – Website: http://www.andrewdunnphoto.com/ – CC-by-SA 2.0

Profile

•Profile legen fest, wie die verfügbaren Elemente eingesetzt werden, um Daten abzubilden. Sie treffen eine Auswahl unter Alternativen.

•Beispiele:

•DFG-Viewer

•MEX/MIDEX

•weitere unter http://www.loc.gov/standards/mets/mets-profiles.html

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

Einsatz von METS-Profilen bei Editura

•alle Profile, die unsere Kunden benötigen

• Im Zweifel bevorzugen wir die richtige Darstellung auf dem Zielsystem ggü. der »richtigen« Semantik.

•eigenes Profil für Archivierung, eigene Software zur METS-Erzeugung und Überprüfung archivierter Dateien

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

unsere Wünsche an ein Profil

•ein Profil; wenige Pflichtelemente, unterschiedliche Anwendungsfälle durch optionale Elemente abdecken

•eher weniger Funktionen resp. Elemente und Attribute, diese aber überall vollständig unterstützt

•dauerhafte Pflege des Profils (Präzisierungen, Aktualisierungen, Dokumentation)

•Schema zur Validierung der Daten

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

unsere Wünsche an eine Software

•vollständige Unterstützung des jeweiligen Profils

•Erzeugung von offline-fähigen Präsentationen, d.h. ohne Internetzugang und Serverunterstützung ausführbar

•Präsentation unterstützt Deep-Links, d.h. Sprung zu einem konkreten Image, mit Aufbau des Kontextes

•Datei-Überprüfung und Statistik

Stefan Krause • Editura GmbH & Co. KG, Berlin • http://www.editura.de

DIGITALISIERUNG ALS DIENSTLEISTUNGImages, Metadaten, Strukturdaten

Herzlichen Dank für Ihre Aufmerksamkeit!

Stefan KrauseEditura GmbH & Co. KG, Berlin

http://www.editura.de

• Photograph © Andrew Dunn – Website: http://www.andrewdunnphoto.com/ – CC-by-SA 2.0

Recommended