Upload
dennis-zielke
View
103
Download
0
Embed Size (px)
DESCRIPTION
Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt. Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Citation preview
http://www.laudatio-repository.org
1
LAUDATIO-Workshop
Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepositorien
Technische (Weiter-)Entwicklung LAUDATIO-Repository für
historische Textkorpora 8. Oktober 2014, Berlin
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
2
$whoami
Dennis Zielke LAUDATIO-Repository Entwickler
Source code auf Github: https://github.com/DZielke/laudatio
Weitere Projekte:
http://repositoryranking.org/
http://de.linkedin.com/pub/dennis-zielke/
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
3
TEI XML P5 Komplexe Datenstruktur
Deutsche historische Texte und ihre linguistischen Annotationen einschließlich aller Dialekte vom 9. bis 19. Jahrhundert • Metadaten zum Korpus • Dokumente • Annotationen • Bearbeitungsschritte
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
4
Repository-Architektur
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
5
• CakePHP 2.4-Framework • Fedora 3.6 für die Datenhaltung und Speicherung
• Fedora REST-Schnittstelle zum Datenaustausch • ElasticSearch als Suchengine
• REST-Schnittstelle zum Datenaustausch • Externer PID-Webservice zur Verwaltung der Persistent Identifier
(handle) • Third party Open Source libraries auf Github
• http://tinyurl.com/lf26u97 • Flat-Design (HTML5, CSS3) work in progress
Open-Source-Technologien
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
6
• Technische Infrastruktur: • 2 Virtuelle Maschinen • Ubuntu 14.04 • jeweils 2 CPUs und 12 GB RAM Arbeitsspeicher (skalierbar) • Ausfallsicherheit durch Monitoring mithilfe von Nagios am
CMS • Versionsverwaltungssystem: Git
• verschiedene nützliche Tools z. B. Git Bash und GitWeb
Entwickeln/Testen/Prüfen
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
7
• Entwicklungsumgebung: PhpStorm 7.1.3 • Ticketsystem: Redmine • ES-HEAD-PlugIn: Testen von Mapping, Facetten, Nested Facets • FedoraAdmin Client: Testen und Prüfen der Datastreams in Fedora
Entwickeln/Testen/Prüfen
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
8 Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
9
Module: • Anbindung an externen PID-Webservice
• Datenhaltung im Fedora-Repository
• GUI-Client für die Suche
• Erweiterbares IndexMapping für ElasticSearch und automatische Schema-Validierung • nutzbar für weitere Formate
• Einbindung Frontend-Editor für Redakteure
• Adminbereich • Nutzermanagement • Authentifizierung LDAP, HTTP-Login • Konfiguration
Nachnutzungsmöglichkeiten
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
10
• Anbindung an das HU-Medienrepositorium via API-Upload Plugin • Implementierung eines Metadateneditors • Migration von Fedora 3.6 zu Fedora 4 • Unterstützung weiterer Metadatenformate, je nach Bedarf der
jeweiligen Disziplin • Bereitstellung einer OAI-PMH Schnittstelle zur Anbindung an
externe Datenaggregatoren
Ausblick
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
http://www.laudatio-repository.org
11
Vielen Dank!
E-Mail: [email protected]
Dennis Zielke Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Aufbau eines Cross Media Repository
Qucosa Project
https://creativecommons.org/licenses/by/4.0/
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
$ whoami
2014-09-19, Fedora User Group Meeting
Ralf Claussnitzer Sächsische Landesbibliothek – Staats- und Universitätsbibliothek
Dresden (SLUB)
IT Abteilung seit 2008
Software Entwicklung und -Architektur
WWW
• @claussni
• github.org/claussni
•
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Ausgangspunkt
2014-09-19, Fedora User Group Meeting
Institutionelles Repositorium Qucosa Mandantenfähig
• Universitäten, Hochschulen, Forschungsinstitute, Bibliotheken
Basierend auf OPUS 4 und TYPO3 • Two-Tier: Web Service Backend + CMS Frontend
− Einfache IR Software
− Komplexes Content Management System
Status Quo • End-Of-Project = End-Of-Resources
• Veraltetet PHP Codebasis
• Nachfrage nach neuen/zeitgemäßen Features
• Resource Discovery System hat Recherchemaske nicht abgelöst
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle Digitalen Objekte - 1
2014-09-19, Fedora User Group Meeting
Anforderungen Hochschulschriftenserver Entwicklung von Pre-Print, über Post-Print-Volltext zu Gold Open
Access
Fokussierung auf Dissertationen im PDF Format
Sekundär auch Bilder und Tondokumente, DVD
Oft Einbettung in Webseiten der Universität
Integration mit anderen System „drangestrickt“
Anforderungen der DNB OAI-PMH
Spezielles Protokoll mit inhaltlichen Aspekten: xMetaDissPlus
Pflichtexemplarrecht und Administrative Workflows
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle Digitalen Objekte - 2
2014-09-19, Fedora User Group Meeting
Digitalisate Behandlung bisher getrennt von Repositorien in „Digitalen
Sammlungen“ und Bilddatenbanken
Born Digitals und Retrodigitalisiate teilen sich viele Eigenschaften (URIs, Dateien, Präsentation im Web)
Datenqualität deutlich homogener (Bilder, Beschreibungsformate wie METS/MODS)
Metadatenerfassung meist ausreichend standardisiert
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle Digitalen Objekte - 3
2014-09-19, Fedora User Group Meeting
Sammlung vs. Langzeitarchivierung Möglichst umfassende Sammlung von Netzpublikationen erfordert
Verringerung der (technischen) Qualitätsanforderungen
(echte) Langzeitarchivierung erfordert aber hohe Qualität
Umwandlung nicht immer möglich (oder erlaubt)
Definition von Service Levels Nutzer schon bei der Abgabe Informieren
Ralf Claussnitzer | @claussni
Gute Archivierbarkeit
Schlechte Archivierbarkeit
Keine Archivierbarkeit
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Perspektiven
2014-09-19, Fedora User Group Meeting
Born-Digitals und Retrodigitalisate gleichartig behandeln Digitale Objekte mit Metadaten und Anhängen
Metadatenstandards voll ausnutzen Weg von Bibliothekarisch (/Katalog-) orientierten Datenbankschemata
Organisatorisch-Technische Vorteile Verringerung der Systemvielfalt
Weniger Technologien; Mehr Transparenz
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Warum Fedora?
2014-09-19, Fedora User Group Meeting
Fedora fokusiert auf Infrastruktur Out-of-the-box Software fokussiert IR Anwendungsfälle und GUI
• Hohes Abstraktionsniveua
Loose gekoppelte Dienste als Systemmodell
Speicherung unabhängig vom Metadatenschema
Unsere Anforderungen Weiterentwicklung des Metadatenschemas
Vielzahl an Medientypen
Veraltetet Speicherinfrastruktur • Vollständige Migration ist keine Option
• Möglichkeit von irreperablen Inkonsistenzen
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Architekturansatz - 1
2014-09-19, Fedora User Group Meeting
Fedora
API-A OAI
API-M JMS
SWORD
API
Elasticsearch
River
API
OAI
Proai 1
Proai 2
Proai …n
Internet TYPO3
Presentation Administration
Services
…
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Architekturansatz - 2
2014-09-19, Fedora User Group Meeting
Weitere Verbesserungen Konsequente Verwendung von Message Bus Konzepten
• SOA mit Microservices
Ablösung des Elasticsearch River Index • ES Rivers werden nicht mehr unterstützt
Apache Camel / SLUB d:swarm Projekt • Datentransformation
• Nachrichten Routing
Fedora 4.x • Workspaces (Entwürfe)
• Hierarchische Datenbank
• Federated Storage
Ralf Claussnitzer | @claussni
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Stand der Entwicklungen
09.10.2014
Fedora 3.8.0-RC1 als Repository Generisch, Schemaunabhängig
ElasticSearch 1.2.x Cluster-fähiger Suchindex (Lucene Core, REST API)
Indexierung der Daten mit Fedora River (Eigenentwicklung)
Fedora 4 nächster großer Schritt, aber: Fundamental anderes Konzept
Migration von Fedora 3.x erst mit Fedora 4.1 geplant
Generisches Messaging und Application Integration SLUB Datenmanagement Plattform d:swarm für Suchindex
Ralf Claußnitzer, IT SLUB, (@claussni)
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Nachnutzung der Ergebnisse
2014-09-19, Fedora User Group Meeting
Open Source Projektergebnisse auf GitHub
https://github.com/slub
Lizensierung GPLv3
• TYPO3 Frontend
Apache License 2.0 • Fedora Komponenten; Java Services
• Elasticsearch River
Andere Open Source Lizenzen • Für Erweiterungen bestehender Fedora Commons Dienste
Ralf Claussnitzer | @claussni
2014-09-19, Fedora User Group Meeting
Thanks! Questions?
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle digitalen Objekte
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
Anforderung: Open Access Publishing Plattform
• Weniger qualifizierte erschlossene Beiträge bedeuten mehr Aufwand für die Bearbeiter, mehr Nachfragen, mehr Änderungen
• Unter Umständen müssen Publikationsanfragen abgelehnt werden (keine Thematische Einschränkung, aber inhaltliche)
• Unklare Lizenzsituation bzw. Patentsituation kann zum Veranlassen einer Sperrung führen
• Häufig müssen Embargofristen beachtet werden (Konflikt mit Abgabe und Ablieferungspflicht DNB)
• Neue Veröffentlichung -> neue bibliothekarische Metadaten (schwierig bei einfachen Datenbankkonstruktionen)
• Dubletten (Erkennung? Repository muss potentielle Kandidaten finden und den Administratoren vorschlagen)
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle digitalen Objekte
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
Anforderung: Elektronische Pflichtexemplare (1)
• Gesetzliche geforderte Abgabe aller elektronisch Publikationen an die Bibliothek
• Basis: Pflichtexemplarrecht
„Zweck des Pflichtexemplarrechtes ist heute vorrangig die möglichst vollständige Archivierung aller Veröffentlichungen eines Landes als Zeugnis des kulturellen Schaffens, ihre bibliografische Dokumentation und die Zugänglichmachung für die Allgemeinheit. Die Bibliotheken sind deshalb gesetzlich dazu verpflichtet, Pflichtexemplare auf unbegrenzte Zeit aufzubewahren und eine Nationalbibliographie zu erstellen.“
(*) http://de.wikipedia.org/wiki/Pflichtexemplar
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle digitalen Objekte
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
Anforderung: Elektronische Pflichtexemplare (2)
§ 7 Beschaffenheit von Netzpublikationen und Umfang der Ablieferungspflicht
(1) Unkörperliche Medienwerke (Netzpublikationen) sind in marktüblicher Ausführung und in mit marktüblichen Hilfsmitteln benutzbarem Zustand abzuliefern. Eine Pflicht zur Ablieferung besteht nicht, wenn die Ablieferungspflichtigen im Rahmen des § 16 Satz 2 des Gesetzes über die Deutsche Nationalbibliothek mit der Bibliothek vereinbaren, die Netzpublikationen zur elektronischen Abholung bereitzustellen. Für die Ablieferung von Netzpublikationen gilt § 2 Abs. 3 entsprechend; für die Bereitstellung zur elektronischen Abholung gilt § 2 Abs. 3 Satz 1 entsprechend.
(2) Die Ablieferungspflicht umfasst auch alle Elemente, Software und Werkzeuge, die in physischer oder in elektronischer Form erkennbar zu den ablieferungspflichtigen Netzpublikationen gehören, auch wenn sie für sich allein nicht der Ablieferungspflicht unterliegen. Dies gilt insbesondere für nicht marktübliche Hilfsmittel, die eine Bereitstellung und Benutzung der Netzpublikationen erst ermöglichen und bei den Ablieferungspflichtigen erschienen sind. Sie sind zusammen mit den Netzpublikationen abzuliefern oder zur elektronischen Abholung bereitzustellen.
http://www.gesetze-im-internet.de/pflav/__7.html
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Gesamtlösung für alle digitalen Objekte
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
Anforderung: Elektronische Pflichtexemplare (3)
• Nicht nur Open Access Publikationen
• Portale mit unterschiedlich lizensiertem Inhalt
• Formatqualität? Archivierbarkeit?
• Rechtliche Bedingungen? Keine freie Verfügbarkeit bei gleichzeitiger Ablieferungspflicht über öffentliche Schnittstellen?
• Wie dem Pflichtexemplar-Gesetz genügen? • Bibliothek kann Veröffentlichung im archivierbaren Format fordern,
aber diese Forderung durchzusetzen ist oft nicht praktikabel • Schulung und Hilfe anbieten
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Vorhandene Workflows vernetzen
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
• Workflows zur Bearbeitung von elektronischen Publikationen meist sehr individuell und Erfassungs-fokussiert
• Werkzeuge sind entsprechend spezialisiert
• Workflows für Digitalisate auf Durchsatz optimiert -> ohne Automatisierung ist dem Aufkommen eines Digitalisierungszentrums nicht beizukommen
• Produktion der digitalen Objekte unterschiedlich. Verwaltung und Präsentation hingegen sehr ähnlich!
• Technische Workflows: − Archivierung, Backup, Migration, Datenhaltung, Bereitstellung
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
Verschiedene Präsentationsformate
09.10.2014 Ralf Claußnitzer, IT SLUB, (@claussni)
• Liegen digitale Objekte in bekannten Formaten vor, können automatische (on-demand) Umwandlungen erfolgen, z.B. PDF als ePUB ausliefern
• Digitalisate werden bereits in herunterladbaren PDFs angeboten
• Inhaltsverzeichnisse, wenn Strukturmetadaten das hergeben
• Weiter denkbar: − Video Anzeige − Bildvorschau (Thumbnails) − Audio Streaming − OCR Text Einbettung
Fedora4- Open Annotation FrameworkDulip Withanage - University Library Ruprecht-Karls University, Heidelberg
Software Entwicklergithub:https://github.com/withanage/
Projekte:
https://github.com/withanage/annotations-reader
https://github.com/withanage/HEIDIEditor
https://github.com/eXist-db/tamboti
Digitalisierung Prozess-Status ● Digitalisierte Sammlungen
○ http://digi.ub.uni-heidelberg.de/diglit/cpg848/0390?template=ubhd● DWork - Erfassung von Digitale Metadaten● Diglit : Präsenstationsmodul
● Webbasiert● Läuft in Apache Server mit Perl CGI Skripte● Backend ist ein mysql Datenbank
Digitalisierung - Anforderungen
● Erstellung Annotation durch Forscher● Importieren komplexer Annotationen von unterschiedlichen Disziplinen● Kommentare funktionen für alle● Bild-teile Annotationen● Erstellung beliebiger Relationen zwischen mehrere Annotationen.● Interface soll multi-geräte unterstützen● Suche● Indizierung in solr index● Annotationen müssen in andere Programme integrierbar sein● Langzeitarchivierung
Fedora 4 für Annotationen● Repository (Daten & Metadaten)● Rest Schnittstelle● namespaces● Suche● Authentifizierung
Fedora 4 Status● In Entwicklung (bis 2016)● Beta Version 3● Aber stabil ● Standalone & in Container
○ Tomcat Java Servlet Engine
Fedora 4 Eigenschaften● Importieren und Exportieren in jcr/xml
Format (java content repository specification)
● JCR - Daten als Baumstruktur für Knoten○ single- und multi-value properties Link○ Schema Unterstützung
Open Annotation Datenmodel
Open Annotation Daten-definitionin turtle format
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
<> dc:format "text/html" .
<> dc:title "Mein Titel" .
<> a oa:Annotation ;
oa:hasBody _:oa_tag1;
oa:hasSource <digi:/cpg848/0390> ;
dc:description“ Weit hinten, hinter den Wortbergen, fern der Länder ….” .
_:oa_tag1 a oa:SemanticTag ;
oax:hasSemanticTag gnd:118529579 ;
oa:hasBody "Einstein, Albert";
oa:hasTarget _:oa_body .
Technische Zusammenfassung Annotation Struktur = Sammlung Struktur.
http://digi.ub.uni-heidelberg.de:8080/fedora/rest/de/uni-heidelberg/ub/digi//diglit/cpg848/0390/
● Per fcr:export werden alle Annotationen zu einem Bild exportiert. http://digi.ub.uni-heidelberg.de:8080/fedora/rest/de/uni-heidelberg/ub/digi//diglit/cpg848/0390/fcr:export
● XML Datei wird in einem json Objekt umgewandelt.● Mit Hilfe von einem Angular Script wird die Darstellung realisiert.● Bildausschnitten - HTML5 Canvas ● Authentifizierung
○ über Shibboleth Server werden die Server verzeichnisse geschützt.