Vortrag beim Arbeitstreffen Linked Open Data im hbz am 12.5.2010, in dem die Möglichkeit untersucht wird, in wieweit sich bei der Prägung von Identifiern im LOD-Bereich die IDs der OpenLibrary verwenden lassen.
Citation preview
1. Linked Open Dataund die Open Library
Mglichkeiten der Zusammenarbeit und Prgung von Identifiern in
Resource URI's
Oliver Flimm Arbeitstreffen Linked Open Data, hbz Kln
12.5.2010
2. Die Open Library
Seit November 2007 Teilprojekt des Internet-Archivs
Ziel: Weltweiter Gesamtnachweis aller Bcher One web page for
every book
Verffentlichung als Open Data ber Feeds (editions.json,
authors.json)
Nachnutzung eines bestehendenexternenIdentifiers als
Erzeugung und Vergabe neuereigenerIdentifier als
ala http://globallinkeddata.org/resource/title/ 8. Nachnutzung
bestehender & Erzeugung neuer Identifier
Anforderungen
Identifier selbst mssen vollstndig offen und frei verwendbar
sein (Offene Daten mit proprietren Identifiern sind ein Widerspruch
in sich!)
Bibliographische Daten zu den Identifiern mssen fr dielokale
Anreicherungvollstndig als Open Data vorliegen
Offenes System zur (ad-hoc) Generierung neuer Identifier
9. Identifier der OL bereits als URI konzipiert
[...]Open Library also gives people a URI for a work, an
edition or author or other book-ish resource that can be used as a
pointer and connector for information about books; a Uniform
Resource Identifier indeed.
aus: Open Library FAQ: What is Open Library
10. Nachnutzung von Identifiern der OL
Identifier-Automat
Lookup mit konkreten bibliogr. Daten
Vorhanden?
key als Identifier verwenden
Nicht vorhanden?
Bibliogr. Daten in die OL eintragen
Dafr vergebenen neuen key als Identifier verwenden
Vereinfacht durch freie Datenverfgbarkeit
11. Vorteile
Anforderungen durch OL erfllt
Ankopplung an etabliertes globales Projekt und keine Insellsung
USB/Klnhbz/NRWDNB/Deutschland
Perfekte Symbiose zum Vorteil von Open Data OL und unsere
offenen Daten profitieren gleichermaen trotz Koexistenz
Strkung der OL als freie Alternative zum WorldCat, OL als
zentraler Aggregator
12. Noch zu lsende Probleme
RAK vs. AACR2
Kompatibilitt der erfassten Daten mit OL bei Lookup oder
Upload, z.B. pagination
Zersplitterung durch hierarchische Struktur
Match-Algorithmus fr Lookup in OL, ad-hoc Erzeugung neuer
Katalogeintrge via REST-API
Dubletten, Datenqualitt
(Noch) keine Bestandsnachweise in OL
13. berdeckungsgrad der OL
Abschtzung allein anhand der ISBN
Verschiedene Szenarien
KUG allgemein
Katalog mit vielen modernen Titeln: Institut fr Informatik
Katalog mit viel Altbestand: USB Kln
Nchster Schritt: Verwendung anderer Identifikatoren bzw.
Match-Algorithmus
14. Zahlen: KUG gesamt
Titelaufnahmen insgesamt: 9.6 Mio., teilweise dublett
(!!!)
Versch. ISBN's insgesamt: 1.316.641
Davon in Open Library: 874.373
berdeckungsquote ISBN's:66 Prozent
15. Zahlen: Institut fr Informatik
Titelaufnahmen insgesamt: 8.594
Versch. ISBN's insgesamt: 7.074
Davon in Open Library: 4.345
berdeckungsquote ISBN's:61.4 Prozent
berdeckungsquote gesamt:50.5 Prozent
16. Zahlen: USB Kln
Titelaufnahmen insgesamt: 3.084.269
Versch. ISBN's insgesamt: 708.704
Davon in Open Library: 482.807
berdeckungsquote ISBN's:68.1 Prozent
berdeckungsquote gesamt:15.7 Prozent
17. Fazit
Open Library bietet als globaler Kooperationspartner viele
Vorteile
berdeckungsquote via ISBN vielversprechend
Nchste Schritte mssten folgen
Match-Algorithmus fr Lookup
Upload einzelner Titel
Alternative: eigener Identifier-Automat und Zusammenarbeit mit
OL jenseits Identifier
18. Fragen? 19. Vielen Dank fr Ihre Aufmerksamkeit
Quellen:
Open Library (OL) -http://openlibrary.org/
OL FAQ - http://openlibrary.org/help/faq
OL Technik -http://openlibrary.org/about/tech
OL REST API -http://openlibrary.org/dev/docs/restful_api
OL Upload - http://openlibrary.org/data
OL Feeds - http://www.archive.org/details/oldumps/