Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von Identifiern in Resource URI's

1. Linked Open Dataund die Open Library

Mglichkeiten der Zusammenarbeit und Prgung von Identifiern in Resource URI's

Oliver Flimm Arbeitstreffen Linked Open Data, hbz Kln 12.5.2010

Seit November 2007 Teilprojekt des Internet-Archivs

Ziel: Weltweiter Gesamtnachweis aller Bcher One web page for every book

Verffentlichung als Open Data ber Feeds (editions.json, authors.json)

Umfang (Stand 02/2010):

19.8 Mio. Titel, 5.4 Mio. Personen

Eigenentwicklung

Open Source

Infobase (DB) + Infogami (Wiki, Plugins)

Versionierung (Resource-History) !!!

ffentliche ID vs. Interne ID

RESTful API (Content, Query, Modify, Add?)

Bulk-Upload mglich

Einspielung mit Match-Algorithmen durch OL

Einladeformat ist MARC mit Fremd-Id Information

Groe Datenbasis fr lokale Anreicherung

lccn, lc_classifications, oclc_numbers, dewey_decimal_class, isbn_10, isbn_13, subjects, subject_place, languages, ocaid

Cover, Inhaltsverzeichnisse, elektr. Volltexte (DAISY)

Zusammenfassung zu Werken mit eigenem URI

Rudimentre Kategorien, aber erweiterbar

{" subtitle ": "ein Vorstoss zu den Grenzen von Berechenbarkeit und Erkenntnis : Quantenmechanik, Relativittstheorie, Gravitation, Kosmologie, Chaostheorie, Prdikatenlogik", " lc_classifications ": ["Q175 .K475 1999"], " id ": 222492, " title ": "Bedeutende Theorien des 20. Jahrhunderts", " languages ": [{"key": "/l/ger"}], " subjects ": ["Science -- Philosophy.", "Science -- Methodology."], " publish_country ": "gw ", " by_statement ": "Werner Kinnebrock.", " oclc_numbers ": ["40364931"], " type ": {"key": "/type/edition"}, " revision ": 1, " other_titles ": ["Bedeutende Theorien des zwanzigsten Jahrhunderts"], " publishers ": ["Oldenbourg"], " last_modified ": {"type": "/type/datetime", "value": "2008-04-01 03:28:50.625462"}," key ": "/b/OL134029M"," authors ": [{"key": "/a/OL88369A"}], " publish_places " : ["Mnchen"], " pagination ": "ix, 201 p. :ill. ;", " dewey_decimal_class ": ["501"], " notes ": {"type": "/type/text", "value": "Includes bibliographical refe rences (p. [203]-205)."}, " number_of_pages ": 201, " lccn ": ["99514096"], " isbn_10 ": ["3486247069"], " publish_date ": "1999"}

Content

curl http://openlibrary.org/books/OL1M.json

curl 'http://openlibrary.org/query.json?type=/type/edition&authors=/authors/OL1A'

History

curl http://openlibrary.org/books/OL1M.json?m=history

Sowie: Save (via PUT), Login, Recent

Erzeugung vondurchguten (!!!) Matchkey-Algorithmus

Nachnutzung eines bestehendenexternenIdentifiers als

Erzeugung und Vergabe neuereigenerIdentifier als

Anforderungen

Identifier selbst mssen vollstndig offen und frei verwendbar sein (Offene Daten mit proprietren Identifiern sind ein Widerspruch in sich!)

Bibliographische Daten zu den Identifiern mssen fr dielokale Anreicherungvollstndig als Open Data vorliegen

Offenes System zur (ad-hoc) Generierung neuer Identifier

[...]Open Library also gives people a URI for a work, an edition or author or other book-ish resource that can be used as a pointer and connector for information about books; a Uniform Resource Identifier indeed.

aus: Open Library FAQ: What is Open Library

Identifier-Automat

Lookup mit konkreten bibliogr. Daten

Vorhanden?

key als Identifier verwenden

Nicht vorhanden?

Bibliogr. Daten in die OL eintragen

Dafr vergebenen neuen key als Identifier verwenden

Vereinfacht durch freie Datenverfgbarkeit

Anforderungen durch OL erfllt

Ankopplung an etabliertes globales Projekt und keine Insellsung USB/Klnhbz/NRWDNB/Deutschland

Perfekte Symbiose zum Vorteil von Open Data OL und unsere offenen Daten profitieren gleichermaen trotz Koexistenz

Strkung der OL als freie Alternative zum WorldCat, OL als zentraler Aggregator

RAK vs. AACR2

Kompatibilitt der erfassten Daten mit OL bei Lookup oder Upload, z.B. pagination

Zersplitterung durch hierarchische Struktur

Match-Algorithmus fr Lookup in OL, ad-hoc Erzeugung neuer Katalogeintrge via REST-API

Dubletten, Datenqualitt

(Noch) keine Bestandsnachweise in OL

Abschtzung allein anhand der ISBN

Verschiedene Szenarien

KUG allgemein

Katalog mit vielen modernen Titeln: Institut fr Informatik

Katalog mit viel Altbestand: USB Kln

Nchster Schritt: Verwendung anderer Identifikatoren bzw. Match-Algorithmus

Titelaufnahmen insgesamt: 9.6 Mio., teilweise dublett (!!!)

Versch. ISBN's insgesamt: 1.316.641

Davon in Open Library: 874.373

berdeckungsquote ISBN's:66 Prozent

Titelaufnahmen insgesamt: 8.594

Versch. ISBN's insgesamt: 7.074

berdeckungsquote ISBN's:61.4 Prozent

berdeckungsquote gesamt:50.5 Prozent

Titelaufnahmen insgesamt: 3.084.269

Versch. ISBN's insgesamt: 708.704

berdeckungsquote ISBN's:68.1 Prozent

berdeckungsquote gesamt:15.7 Prozent

Open Library bietet als globaler Kooperationspartner viele Vorteile

berdeckungsquote via ISBN vielversprechend

Nchste Schritte mssten folgen

Match-Algorithmus fr Lookup

Upload einzelner Titel

Alternative: eigener Identifier-Automat und Zusammenarbeit mit OL jenseits Identifier

Quellen:

Open Library (OL) -http://openlibrary.org/

OL FAQ - http://openlibrary.org/help/faq

OL Technik -http://openlibrary.org/about/tech

OL REST API -http://openlibrary.org/dev/docs/restful_api

OL Upload - http://openlibrary.org/data

OL Feeds - http://www.archive.org/details/oldumps/

Technology

Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von Identifiern in Resource URI's