Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von Identifiern in Resource URI's

  • Upload
    flimm

  • View
    756

  • Download
    0

Embed Size (px)

DESCRIPTION

Vortrag beim Arbeitstreffen Linked Open Data im hbz am 12.5.2010, in dem die Möglichkeit untersucht wird, in wieweit sich bei der Prägung von Identifiern im LOD-Bereich die IDs der OpenLibrary verwenden lassen.

Citation preview

  • 1. Linked Open Dataund die Open Library
      • Mglichkeiten der Zusammenarbeit und Prgung von Identifiern in Resource URI's
    Oliver Flimm Arbeitstreffen Linked Open Data, hbz Kln 12.5.2010

2. Die Open Library

  • Seit November 2007 Teilprojekt des Internet-Archivs
  • Ziel: Weltweiter Gesamtnachweis aller Bcher One web page for every book
  • Verffentlichung als Open Data ber Feeds (editions.json, authors.json)
  • Umfang (Stand 02/2010):
    • 19.8 Mio. Titel, 5.4 Mio. Personen

3. Technik

  • Eigenentwicklung
    • Open Source
    • Infobase (DB) + Infogami (Wiki, Plugins)
    • Versionierung (Resource-History) !!!
    • ffentliche ID vs. Interne ID
    • RESTful API (Content, Query, Modify, Add?)
    • Bulk-Upload mglich
      • Einspielung mit Match-Algorithmen durch OL
      • Einladeformat ist MARC mit Fremd-Id Information

4. OL liefert Open Data

  • Groe Datenbasis fr lokale Anreicherung
    • lccn, lc_classifications, oclc_numbers, dewey_decimal_class, isbn_10, isbn_13, subjects, subject_place, languages, ocaid
  • Cover, Inhaltsverzeichnisse, elektr. Volltexte (DAISY)
  • Zusammenfassung zu Werken mit eigenem URI
  • Rudimentre Kategorien, aber erweiterbar

5. Daten eines Beispieltitel in OL

    • {" subtitle ": "ein Vorstoss zu den Grenzen von Berechenbarkeit und Erkenntnis : Quantenmechanik, Relativittstheorie, Gravitation, Kosmologie, Chaostheorie, Prdikatenlogik", " lc_classifications ": ["Q175 .K475 1999"], " id ": 222492, " title ": "Bedeutende Theorien des 20. Jahrhunderts", " languages ": [{"key": "/l/ger"}], " subjects ": ["Science -- Philosophy.", "Science -- Methodology."], " publish_country ": "gw ", " by_statement ": "Werner Kinnebrock.", " oclc_numbers ": ["40364931"], " type ": {"key": "/type/edition"}, " revision ": 1, " other_titles ": ["Bedeutende Theorien des zwanzigsten Jahrhunderts"], " publishers ": ["Oldenbourg"], " last_modified ": {"type": "/type/datetime", "value": "2008-04-01 03:28:50.625462"}," key ": "/b/OL134029M"," authors ": [{"key": "/a/OL88369A"}], " publish_places " : ["Mnchen"], " pagination ": "ix, 201 p. :ill. ;", " dewey_decimal_class ": ["501"], " notes ": {"type": "/type/text", "value": "Includes bibliographical refe rences (p. [203]-205)."}, " number_of_pages ": 201, " lccn ": ["99514096"], " isbn_10 ": ["3486247069"], " publish_date ": "1999"}

6. Beispiele REST API

  • Content
    • curl http://openlibrary.org/books/OL1M.json
  • Query
    • curl 'http://openlibrary.org/query.json?type=/type/edition&authors=/authors/OL1A'
  • History
    • curl http://openlibrary.org/books/OL1M.json?m=history
  • Sowie: Save (via PUT), Login, Recent

7. Prgung von Identifiern

  • Erzeugung vondurchguten (!!!) Matchkey-Algorithmus
  • Nachnutzung eines bestehendenexternenIdentifiers als
  • Erzeugung und Vergabe neuereigenerIdentifier als

ala http://globallinkeddata.org/resource/title/ 8. Nachnutzung bestehender & Erzeugung neuer Identifier

  • Anforderungen
    • Identifier selbst mssen vollstndig offen und frei verwendbar sein (Offene Daten mit proprietren Identifiern sind ein Widerspruch in sich!)
    • Bibliographische Daten zu den Identifiern mssen fr dielokale Anreicherungvollstndig als Open Data vorliegen
    • Offenes System zur (ad-hoc) Generierung neuer Identifier

9. Identifier der OL bereits als URI konzipiert

    • [...]Open Library also gives people a URI for a work, an edition or author or other book-ish resource that can be used as a pointer and connector for information about books; a Uniform Resource Identifier indeed.
    • aus: Open Library FAQ: What is Open Library

10. Nachnutzung von Identifiern der OL

  • Identifier-Automat
    • Lookup mit konkreten bibliogr. Daten
    • Vorhanden?
      • key als Identifier verwenden
    • Nicht vorhanden?
      • Bibliogr. Daten in die OL eintragen
      • Dafr vergebenen neuen key als Identifier verwenden
  • Vereinfacht durch freie Datenverfgbarkeit

11. Vorteile

  • Anforderungen durch OL erfllt
  • Ankopplung an etabliertes globales Projekt und keine Insellsung USB/Klnhbz/NRWDNB/Deutschland
  • Perfekte Symbiose zum Vorteil von Open Data OL und unsere offenen Daten profitieren gleichermaen trotz Koexistenz
  • Strkung der OL als freie Alternative zum WorldCat, OL als zentraler Aggregator

12. Noch zu lsende Probleme

  • RAK vs. AACR2
    • Kompatibilitt der erfassten Daten mit OL bei Lookup oder Upload, z.B. pagination
    • Zersplitterung durch hierarchische Struktur
  • Match-Algorithmus fr Lookup in OL, ad-hoc Erzeugung neuer Katalogeintrge via REST-API
  • Dubletten, Datenqualitt
  • (Noch) keine Bestandsnachweise in OL

13. berdeckungsgrad der OL

  • Abschtzung allein anhand der ISBN
  • Verschiedene Szenarien
    • KUG allgemein
    • Katalog mit vielen modernen Titeln: Institut fr Informatik
    • Katalog mit viel Altbestand: USB Kln
  • Nchster Schritt: Verwendung anderer Identifikatoren bzw. Match-Algorithmus

14. Zahlen: KUG gesamt

  • Titelaufnahmen insgesamt: 9.6 Mio., teilweise dublett (!!!)
  • Versch. ISBN's insgesamt: 1.316.641
  • Davon in Open Library: 874.373
  • berdeckungsquote ISBN's:66 Prozent

15. Zahlen: Institut fr Informatik

  • Titelaufnahmen insgesamt: 8.594
  • Versch. ISBN's insgesamt: 7.074
  • Davon in Open Library: 4.345
  • berdeckungsquote ISBN's:61.4 Prozent
  • berdeckungsquote gesamt:50.5 Prozent

16. Zahlen: USB Kln

  • Titelaufnahmen insgesamt: 3.084.269
  • Versch. ISBN's insgesamt: 708.704
  • Davon in Open Library: 482.807
  • berdeckungsquote ISBN's:68.1 Prozent
  • berdeckungsquote gesamt:15.7 Prozent

17. Fazit

  • Open Library bietet als globaler Kooperationspartner viele Vorteile
  • berdeckungsquote via ISBN vielversprechend
  • Nchste Schritte mssten folgen
    • Match-Algorithmus fr Lookup
    • Upload einzelner Titel
  • Alternative: eigener Identifier-Automat und Zusammenarbeit mit OL jenseits Identifier

18. Fragen? 19. Vielen Dank fr Ihre Aufmerksamkeit

  • Quellen:
  • Open Library (OL) -http://openlibrary.org/
  • OL FAQ - http://openlibrary.org/help/faq
  • OL Technik -http://openlibrary.org/about/tech
  • OL REST API -http://openlibrary.org/dev/docs/restful_api
  • OL Upload - http://openlibrary.org/data
  • OL Feeds - http://www.archive.org/details/oldumps/