Upload
miklos-peter-hubay
View
415
Download
2
Embed Size (px)
Citation preview
A szemantikus web könyvtári ígérete
Hubay MiklósSZE Egyetemi Könyvtár
2016.03.22.
• Az 1992 óta létező World Wide Web alapjaiban változtatta meg információkeresési szokásainkat
• Már 1996-ban hangoztatták, hogy a Gutenberg-galaxis véget ér, a könyvtárak fizikai formájukban teljesen meg fognak szűnni
• A közgyűjteményeknek a hálózati világban is meg kell őrizniük a minőségi információszolgáltató évszázadok alatt kivívott pozícióját
Olyan lépés megtételére kell elszánnunk magunkat, amely alapjaiban rengeti meg a jelenlegi katalógusépítési gyakorlatot, cserébe a használói kör soha nem látott mértékű bővülését ígéri számunkra.
Alapvetés
Keresőoptimalizálás (SEO)A könyvtárak adatainak még hatékonyabb, még használhatóbb, a jelenleginél
könnyebben kereshető formában történő elhelyezése a weben
MARC-szizmus• MAchine-Readable Cataloging: géppel olvasható katalogizálás
• 1966-ban fejlesztette ki Henriette Avram a Library of Congress felkérésére (MARC-I)
• 1968: MARC-II, majd 1998-tól MARC-21
• Nem feldolgozási szabályzat, csupán hordozó (ISBD, AACR2, RDA korlátozottan, akár Dublin Core, stb.)
• 2002: MARC Must Die: túlélte önnön használhatóságát
MARC-szizmus
• Cédula-sokszorosításra és adattovábbításra találták ki, ma mégis számítógépes információ-visszakereső rendszerek alapjául szolgál
• Könyvtárakon és (részben) múzeumokon kívül nem használja más, a külső partnerek felé történő adatszolgáltatáshoz fáradságos konverziós folyamatra van szükség
• Kevés szoftver kezeli (IKR-ek többnyire)
• Az eltérő helyi sajátosságok miatt az intézmények integrációja vagy IKR-váltás esetén ugyancsak konverzióra van szükség, továbbá a közös katalógusok építése sem egyszerű
• Inkompatibilis a feldolgozás új fogalmi modelljével, az FRBR-rel
Emlékeztetőül: az FRBR
De a legfőbb probléma…• A könyvtári adatok az ún. mély web
részei, keresőszolgáltatásokkal (pl. Google) nem megtalálhatók
• A könyvtári adatok gyakorlatilag hatalmas adatsilókban senyvednek
• „Nem beszélünk olyan nyelvet, amelyet a Web megért”
• Következésképp: számos használót, aki nem ismeri az OPAC-okat, nem érünk el
Mi lehet a megoldás?
A Linked Data (kapcsolt adatok) technológiája, amellyel létrejön a Web of Data (az adatok
hálózata), amely a szemantikus web jelenlegi megvalósulási formája
„Az általános tájékoztatás
eszközei”
főiskolai jegyzet EKF 2011
A kérdés tehát: hogyan adhatunk az elemek kapcsolatainak jelentést (szemantikát)?
• Használjunk URI-kat a dolgok (sőt: viszonyok) leírására!
• Ezek HTTP-alapú URI-k legyenek!
• Biztosítsunk hasznos információkat a gépi és emberi ágensek számára is, amikor egy ilyen URI-t felkeresnek!
• Kapcsoljuk adatainkat más adatokhoz!
http://id.loc.gov/authorities/names/n79049248
http://bibframe.org/vocab/partOf
HTTP-alapú URI
Bár a szerkezet azonos az URL-lel, nem webdokumentumot, hanem valamilyen entitást/dolgot/erőforrást azonosít!
Mire jó ez a könyvtárnak?
• Az adatok valóban a web részét képezik, a silók falai leomlanak
• Nem speciális könyvtári, hanem általános, webes szabványok szerint tárolódnak az adataink, ami kiszélesíti a felhasználási lehetőségeket
• Az egyedi azonosítók segítségével kiküszöbölhetők a szinonimák és homonimák okozta problémák
Nem csupán weben lenni…
…hanem webből lenni!
Egy kis technikai háttér• Az adatok összekapcsolásának és jelentéssel való felruházásának eszköze: az RDF
• Resource Description Framework (erőforrás-leíró keretrendszer), 1999-től létezik
• Segítségével háromelemű (alany, állítmány, tárgy) állításokat tehetünk az erőforrásokról – amelyeket URI-val vagy szöveges értékkel jelölünk meg
Eredmények
• Ha két állításban ugyanazon URI szerepel, akkor a számítógépes feldolgozás számára (is) egyértelmű, hogy a két állítás ugyanarról szól, még akkor is, ha a világ két teljesen különböző pontján hozták létre őket
• A „hivatalos” könyvtári leírások kibővíthetők akár a „színre-szagra” paramétereivel
• Munkát spórolunk meg, ha már létező relációkat, URI-kat használunk fel újra
Honnan származnak a relációk?
• Ún. névterekből/szókészletekből/szótárakból/ontológiákból
• Egy fogalmi terület (pl. a könyvtári feldolgozás) legfontosabb tulajdonságainak, osztályainak, relációinak meghatározása
• Fontos tudni, hogy egy relációt milyen szótár szerint határozunk meg
A BIBFRAMEA BIBFRAME a Linked Data-alapelveket követő, könyvtári felhasználásra fejlesztett szókészlet,
amely a funkcionális megközelítést (FRBR) alkalmazó bibliográfiai
leírások készítéséhez szükséges legfontosabb dokumentum-tulajdonságokat és relációkat
tartalmazza. ÉS A JÖVŐBEN TELJESEN LEVÁLTJA MAJD A MARC-OT!
A szótár elemei
• 53 osztály (az állítások alanya és tárgya lehet)
• Közülük ún. magosztály: WORK, INSTANCE, ANNOTATION, AUTHORITY
• ~270 tulajdonság, jellemző (az állítások állítmánya lehet)
Az egyedi erőforrások osztályokba sorolása, valamint a tulajdonságok csoportosítása révén a számítógép alapszintű következtetések elvégzésére válik képessé!
Tesztelhető feldolgozó felület
További segédeszközök az ismerkedéshez
• Profilszerkesztő (űrlapok összeállítása különféle dokumentumtípusokhoz)
• MARC-konverter és összehasonlító (HUNMARC-kal is működik, de nem tökéletesen)
Hogyan lesz visszakereshető?A jövőben: keresőmotorok segítségével
Ma: az adathalmazok ún. SPARQL-végpontjain, összetett lekérdező nyelv segítségével. A sikeres visszakereséshez a nyelv alapelveit és az adathalmazban használt szótárakat is ismerni kell prefix dcterms: <http://purl.org/dc/terms/>select ?title ?authorwhere {?book_uri dc:title ?title ;dc:creator ?author ;dc:publisher "Forum" ;dc:date ?year .filter (?year > "2008")
Legyünk őszinték…
• Nem kizárólag a BIBFRAME szótára segítségével írhatunk le könyvtári dokumentumokat (BIBO, FaBiO, CitO, RDA-ontológia, ISBD-ontológia, MarcOnt, stb.) – sőt többet is használhatunk egyszerre
• A BIBFRAME szókészlete a többivel bizonyos szempontok szerint összevetve még dobogós helyen sem áll, sőt, bizonyos pontjain egyenesen ellentmond a Linked Data alapelveinek
• A remek reklám (és a LoC neve) miatt az amerikai könyvtári közélet felpezsgett. Európában is tesztelik, de kevesebben (GNB, Alexandriai Könyvtár)
A jövő
• Linked Data-alapú feldolgozást támogató integrált könyvtári rendszerek elterjedése
• Ki melyik szótár használatát támogatja (konverzió?)
• Nincs új a nap alatt (várhatóan ismétlődő problémák)
Amire büszkék lehetünk…
Magyarország (az OSzK) a világon másodikként, még a Library of Congresst is megelőzve publikálta adatait Linked Dataként a világhálón.
Az ALIADA-projektnek, amely segítséget nyújt a világ könyvtárainak a szemantikus weben történő megjelenéshez, magyar résztvevője is van.
Köszönöm a figyelmet!