Upload
martin-necasky
View
3.662
Download
0
Embed Size (px)
DESCRIPTION
In Czech.
Citation preview
Využití principů Linked Data v rámci
webových aplikací ESF ČR
Martin Nečaský, Ph.D.
Matematicko-fyzikální fakulta Univerzity Karlovy
http://xrg.cz
http://opendata.cz
Architektura klasického webu
Jednotný globální prostor dokumentů Postavený na několika standardech:
• HTML jako formát pro publikaci dokumentů
• URL jako jednoznačné globální identifikátory dokumentů
• HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL
• odkazy pro propojování dokumentů
Nad prostorem dokumentů pracují aplikace dvou typů:
• webové prohlížeče (přístup k dokumentům dle URL + procházení přes hypertextové odkazy)
• vyhledávače (indexace a fulltextové vyhledávání v dokumentech)
Databáze A
HTML
Databáze B
HTML
Databáze D
HTML
Databáze C
HTML
Webový prohlížeč
Vyhledávač
HTTP
HTTP
Co umožňuje klasický web?
Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.
Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme:
Procházení odkazů vedoucích z jiných dokumentů
Z katalogů odkazů
Fulltextové vyhledání dokumentů (klíčová slova)
Co neumožňuje klasický web?
Problém klasického webu je orientace na dokumenty místo na entity, o kterých dokumenty mluví. entita = entita z reálného světa, o níž chceme na webu
publikovat nějaká data
např. instituce, kniha, osoba, smlouva, zakázka, ...
Data o jedné entitě jsme nuceni zakódovat do dokumentu na webu v podobě, která neumožňuje strojové zpracování
propojování a sdílení míst, kde se o entitě mluví
propojování entity na související entity
(viz příklady na následujících slajdech)
Co neumožňuje klasický web?
Získat všechna data publikována o entitě „Martin Nečaský“ v dokumentech na webu
Sdílení dat mezi portály Portál může spravovat jen
data o entitě, která jsou v jeho primárním zájmu.
Ostatní (sekundární) data může čerpat z jiných portálů.
Co neumožňuje klasický web?
Jak pomocí odkazů říci, že stránky pojednávají o stejné entitě? Jak vyznačit, kde jsou data o entitě určená pro sdílení? Jak mohu na své stránce využít data z jiných stránek?
Co neumožňuje klasický web?
Odpovídat na složitější vyhledávací dotazy:
Jaká témata Martin vyučuje?
Na jakých školách Martin vyučuje?
Na jakých projektech Martin pracuje?
S kým Martin spolupracuje?
Lze na webu publikovat i data?
Současnou výzvou tedy je publikovat nejenom dokumenty, ale i zdrojová data o entitách. Aby web mohl poskytnout i výše uvedené služby.
Již dnes ale přeci na webu publikujeme často právě i zdrojová data určená pro další zpracování.
Známe dokonce 2 způsoby publikace dat: Datové soubory mají také svoje jednoznačné URL a
data reprezentují v různých formátech. • XML, CSV, XLS, ...
Pokročilým způsobem publikace dat jsou tzv. datová API (součástí konceptu web 2.0).
Architektura webu 2.0
Různá API poskytují strojově čitelná data pro další zpracování v tzv. mashup aplikacích. Také postaveny na několika jednoduchých standardech:
• XML/JSON jako formáty pro publikaci dat
• HTTP protokol pro získávání dat
Ale pozor • chybí URL identifikátory (resp. jsou
používány, ale nevhodně) • chybí odkazy mezi daty
Databáze A
Databáze B
Databáze D
Databáze C
Aplikace
Aplikace
HTTP
Data API
Data API
Data API
Data API
HTTP
HTTP HTTP
Současné principy a technologie mají řadu nedostatků! Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s
daty ale entita (většinou objekt reálného světa), o které chceme data publikovat.
Publikace dat o entitách ale není postavena na principech, které už byly jednou vynalezeny pro publikaci dokumentů.
Publikace dat na webu
Svět dokumentů Svět dat
HTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu (XML, JSON, CSV, XLS, ...)
URL jako jednoznačné globální identifikátory dokumentů
entitám nepřiřazujeme žádné globální identifikátory
HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL
HTTP protokol bychom mohli použít (REST), ale nemáme URL identifikátory věcí
odkazy pro propojování dokumentů žádný z používaných formátů neumožňuje propojování souvisejících entit
Máme web dokumentů
Ale nemáme web dat
Srovnání webu dokumentů a publikace dat
na webu
Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.
Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme: Procházení odkazů
vedoucích z jiných dokumentů
Z katalogů odkazů Fulltextové vyhledání
dokumentů (klíčová slova)
Můžeme publikovat entity tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.
Vazby nám umožňují dostat se i na entity, jejichž URL přímo neznáme: Procházení odkazů
vedoucích z jiných entit
Z katalogů odkazů Fulltextové vyhledání
entit (klíčová slova)
Linked Data
principy Linked Data = sada „best practices“ pro publikaci, sdílení a propojování entit a dat o nich na webu
využití standardů současného Webu pro publikaci a přístup k entitám a datům o nich ve strojově čitelné podobě (publishing data)
možnost vytvářet vazby mezi souvisejícími entitami a publikovat vazby jako součást dat pro jejich strojové zpracování (linking data)
+ tajná zbraň, o které se zmíníme později
Publikace a přístup k datům
data = entity, údaje o nich a vazby mezi nimi entita = organizace, projekt, zakázka, lék, ... údaj o věci = název organizace, IČ organizace vazba = zakázka je realizovaná v rámci projektu, organizace je
příjemcem projektu, účinná látka je obsažená v léku
Svět dokumentů Svět Linked Data
HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit
URL jako jednoznačné globální identifikátory dokumentů
URL jako jednoznačné globální identifikátory entit
HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL
HTTP protokol pro vyhledávání a získávání entit dle jejich URL
odkazy pro propojování dokumentů vazby pro propojování entit
+ a jdeme ještě dál, je tu ta tajná zbraň
Máme web dokumentů
Máme web dat!
Údaje o entitách a vazby mezi nimi
URL jako identifikátory entit
Vazby jsou chápány také jako entity
RDF reprezentace
RDF je datový model reprezentuje entity, datové hodnoty a vazby v podobě RDF
grafu každá entita a datová hodnota tvoří uzel každá vazba mezi dvěma entitami nebo mezi entitou a datovou
hodnotou tvoří hranu entity i vazby mají svá URL
Zápis RDF reprezentace
RDF graf je vždy zapsán jako množina trojic
trojice popisuje jednu vazbu ve tvaru
subjekt predikát objekt
trojice jsou zapisovány ve vhodné notaci
RDF/XML, RDFa, N3, Turtle, JSON
Zápis RDF reprezentace - Turtle <http://esfcr.cz/data/projekt/CZ10421016300169>
esf:nazev "INNOSTART" ;
esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
esf:castka "4711681" ;
esf:realizace_od "2011-06-01" ;
esf:realizace_do "2013-03-31" ;
esf:realizator <http://esfcr.cz/data/institution/25438352> ;
esf:partner <http://esfcr.cz/data/institution/25438352> ;
esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ;
esf:region <http://esfcr.cz/data/kraj/ustecky> .
Přístup přes HTTP protokol
Webový prohlížeč
esfcr.cz
HTTP (HTML)
http://esfcr.cz/.../projekt/ CZ10421016300169
Aplikace
HTTP (RDF)
<http://esfcr.cz/data/projekt/CZ10421016300169>
esf:nazev "INNOSTART" ;
esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
esf:castka "4711681" ;
esf:realizace_od "2011-06-01" ;
esf:realizace_do "2013-03-31" ;
esf:realizator <http://esfcr.cz/.../25438352> ;
esf:partner <http://esfcr.cz/.../25438352> ;
esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>;
esf:region <http://esfcr.cz/.../ustecky> . http://esfcr.cz/.../projekt/ CZ10421016300169
Propojování objektů napříč datovými zdroji
Propojování objektů napříč datovými zdroji
ESFCR
ESFDB RISY
strukturalni-fondy.cz
OPPI
OPD
ROP *
Zakázky
Obchodní rejstřík
Rozpočty
Školy
Územní celky
LOD cloud
Pokud se někdo z lokálního „cloudu“ napojí na LOD cloud, profitují z napojení všichni
Propojování mohou vznikat postupně a v různé kvalitě; kvantita i kvalita propojení se může postupně zvyšovat
ESFCR
ESFDB RISY
strukturalni-fondy.cz
OPPI
OPD
ROP * Zakázky
Obchodní rejstřík
Rozpočty
Školy
Územní celky
Ukázka z LOD cloudu
http://dbpedia.org/resource/Most http://dbpedia.org/resource/Ústí_nad_Labem_Region
Rekapitulace Linked Data
Svět Linked Data
RDF jako formát pro publikaci entit
URL jako jednoznačné globální identifikátory entit
HTTP protokol pro vyhledávání a získávání entit dle jejich URL
vazby pro propojování entit
+ a nyní ta tajná zbraň
Tajná zbraň = Ontologie (slovníky)
web dokumentů zná jen dva jednoduché koncepty dokumenty hypertextové nevýznamové odkazy mezi dokumenty
web dat zná řadu různých konceptů entity mnoha významů (typů)
• osoby, města, projekty, rozpočty, ...
významová propojení mezi entitami a jejich datovými hodnotami i mezi entitami navzájem • jméno osoby, jméno města, region projektu, ....
významy jsou důležité pro strojové zpracování významy jsou zachyceny v tzv. ontologiích
• tento pojem web dokumentů NEZNÁ
Tajná zbraň = Ontologie (slovníky)
popisují strukturu a sémantiku dat
související ontologie vzájemně propojeny interoperabilita
Tajná zbraň = Ontologie (slovníky)
http://labs.mondeca.com/dataset/lov/
Tajná zbraň = Ontologie (slovníky)
schema.org CreativeWork, Book, Movie, MusicRecording, Recipe,
TVSeries ...
AudioObject, ImageObject, VideoObject
Event
Organization
Person
Place, LocalBusiness, Restaurant ...
Product, Offer, AggregateOffer
Review, AggregateRating
+ mnoho dalších
Jak s LD pracovat?
Bohužel dnes není technicky možné pracovat s celým LOD cloudem
Současné projekty využívají LD principů k publikaci a obohacování vlastních dat
Výběr konkrétních obohacujících datasetů (přístup přes HTTP URI nebo pomocí jazyka SPARQL)
Napojení vlastních dat na zvolené externí datasety
Publikace
Co nabízí MFF UK?
Veřejná Linked Data
Veřejné zdroje (HTML, Excel, ...)
Neveřejná interní databáze
Analýzy Vizualizace
APP
APP
APP
Reference: • veřejné zakázky
a související data pro LOD2 a DG Market
• rozpočty a účetní informace ze systému ÚFIS
• OGP pro Vládu ČR a MV ČR
• legislativa ČR v rámci výzkumného projektu INTLIB (TAČR)
• vlastní iniciativa OpenData.cz
Služby: • semináře,
školení • průzkum
možností využití LD ve vaší organizaci (obohacování dat o LD, publikace dat jako LD)
• vývoj aplikací nad LD
• konverze existujících veřejných datových zdrojů do LD (HTML, Excel)
• ...
- extrakce - deduplikace - čištění - propojování - odvozování
ETL
Co znamená publikovat vlastní LD?
Analýza vlastních dat Jaká máme data? Co můžeme/chceme publikovat? Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty
jiných subjektů?
Strukturovaný popis domény Popis struktury a sémantiky dat, které chceme zveřejnit?
Návrh ontologie Jaké již existují používané ontologie pokrývající náš doménový model? Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi. Mapování vlastní nové ontologie konceptů na existující ontologie.
Export dat Skripty exportující data do podoby navržené ontologie. Propojení dat s existujícími daty v LOD cloudu.
Publikace dat Aplikace nad daty
Lze nechat na někom jiném
Příklad publikace LD (Veřejné zakázky) Analýza a popis domény
Příklad publikace LD (Veřejné zakázky) Návrh ontologie
Příklad publikace LD (Veřejné zakázky) Publikace dat
http://ld.opendata.cz/resource/business-entity/00276111
data o Semilech vytvořená v rámci OpenData.cz dle navržené ontologie
http://ld.opendata.cz/resource/municipality/00276111
jiná data o Semilech
všimněte si vazeb sameAs
Příklad publikace LD (Veřejné zakázky) Aplikace nad daty
http://ld.opendata.cz/demo
demo aplikace nad Linked Daty o veřejných zakázkách v celé EU
data vytěžená z TED, národních portálů (např. isvzus.cz) + DBPedia
Příklad publikace LD (Veřejné zakázky) Aplikace nad daty
http://studentweb.xrg.cz/hospodareni-obci/
aplikace nad Linked Daty o hospodaření obcí
data vytěžená z UFIS + DBPedia
• UFIS = http://wwwinfo.mfcr.cz/ufis/
http://studentweb2.xrg.cz/bp-linked-data-rejskol
aplikace nad Linked Daty z rejstříku škol
data vytěžená z rejstříků MŠMT a MPSV
• MŠMT = http://rejskol.msmt.cz/
• MPSV = http://portal.mpsv.cz/
LD principy zlepšují atributy kvality
datové infrasturktury Propojitelnost
Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale nemusím udržovat ve své databázi.
Dohledatelnost Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.
Kontextovost Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.
Neúplnost Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení
nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy projeví.
Distribuovatelnost Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.
Souvislost Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou
databází.
Pluralita Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné
situace ve společnosti.
Modifikovatelnost (flexibilita) Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni
jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak na úrovni schémat (ontologií).
Transparentnost V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.
Co přinášejí LD pro vydavatele dat
rozložení nákladů na různé činnosti s daty v čase mezi jednotlivé uživatele činnosti
• publikace – data mohu publikovat postupně a publikuji jen svá primární data (na sekundární se napojím)
• aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím
• propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i kvalitou propojení
obohacování dat zveřejněním dat v podobě LD a vytvořením relativně malého množství
propojení obohatím svá data o všechna související data v LOD cloudu s obohacováním mi pomáhají všichni uživatelé LOD cloudu uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v
mých datech opravovat tak, že své opravy publikují v LOD cloudu)
Co přinášejí LD pro tvůrce aplikací?
získávají jednotný formát, ve kterém mohou konzumovat data z různých zdrojů
z dat se díky propojením snadno dostanou na související data
získávají přístup k celosvětové distribuované databázi (LOD cloudu), kterou mohou využít ve své aplikaci databáze navíc kontinuálně roste a zvyšuje svoji
informační hodnotu
vědí, od koho data pocházejí a pod jakou licencí jsou publikována
Enterprise Linked Data
pojem označující využívání LD principů uvnitř organizace v případech, kdy se svými daty nemůže nakládat zcela
otevřeně (osobní či jiné chráněné údaje)
jedná se o architektonický styl budování datové infrastruktury uvnitř organizace navíc velmi přirozený, neboť je postaven na běžných
technologiích (URI, HTTP, ...) – fungují stávající nástroje
přináší všechny výhody LD do organizace viz atributy kvality výše
umožňuje využívat externí otevřená LD z LOD cloudu uvnitř organizace pro obohacování vlastních dat organizace
Příklady ze světa
BBC US and UK Government NY Times Best Buy Sears Kmart Overstock Google Nature mnoho dalších (viz LOD cloud)