39
Arkitekturnätverket 2013-10-01 Hannes Ebner [email protected] Matthias Palmér [email protected] Introduktion till Länkade Data

Introduktion till länkade data

Embed Size (px)

DESCRIPTION

Svenska myndigheters arkitekturnätverk 2013-10-01

Citation preview

Page 1: Introduktion till länkade data

Arkitekturnätverket

2013-10-01

Hannes [email protected]

Matthias Palmé[email protected]

Introduktion till Länkade Data

Page 2: Introduktion till länkade data

Vilka är vi

Matthias Palmér● Bakgrund: datalogi, matematik● Tekn. dr. i medieteknik, fokus på hur man bygger moderna

webbapplikationer mha Semantic Web/Länkade Data

Hannes Ebner● Bakgrund: telekommunikation, informationssystem● Doktorsavhandling med fokus på samarbetsmiljöer som är

baserade på semantiska teknologier och länkade data

Page 3: Introduktion till länkade data

Om MetaSolutions produkter

RForms – Konfigurerbara webbformulär för redigera grafbaserad information (RDF)

EntryStore – Repository för hantera kombinationen av resurser och tillhörande metadata

EntryScape – Webbapplikation som ger gränsnitt till EntryStore, påminner om filutforskaren på windows/mac...

(Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)

Page 4: Introduktion till länkade data

Några av våra kunder och partners

Page 5: Introduktion till länkade data

Innehåll

1. Introduktion till länkade data (12 slides)

2. Kort om Publicering av länkade data (3

slides)

3. Vokabulärer och vokabulärspråk (7 slides)

4. Dataintegration och länkade data (9 slides)

5. Lösningar för att exponera länkade data (2 slides)

Page 6: Introduktion till länkade data

Om stjärnor

★★★★★ gör din information tillgänglig på Webben★★★★★ (oberoende av format) under en öppen licens★★★★★ gör informationen tillgänglig som strukturerad data★★★★★ (t. ex., Excel format istället för en bild av en tabell)★★★★★ använd icke-proprietära format★★★★★ (t. ex., CSV istället för Excel)★★★★★ använd URI:er för att identifiera ting, och RDF för att uttrycka påståenden om dem★★★★★ länka dina data till andras data, det ger sammanhang

1. Introduktion

Page 7: Introduktion till länkade data

Länkade data

● Påståenden om ting● Länkar mellan ting● Hämta påståenden om ting över HTTP● Ett språk (RDF) många format● Ett frågespråk (SPARQL)● Vokabulärer är också länkade data

1. Introduktion

Page 8: Introduktion till länkade data

Påståenden om ting

● Data om ting identifierade av URI:er

● Påståenden om dessa ting kan vara:○ egenskaper som titel, storlek, datum, osv.○ länkar till andra ting som “känner”, “är del av”, osv.

● Hämtning av ett ting (mha dess URI) ger en samling påståenden, några länkar vidare

1. Introduktion

Page 9: Introduktion till länkade data

Resource Description Format (RDF)

Tre enkla regler:1. Ett påstående uttrycks som “trippel” (“statement”),

med subjekt, predikat och object2. Alla delar av ett trippel är namn (identifierare) för

entiteter (konkret eller abstrakt)3. Objekt kan även ha ett text- eller datavärde

(literaler)

1. Introduktion

Page 10: Introduktion till länkade data

Hämta påståenden om ting

1. Introduktion

Page 11: Introduktion till länkade data

Samma i “Turtle” format

GET http://data.nobelprize.org/resource/nobelprize/Physics/1903

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix dbpedia: <http://dbpedia.org/ontology/> .

@prefix nobel: <http://data.nobelprize.org/resource/terms/> .

http://data.nobelprize.org/resource/nobelprize/Physics/1903

rdf:type nobel:nobelPrize ;

rdf:type dbpedia:Award ;

nobel:laureate http://data.nobelprize.org/resource/laureate/4 ;

nobel:laureate http://data.nobelprize.org/resource/laureate/5 ;

nobel:laureate http://data.nobelprize.org/resource/laureate/6 ;

nobel:category http://data.nobelprize.org/resource/category/Physics ;

nobel:year 1903 ;

rdfs:label “Physics 1903”@en .

1. Introduktion

Page 12: Introduktion till länkade data

Webben vs. länkade data

“Gamla” webben

● Nätverk av sidor● Varje sida har en

identifierare (URL)● Bakom varje URL ligger ett

dokument● Sidor är ihopkopplade via

länkar● “Open world”

Länkade data (“Web of Data”)

● Nätverk av ting (4★)● Varje ting har en

identifierare (URI) (4★)● Bakom varje URI ligger

“statements” (5★)● Ting är ihopkopplade via

länkar (5★)● “Open world”

1. Introduktion

Page 13: Introduktion till länkade data

2007

1. Introduktion

Page 14: Introduktion till länkade data

2008

1. Introduktion

Page 15: Introduktion till länkade data

2009

1. Introduktion

Page 16: Introduktion till länkade data

2010

1. Introduktion

Page 17: Introduktion till länkade data

2011

1. Introduktion

Page 18: Introduktion till länkade data

Datapublicering – initiala frågor

● Identifiera vad man vill göra tillgängligt● Vad är nyttigt/användbart?● Var ligger det nu?● Hur är det underhållet nu?● Kan det bli identifierat?

2. Publicering

Page 19: Introduktion till länkade data

Datapublicering – licensiering (!)

Säkerställa att licensiering är entydig● Creative Commons (CC0)● Open Data Commons● Egen licens

Data != Metadata● Blandas ihop ofta

2. Publicering

Page 20: Introduktion till länkade data

Publicering - länkning

Vanligt att använda DBpedia och andra stora dataset som “länkningscentraler”

● Leder automatiskt till ett flertal av indirekta länkar pga att andra data redan länkar till dem

● Hur skapas länkar?○ Bra utgångsmaterial underlättar automatisk länkning○ Textanalys (“named entity extraction”)○ Disambiguering (Homonymer)○ Manuellt

2. Publicering

Page 21: Introduktion till länkade data

DCMI Terms - Qualified Dublin Core

Properties: abstract, accessRights, accrualMethod, accrualPeriodicity, accrualPolicy, alternative, audience, available, bibliographicCitation, conformsTo, contributor, coverage, created, creator, date, dateAccepted, dateCopyrighted, dateSubmitted, description, educationLevel, extent, format, hasFormat, hasPart, hasVersion, identifier, instructionalMethod, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, language, license, mediator, medium, modified, provenance, publisher, references, relation, replaces, requires, rights, rightsHolder, source, spatial, subject, tableOfContents, temporal, title, type, valid

Intoducerades 1995 på Workshop i Dublin Ohioav olika biblioteksorganisationerFokus: beskriva resurser/verk av olika slagUnderhålls av DCMI (Dublin Core Metadata Initiative)

3. Vokabulärer

Page 22: Introduktion till länkade data

FOAF - Friend Of A Friend

Properties: account | age | based_near | birthday | currentProject | depicts | dnaChecksum | gender | givenName | holdsAccount | img | interest | knows | lastName | mbox | member | nick | openid | page | phone | plan | status | surname | thumbnail | title | topic | weblog

Specification: http://xmlns.com/foaf/specIntroduced in 2000, latest update 2010Builds upon Dublin Core

3. Vokabulärer

Page 23: Introduktion till länkade data

Bing, Google och YahooIntroducerade schema.org 2011 Mer än 800 typer och 600 egenskaperAnvänds för att förbättra sökresultat

Sch

ema.

org

3. Vokabulärer

Page 24: Introduktion till länkade data

Koncept-, vokabulär- och ontologispråkSKOS, RDFS och OWL

SKOS - “Simple Knowledge Organisation System”● Concepts in ConceptSchemes● Namn via prefLabel, altLabel● Hierarkier via narrow/broader● relationer via related

RDFS - “RDF Vocabulary Description Language”● Definera klasser och properties i RDF● subClassOf och subPropertyOf för att förfina

OWL - “Web Ontology Language”● Kraftfullare än RDFS

3. Vokabulärer

Page 25: Introduktion till länkade data

SNOMED CT och ICD9 i SKOS

id (URI): 61462000Namn (prefLabel): MalariaSynonymer (altLabel): Plasmodiosis, PaludismFörfining av (broader): 105649009Närbesläktad (closeMatch): ICD9:084_6

id (URI): 084_6Namn (prefLabel): Malaria, Unspecified

id (URI): 105649009Namn (prefLabel): Disease due to Plasmodiidae

Snomed CT

Snomed CT

ICD9

3. Vokabulärer

Page 26: Introduktion till länkade data

SNOMED CT och ICD9 i SKOS

Utforska själv på: http://schemes.caregraf.info/snomed#!614620003. Vokabulärer

Page 27: Introduktion till länkade data

Mer om SKOS

Notes: note, changeNote, definition, historyNote,

editorialNote, example, scopeNote

transitivity:broaderTransitive, narrowTransitive

Match:closeMatch, relatedMatch, narrowMatch,

broaderMatch

Concept Collections

3. Vokabulärer

Page 28: Introduktion till länkade data

Problembild - Dataintegration

● Många disparata datakällor och silos● Många punkt-till-punkt gränssnitt● Datakällor med liknande eller inkonsistent

information

Data IN - Använda andras data korrektData UT - Egen data förstådd och rätt använd

Helst på ett enkelt, hållbart och skalbart sätt!

4. Dataintegration

Page 29: Introduktion till länkade data

Förstådd och rätt använd

Hitta/anpassa den bästa standarden● Hur avgränsa ett område● Hur komma överens, legitimitet

Använd många vokabulärer och Länkade data● Kombinera existerande vokabulärer + egna● Best practise växer fram, dubblera där så saknas

4. Dataintegration

Page 30: Introduktion till länkade data

Interoperabilitet vs. Harmonisering

En enskild standard ger interoperabilitet● Maskiner kan utbyta data efter noggrann programmering● Oftast punkt till punkt

Länkade data ger harmonisering mellan standarder/vokabulärer● Olika data kan blandas och samexistera● Maskiner förstår de delar de programmerats för● Ibland genom att förgrova och dra slutsatser enligt

förberedda regler

4. Dataintegration

Page 31: Introduktion till länkade data

Importera eller länka

Importera data som behövs● Hur mycket ska man importera?● Kvalité och underhåll ditt ansvar● Hur länge är data korrekt?● Vilka protokoll ska användas? (WS* vs. REST)

Länka till data som behövs● Kvalité och underhåll leverantörens ansvar● HTTP och SPARQL väl etablerade, ● kan kombineras med t. ex. SRU● Cacha bara nödvändig data (förlita dig på http)

4. Dataintegration

Page 32: Introduktion till länkade data

Datamodell för disparata data

Egen datamodell● Datamodellen blir en union av alla behov● Dokumentation och underhåll● Ursprung bör hanteras noga (provenance)

Utnyttja RDF● Datamodellen är given av RDF abstract model● Ursprung hanteras via URI:er (och named graphs)● Många format finns att välja på

4. Dataintegration

Page 33: Introduktion till länkade data

Länkade data ger möjligheter (1)

Förenkling av informationsintegrationsprocesser● Flexibelt och enkelt för evolverande datamodeller● Ignorera det du inte förstår eller behöver● Integrera data av olika informationskvalite● Hantera synonymer och homonymer i data

(reconciliation och disambiguation)

Tillhandahålla ett enterprise metadatalager● Enhetliga metadatavokabulär inom organisationen● Harmonisera “legacy” datasilos● Förbättring av informationsspridning● Agilt “Master Data Management”

4. Dataintegration

Page 34: Introduktion till länkade data

Länkade data ger möjligheter (2)

Identifiering och förädling av information● Länka ihop personer, organisationer, händelser, …● Förädla organisationsinnehåll med strukturerade

annotationer● Identifiera implicita länkar och relationer

Enhetlig tillgång till information inom organisationen● Förenklad infrastruktur baserad på öppna

standarder

Informationsutbyte mellan olika organisationer● Enkel publicering och konsumtion av länkade data

4. Dataintegration

Page 35: Introduktion till länkade data

Typiska enterprise use cases

Publicering och konsumtion av länkade data● Länkade data behöver inte vara öppna / gratis● Stödjer datautbyte inom värdekedjan

Informationsintegration● Integrerad asset-hantering / harmonisering av data

silos)● Master Data Management

Knowledge discovery och semantisk sökning

4. Dataintegration

Page 36: Introduktion till länkade data

Framgångshistorier

Linked Life Data● Semantisk warehouse som integrerar och länkar fler

än 25 öppna biomedicinska datakällor● Interaktiv utforskning

Dynamisk semantisk publicering● BBC World Cup 2010 och London Olympics 2012● Länkade data för att automatisera dynamisk

publicering av innehåll

Data om Nobelpris● Länkar ihop pristagare, dokumentation och externa

datakällor

4. Dataintegration

Page 37: Introduktion till länkade data

Olika kategorier av lösningarför att exponera länkade data

Mål - exponera sina data som länkade dataGivet - en plattform som inte stöder länkade data

Påverkan

Lösning

Ändra arkitektur Extra teknisk kompetens krävs

Påverkan på Driftsäkerhet

Underhåll krävs

Byta plattform X X X X

Utvidga plattformen ? ? X

Lager ovanpå plattformen X X X

Använda en molntjänst ? ?

5. Lösningar

Page 38: Introduktion till länkade data

Arkitekturskiss LODify

EntryStore - molntjänst

Triple storeRättigheterSökindex

Tabular importerConfig

Relational importer Config

Webbdokument importerConfig

API based importer Config

DokumentRDB

Kalkylblad

Resurser

API

LOD

WebbAppentrystore.js

5. Lösningar

Page 39: Introduktion till länkade data

Tack för er uppmärksamhet!

Frågestund!

Hannes Ebner <[email protected]>

Matthias Palmér <[email protected]>

Kontakta oss gärna, tex om ni: - har frågor om länkade data - vill bli informerade om LODify

MetaSolutions [email protected]