74
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1 Mikroformaty, RDFa, Inicjatywy Open* Mikołaj Morzy Agnieszka Ławrynowicz Instytut Informatyki Poznań, rok akademicki 2013/2014

Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1

Mikroformaty, RDFa, Inicjatywy Open*

Mikołaj Morzy Agnieszka Ławrynowicz

Instytut Informatyki

Poznań, rok akademicki 2013/2014

Page 2: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

2

Od „Sieci Dokumentów” do „Sieci Danych”

Sieć dokumentów •  Podstawowe elementy: 1.  Nazwy (URI) 2. Dokumenty (Zasoby) opisane w HTML, XML, itp. 3. Interakcja poprzez HTTP 4. (Hiper)linki pomiędzy dokumentami lub anchors w dokumentach

•  Wady: – Nietypowane linki – Wyszukiwarki nie potrafią obsłużyć skomplikowanych zapytań

“Dokumenty”

Hyperlinks

TSiSS 2

Page 3: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

3

Od „Sieci Dokumentów” do „Sieci Danych”

• Sieć Dokumentów • Sieć Danych

“Dokumenty” “Rzeczy”

Hyperlinks

Typowane Linki

TSiSS 3

Page 4: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

4

Od „Sieci Dokumentów” do „Sieci Danych”

• Cechy: – Linki pomiędzy dowolnymi rzeczami (np. osobami, lokalizacjami, zdarzeniami, budynkami) – Sruktura danych na stronach WWW jest jawna – Rzeczy opisane na stronach mają nazwę i URI – Linki pomiędzy rzeczami są jawne i typowane

Sieć danych

“Rzeczy”

Typowane linki

TSiSS 4

Page 5: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

5

Wizja Sieci Danych 1/2

• Sieć dzisiaj – składa  się  z  odizolowanych  silosów  danych,  które  są  dostępne  poprzez  wyspecjalizowane  wyszukiwarki  – jedna  strona  (silos  danych)  przechowuje  filmy,  inne  recenzje,  jeszcze  inne  informacje  o  aktorach  – wiele  popularnych  rzeczy  jest  reprezentowanych  w  wielu  różnych  zbiorach  danych  – „linkowanie”  identyfikatorów  łączy  te  zbiory  danych  

TSiSS 5

Page 6: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

6

Wizja Sieci Danych 2/2

• Sieć  Danych  -­‐  globalna  baza  danych  – składa  się  z  obiektów  i  ich  opisów  – obiekty  są  ze  sobą  powiązane  linkami  – z    wysokim  stopniem  ustrukturalizowania  obiektów  – z  jawną  semantyką  linków  i  treści  – zaprojektowana  dla  ludzi  i  maszyn  

TSiSS 6

Page 7: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

–  wykorzystanie  różnych  API  WWW  (2.0)    –  wiązanie  danych  (tworzenie  linków  między  danymi)  –  osadzanie  ustrukturalizowanych  danych  (mikroformaty,  RDFa,  GRDDL)        

7

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci

TSiSS 7

Page 8: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

–  wykorzystanie  różnych  API  WWW  (2.0)    –  wiązanie  danych  (tworzenie  linków  między  danymi)  –  osadzanie  ustrukturalizowanych  danych  (mikroformaty,  RDFa,  GRDDL)        

8

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci

TSiSS 8

Page 9: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

„Powiązane Dane” (ang. Linked Data): definicja

“The  Seman)c  Web  isn't  just  about  pu5ng  data  on  the  web.  It  is  about  making  links,  so  that  a  person  or  machine  can  explore  the  web  of  data.    With  linked  data,  when  you  have  some  of  it,  you  can  find  other,  related,  data.  “  (Tim  Berners-­‐Lee)  

Powiązane  Dane  –  wykorzystanie  technologii  Sieci  Semantycznej  do  publikowania  ustrukturalizowanych  danych  w  Sieci  i  do  ustanawiania  powiązań  między  źródłami  danych.  

 

9

TSiSS 9

Page 10: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

10

„Powiązane Dane” - zasady

Używaj  URI  jako  nazwy  dla  rzeczy.  Używaj  HTTP  URI  tak  aby  ludzie  mogli  wyszukiwać  

tych  nazw.  Kiedy  użytkownik  wyszukuje  URI,  dostarcz  użytecznej  

informacji  w  RDF.  Zawrzyj  wyrażenia  RDF,  które  są  powiązane  linkami  

do  innych  identyfikatorów  URI  tak  aby  mogły  one  pomóc  w  wykryciu  powiązanych  rzeczy.  

 

TSiSS 10

Page 11: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

11

Projekt „Linking Open Data” (Otwarte Powiązane Dane)

 Projekt  społecznościowy  ze  wsparciem  W3C  

 Cel:  Pomoc  w  utworzeniu  Sieci  Semantycznej  poprzez  

publikowanie  zbiorów  danych  z  wykorzystaniem  RDF.  Spełnia  zasady  „połączonych  danych”  (Linked  Data  principles)  Główna  idea:  wziąć  istniejące  (otwarte)  zbiory  danych  i  uczynić  je  

dostępnymi  w  Sieci  w  formacie  RDF  Raz  opublikowane  w  RDF,  połączyć  je  linkami  z  innymi  zbiorami  danych  

 Przykładowy  link  RDF:  h]p://dbpedia.org/resource/Berlin  

[Identyfikator  Berlina  w  DBPedia]  owl:sameAs  h]p://sws.geonames.org/2950159  [Identyfikator  Berlina  w  Geonames].    

TSiSS 11

Page 12: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

12

Chmura LOD - Maj 2007

TSiSS 12

Page 13: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Ogólnie:  Chmura  Powiązanych  Otwartych  Danych  (Linked  Open  Data)  jest  zbiorem  powiązanych  między  sobą  zbiorów  danych,  które  zostały  opublikowane  i  powiązane  linkami  zgodnie  z  zasadami  „powiązanych  danych”.  Fakty:    Punkty  „ogniskujące”:    

DBPedia:  wersja  Wikipiedii  w  formacie  RDF;  wiele  przychodzących  i  wychodzących  linków  

Zbiory  danych  dotyczące  muzyki  Duże  zbiory  danych  zawierają:  FOAF,  US  Census  data  Rozmiar  w  przybliżeniu  1  bilion  trójek,  250k  linków  

13

Chmura LOD - Maj 2007

TSiSS 13

Page 14: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

14

Chmura LOD - Wrzesień 2008

TSiSS 14

Page 15: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

15

Chmura LOD - Wrzesień 2008

Fakty:  Więcej  niż  35  powiązanych  zbiorów  danych  Gracze  komercyjni  dołączyli  do  chmury  (np.  BBC)  Firmy  zaczęły  publikować  i  przechowywać  zbiory  danych  (OpenLink,  Talis,  Garlik)  Rozmiar  w  przybliżeniu  2  bilion’y  trójek,  3  miliony  linków  

TSiSS 15

Page 16: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

16

Chmura LOD - Marzec 2009

TSiSS 16

Page 17: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

17

Chmura LOD - Marzec 2009

Fakty:  Wielka  część  z  chmury  ‘Drug’  i  projektu  BIO2RDF    Znaczące  nowe  zbiory  danych:  Freebase,  OpenCalais,  ACM/IEEE  Rozmiar  >  10  bilionów  trójek  

TSiSS 17

Page 18: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Chmura LOD - Wrzesień 2011

Liczba  zbiorów  danych:                                            295  Liczba  trójek:                                      31  634  213  770  

Page 19: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

19

Publikowanie Powiązanych danych w 7 krokach

Wybór  słowników  –  ważne  ponowne  wykorzystanie  istniejących  słowników  -­‐  interoperacyjność  

Partycjonowanie  grafu  RDF  do  “stron  danych”  Przyznanie  URI  każdej  stronie  danych  Stworzenie  wariantów  HTML  każdej  strony  danych  -­‐  do  

renderowania  stron  w  przeglądarkach  

Przyznanie  URI  każdej  encji  Dodanie  metadanych  stron  i  linków  np.  publisher,  license,  topics  Dodanie  semantycznej  mapy  strony  (semanic  sitemap)  –  ważna  

dla  pająków  w  celu  znalezienia  zbioru  danych  lub  końcowki  SPARQL  z  dostępem  do  danych  

TSiSS 19

Page 20: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

20

Tworzenie powiązań (linków)

• Popularne predykaty: owl:sameAs, foaf:homepage, foaf:topic, foaf:based_near, foaf:maker/foaf:made, foaf:depiction, foaf:page, foaf:primaryTopic, rdfs:seeAlso

TSiSS 20

Page 21: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Przykładowe zbiory danych

DBpedia  BBC  Music  Open  government  (UK),  Data.gov  (US)    Freebase  Zbiory  danych  biologicznych  i  medycznych  

TSiSS 21

Page 22: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

DBpedia

Inicjatywa  społeczna:  Ekstrakcja  strukturalnej  informacji  z  Wikipedii  Udostępnienie  informacji  w  Sieci  na  otwartej  licencji    Powiązanie  linkami  zbioru  danych  DBpedii  z  innymi  zbiorami  danych  w  Sieci  

DBpedia  to  jeden  z  najbardziej  centralnych  ”hubów”  w  tworzącej  się  Sieci  Danych  

TSiSS 22

Page 23: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

!"#$%&'()$)*$%$)+,-./.%#0)

1. Gather data from many places and give it freely to developers, scientists, and citizens

2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms

3. Provide an infrastructure built on standards and interoperability

4. Encourage technology developers to create apps, maps, and visualizations of

5. Gather more data and connect more people

7

“A Strategy for American Innovation” published September 2009

Data.gov !"#$%&'()$)*$%$)+,-./.%#0)

1. Gather data from many places and give it freely to developers, scientists, and citizens

2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms

3. Provide an infrastructure built on standards and interoperability

4. Encourage technology developers to create apps, maps, and visualizations of

5. Gather more data and connect more people

7

“A Strategy for American Innovation” published September 2009

“A  Strategy  for  American  Innova2on”    wrzesień  2009  

1.  Zgromadź  dane  –  z  wielu  miejsc,  udostępnij  je  za  darmo  deweloperom,  naukowcom,  obywatelom  2.  Połącz  społeczność    –  w  znajdowaniu  rozwiązań  pozwalających  na  współpracę  poprzez  media  społecznościowe,  wydarzenia,  plalormy  3.  Dostarcz  infrastrukturę    –  w  oparciu  o  standardy  i  interoperacyjność    4.  Zachęć  twórców  technologii  –  do  tworzenia  aplikacji,  map,  wizualizacji  danych,  które    wzmocnią  wybory  dokonywane  przez  ludzi  5.  Zgromadź  więcej  danych  –  i  połącz  więcej  ludzi  

Page 24: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

24

Powiązane Dane – Narzędzia i Aplikacje

Narzędzia  do  przenoszenia  danych  z  innych  formatów  i  z  funkcjonujących  wewnętrznie  systemów  do  Sieci  Danych  

Narzędzia  do  wykorzystywania  Powiązanych  Danych:  przeszukiwanie,  przeglądanie,  tworzenie  mashups,  inne  

TSiSS 24

Page 25: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

25

Przenoszenia danych z innych formatów do Sieci Danych

•  Dostarczenie  danych  przechowywanych  w  relacyjnych  bazach  danych  do  Sieci  Danych:  –  Pubby:  serwer  dostarczający  dostępu  do  składnic  trójek  w  Sieci  –  Triplify:  pozwala  na  specyfikację  zapytań  SQL  i  zrenderowanie  

wyników  jako  RDF  –  D2RQ,  ontop:  odwzorowanie  relacyjnych  baz  danych  do  RDF;  

dostarczają  końcówkę  SPARQL  z  dostępem  do  danych  –  Virtuoso  RDF  Views:  oferuje  deklaratywny  język  do  tworzenia  

odwzorowań  pomiędzy  danymi  SQL  i  RDF  •  Ekstrakcja  danych  z  Sieci  WWW  (np.  DBPedia:  dane  z  Wikipedii)  •  Konwersja  istniejących  danych  i  ekstrakcja  z  nich  RDF:  z  JPEG,  

Email,  BibTex,  Java  bytecode,  Javadoc,  Excel   TSiSS 25

Page 26: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

26

Repozytoria trójek RDF

–  OWLIM:  natywne,  wykorzystuje  mechanizm  wnioskowania  wprzód  (forward  chaining)  i  materializację    

–  AllegroGraph:  natywne  –  Jena  TDB:  natywne    –  Open  Link  Virtuoso:  hybrydowe,  hostuje  zbiór  Dbpedia,  

Virtuoso  7  -­‐  Virtuoso  Column  Store  –  BigData:  hybrydowe  

TSiSS 26

Page 27: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Publikowanie powiązanych - typowe wzorce

12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space

Strona 44 z 112http://linkeddatabook.com/editions/1.0/

5.1 Linked Data Publishing Patterns

Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.

Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.

Figure 5.1: Linked Data Publishing Options and Workflows.

5.1.1 Patterns in a Nutshell

The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.

From Queryable Structured Data to Linked Data

Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.

Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.

From Static Structured Data to Linked Data

12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space

Strona 44 z 112http://linkeddatabook.com/editions/1.0/

5.1 Linked Data Publishing Patterns

Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.

Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.

Figure 5.1: Linked Data Publishing Options and Workflows.

5.1.1 Patterns in a Nutshell

The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.

From Queryable Structured Data to Linked Data

Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.

Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.

From Static Structured Data to Linked Data

Źródło:  

Page 28: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

28

Konsumowanie Powiązanych Danych

•  Przeglądarki  Powiązanych  Danych:  eksplorowanie  rzeczy  i  zbiorów  danych  i  nawigacja  pomiędzy  nimi  –  Tabulator  Browser,  Marbles,  OpenLink  RDF  Browser,  Zitgist  RDF  Browser,  Disco  Hyperdata  Browser,  Fenfire  

•  Mashup’y  Powiązanych  Danych:  strony,  które  łączą  („mieszają”)  powiązane  dane  –  Revyu.com,  DBtune  Slashfacet,  DBPedia  Mobile,  Semansc  Web  Pipes  

•  Wyszukiwarki  powiązanych  danych  –  Falcons,  Sindice,  MicroSearch,  Watson,  SWSE,  Swoogle  

TSiSS 28

Page 29: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Przykładowy Mashup: Revyu.com 1/2

Revyu.com    -­‐  strona  do  oceniania  wszystkiego.  Powiązane  Dane  wykorzystywane  do  wzbogacania  ocen.  Oceny  zawierają  linki  do  ocenianej  “rzeczy” i  linki  „seeAlso”  

do  Wikipedii  i  innych  zbiorów  danych.  

29

TSiSS 29

Page 30: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

30

Przykładowy Mashup: Revyu.com 2/2

http://revyu.com

TSiSS 30

Page 31: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Przykładowa wyszukiwarka: Sindice 1/2

Wyszukiwarka  Powiązanych  Danych.  Pozwala  na  wyszukiwanie  treści  Sieci  Semantycznej  na  bazie:  

-­‐  słów  kluczowych  -­‐  URI  (identyfikujących  obiekty,  pojęcia,  lub  dokumenty).  

   

31

TSiSS 31

Page 32: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

32

Przykładowa wyszukiwarka: Sindice 2/2

TSiSS 32

Page 33: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Inne inicjatywy Open*

Open  Source  Open  Content  Open  Science  (Open  Notebook  Science)  Open  Access  Open  CourseWare  Open  Society  Foundaions  Open  Health  

TSiSS 33

Page 34: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Otwarte dane – przykład aplikacji

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

!"##$%&'(()$%21 million American households can now download their home or business energy use data from their local utility Then use apps to manage their energy use to save money and go green More at Energy.Data.gov

21

Green  BuHon    •  21  milionów  amerykańskich  gospodarstw  domowych  może  ściągnąć  dane  dot.  zużycia  energii  w  ich  domu  •  Następnie  wykorzystać  aplikacje,  które  zarządzają  ich  zużyciem  energii  i  zaoszczędzić  pieniądze  (i  być  bardziej  ekologicznym)  •  Więcej:  Energy.Data.gov  

Źródło:  Driving  Innovason  with  Open  Data  and  Interoperability  Jeanne  Holm  Evangelist,  Data.gov  Listopad  14,  2012  

Page 35: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Otwarte dane to ekosystem

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Page 36: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Wspólna wizja

1.  Wizja:  Co  będzie  łączyć  społeczność,  jak  współpraca  będzie  wyglądać  w  przyszłości?  

2.  Liderzy:  Kto  będzie  przewodzić  społeczności?  3.  Uczestnicy:  Kto  będzie  uczestniczyć?  4.  Wyniki:  Jakie  są  oczekiwane  wyniki,  miary  ich  osiągnięcia?    5.  Funckcjonalność:  Jakie  typy  aktywności  będą  funkjonować  

(fora,  blogi,  wiki,  rankingi  konkursy,  aplikacje)?  6.  Treść:  Jaka  treść  będzie  pokazywana?  7.  Interakcyjność:  Jak  społeczność  będzie  komunikować  się  z  

liderami  i  z  zewnętrznymi  osobami,  jednostkami?  

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Page 37: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

37

Co to są mikroformaty?

-­‐  sposób  nadania  znaczenia  elementom  HTML  i  jawnego  pokazania  struktur  danych  na  stronach  HTML  

-­‐  zaprojektowane  dla  ludzi  w  pierwszej  kolejności,  w  drugiej  dla  maszyn    

-­‐  zbiór  prostych,  otwartych  formatów  danych,  zbudowanych  w  oparciu  o  istniejące  i  szeroko  zaadaptowane  standardy  (np.  (X)HTML)    

-­‐  rozwiazują  pojedynczy,  specyficzny  problem  (np.  reprezentację  informacji  geograficznej,  kalendarzowej)  

  TSiSS 37

Page 38: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

38

Ilustracja microformatów

TSiSS 38

Page 39: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

39

Rodzaje mikroformatów

• Elementarne mikroformaty (jeden znacznik) – Rel-home (strona domowa) <link href="http://technorati.com" rel="home" />

– Rel-License (licencja) <a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by2.0</a>

– Inne: rel-tag, rel-encluse, xfn-tags • Złożone mikroformaty

– Często oparte na istniejącym standardzie – np. hCard, hCalendar, hEvent, hReview

TSiSS 39

Page 40: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Składnia

Mikroformaty  wykorzystują  istniejące  atrybuty  HTML  do  osadzenia  strukturalnych  typów  danych  w  dokumencie  HTML  i  do  wskazania  obecności  metadanych  

•  Atrybut    rel/rev  –  wykorzystanie  w  elementarnych  mikroformatach.  Przykład:     <a href=“http://www.cs.put.poznan.pl” rel=“tag”>instytut</a>

•  Atrybut    class  –  wykorzystanie  w  złożonych  mikroformatach.    Przykład:  <span class=“geo”><span class=“latitude”>28.42</span><span class=“longitude”>37.10</span><span>    

40

TSiSS 40

Page 41: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Ekspresywność mikroformatów

Mikroformaty  rozszerzją  siłę  wyrażania  (ekspresywność)  języka  HTML  

Ekspresywność  jest  ograniczona  tym,  że  mikroformaty  są  zaprojektowane  do  wykorzystywania  tylko  pre-­‐definiowanych  słowników.  

41

TSiSS 41

Page 42: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

42

Przykład: złożony mikroformat hCard 1/2

hCard  –  prosty  format  do  reprezentacji  danych  ludzi,  firm,  organizacji  i  miejsc  wykorzystujący  1:1  reprezentację  własności  i  wartości  standardu  vCard  (RFC2426)    BEGIN:  VCARD  VERSION:  3  FN:  Agnieszka  Lawrynowicz  ORG:  Politechnika  Poznanska  …  URL:  h]p://www.put.poznan.pl  TEL:  +48  61  8790  790  END:  VCARD  

TSiSS 42

Page 43: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

43

Przykład: złożony mikroformat hCard 2/2

<div class="vcard“> <span class="fn">Agnieszka Lawrynowicz</span> <a class="org url” href="http://www.put.poznan.pl">Politechnika Poznanska</a> <a class="email” href="mailto:[email protected]">mail me</a> Phone: <div class="tel">+48 61 8790790</div>

</div>

Example on this slide by Alexander Graf TSiSS 43

Page 44: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

44

Wady mikroformatów

•  Istnieje  jedynie  ustalony  zbiór  mikroformatów  •  Nie  ma  możliwości  łączenia  elementów  danych  •  Ustalony  słownik,  nie-­‐rozszerzalny,  trudny  do  dostosowania  do  konkretnych  potrzeb  

•  Osobne  reguły  parsowania  potrzebne  dla  każdego  mikroformatu  

TSiSS 44

Page 45: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

RDFa

RDFa  =  RDF  w  atrybutach  •  rekomendacja  W3C  •  zbiór  nowych  atrybutów  (X)HTML  do  wyrażenia  metadanych  wewnątrz  (X)HTML  

•  format  serializacji  RDF,  gdzie  trójki  RDF  są  "osadzone"  w  (X)HTML  

•  niezależne  od  dziedziny  (w  przeciwieństwie  do  dedykowanych  dla  danej  dziedziny  mikroformatów)    

TSiSS 45

Page 46: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Składnia: wykorzystanie RDFa w XHTML

•  Odpowienie  atrybuty  XHTML:  @rel,  @rev,  @content,  @href,  @src  

•  Nowe  atrybuty,  specyficzne  dla  RDFa:  @about,  @property,  @resource,  @datatype,  @typeof  

46

TSiSS 46

Page 47: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Opis podstawowych atrybutów RDFa

•  @about,  @src  –  URI,  które  specyfikuje  zasób  opisywany  przez  metadane  

•  @rel,  @rev  –  określają  relację  (relację  odwrotną)  z  innym  zasobem  

•  @href,  @resource  –  określają  stowarzyszony  zasób  •  @property  –  określa  własność  dla  zawartości  (‘content’)  

elementu  •  @content  –  opcjonalny  atrybut,  który  nadpisuje  zawartość  

elementu,  używając  atrybutu  ‘property’  •  @datatype  –  opcjonalny  atrybut,  który  określa  typ  danych  

tekstu  do  wykorzystania  z  atrybutem  ‘property’  •  @typeof  –  opcjonalny  atrybut,  który  określa  typ(y)  RDF  

podmiotu  (zasobu  opisywanego  przez  metadane)  

TSiSS 47

Page 48: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML  

<html  xmlns:foaf="h]p://xmlns.com/foaf/0.1/">      <head>        <itle>Profil  Jana  Kochanowskiego</itle>                            <link  rel="foaf:primaryTopic  foaf:maker"  href="#me"/>      </head>      <body>          <div  about="#me"  typeof="foaf:Person">              <span  property="foaf:name">Jan  Kochanowski</span>  ma  strone  

domowa  <a  rel="foaf:homepage"  href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona  Jana  Kochanowskiego</a>.  Zna:    

<a  rel="foaf:knows"  href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt  II  August</a>.  <span  

               rel="foaf:img">        <img  src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png  

alt="Jan"/>  </span>            </div>      </body>  </html>  

TSiSS 48

Page 49: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Ekspresywność RDFa

•  Specyfikacja  RDFa  definiuje  składnię  do  osadzania  RDF  w  dokumentach  w  dowolnym  języku  opartym  o    język  XML.  

•  Dlatego  RDFa  zyskuje  swoją  ekspresywność  z  siły  wyrażania  RDF  

49

TSiSS 49

Page 50: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

GRDDL

GRDDL  (“Gleaning  Resource  Descripions  from  Dialects  of  Languages”)  

Specyfikacja  GRDDL  wprowadza  znaczniki  w  oparciu  o  istniejące  standardy  deklaracji,  że  dokument  XML  zawiera  dane  kompatybilne  z  RDF    i  do  łączenia  z  algorytmami  (typowo  reprezentowanymi  w  XSLT)  do  ekstrakcji  tych  danych  z  dokumentu.  

50

TSiSS 50

Page 51: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

51

Transformacje GRDDL

Transformacje  GRDDL  są  stosowane  w  3  krokach:  

(1)  Deklaracja  dokumentu  jako  źródła.  

(2)  Połaczenie  z  jednym  lub  większą  liczbą  ekstraktorów.    

(3)  Agent  GRDDL  ekstrahuje  RDF  z  dokumentu.  

TSiSS 51

Page 52: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Inicjatywy „gigantów”

•  h]p://schema.org  (współpraca  Google,  Microso�  i  Yahoo!)  

schemat  znaczników  danych  strukturalnych  wspieranych  przez  najważniejsze  wyszukiwarki  internetowe,  mikrodane  

•  Google  knowledge  graph  hzp://www.youtube.com/watch?feature=player_embedded&v=mmQl6VGvX-­‐c  

•  Facebook  Graph  API,  Open  API  hzps://www.youtube.com/watch?v=lh-­‐YNvdJk8k  

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Page 53: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Jeopardy!

Jeopardy!  to  amerykański  quiz  show  (odpowiednik    polskiego  Va  Banque!)  

1964  –  do  dzisiaj  format  odpowiedź-­‐i-­‐pytanie    Przykład:  

Kategoria:  Nauka  ogólnie  Wskazówka:  W  zderzeniu  z  elektronami,  fosfor  wydziela  energię  elektromagnetyczną  w  tej  formie    

Odpowiedź:  Czym  jest  światło?      

dla  ludzi,  wyzwaniem  jest  znajomość  odpowiedzi    dla  maszyn,  wyzwaniem  jest  zrozumienie    pytania  

 

© 2011 IBM Corporation

What is Jeopardy?

Jeopardy! is an American quiz show

1964 Today

answer-and-question format contestants are presented with clues in the form of answers must phrase their responses in question form.

Example Category: General Science Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form Answer: What is light?

Page 54: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson

Watson  –  system  komputerowy  stworzony  przez  IBM  do  odpowiadania  na  pytania  zadawane  w  języku  naturalnym  

Watson  wystąpił  w  Jeopardy!  w  trzydniowej  rozgrywce  (2011)  …  

h]p://www.youtube.com/watch?v=Puhs2LuO3Zc    

Page 55: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson

…  przeciwnikami  IBM  Watsona  byli:  

Brad  Ruzer  –  do  tej  pory  wygrał  najwięcej  pieniędzy,    

Ken  Jennings  –  był  najdłużej  niepokonanym  mistrzem  

IBM  Watson  zajął  pierwsze  miejsce    

Page 56: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Problem automatycznego i niezależnego od dziedziny odpowiadania na pytania (QA)

Mając  dane      „treściwe”  pytania  w  języku  naturalnym  dot.  szerokiej  dziedziny  wiedzy  

Dostarcz  (w  czasie  <  3s):  precyzyjnych  odpowiedzi:  określ  czego  dotyczy  pytanie  &  daj  precyzyjną  odpowiedź  

dokładnie  wyliczoną  pewność  odpowiedzi  strawne  wyjaśnienia  co  do  poprawności  odpowiedzi  

Page 57: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson – „trójząb”*

Nowy  paradygmat  oprogramowania  coraz  więcej  zadań  obliczeniowych  wymaga  rozwiązań  niedokładnych,  które  łączą  wiele  metod  w  nieprzewidziany  sposób  

Wiedza  nie  jest  celem  (o  tym  za  chwilę)  Inteligencja  maszynowa  nie  jest  inteligencją  ludzką  

Różnica  jest  najbardziej  znaczna  w  przypadku  pomyłek  

*Wg  Chrisa  Welty  z  IBM  Research    

Page 58: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson – wiedza nie jest celem

Klasyczne  podejście  QA  Od  zarania  SI  zakładano,  że  odpowiadanie  na  pytania  będzie  działać  na  bazie  procesu,  który  całkowicie  przekłada  język  naturalny  na  jednoznaczną  (logiczną)  reprezentację;  proces  wnioskowania  będzie  działać  na  tej  reprezentacji  aby  wyprodukować  odpowiedzi.    

     JĘZYK  NATURALNY   WIEDZA  

NLP  precyzja  

pokrycie  

akwizycja  

technologie  semantyczne  

skala  

Page 59: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson – wiedza nie jest celem

Klasyczne  podejście  QA  Od  zarania  SI  zakładano,  że  odpowiadanie  na  pytania  będzie  działać  na  bazie  procesu,  który  całkowicie  przekłada  język  naturalny  na  jednoznaczną  (logiczną)  reprezentację;  proces  wnioskowania  będzie  działać  na  tej  reprezentacji  aby  wyprodukować  odpowiedzi.    

      PORAŻKA!  JĘZYK  NATURALNY   WIEDZA  

NLP  precyzja  

pokrycie  

akwizycja  

technologie  semantyczne  

skala  

Page 60: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson – wiedza nie jest celem

DeepQA  (Watson)    generuje  i  ocenia  wiele  hipotez  wykorzystując  kolekcję  metod  z  dziedziny  przetwarzania  języka  naturalnego,  uczenia  maszynowego,  reprezentacji  wiedzy  i  wnioskowania;  

gromadzą  one  i  ważą  dowody  pochodzące  ze  źródeł  danych  niestrukturalnych  i  strukturalnych  (np.  otwartych  powiązanych  danych)  aby  ustalić  odpowiedź  o  najwyższej  pewności  na  podstawie  odpowiedzi  wielu  (setek)  metod  

JĘZYK  NATURALNY   ZADANIE  parsowanie  

NER  wyszukiwanie    informacji  

technologie    semantyczne  

uczenie    maszynowe  

crowd  

Page 61: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

IBM Watson – jak to działa

The  science  behind  an  answer  h]p://www.youtube.com/watch?v=DywO4zksfXw    

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Page 62: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Google: Graf Wiedzy

semantyczne  wyszukiwanie  maj  2012:  baza  wiedzy  wykorzystywana  przez  Google  do  

rozszerzenia  wyników  wyszukiwania  wiele  źródeł  wiedzy:  CIA  World  Factbook,  Freebase,  Wikipedia  

sieć  semantyczna  zawiera  ponad    570  mln  obiektów  i  ponad  18  mld  faktów  

maj  2013:  polska  wersja  językowa;  zadawanie  pytań  raczej  niż  wyszukiwanie,  informacje  i  powiązania  między  nimi  raczej  niż  zestaw  linków  system  poszukujący  nie  fraz  kluczowych,  lecz  "bytów”  stojących  za  wpisanymi  w  wyszukiwarkę  słowami  

   

Page 63: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Dwa główne sposoby działania Grafu Wiedzy

dopasowywanie  odpowiedzi  do  kontekstu;  w  przypadku  dwuznacznych  haseł  prezentacja  różnych  wersji  odpowiedzi  

podsumowania  najbardziej  istotnych  informacji:  -­‐  biogramy,  wyróżnione  najważniejsze  elementy,  powiązania  między  kluczowymi  hasłami,  odnośniki  do  kolejnych  informacji  

 

Page 64: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

Graf Wiedzy: przykład

Page 65: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

65

Bibliografia

[1]  C.  Bizer,  T.  Heath,  and  T.  Berners-­‐lee  “Linked  Data  –  The  Story  So  Far”  Internasonal  Journal  on  Semansc  Web  and  Informason  Systems  (IJSWIS)  (2009)  

[2]  T.  Heath,  and  C.  Bizer  (2011)  Linked  Data:  Evolving  the  Web  into  a  Global  Data  Space  (1st  edison).  Synthesis  Lectures  on  the  Semansc  Web:  Theory  and  Technology,  1:1,  1-­‐136.  Morgan  &  Claypool.  

[3]  RDFa  Primer,  hzp://www.w3.org/TR/xhtml-­‐rdfa-­‐primer/  (last  accessed  on  18.03.2009)  

Page 66: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 1/7

Krok  1  –  tworzenie  obiektu  osoby  -­‐  wykorzystany  atrybut  @typeof  i  element  słownictwa  FOAF  

(Person)  

<html xmlns:foaf="http://xmlns.com/foaf/0.1/"> <head> <title>Profil Jana Kochanowskiego</title> </head> <body> <div typeof="foaf:Person"> ... </div> </body> </html>

TSiSS 66

Page 67: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 2/7

Krok  2  –  dodanie  informacji  personalnej  -­‐  wykorzystana  własność  foaf:name,  ustawiona  za  pomocą  

atrybutu  RDFa  @property  

<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> </div>

TSiSS 67

Page 68: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 3/7

Krok  3  –  dodanie  strony  domowej  -­‐  wykorzystana  własność  foaf:homepage  i  atrybut  HTML  @rel  

(dodajemy  URL)  

<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona Jana Kochanowskiego</a> </div>

TSiSS 68

Page 69: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 4/7

Krok  4  –  dodanie  przyjaciół/kolegów  -­‐  wykorzystana  własność  foaf:knows  i  atrybut  HTML  @rel  

<div  typeof="foaf:Person">  <span  property="foaf:name">Jan  Kochanowski</span>    <a  rel="foaf:homepage"  href="h]p://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona  Jana  Kochanowskiego</a>    <a  rel="foaf:knows"  href="h]p://pl.wikipedia.org/wiki/

Zygmunt_II_August#me">Zygmunt  II  August</a>  </div>  

TSiSS 69

Page 70: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 5/7

Krok  5  –  dodanie  zdjęcia  -­‐  wykorzystana  własność  foaf:img  

<div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="http://pl.wikipedia.org/wiki/

Zygmunt_II_August#me">Zygmunt II August</a> <span rel="foaf:img"> <img src=" http://upload.wikimedia.org/wikipedia/commons/4/42/

Jan_Kochanowski.png" alt="Jan"/> </span> </div>

TSiSS 70

Page 71: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 6/7

Krok  6  –  ostateczna  wersja  (łącznie  z  prezentacją)    

<html  xmlns:foaf="h]p://xmlns.com/foaf/0.1/">      <head>        <itle>Profil  Jana  Kochanowskiego</itle>                            <link  rel="foaf:primaryTopic  foaf:maker"  href="#me"/>      </head>      <body>          <div  about="#me"  typeof="foaf:Person">              <span  property="foaf:name">Jan  Kochanowski</span>  ma  strone  

domowa  <a  rel="foaf:homepage"  href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona  Jana  Kochanowskiego</a>.  Zna:    

<a  rel="foaf:knows"  href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt  II  August</a>.  <span  

               rel="foaf:img">        <img  src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png  

alt="Jan"/>  </span>            </div>      </body>  </html>  

TSiSS 71

Page 72: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Wykorzystanie RDFa w XHTML – przykład 7/7

Trójki  RDF  wyrenderowane  z  dokumentu  XHTML    –  np.    za  pomocą  parsera  i  walidators  RDfa  Sindice  Inspector  hzp://inspector.sindice.com/  

 

TSiSS 72

Page 73: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

Przykładowa przeglądarka: Marbles 1/2

Wskazuje  źródło  wyświetlanych  danych  za  pomocą    kolorowych  ikonek  

Wsparcie  dla  różnych  widoków:    Pełen  widok:  wyświetlone  wszystkie  dostępne  dane.  Widok  podsumowujący:  krótkie  tekstowe  streszczenie  na  temat  

zasobu.  Widok  „zdjęcie”:  zdjęcie  danego  zasobu.  

Pobiera  dane  z  wielu  źródeł  poprzez  (a)  wysyłanie  równoległych  zapytań  do  wielu  wyszukiwarek  Powiązanych  Danych  (b)  podążając  za  linkami  owl:sameAs  i  rdfs:seeAlso.  

 73

TSiSS 73

Page 74: Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident yfikatorów&łączy&te&zbiory&danych& TSiSS 5 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

74

Przykładowa przeglądarka: Marbles 2/2

http://marbles.sourceforge.net/

TSiSS 74