79
オープンデータの 技術よりな話 ROIS&LODI 加藤文彦 2013-06-20 第2回オープンデータ京都勉強会 1

オープンデータの技術よりな話

Embed Size (px)

DESCRIPTION

2013-06-20に行われた第二回オープンデータ京都勉強会の資料

Citation preview

Page 1: オープンデータの技術よりな話

オープンデータの技術よりな話

ROIS&LODI 加藤文彦 2013-06-20

第2回オープンデータ京都勉強会

1

Page 2: オープンデータの技術よりな話

加藤 文彦 (かとうふみひろ)• 情報・システム研究機構 特任研究員

• LODACプロジェクト

• DBpedia Japanese

• リンクト・オープン・データ・イニシアティブ 理事

• CKAN

• Open DATA METI

• コミュニティ

• Linked Data勉強会

• Linked Open Data チャレンジ Japan

• CKAN日本語

2

Page 3: オープンデータの技術よりな話

第一回のこれ前提

詳しくはslideshareで!3

Page 4: オープンデータの技術よりな話

http://5stardata.info/ja/

4

Page 5: オープンデータの技術よりな話

5

Page 6: オープンデータの技術よりな話

Web Data

6

Page 7: オープンデータの技術よりな話

Webのどこかにファイル置けばおk

7

Page 8: オープンデータの技術よりな話

専用のWebサイト作ればなお良し

8

Page 9: オープンデータの技術よりな話

9

Page 10: オープンデータの技術よりな話

10

Page 11: オープンデータの技術よりな話

11

Page 12: オープンデータの技術よりな話

CKAN• FLOSSのデータポータルソフトウェア

• AGPL v3.0

• http://github.com/okfn/ckan

• Open Knowledge Foundation

• 約50の国や地方自治体等で採用

• Python+JavaScript

• PostgreSQL+SOLR

• API提供

• 豊富な拡張

12

Page 13: オープンデータの技術よりな話

13

Page 14: オープンデータの技術よりな話

14

Page 15: オープンデータの技術よりな話

15

Page 16: オープンデータの技術よりな話

Open License

16

Page 17: オープンデータの技術よりな話

“データやコンテンツがオープンであるというのは,クレジット表示と/またはライセンスの継承をするくらいの条件で,誰もが自由に利用,再利用,再配布できるということである.”

The  Open  Defini+on  -­‐  h.p://opendefini+on.org

17

Page 18: オープンデータの技術よりな話

◯ ☓18

Page 19: オープンデータの技術よりな話

CC0/PDDL最強

19

Page 20: オープンデータの技術よりな話

大体BYくらい

20

Page 21: オープンデータの技術よりな話

21

Page 22: オープンデータの技術よりな話

22

Page 23: オープンデータの技術よりな話

23

Page 24: オープンデータの技術よりな話

(machine) REdable

24

Page 25: オープンデータの技術よりな話

構造化データ

25

Page 26: オープンデータの技術よりな話

プログラムから扱えるほうが嬉しい

26

Page 27: オープンデータの技術よりな話

27

Page 28: オープンデータの技術よりな話

28

Page 29: オープンデータの技術よりな話

Open Format

29

Page 30: オープンデータの技術よりな話

ベンダー非依存の標準化されたデータ形式

30

Page 31: オープンデータの技術よりな話

仕様読めるライブラリ書ける

特定のツール等に縛られない...

31

Page 32: オープンデータの技術よりな話

CSV, XML, JSON, ...

32

Page 33: オープンデータの技術よりな話

33

Page 34: オープンデータの技術よりな話

http://www.w3.org/2013/04/odw/report

34

Page 35: オープンデータの技術よりな話

http://www.w3.org/2013/04/odw/report

35

Page 36: オープンデータの技術よりな話

http://data.okfn.org/standards

36

Page 37: オープンデータの技術よりな話

37

Page 38: オープンデータの技術よりな話

Uniform Resource Identifier

38

Page 40: オープンデータの技術よりな話

40

Page 41: オープンデータの技術よりな話

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

41

Page 42: オープンデータの技術よりな話

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

ID name tel zipcode address lat long

001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193

42

Page 43: オープンデータの技術よりな話

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

IDをURIにすると世界でユニークなIDになる

ID name tel zipcode address lat long

001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193

43

Page 44: オープンデータの技術よりな話

26

44

Page 45: オープンデータの技術よりな話

26

ISO3166-2:JP京都府

工業統計コード生産用機械器具製造業

FC東京阿部 巧

45

Page 46: オープンデータの技術よりな話

26

ISO3166-2:JP京都府

工業統計コード生産用機械器具製造業

FC東京阿部 巧

http://www.iso.org/3166-2/jp/26

http://www.fctokyo.co.jp/players/2013/26http://www.meti.go.jp/industrial-code/26

46

Page 47: オープンデータの技術よりな話

47

Page 48: オープンデータの技術よりな話

Linked Data

48

Page 49: オープンデータの技術よりな話

Linked Data

•Web技術でデータを公開・共有・統合するためのベストプラクティス

• "データのWeb"• HTTP, URI/IRI, リンク, グラフモデル, 構造化データ

49

Page 50: オープンデータの技術よりな話

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 福井県

50

Page 51: オープンデータの技術よりな話

ID name population

18 福井県 795824

26 京都府 2623924

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 18

51

Page 52: オープンデータの技術よりな話

URI name population

http://.../3166/jp/18 福井県 795824

http://.../3166/jp/26 京都府 2623924

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 http://.../3166/jp/18

IDをURIにすることで外部から参照される

52

Page 53: オープンデータの技術よりな話

OpenRefine• Freebase Gridworks, GoogleRefine

• データと遊ぶためのツール (一部要拡張)

• インポート形式: *SV, Excel, JSON, XML, RDF/XML Google Data(Spreadsheet, Fusion Table)

• エクスポート形式: *SV, HTML, Excel, ODF Spreadsheet, MQL, RDF/XML, RDF/Turtle

• アップロード: Freebase, CKAN

• ビュアー: ファセット, フィルター,フラグ

• 編集履歴

• スクリプト: GREL

• データ変換

• データ公開

• 様々な拡張

• Reconciliation

53

Page 54: オープンデータの技術よりな話

Reconciliation• ラベル(と付加情報)にマッチする潜在的なエンティティリストを推薦

• Apple社 vs フルーツのapple vs New York City

• pathやURI

• サービス

• Freebase

• Reconciliation API

• SPARQL (要RDFRefine)

54

Page 55: オープンデータの技術よりな話

55

Page 56: オープンデータの技術よりな話

Webの原則1. IRIをHTML文書の識別子として使う

2. IRIにはhttpスキームを使う

3. IRIを見るとHTML文書が返ってくる

4. HTML文書には他のIRIへのリンクがある

56

Page 57: オープンデータの技術よりな話

Linked Dataの原則1. URIをモノ(Thing)の識別子として使う

2. URIにはhttpスキームを使う

3. URIを見るとモノのデータが返ってくる

4. データには他のURIへの型付リンクがある

子供

執筆

発行日

誕生日出版社

所在地

"Things,  not  Strings"  by  Google

57

Page 58: オープンデータの技術よりな話

子供

執筆

発行日

誕生日出版社

所在地

58

Page 59: オープンデータの技術よりな話

子供

執筆

発行日

誕生日出版社

所在地

59

Page 60: オープンデータの技術よりな話

グラフのシリアライズ形式• Turtle (N3)• JSON-LD• RDFa• Microdata• RDF/XML• TriX• TriG• ......

60

Page 61: オープンデータの技術よりな話

http://www.w3.org/TR/turtle/

61

Page 62: オープンデータの技術よりな話

http://json-ld.org/

62

Page 63: オープンデータの技術よりな話

63

Page 65: オープンデータの技術よりな話

As of September 2011

MusicBrainz

(zitgist)

P20

Turismo de

Zaragoza

yovisto

Yahoo! Geo

Planet

YAGO

World Fact-book

El ViajeroTourism

WordNet (W3C)

WordNet (VUA)

VIVO UF

VIVO Indiana

VIVO Cornell

VIAF

URIBurner

Sussex Reading

Lists

Plymouth Reading

Lists

UniRef

UniProt

UMBEL

UK Post-codes

legislationdata.gov.uk

Uberblic

UB Mann-heim

TWC LOGD

Twarql

transportdata.gov.

uk

Traffic Scotland

theses.fr

Thesau-rus W

totl.net

Tele-graphis

TCMGeneDIT

TaxonConcept

Open Library (Talis)

tags2con delicious

t4gminfo

Swedish Open

Cultural Heritage

Surge Radio

Sudoc

STW

RAMEAU SH

statisticsdata.gov.

uk

St. Andrews Resource

Lists

ECS South-ampton EPrints

SSW Thesaur

us

SmartLink

Slideshare2RDF

semanticweb.org

SemanticTweet

Semantic XBRL

SWDog Food

Source Code Ecosystem Linked Data

US SEC (rdfabout)

Sears

Scotland Geo-

graphy

ScotlandPupils &Exams

Scholaro-meter

WordNet (RKB

Explorer)

Wiki

UN/LOCODE

Ulm

ECS (RKB

Explorer)

Roma

RISKS

RESEX

RAE2001

Pisa

OS

OAI

NSF

New-castle

LAASKISTI

JISC

IRIT

IEEE

IBM

Eurécom

ERA

ePrints dotAC

DEPLOY

DBLP (RKB

Explorer)

Crime Reports

UK

Course-ware

CORDIS (RKB

Explorer)CiteSeer

Budapest

ACM

riese

Revyu

researchdata.gov.

ukRen. Energy Genera-

tors

referencedata.gov.

uk

Recht-spraak.

nl

RDFohloh

Last.FM (rdfize)

RDF Book

Mashup

Rådata nå!

PSH

Product Types

Ontology

ProductDB

PBAC

Poké-pédia

patentsdata.go

v.uk

OxPoints

Ord-nance Survey

Openly Local

Open Library

OpenCyc

Open Corpo-rates

OpenCalais

OpenEI

Open Election

Data Project

OpenData

Thesau-rus

Ontos News Portal

OGOLOD

JanusAMP

Ocean Drilling Codices

New York

Times

NVD

ntnusc

NTU Resource

Lists

Norwe-gian

MeSH

NDL subjects

ndlna

myExperi-ment

Italian Museums

medu-cator

MARC Codes List

Man-chester Reading

Lists

Lotico

Weather Stations

London Gazette

LOIUS

Linked Open Colors

lobidResources

lobidOrgani-sations

LEM

LinkedMDB

LinkedLCCN

LinkedGeoData

LinkedCT

LinkedUser

FeedbackLOV

Linked Open

Numbers

LODE

Eurostat (OntologyCentral)

Linked EDGAR

(OntologyCentral)

Linked Crunch-

base

lingvoj

Lichfield Spen-ding

LIBRIS

Lexvo

LCSH

DBLP (L3S)

Linked Sensor Data (Kno.e.sis)

Klapp-stuhl-club

Good-win

Family

National Radio-activity

JP

Jamendo (DBtune)

Italian public

schools

ISTAT Immi-gration

iServe

IdRef Sudoc

NSZL Catalog

Hellenic PD

Hellenic FBD

PiedmontAccomo-dations

GovTrack

GovWILD

GoogleArt

wrapper

gnoss

GESIS

GeoWordNet

GeoSpecies

GeoNames

GeoLinkedData

GEMET

GTAA

STITCH

SIDER

Project Guten-berg

MediCare

Euro-stat

(FUB)

EURES

DrugBank

Disea-some

DBLP (FU

Berlin)

DailyMed

CORDIS(FUB)

Freebase

flickr wrappr

Fishes of Texas

Finnish Munici-palities

ChEMBL

FanHubz

EventMedia

EUTC Produc-

tions

Eurostat

Europeana

EUNIS

EU Insti-

tutions

ESD stan-dards

EARTh

Enipedia

Popula-tion (En-AKTing)

NHS(En-

AKTing) Mortality(En-

AKTing)

Energy (En-

AKTing)

Crime(En-

AKTing)

CO2 Emission

(En-AKTing)

EEA

SISVU

education.data.g

ov.uk

ECS South-ampton

ECCO-TCP

GND

Didactalia

DDC Deutsche Bio-

graphie

datadcs

MusicBrainz

(DBTune)

Magna-tune

John Peel

(DBTune)

Classical (DB

Tune)

AudioScrobbler (DBTune)

Last.FM artists

(DBTune)

DBTropes

Portu-guese

DBpedia

dbpedia lite

Greek DBpedia

DBpedia

data-open-ac-uk

SMCJournals

Pokedex

Airports

NASA (Data Incu-bator)

MusicBrainz(Data

Incubator)

Moseley Folk

Metoffice Weather Forecasts

Discogs (Data

Incubator)

Climbing

data.gov.uk intervals

Data Gov.ie

databnf.fr

Cornetto

reegle

Chronic-ling

America

Chem2Bio2RDF

Calames

businessdata.gov.

uk

Bricklink

Brazilian Poli-

ticians

BNB

UniSTS

UniPathway

UniParc

Taxonomy

UniProt(Bio2RDF)

SGD

Reactome

PubMedPub

Chem

PRO-SITE

ProDom

Pfam

PDB

OMIMMGI

KEGG Reaction

KEGG Pathway

KEGG Glycan

KEGG Enzyme

KEGG Drug

KEGG Com-pound

InterPro

HomoloGene

HGNC

Gene Ontology

GeneID

Affy-metrix

bible ontology

BibBase

FTS

BBC Wildlife Finder

BBC Program

mes BBC Music

Alpine Ski

Austria

LOCAH

Amster-dam

Museum

AGROVOC

AEMET

US Census (rdfabout)

Media

Geographic

Publications

Government

Cross-domain

Life sciences

User-generated content

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

65

Page 67: オープンデータの技術よりな話

http://dbpedia.org/resource/Kyoto

67

Page 71: オープンデータの技術よりな話

71

Page 73: オープンデータの技術よりな話

http://linkedgeodata.org/triplify/node355845257

73

Page 74: オープンデータの技術よりな話

74

Page 75: オープンデータの技術よりな話

クエリ言語

• データの検索や操作を行うための言語• データモデルやDBシステムに合わせて設計

• 例: SQL

–データモデル: 関係モデル

–DBシステム: RDBMS

• LODのデータモデル: グラフモデル

75

Page 76: オープンデータの技術よりな話

SPARQL• LOD用クエリ言語

– データモデル: RDF (ラベル付き有向グラフ)

– プロトコル: HTTP

• W3C仕様

– 1.0: Recommendations

– 1.1: Working Drafts

76

Page 77: オープンデータの技術よりな話

SPARQLエンドポイント

• SPARQLクエリを受け付ける場所

– SPARQLエンドポイントURI

• プログラムからSPARQLを使うときに指定

– 入力フォームがある場合

77

Page 79: オープンデータの技術よりな話

79