オープンデータの技術よりな話

Preview:

DESCRIPTION

2013-06-20に行われた第二回オープンデータ京都勉強会の資料

Citation preview

オープンデータの技術よりな話

ROIS&LODI 加藤文彦 2013-06-20

第2回オープンデータ京都勉強会

1

加藤 文彦 (かとうふみひろ)• 情報・システム研究機構 特任研究員

• LODACプロジェクト

• DBpedia Japanese

• リンクト・オープン・データ・イニシアティブ 理事

• CKAN

• Open DATA METI

• コミュニティ

• Linked Data勉強会

• Linked Open Data チャレンジ Japan

• CKAN日本語

2

第一回のこれ前提

詳しくはslideshareで!3

http://5stardata.info/ja/

4

5

Web Data

6

Webのどこかにファイル置けばおk

7

専用のWebサイト作ればなお良し

8

9

10

11

CKAN• FLOSSのデータポータルソフトウェア

• AGPL v3.0

• http://github.com/okfn/ckan

• Open Knowledge Foundation

• 約50の国や地方自治体等で採用

• Python+JavaScript

• PostgreSQL+SOLR

• API提供

• 豊富な拡張

12

13

14

15

Open License

16

“データやコンテンツがオープンであるというのは,クレジット表示と/またはライセンスの継承をするくらいの条件で,誰もが自由に利用,再利用,再配布できるということである.”

The  Open  Defini+on  -­‐  h.p://opendefini+on.org

17

◯ ☓18

CC0/PDDL最強

19

大体BYくらい

20

21

22

23

(machine) REdable

24

構造化データ

25

プログラムから扱えるほうが嬉しい

26

27

28

Open Format

29

ベンダー非依存の標準化されたデータ形式

30

仕様読めるライブラリ書ける

特定のツール等に縛られない...

31

CSV, XML, JSON, ...

32

33

http://www.w3.org/2013/04/odw/report

34

http://www.w3.org/2013/04/odw/report

35

http://data.okfn.org/standards

36

37

Uniform Resource Identifier

38

40

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

41

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

ID name tel zipcode address lat long

001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193

42

<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;

<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;

<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .

IDをURIにすると世界でユニークなIDになる

ID name tel zipcode address lat long

001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193

43

26

44

26

ISO3166-2:JP京都府

工業統計コード生産用機械器具製造業

FC東京阿部 巧

45

26

ISO3166-2:JP京都府

工業統計コード生産用機械器具製造業

FC東京阿部 巧

http://www.iso.org/3166-2/jp/26

http://www.fctokyo.co.jp/players/2013/26http://www.meti.go.jp/industrial-code/26

46

47

Linked Data

48

Linked Data

•Web技術でデータを公開・共有・統合するためのベストプラクティス

• "データのWeb"• HTTP, URI/IRI, リンク, グラフモデル, 構造化データ

49

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 福井県

50

ID name population

18 福井県 795824

26 京都府 2623924

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 18

51

URI name population

http://.../3166/jp/18 福井県 795824

http://.../3166/jp/26 京都府 2623924

ID name tel zipcode prefecture

001 市役所 0778-51-2200 916-8666 http://.../3166/jp/18

IDをURIにすることで外部から参照される

52

OpenRefine• Freebase Gridworks, GoogleRefine

• データと遊ぶためのツール (一部要拡張)

• インポート形式: *SV, Excel, JSON, XML, RDF/XML Google Data(Spreadsheet, Fusion Table)

• エクスポート形式: *SV, HTML, Excel, ODF Spreadsheet, MQL, RDF/XML, RDF/Turtle

• アップロード: Freebase, CKAN

• ビュアー: ファセット, フィルター,フラグ

• 編集履歴

• スクリプト: GREL

• データ変換

• データ公開

• 様々な拡張

• Reconciliation

53

Reconciliation• ラベル(と付加情報)にマッチする潜在的なエンティティリストを推薦

• Apple社 vs フルーツのapple vs New York City

• pathやURI

• サービス

• Freebase

• Reconciliation API

• SPARQL (要RDFRefine)

54

55

Webの原則1. IRIをHTML文書の識別子として使う

2. IRIにはhttpスキームを使う

3. IRIを見るとHTML文書が返ってくる

4. HTML文書には他のIRIへのリンクがある

56

Linked Dataの原則1. URIをモノ(Thing)の識別子として使う

2. URIにはhttpスキームを使う

3. URIを見るとモノのデータが返ってくる

4. データには他のURIへの型付リンクがある

子供

執筆

発行日

誕生日出版社

所在地

"Things,  not  Strings"  by  Google

57

子供

執筆

発行日

誕生日出版社

所在地

58

子供

執筆

発行日

誕生日出版社

所在地

59

グラフのシリアライズ形式• Turtle (N3)• JSON-LD• RDFa• Microdata• RDF/XML• TriX• TriG• ......

60

http://www.w3.org/TR/turtle/

61

http://json-ld.org/

62

63

As of September 2011

MusicBrainz

(zitgist)

P20

Turismo de

Zaragoza

yovisto

Yahoo! Geo

Planet

YAGO

World Fact-book

El ViajeroTourism

WordNet (W3C)

WordNet (VUA)

VIVO UF

VIVO Indiana

VIVO Cornell

VIAF

URIBurner

Sussex Reading

Lists

Plymouth Reading

Lists

UniRef

UniProt

UMBEL

UK Post-codes

legislationdata.gov.uk

Uberblic

UB Mann-heim

TWC LOGD

Twarql

transportdata.gov.

uk

Traffic Scotland

theses.fr

Thesau-rus W

totl.net

Tele-graphis

TCMGeneDIT

TaxonConcept

Open Library (Talis)

tags2con delicious

t4gminfo

Swedish Open

Cultural Heritage

Surge Radio

Sudoc

STW

RAMEAU SH

statisticsdata.gov.

uk

St. Andrews Resource

Lists

ECS South-ampton EPrints

SSW Thesaur

us

SmartLink

Slideshare2RDF

semanticweb.org

SemanticTweet

Semantic XBRL

SWDog Food

Source Code Ecosystem Linked Data

US SEC (rdfabout)

Sears

Scotland Geo-

graphy

ScotlandPupils &Exams

Scholaro-meter

WordNet (RKB

Explorer)

Wiki

UN/LOCODE

Ulm

ECS (RKB

Explorer)

Roma

RISKS

RESEX

RAE2001

Pisa

OS

OAI

NSF

New-castle

LAASKISTI

JISC

IRIT

IEEE

IBM

Eurécom

ERA

ePrints dotAC

DEPLOY

DBLP (RKB

Explorer)

Crime Reports

UK

Course-ware

CORDIS (RKB

Explorer)CiteSeer

Budapest

ACM

riese

Revyu

researchdata.gov.

ukRen. Energy Genera-

tors

referencedata.gov.

uk

Recht-spraak.

nl

RDFohloh

Last.FM (rdfize)

RDF Book

Mashup

Rådata nå!

PSH

Product Types

Ontology

ProductDB

PBAC

Poké-pédia

patentsdata.go

v.uk

OxPoints

Ord-nance Survey

Openly Local

Open Library

OpenCyc

Open Corpo-rates

OpenCalais

OpenEI

Open Election

Data Project

OpenData

Thesau-rus

Ontos News Portal

OGOLOD

JanusAMP

Ocean Drilling Codices

New York

Times

NVD

ntnusc

NTU Resource

Lists

Norwe-gian

MeSH

NDL subjects

ndlna

myExperi-ment

Italian Museums

medu-cator

MARC Codes List

Man-chester Reading

Lists

Lotico

Weather Stations

London Gazette

LOIUS

Linked Open Colors

lobidResources

lobidOrgani-sations

LEM

LinkedMDB

LinkedLCCN

LinkedGeoData

LinkedCT

LinkedUser

FeedbackLOV

Linked Open

Numbers

LODE

Eurostat (OntologyCentral)

Linked EDGAR

(OntologyCentral)

Linked Crunch-

base

lingvoj

Lichfield Spen-ding

LIBRIS

Lexvo

LCSH

DBLP (L3S)

Linked Sensor Data (Kno.e.sis)

Klapp-stuhl-club

Good-win

Family

National Radio-activity

JP

Jamendo (DBtune)

Italian public

schools

ISTAT Immi-gration

iServe

IdRef Sudoc

NSZL Catalog

Hellenic PD

Hellenic FBD

PiedmontAccomo-dations

GovTrack

GovWILD

GoogleArt

wrapper

gnoss

GESIS

GeoWordNet

GeoSpecies

GeoNames

GeoLinkedData

GEMET

GTAA

STITCH

SIDER

Project Guten-berg

MediCare

Euro-stat

(FUB)

EURES

DrugBank

Disea-some

DBLP (FU

Berlin)

DailyMed

CORDIS(FUB)

Freebase

flickr wrappr

Fishes of Texas

Finnish Munici-palities

ChEMBL

FanHubz

EventMedia

EUTC Produc-

tions

Eurostat

Europeana

EUNIS

EU Insti-

tutions

ESD stan-dards

EARTh

Enipedia

Popula-tion (En-AKTing)

NHS(En-

AKTing) Mortality(En-

AKTing)

Energy (En-

AKTing)

Crime(En-

AKTing)

CO2 Emission

(En-AKTing)

EEA

SISVU

education.data.g

ov.uk

ECS South-ampton

ECCO-TCP

GND

Didactalia

DDC Deutsche Bio-

graphie

datadcs

MusicBrainz

(DBTune)

Magna-tune

John Peel

(DBTune)

Classical (DB

Tune)

AudioScrobbler (DBTune)

Last.FM artists

(DBTune)

DBTropes

Portu-guese

DBpedia

dbpedia lite

Greek DBpedia

DBpedia

data-open-ac-uk

SMCJournals

Pokedex

Airports

NASA (Data Incu-bator)

MusicBrainz(Data

Incubator)

Moseley Folk

Metoffice Weather Forecasts

Discogs (Data

Incubator)

Climbing

data.gov.uk intervals

Data Gov.ie

databnf.fr

Cornetto

reegle

Chronic-ling

America

Chem2Bio2RDF

Calames

businessdata.gov.

uk

Bricklink

Brazilian Poli-

ticians

BNB

UniSTS

UniPathway

UniParc

Taxonomy

UniProt(Bio2RDF)

SGD

Reactome

PubMedPub

Chem

PRO-SITE

ProDom

Pfam

PDB

OMIMMGI

KEGG Reaction

KEGG Pathway

KEGG Glycan

KEGG Enzyme

KEGG Drug

KEGG Com-pound

InterPro

HomoloGene

HGNC

Gene Ontology

GeneID

Affy-metrix

bible ontology

BibBase

FTS

BBC Wildlife Finder

BBC Program

mes BBC Music

Alpine Ski

Austria

LOCAH

Amster-dam

Museum

AGROVOC

AEMET

US Census (rdfabout)

Media

Geographic

Publications

Government

Cross-domain

Life sciences

User-generated content

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

65

http://dbpedia.org/resource/Kyoto

67

71

http://linkedgeodata.org/triplify/node355845257

73

74

クエリ言語

• データの検索や操作を行うための言語• データモデルやDBシステムに合わせて設計

• 例: SQL

–データモデル: 関係モデル

–DBシステム: RDBMS

• LODのデータモデル: グラフモデル

75

SPARQL• LOD用クエリ言語

– データモデル: RDF (ラベル付き有向グラフ)

– プロトコル: HTTP

• W3C仕様

– 1.0: Recommendations

– 1.1: Working Drafts

76

SPARQLエンドポイント

• SPARQLクエリを受け付ける場所

– SPARQLエンドポイントURI

• プログラムからSPARQLを使うときに指定

– 入力フォームがある場合

77

Twitter: @fumi1Email: fumi@fumi.me

78

79

Recommended