Upload
shun-shiramatsu
View
1.807
Download
1
Embed Size (px)
Citation preview
リンクトオープンデータ(リンクトオープンデータ( LODLOD )の紹介)の紹介とと
その先にある参画・協働・復興促進その先にある参画・協働・復興促進
白松 俊名古屋工業大学 大学院工学研究科
2013-02-23 オープンデータ東海 ( International Open Data Day in Nagoya / Tokai )
はじめに : オープンガバメント三原則
(2009 年 米オバマ政権発足時 )
全省庁の長官宛ての覚書「透明性とオープンガバメント」 http://www.whitehouse.gov/the_press_office/
Transparency_and_Open_Government/
1.透明性 (transparency): 行政は透明であるべき– データ公開によって市民の参加(フィードバック)を促す
2.参画 (participation): 行政は市民参加型であるべき– 社会に分散する知識を提供してもらい , 協業を促す
3.協働 (collaboration): 行政は協業的であるべき– 組織横断的に協力し,革新的なツールやシステムを整備
オープンな行政米 Data.gov (http://www.data.gov/) をはじめとして,二十数ヶ国でオープンデータプラットフォームが整備されつつある
5 Star Linked Open Data mug ($15.00)
組織横断的にデータを二次利用しやすくするデータ公開方法を 5 段階で説明
( Web の生みの親 ティム・バーナーズ=リーが 2010 年に提唱)
「 5 つ星 LOD 」マグカップ
オープンデータの 5 段階
★( どんな形式でも良いので ) あなたのデータをオープンライセンスで Web 上に公開しましょう
★★データを構造化データとして公開しましょう ( 例 : 表のスキャン画像よりも Excel)
★★★ 非独占の形式を使いましょう ( 例 : Excel よりも CSV)
★★★★物事を示すのに URI を使いましょう,そうすることで他の人々があなたのデータにリンクすることができます
★★★★★ あなたのデータのコンテキストを提供するために他のデータへリンクしましょう
オー
プン
デー
タ
LO
D日本語訳 : http://5stardata.info/ja/
組織
横断
的に
デー
タを
組み
合わ
せた
二次
利用
を可
能に
簡単
に公
開
LOD とオープンガバメント三原則
1. 透明性 (transparency): 行政は透明であるべき
– データ公開によって市民の参加(フィードバック)を促す
2. 参画 (participation): 行政は市民参加型であるべき
– 社会に分散する知識を提供してもらい , 協業を促す
3. 協働 (collaboration): 行政は協業的であるべき
– 組織横断的に協力し,革新的なツールやシステムを整備
最初のうちはコストをかけずにExcel や CSV でも OK
協業的に• データを LOD へ変換• 二次利用アプリを整備• 市民も気軽に情報提供
1 つ星のオープンデータ
• クリエイティブ・コモンズ策定のライセンス– CC BY: 著作権者を表示すれば二次利用可能– CC BY-NC: 著作権者表示,非営利での利用に限る– CC0: 全ての占有権を主張せず,パブリックドメインに
• オープンデータ・コモンズ策定のライセンス– CC の対象は著作物だが,こちらの対象はデータ ( 事実情報 )– ODC-by: CC BY とほぼ対応– PDDL: パブリックドメイン・ライセンス , CC0 とほぼ対応
どんな形式でも良いので,データをオープンライセンスで Web 上に公開
2 つ星のオープンデータ
構造化されている=ソフトウェアがデータを
解釈しやすい ( 機械可読 ) アプリから
二次利用しやすい
• Excel のテーブルデータ• ある開発ベンダーの
独自形式で構造を書いたデータ
データを構造化データとして公開 ( 例 : 表のスキャン画像よりも Excel)
構造化されていない=ソフトウェアがデータを
解釈できない アプリからの二次利用に
はデータ再入力 /再解析が必要
• 表のスキャン画像• PDF文書• 従来の HTML文書 ( 半構造
化 )( ただし,二次利用は特定のソフトに依存 )
3つ星のオープンデータ非独占の形式 ( 例 : Excel よりも CSV)
オープンなデータ形式 特定のソフトに依存せず
誰もが二次利用可能
• カンマ区切りやタブ区切り(CSV, TSV) のデータ
• XML 形式のデータ• JSON 形式のデータ
独占形式 機械可読ではあるが特定ソフトに依存
• Excel のデータ• ある開発ベンダーの
独自フォーマットで構造を記述したデータ
( ただし,他組織のデータと 組み合わせた二次利用には使いづらい )
4つ星のオープンデータ物事を示すのに URI を使うことで,他の組織からもリンク可能なデータに
事物に URI を付与 他組織からのリンクや
組み合わせ二次利用が可能に
• RDF 形式のデータ( グラフ構造を表現可能 )₋ RDF/XML のデータ₋ RDF/JSON のデータ₋ RDF/N3 のデータ₋ RDF/Turtle のデータ
事物に URI なし 他組織のデータから
リンクできない
• カンマ区切りやタブ区切り(CSV, TSV) のデータ
• XML 形式のデータ• JSON 形式のデータ
( ただし,ただ待っていても,適切な関連データから リンクしてもらえるとは限らない )
[ メモ ] URI (Universal Resource Identifier): 物事の識別子であって ,統一書式に基づくもの. URI の代表例は, Web 上の位置を表す URL.
のちほど説明します
5 つ星のオープンデータデータの「コンテキスト」を提供するため他のデータへリンクさせる
[ メモ ] 「コンテキストを提供する」とは ?: 関連情報へのリンクにより,そのデータ単独ではわからない背景情報も芋づる式に二次利用可能に
他データにリンク 関連データを適切に選べば ,芋づる式に関連情報を組み合わせて二次利用可能に
• 適切な関連データへリンクした RDF 形式のデータ
他データへリンク無し 適切な関連データから
リンクされるとは限らない
• 他データへのリンクが無いRDF 形式のデータ
RDF (Resource Description Framework)• RDF 形式とは?
– Web技術の標準化団体W3C が策定 http://www.w3.org/RDF/
– データ中の事物を URI で表現– 事物間の関係の種類を表す意味的リンクを張れる
http://opendata-tokai.jp/
オープンデータ東海foaf:name ( 名前 )
http://lisra.jp/
2013-02-23dc:date ( 日付 )
foaf:name ( 名前 )
位置情報サービス研究機構Lisra
bibo:organizer ( 主催者 )
http://www.facebook.com/
siramatu
http://www.facebook.com/
nobuo.kawaguchi
白松俊
foaf:name
河口信夫foaf:name
rel:participant ( 参加者 )
foaf:knows( 知っている )
nco:representative(代表者 )
RDF/N3 ( 簡易表現 )
<http://www.nitech.ac.jp/> foaf:name “ 名古屋工業大学” .<http://www.nitech.ac.jp/> foaf:member <http://www.facebook.com/siramatu>.
http://www.nitech.ac.jp/foaf:name ( 名前 )
名古屋工業大学
http://www.facebook.com/siramatu
foaf:member ( メンバー )
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
(主語 ) (述語 ) (目的語 )
<http://www.nitech.ac.jp/> foaf:name “ 名古屋工業大学” ; foaf:member <http://www.facebook.com/siramatu>.
( 同じ意味 )
実は、 foaf:name は http://xmlns.com/foaf/0.1/name という URL の略 (事物間のリンク関係の種類にも URL を与えてある)
foaf: というのは <>内の略ですよ
この ( 主語 )-(述語 )-(目的語 ) の三つ組を RDF トリプルと言う
RDF/N3 ( 簡易表現 )
http://opendata-tokai.jp/
オープンデータ東海foaf:name ( 名前 )
http://lisra.jp/
2013-02-23dc:date ( 日付 )
foaf:name ( 名前 )
位置情報サービス研究機構Lisra
bibo:organizer ( 主催者 )
<http://opendata-tokai.jp/> foaf:name “ オープンデータ東海” ; dc:date “2013-02-23”; bibo:organizer <http://lisra.jp/>.
<http://lisra.jp/> foaf:name “ 位置情報サービス研究機構
Lisra”.
RDF/N3@prefix foaf: <http://xmlns.com/foaf/0.1/>.@prefix dc: <http://purl.org/dc/terms/>.@prefix bibo: <http://purl.org/ontology/bibo/>.
LOD に使える RDF の仲間RDF トリプルが書ける形式はすべて LOD になり得る• RDF/N3, RDF/Turtle: さきほど紹介したような形式• RDF/XML: XML で RDF を表す形式(長くなりがち)• RDF/JSON, JSON-LD: JSON で RDF を表す形式• RDFa: HTML文書に RDF トリプルを注釈付けする形式
(※説明用であり,実際はそんな形式ありません)
理化学研究所が提供するサービス LinkData (http://linkdata.org/ ) では,これに似たような形式の Excel ファイルを RDF に変換して公開
説明のために : 「 RDF/Excel 」の例
組織横断的にデータを組み合わせた二次利用アプリって?
• データとデータを「マッシュアップする」と言う• リンクされた複数のデータセットを組み合わせると,
データ間の相関など新たな傾向の発見に繋がる– 例 : 犯罪情報と学区情報を地図上でマッシュアップ→ 防犯体制を強化すべき学区がわかる
• ティム・バーナーズ = リーの 6分間スピーチ (2010)「オープンデータとマッシュアップで変わる世界」– http://www.ted.com/talks/lang/ja/tim_berners_lee_the_ye
ar_open_data_went_worldwide.html
をご覧下さい
マッシュアップの基点となりそうなLOD データセット
有名なデータセットは多くのデータからリンクされた LODハブになりやすく,多様なデータ同士をマッシュアップするための基点になれる
• DBpedia:Wikipedia記事のリンク構造を LOD 化したもの– http://dbpedia.org/, http://ja.dbpedia.org/
• YAGO: WordNet という概念辞書を LOD 化したもの– http://www.mpi-inf.mpg.de/yago-naga/yago/
• GeoNames: 地理情報– http://www.geonames.org/
• LODAC Location: 日本の地理情報(国立情報学研究所による)– http://lod.ac/apps/lodac_location/
2011 年 9 月時点で 295 データセット, 310億 RDF トリプルが LOD として存在 (http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData)
2011 年 9 月時点の295 データセット
LOD クラウド ( データセット群 )
DBpedia
メディアメディア
地理情報地理情報
行政行政CGMCGM
出版出版
生命科学生命科学クロスクロスドメインドメイン
関係 ( リンク ) の種類はどうやって見つけるの?
• よく使われるボキャブラリ– Dublin Core: http://purl.org/dc/terms/
dc:title( タイトル ), dc:date( 日付 ), dc:creator( 作者 ), …– SKOS: http://www.w3.org/2004/02/skos/core
skos:related(関連する ), skos:example( 例 ), …– FOAF (Friend of a Friend): http://xmlns.com/foaf/0.1/
foaf:name( 名前 ), foaf:knows( 知人 ), …– Basic Geo: http://www.w3.org/2003/01/geo/wgs84_pos
geo:lat(緯度 ), geo:long(経度 )
• 適切な関係が上記4例などで定義されていない場合1. Linked Open Vocabularies (LOV) というサイトで検索して探す
– http://lov.okfn.org/dataset/lov/2. それでも無ければオントロジーでボキャブラリを定義して公開
オントロジーって何?• オントロジー: データの種類(クラス)やデータ間のリンク関係(プロパティ)を定義した辞書のようなもの. セマンティックWebという研究分野で
発展– DublinCoreやSKOSは多岐にわたって使える汎用オントロジー– FOAFは人間関係という領域に特化した領域オンとロンジー
• インスタンス: 実例データ.
• LOD普及の方針: 「オントロジーとか難しいことをあまり気にせずに, インスタンスのデータをどんどん増やそう!」
http://www.facebook.com/
siramatu
http://www.facebook.com/
nobuo.kawaguchi
白松俊foaf:name
河口信夫foaf:name
foaf:knows
インスタンスFOAF オントロジー
http://xmlns.com/foaf/0.1/Person
foaf:knows 文字列データ
foaf:name
行政データのボキャブラリは?• 米 Data.gov の場合
行政情報,医療情報などの共通ボキャブラリを http://vocab.data.gov/ で整備
• 日本の取り組みhttp://opendata.openlabs.go.jp/ja/idea/00054/#002 より引用
内閣官房,総務省,経産省によるアイディア募集サイト「オープンデータアイディアボックス」( 2/1~ 2/28 )より引用 http://opendata.openlabs.go.jp/ja/idea/00054/#002
RDF ストア
• RDF ストア : RDF蓄積・公開用データベース– SPARQL という問い合わせ言語で検索可能
• オープンソースの RDF ストア– Apache Jena Fuseki
インストール簡単だがスケーラビリティがない – 4store, Allegro
スケーラブル , 数十億トリプル程度は大丈夫?(http://www.garshol.priv.no/blog/231.html に比較表 )
Excel から RDF へ変換して公開できるサービス LinkData
http://linkdata.org/ • LODチャレンジ Japan 2011 アプリケーション部門最優秀賞
• 緯度経度つきデータを地図上に配置するアプリも作成可能• 鯖江市などがデータ公開に利用
HTML文書と LOD をリンクさせる
• ふつうの HTML はそのままでは機械可読でない– データの二次利用のためには, Web ラッパーあるいは
Web スクレイピングなどと呼ばれる技術が必要– そのため「半構造化データ」と呼ばれる
• RDFa: HTML文書に RDF トリプルを注釈付け– HTML文書を基点としたマッシュアップを可能に
• Microdata: HTML5 から導入 (RDFa と目的は同じ )– Google, Microsoft, Yahoo が共同で進めている
schema.org イニシアチブで推奨
オープンデータの活用アイディア内閣官房 , 総務省 , 経産省による「オープンデータアイディアボックス」 (2/1~ 2/28) に投稿
http://law.e-gov.go.jp/ で法律が検索・閲覧できるのですが,その法律の背景にあるデータとか,その法律が適用された事例,指摘されている不備などをアノテーション(注釈付け)できるようなサービスがあると,法律の専門家じゃなくても理解しやすくなるのでは.たとえば http://law.e-gov.go.jp/htmldata/H24/H24HO048.html の被災者支援法なんかだと,放射能拡散状況のデータとか,被災者の住民票移動状況のデータとか,避難先の自治体の被災者支援条例とか,この被災者支援法に則ってどんなところに予算が使われたのかとか,そういう背景が注釈付けされていると,法律の効果がわかりやすくなりますよね.
HTML文書(法律や記事)を基点にしたマッシュアップのためのアノテーション
[ メモ ] アノテーション : メタデータを注釈付けすること.
HTML文書(法律文など)法令制定時の根拠データ
現時点での背景データ+
関連する地方自治体の条例+
適用事例+
指摘されている問題点+
法律の効果がわかりやすく?
HTML文書に DBpedia データをRDFa 形式で注釈付けするシステ
ム• http://www.open-opinion.org/odday2013.html• アノテーションシステム WFEa (仮称 , 試作の α バージョ
ン )
http://ja. dbpedia.org/resource/東北地方太平洋沖地震
http://ja. dbpedia.org/resource/東北地方太平洋沖地震の前震・本震・余震の記録
rdfs:seeAlso ( 参考になる情報 )skos:closeMatch (同じもの )
WFEa によるアノテーション作業• 選択して右クリックで,新たなアノテーションを追加可能• 関連ありそうな DBpedia のデータリソースが推薦される• アノテーションは Google App Engineサーバに蓄積• 様々な関係者が参画し,気づいたら注釈を付けるという
クラウドソーシング的なソーシャルアノテーションを想定
リンク
試作なので少しバグは残っていますがhttp://www.open-opinion.org/odday2013.htmlどうぞ試してみて,後でコメント頂ければ幸いです
LOD普及のためのコンテストLODチャレンジ Japan
http://lod.sfc.keio.ac.jp/challenge2012/
• 米 Challenge.gov や欧州Open Data Challenge を参考に 2011 年より毎年開催(まだ 2回目 )– アイディア部門– データセット部門– アプリケーション部門– ビジュアライゼーション(可視化)部門
• 昨年の第 1回で「チャレンジデー賞」を頂いた我々の取り組みを御紹介します
参画,協働,復興促進への参画,協働,復興促進への応用を目指して応用を目指して
総務省 SCOPE (2010~ 2011 年度 )「地域コミュニティにおける議論活性化のための 住民参画 Web プラットフォームの開発」の成果
動機 : 何がしたいのか
• 地域社会が直面する多様な課題やリスク– 自然災害 , 放射能汚染 , 福祉問題 , 不景気 , 過疎化 , etc.– 日本人的な「お上がなんとかしてくれる」の限界– 住民の知恵を結集する技術が欲しい.地域 SNS? Twitter?
• 住民が参画しやすいように, LOD で背景情報を共有化SOCIA (Social Opinions and Concerns for Ideal Argumentation)
http://data.open-opinion.org/– 議論の種 : 地域と出来事を基点に Web コンテンツを構造化– 地域の社会問題の背景情報を提示し,住民の意見入力を支援 (LODチャレンジ Japan 2011 チャレンジデー賞 )
地域での住民参画とコンサーン・アセスメント
• 地域での住民参画 (Public Involvement)– 住民は,「何が問題か」を知らないと参画できない
• コンサーン・アセスメント– コンサーン(人々の公的な問題意識)を調査・分析– 意思決定の根拠として活用できるだけでなく,
住民間で問題意識を共有し,透明性を確保するために有効
( 問題点 )
「でも、地域の時事問題なんて 追ってる暇ないし・・・」
Web 上の関連情報を活用したコンサーン・アセスメント支援議論の「種」として構造化した地域関連コンテンツを,意見入力補助のための背景情報として活用
議論の「種」として収集
意見収集
入力補助
活用
Web 上の地域関連コンテンツ
コンサーン・アセスメント
LOD: 構造化した関連コンテンツ・意見
研究用コーパス
………..
---------------
………..
---------------
………..
---------------
住民参画のための LOD の要件
1. 地域ごとに社会問題 ( らしき情報 ) を構造化2. 問題の背景情報を構造化3. 問題に対する住民意見を構造化
4. 問題に係わる利害関係者を構造化5. 利害関係者の目指すゴールを構造化6. 利害関係者の意思決定とその根拠を構造化
これまでの取り組み
今後のターゲット
これらの要件を満たす LOD データセット SOCIA (Social Opinions and Concerns for Ideal Argumentation)
の構築を目指す
• LODチャレンジ Japan 2011 応募作品で構成• 地域の問題を議論するための情報共有基盤として開発中
– 透明性 (Transparency)– 参画 (Participation)– 協働 (Collaboration)
議論の「種」
住民参画 Web プラットフォームO2
構造化
住民参画に活用現段階でのフォーカス
コンサーンの背景情報共有のためには情報の構造化が不充分
• 新聞社内では事件や話題に ID を振って管理– 公開されておらず,コンサーン・アセスメントには不向き
• 実世界の出来事に ID を振り,コンサーンの整理/共有のために活用したい
≒
同じ事象についての複数の記事
同一事象について述べられた Twitter/議会の発言
リンクはあるが… リンクもない
コンテンツの言及対象(地域,事件,話題)の同定
問題点 :
地域・出来事を基点とした構造化
≒
議事録中の発言Twitter 上の発言
ニュース記事
出来事出来事
福島第一原子力発電所
デモ活動
原子力撤廃事故
2011-06-12栄
コンテンツの地域分類と出来事の自動抽出が必要
現状
目指す状態
愛知県名古屋市
地域地域
SOCIA での背景情報構造化
核となるオントロジー
出来事と地域を基点として,地域の社会問題の背景情報となる記事や意見を紐付け
LOD に蓄積された事例
( LODAC Location )
他に,解決策やその評価基準を表すタグの付与もサポート
SOCIA を用いた議論支援システムcitispe@k
• SOCIA中の地域関連情報を活用した議論支援機構を試作• コンサーン整理のためのタグ付与機構
‑ 評価基準タグ : 経済+/-,環境+/-,福祉+/-,教育+/- ,…
‑ 発言意図タグ : 質問,ツッコミ,非難,ファシリテーション,…
SOCIA
SOCI
A W
eb
API
SPAR
QL
Endp
oint
SPARQL Query
JSON
XML, JSON
citispe@k = citizen + speak
[ 佐野+ 12]
評価基準タグ,発言タグ• 評価基準タグ :
– 環境– 経済– 日本経済ポジティブ– 日本経済ネガティブ– 日本経済ニュートラル– etc.
• 発言タグ :– 質問,アイディア,ツッコミ , 罵倒,ファシリテーション ,
etc.
ユーザの増設を許し,多様な価値観でのアセスメントに活用
評価基準タグの必要性• コンサーンの整理には評価軸による意見分類が有効
– 参考 : 相生山検証委員会 [ 名古屋市 10] QoL に関わる 5評価軸に基づく建設事業の分析
この分析例を一般化し,根拠として共有しやすい意見構造化の参考に
復興促進への適用
• SOCIA と O2 のターゲットである住民参画が必要不可欠な課題– これまで焦点にしてきた透明性,参画だけでなく
協働も支援できるような拡張が必要
• 東日本大震災の被災地以外でも災害リスク
備えとしての復興支援技術の開発が大切
復興促進 /協働支援のための拡張
復興促進 /協働支援のための課題
1. 各主体の復興目標の記述方法– 復興目標が似た住民同士をマッチングするために必要な構造を検討
2. 各主体の意思決定の記述方法– 意思決定やその根拠に関する情報共有のために必要な構造を検討
復興目標の記述に必要な構造Goal クラス• 説明文
dc:description• 目標への賛同者
socia:wisher• 参加者
socia:participant• 利害関係者
socia:stakeholder• 部分目標
socia:subGoal
これらを用いた目標間の類似度計算 類似した復興目標を持つ住民間のマッチングサービス
決定事項やその根拠の記述に必要な構造• 決定者と決定事項
socia:decisionDecision クラス• 関連する課題
socia:issue• 採用した解決策
socia:adopt• 意思決定の根拠
socia:evidence• 決定日
dc:acceptedDate
誰がどんな根拠でどんな意思決定をしたのかを共有可能に
復興促進への適用に向けた展望• JST A-STEP 復興促進プログラム
– 2012 年 10月から 2013 年 9 月まで– ニュース記事や関係者による公開資料から
復興目標や課題に関する LOD を人手で構築中
• 災害リスク情報や復興関連情報の共有化– 復旧・復興支援制度データベース API を利用予定
• 復興に向けたコミュニティ形成を支援– 復興のゴールを共有できる人達を推薦
• 復興に向けたプロジェクト進捗管理– オープンにできない情報の扱いも
• 仮名化,秘匿化,アクセス制御
ご静聴ありがとうございました