15
CiNii のののののの のののの のののののののの のの Twitter: @i2k

CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

Embed Size (px)

Citation preview

Page 1: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii のメタデータ・デザイン

国立情報学研究所大向 一輝

Twitter: @i2k

Page 2: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

自己紹介

国立情報学研究所 コンテンツ科学研究系(教員)

セマンティックウェブ・ソーシャルメディア Linked Open Data ・ LODAC プロジェクト

学術コンテンツサービス研究開発センター 学術基盤推進部学術コンテンツ課システム室長

CiNii (論文)・ NACSIS-CAT (大学図書館) 株式会社グルコース

日本最古?の RSS リーダー( 2002 〜)

Page 3: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii とは

国内最大規模の学術情報サービス 論文( CiNii Articles )

国内学会誌・紀要のデジタル化 本文 400 万件 書誌 1500 万件

書籍・雑誌( CiNii Books ) [New!] 大学図書館の蔵書データベース 書誌 1100 万件 所蔵 1 億 1000 万件 著者名典拠 150 万件

書誌データを RDF で提供

Page 4: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

学術情報とメタデータ

学術情報分野の特徴 情報の構造化を生業とする職業集団・組織がある

研究者(大学・研究機関)・学会・図書館… 情報の構造化フォーマットが共有されている

タイトル・著者名・抄録・本文・参考文献… フォーマットを変換するだけでメタデータが出せる

Page 5: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii Articles のメタデータ

検索: OpenSearch RSS 1.0 (= RDF )と Atom 1.0

RSS/Atom 基本語彙+ Dublin Core ( Simple ) 一般のブラウザ・フィードリーダーで扱えるように

Prism Standard 書誌情報は国際標準に準拠( Nature など)

書誌: RDF Dublin Core + Prism Standard (書誌情報)※日・英 FOAF (著者情報)

独自語彙は極力使用しない はじめての試みだったため その後…

Page 6: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii Articles のメタデータ

検索 RSS と書誌 RDF をつなぐ 課題・問題点

RDF と HTML と実体をどうつなぐか? 著者が空白ノード( URI なし)

Page 7: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii 著者検索

NII 著者 ID (NRID) の導入 科研費番号+機械処理による著者への ID 付与 著者ごとに URI を発行(著者パーマリンク)

NRID ベースの論文検索機能 著者名→ ID リスト→論文リスト API の提供

新たなデータ生成・管理モデル 研究成果の活用 ユーザーフィードバック

組織

機械 ユーザ

Page 8: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
Page 9: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii Books のメタデータ

検索: OpenSearch RSS/Atom 基本語彙+ Dublin Core ( Simple )+ Prism

Standard CiNii Articles と同じ

書誌: RDF Dublin Core + Prism Standard (書誌情報) FOAF (著者名典拠) Bibliographic Ontology (所蔵情報) CiNii 独自語彙

Page 10: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii のメタデータ設計

設計方針をどうするか? データ構造・語彙… 厳密性と利便性のトレードオフ

日本語読み問題 書誌の階層問題

ウェブ API として考える できるだけ開発者が使いやすいように

シンプルなデータ構造 ライブラリの普及状況を念頭に 世界標準( Dublin Core ・ FOAF など)

Page 11: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii メタデータへのアクセス

アプリケーション ID ( appid )の取得 OpenSearch

REST appid 必須

RDF URI+.rdf

appid 推奨 コンテントネゴシエーション実装予定

アクセス状況 月間 1000 万〜 2000 万アクセス

Page 12: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

CiNii ウェブ API コンテスト

2回開催( 2009 ・ 2010 ) 第 1回: 24 件 第 2回: 33 件

Mashup award への参加 LODチャレンジへの協力

Page 13: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

論文ったー

Page 14: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

まとめ

Library Linked Data ( LLD )の潮流 各国の国立図書館典拠データの公開 アメリカ・イギリス・フランス・ドイツ… 国立国会図書館

何のための Linked Open Data ? 公開すること自体の重要性・ドメイン内の相互利用 ドメインを超えた相互利用

自身が持つデータの新たな価値を知る

Page 15: CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)

困っていること

Linked Open Data の要件は厳しい Cool URI ・コンテントネゴシエーション ライセンス( CC0 ?) SPARQL

そもそもリンクするのが難しい 100 万アクセス / 日 オンデマンドのリンクは実質不可能(爆撃) 名寄せ

ID の URI をどうするか( ISBN ・ ISSN ) プロパティ? HTTP URI ? URN ? rdf:datatype ?

IR/NIR 問題 作り直したい症候群