21
超高層物理学を試験環境とした 学術情報基盤の未到達領域への挑戦 小山 幸伸(京大)、蔵川圭(NII)、佐藤由佳(NIPR)、田中良昌(NIPR)阿部修司(九大)、池田大輔(九大)、能勢正仁(京大)、家森俊彦(京大)、 新堀淳樹(京大)、村山泰啓(NICT1

20140311京大所内

Embed Size (px)

Citation preview

Page 1: 20140311京大所内

超高層物理学を試験環境とした学術情報基盤の未到達領域への挑戦

小山 幸伸(京大)、蔵川圭(NII)、佐藤由佳(NIPR)、田中良昌(NIPR)、

阿部修司(九大)、池田大輔(九大)、能勢正仁(京大)、家森俊彦(京大)、新堀淳樹(京大)、村山泰啓(NICT)

1

Page 2: 20140311京大所内

学術情報共有に関する年表

2

年 事象 説明

1445 Letterpress printing 紙による情報の共有化。

1665 Philosophical Transactions of

the Royal Society of London

世界初と言われる学術誌。以後約350年間ほぼ同じ形式。

1946 ENIAC 電子計算機

1988 Internet リアルタイムで情報共有。

1990 World Wide Web

1995 Applied Physics Letters Online 最初の電子ジャーナル。

1997 DOI 永続的な識別子。

1999 CrossRef 論文へDOIを付与する機関。

2001 SemanticWeb

2006 PLOS ONE (Public Library of Science) 後にSNSを取り入れる。

2008 Mendeley オンライン学術情報管理ソフト。

2009 IUGONET 超高層物理学分野での情報共有。

2009 DataCite データへDOIを付与する機関。

2010 Altmetrics 論文の評価基準のひとつ。

2012 Japan Link Center 日本発のDOI付与機関。

2012 ORCID 世界的な研究者の識別子。

Page 3: 20140311京大所内

学術情報共有の約350年来の問題点

後に著者、概要、引用の独立。

約350年、形式の変化無し。 1次データへ到達しない。

(本文到達性の不備)

手法(データ処理)が自然言語で記述、詳細情報の欠落。

(再現性の不備)

過去のデータ共有の試み。 論文中の表、

論文末尾の補足データ、

リポジトリへの登録。

→ビッグデータ、長期データ、オープン済データでは×

3doi:10.1098/rstl.1665.0007

R. Boyle 4代 徳川家綱時代

Page 4: 20140311京大所内

インターネットを前提とした研究環境の変化

様々なWeb上の学術情報が相互参照し、連動することによって、研究プロセスを加速する動きが活発化している。

Web上の学術情報の識別子:

オブジェクトの識別子、

人の識別子、

研究費の識別子。

科学研究手法の新たなパラダイム(4th Paradigm):データ集約型の科学。

研究成果(論文)に至る一次データや計算結果を含む膨大なすべての情報をオンライン上で組織化してアーカイブし、再利用する。

4

Page 5: 20140311京大所内

Web上の学術情報の識別子 オブジェクトの識別子。

DOI (Digital Object Identifier): CrossRef (1999 - , PILA)、

DataCite (2009 - , BL and library related)、

JaLC (2012-, Japan Link Center)。

人の識別子。 ORCID (Open Researcher and Contributor Identifier) (2010 - ,

ORCID. Inc.)、

研究者リゾルバーID(科研費研究者番号)、 NIIによるプロトタイプシステム(2008 - , NII)。

研究費の識別子。 科研費研究課題番号、

FundRef (DOI利用)。

5

Page 6: 20140311京大所内

DOI (Digital Object Identifier) インターネット上のオブジェクトへのアクセス可用性を高品質に担保する仕組みと管理体制。

論文ごとにDOIを付与するのが基本。

CrossRefは、ジャーナル論文、本、プロシーディングス論文にDOIを付与している。

対象の詳細化。 論文内の図、表にDOIを付与する。

論文内の章、節にDOIを付与する。

本の章にDOIを付与する。

対象の拡大。 論文に引用される形式のデータセットにDOIを付与する。

6

Page 7: 20140311京大所内

ORCID (Open Researcher and Contributor ID)

論文著者の名寄せを解決したい。

王伟,王薇,王维,王蔚,汪卫,汪玮,汪威,汪巍 → Wei Wang

“Which Wei Wang?”, Phys. Rev. Lett. 99, 230001 (2007) , doi:10.1103/PhysRevLett.99.230001

NOSE, UeNo, KOYAMA

学術論文のデータベースでは、2つの方法がとられてきた。

計算機による名寄せ

Scopus Author Identifier(Elsevier社のScopusに実装)

Distinct Author Identification System(Thomson Reuters社のWeb of Scienceに実装)

手動で登録

ResearcherID (Thomson Reuters社)

ORCIDは、学術コミュニケーションに関与するすべてのステークホルダーを包含した、研究者に識別子を付与するコミュニティを形成する。

7

Page 8: 20140311京大所内

科研費研究課題番号 科学研究費助成事業における課題の識別用。

KEKENデータベースhttps://kaken.nii.ac.jp/にて、情報共有。

採択課題、

研究成果、

研究成果報告書、

自己評価報告書。

他の研究費を識別するFundRef(http://www.crossref.org/fundref/)等もある。

8

Page 9: 20140311京大所内

データ集約科学における情報の組織化 データ集約科学のビジョン

第4の科学 (Fourth Paradigm) [Hey, Tansley, Tolle (Eds.), 2009]

実験科学 (Experimental Science) (1st paradigm)

理論科学 (Theoretical Science) (2nd paradigm)

計算科学 (Computational Science) (3rd paradigm)

データ集約科学 (Data-intensive Science) (4th paradigm)

e-Science (UK)

データ集約科学の基盤 e-Infrastructure (UK)

Cyberinfrastructure (US)

Cyber Science Infrastructure (JP)

データ集約科学では、研究成果(論文)に至る一次データや計算結果を含む膨大なすべての情報をオンライン上で組織化してアーカイブし、再利用する。

9

1. Experimental Sci.

2. T

heore

tical S

ci.

衛星

地上

4. Data-intensive Sci.

Page 10: 20140311京大所内

科学的データの階層 3つの階層で構成される。

Literature

Derived and Recombined Data

Published Data

階層の要素。

同一の階層の要素は互いに関係を持つ。

隣り合う階層を構成する要素が互いに関係を持つ。

ネットが階層をまたいだ要素の統合と関連を可能にする。

10

Tony Hey, Stewart Tansley, & Kristin Tolle (Eds.). (2009).

The Fourth Paradigm: Data-Intensive Scientific Discovery.

Microsoft Research.

Retrieved from http://research.microsoft.com/en-

us/collaboration/fourthparadigm/default.aspx

Correction was added by Koyama from the original version.

Page 11: 20140311京大所内

出版レイヤー

11

データ

論文

研究者

引用する

書く

作成する

サイテーションメカニズムを構成する世界

Page 12: 20140311京大所内

データレイヤーとの相互展開

12

作成する

公開データ

中間データ

利用する 研究者

文献レイヤー

データレイヤー

Page 13: 20140311京大所内

目的:インターネットを用いた持続可能な学術情報循環の構築

研究成果(論文)に至る全ての情報をオンラインで組織化する。

文献 - 文献のメタデータ

データ - データのメタデータ

コード - コードのメタデータ

導出過程のメタデータ

対象学問分野: 超高層物理学

Free from 倫理、軍事、産業、特許、ビッグデータ

IGY以来のオープンデータ環境

13

データサイエンスからの展開

インターネットの基盤技術上で繰り広げられる相互波及効果。

文献事業からの展開

Page 14: 20140311京大所内

学術情報の追跡可能性の向上

14

中間データ

出版データ

文献レイヤー

Page 15: 20140311京大所内

学術情報の継承知の生産プロセスの向上

論文出版済研究A Aを土台とした新規研究の始点

15

中間データ

出版データ

論文

再検証可能

Page 16: 20140311京大所内

必要な道具 データ

メタデータ

DOI, ORCID, Fundの識別子, CC等

コード

Judas (Java-based iUgonet Data Analysis Software)

XML parser, Undo/Redo, JUnit/FestSwing, Eclipse Plugin (予定)

データ引用した論文誌: JST, J-STAGE?

中間データ保持基盤: Github,Dropbox, クラウド, 認証認可

オブジェクトの関係付け: OAI-ORE

数式処理手順のメタデータ

16

Page 17: 20140311京大所内

まとめ

超高層物理学分野のIUGONETを、データ集約型科学の枠組みで再考してみた。

IUGONETメタデータを土台に、様々なサービス等と連携することで、追跡可能性の高い学術情報基盤を構築することが可能。

今後の展開の第一歩 →

17

Dst Index

Page 18: 20140311京大所内

補足スライド技術資料

18

Page 19: 20140311京大所内

OAI-ORE (Open Archives Initiative – Object Reuse and Exchange)

Open Archives Initiativeが2008年に公開

あらゆる学術情報リソースをURIで表現する

雑誌や論文、論文本体の包含関係を記述する

雑誌における論文の引用関係を記述する

URIで表現された学術コミュニケーション上の概念に対して、最低限の関連性を規定する。リソースには、以下の4つの概念クラスが用意されている。

Aggregation (集合体)

AggragatedResources (被集合リソース)

ResourceMap (リソースマップ)

Proxy (プロキシ)

4つの概念クラスに分類されたリソースに付随して用意された語彙は以下のとおりである。

ore:aggregates (~を集める)

ore:isAggregatedBy (~に集められる)

ore:describes (~を記述する)

ore:isDescribedBy (~に記述される)

ore:similarTo (~に類似である)

ore:proxyFor (~のためのプロキシである)

ore:proxyIn (~にあるプロキシである)

ore:lineage (~をひとつ前とする)

19http://www.openarchives.org/ore/

Page 20: 20140311京大所内

Eclipse フリーの統合開発環境のデファクトスタンダード。

Eclipseを用いたツール開発。

開発するツール: スタンド・アローンでも動作。

サーバーサイドでも動作。

クライアントサイドでも動作。

Java Web Start。

Jarによる各種ネイティブコードのカプセル化。配布、インストールの簡便化。

Eclipseのプラグインとしても動作。

20

Page 21: 20140311京大所内

Java IUGONETが作っているライブラリを使うには、1ライセンス25万円の商用ソフトウェアが必須条件。

論文 → データに到達 → メ

タデータを介してフリーのライブラリは取得 → 肝心の商用ソフトが無い為に動かない!

地球を対象とする超高層物理学では、日米欧のみならず、アジア、アフリカ等との連携が不可避。

30億のデバイスで走るJava環境で開発する。

Windows

Mac

Linux

Android

21