28
大学・公的機関における研究開発に 関するデータの整備と公開 -SciREXデータ・情報基盤構築の成果の紹介- 2013年11月2日 ○伊神正貫, 小野寺夏生, 富澤宏之 (文科省・NISTEP) 1 研究・技術計画学会 28回年次学術大会 1I11

大学・公的機関における研究開発に関するデータの整備と公開

Embed Size (px)

Citation preview

Page 1: 大学・公的機関における研究開発に関するデータの整備と公開

大学・公的機関における研究開発に 関するデータの整備と公開

-SciREXデータ・情報基盤構築の成果の紹介-

2013年11月2日

○伊神正貫, 小野寺夏生, 富澤宏之 (文科省・NISTEP)

1

研究・技術計画学会 第28回年次学術大会 1I11

Page 2: 大学・公的機関における研究開発に関するデータの整備と公開

本発表の構成

• はじめに

• データ整備の内容を一部紹介

• データ公開

• おわりに

<本発表の構成>

2

Page 3: 大学・公的機関における研究開発に関するデータの整備と公開

はじめに

• 2011年度から、SciREXの一環として実施

• 研究開発の実態の把握・分析を、国、セクター、個別機関などの各レベルで行うための基礎データを構築

• 各種データのマイクロレベルでの接続

<はじめに>

3

Page 4: 大学・公的機関における研究開発に関するデータの整備と公開

基本的なスタンス

• 「NISTEP大学・公的機関名辞書」の整備 – 各種のデータを接続する際の基礎情報源

• 各種データと「NISTEP大学・公的機関名辞書」の対応付け – エルゼビア・ジャパン株式会社 Scopus

– トムソン・ロイター・プロフェッショナル株式会社 Web of Science

– 科学技術研究調査など

• 整備されたデータの可能な範囲での公開 – 商用データベース

– 基幹統計、一般統計

• NISTEPの分析への活用

<はじめに>

4

Page 5: 大学・公的機関における研究開発に関するデータの整備と公開

NISTEP大学・公的機関名辞書の整備

(収録対象の機関)

• 研究開発を行っている国内の機関

– 全部で約12,000機関(下部組織や非現存機関を含む)

• 大学、公的機関を重点

• 地方公共団体の機関、企業、非営利法人等もできるだけ含めた

– それぞれの機関に、NISTEP独自の識別IDを付与

<データ整備の内容>

5

Page 6: 大学・公的機関における研究開発に関するデータの整備と公開

NISTEP大学・公的機関名辞書の整備(続き)

(収録情報)

• 機関の名称

– 和英の正式名称の他、英語名については、通称、略称もできるだけ収録

• 機関の下部組織

– 一部の大学については学部・研究科・付置研究所等

– 大学共同利用機関である機構に属する各研究所

• 機関の変遷情報

– 過去、15年ほどの間に統廃合、改組、名称変更等があって現存しない機関についても、できるだけ収録

• <<所在地の情報(郵便番号)>>

6

<データ整備の内容>

Page 7: 大学・公的機関における研究開発に関するデータの整備と公開

機関名辞書のデータソース

(1) 論文を発表した機関

– 1996年から2010年までに発表された研究論文の著者が属する国内の機関(Scopusを利用)

– 高等教育機関、研究を行う国の機関や独立行政法人については、この機関に論文発表がなくても網羅的に掲載

(2) 機関の名称

– 各機関のホームページ

– 官庁などのWebサイトにある機関リスト

– 『全国試験研究機関名鑑』(丸善)など

(3) 機関の廃止、統合、名称変更

– 各機関のホームページにある「沿革」や「歴史」の記述

7

<データ整備の内容>

Page 8: 大学・公的機関における研究開発に関するデータの整備と公開

セクターと属する機関数 セクター 機関数

国立大学 101

国立短大 26

国立高専 59

公立大学 94

公立短大 62

公立高専 6

私立大学 601

私立短大 515

私立高専 3

大学共同利用機関 5

国の機関 135

特殊法人・独立行政法人 133

地方公共団体の機関 696

会社 4,421

非営利団体 3,586

その他の機関 6 8 注: 機関数には統廃合、改組、名称変更等で現存しない機関も含んでいる。

<データ整備の内容>

Page 9: 大学・公的機関における研究開発に関するデータの整備と公開

辞書に含まれている機関の地理的な分布 約12,000件の内、約6,000件が約11,000件の郵便番号情報も持つ

9 谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化

<データ整備の内容>

Page 10: 大学・公的機関における研究開発に関するデータの整備と公開

全機関

10 谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化。辞書に含まれる機関の内、郵便番号情報を持っているものの位置を示した結果であり、日本の機関全ての位置を示したものではない。

<データ整備の内容>

Page 11: 大学・公的機関における研究開発に関するデータの整備と公開

大学等

11

<データ整備の内容>

谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化。辞書に含まれる機関の内、郵便番号情報を持っているものの位置を示した結果であり、日本の大学等全ての位置を示したものではない。

Page 12: 大学・公的機関における研究開発に関するデータの整備と公開

公的機関

12

<データ整備の内容>

谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化。辞書に含まれる機関の内、郵便番号情報を持っているものの位置を示した結果であり、日本の公的機関全ての位置を示したものではない。

Page 13: 大学・公的機関における研究開発に関するデータの整備と公開

非営利団体等

13

<データ整備の内容>

谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化。辞書に含まれる機関の内、郵便番号情報を持っているものの位置を示した結果であり、日本の非営利民間等全ての位置を示したものではない。

Page 14: 大学・公的機関における研究開発に関するデータの整備と公開

会社

14

<データ整備の内容>

谷謙二研究室(埼玉大学教育学部人文地理学)のウェブページを用いて可視化。辞書に含まれる機関の内、郵便番号情報を持っているものの位置を示した結果であり、日本の企業等全ての位置を示したものではない。

Page 15: 大学・公的機関における研究開発に関するデータの整備と公開

研究アウトプットデータにおける機関同定

• 対象としたデータ

– ScopusとWeb of Science

– 1996~2011年の期間に発表された日本の論文を抽出し、そこに含まれる機関を同定

– 全てのドキュメントのタイプを対象

15

<データ整備の内容>

何を行ったか? 名寄せ、名寄せ、名寄せ!

Page 16: 大学・公的機関における研究開発に関するデータの整備と公開

機関同定の問題点

• 種々の通称や略称

• 正式ではない名称(Tokyo University)

• 機関名、部局名の一体化(Kyoto University School of Medicineなど)

• 1つのアドレスデータレコードに2つの機関名

– 1人の著者が2つの機関に所属(特にJST)

– 異なる著者の所属機関が混在

– 共同実施制度

• 機関の英語名の変更

– Science University of Tokyo → Tokyo University of Science

• (Scopus) アドレスデータの中の所在地、機関名、下部組織名の順序が一定しておらず、機関名の識別が困難

16

<データ整備の内容>

Page 17: 大学・公的機関における研究開発に関するデータの整備と公開

類似の名称の機関の存在

• 事例の分析を通じた試行錯誤

• 最長マッチングと類似性計算に基づき、NISTEP大学・公的機関名辞書を用いて機関同定を行うアルゴリズムを開発

17

Fac Sci Univ Tokyo

東京大学理学部

東京理科大学

静岡大学(Shizuoka University) 静岡県立大学 (University of Shizuoka)

獨協大学(Dokkyo University) 獨協医科大学 (Dokkyo University School of Medicine)

<データ整備の内容>

Page 18: 大学・公的機関における研究開発に関するデータの整備と公開

同定結果

18

Scopus Web of Science

対象レコード数 329万件 278万件

機関同定 91.9% 93.6%

セクター同定 1.6% 1.3%

サンプリング調査により、 同定の精度は98%以上であることを確認

<データ整備の内容>

Page 19: 大学・公的機関における研究開発に関するデータの整備と公開

データ公開

• 整備されたデータは、可能な範囲でNISTEPのWebサイトの 「データ・情報基盤」のページにおいて公開

• 2013年9月現在、次の3種のデータを、内容と利用法を説明したマニュアルや活用事例とともに公開

– NISTEP大学・公的機関名辞書

– 大学・公的機関名英語表記ゆれテーブ

– Scopus-NISTEP大学・公的機関名辞書対応テーブル

19

<データ公開>

問合せ用アドレス: [email protected]

Page 20: 大学・公的機関における研究開発に関するデータの整備と公開

現在公開中のデータ(その1)

• NISTEP大学・公的機関名辞書(ver.2012.1)

– 研究活動を行っている我が国の機関(約1万2千機関)を掲載

– 個別機関レベルの分析のための基礎情報源

• 大学・公的機関名英語表記ゆれテーブ(ver.2013.1)

– Scopusにおける日本の大学・公的機関の表記ゆれ

– Scopusに延べ1,000以上出現した205の大学と40の公的機関について、10回以上出現した表記バリエーション

– エルゼビア・ジャパン株式会社の了解を得て公表

20

<データ公開>

Page 21: 大学・公的機関における研究開発に関するデータの整備と公開

NISTEP大学・公的機関名辞書の例

21

<データ公開>

機関ID 機関名称 正式名称確認フラグ

セクター 番号

代表機関フラグ

代表機関ID 現存フラグ 移行年月日 継承機関ID

NID201200199399167 お茶の水女子大学 TRUE 1 TRUE TRUE

NID201200199399167 Ochanomizu

University TRUE 1 TRUE TRUE

NID201200248230458 一橋大学 TRUE 1 TRUE TRUE

NID201200248230458 Hitotsubashi

University TRUE 1 TRUE TRUE

NID201200532615372 宮崎医科大学 TRUE 1 TRUE FALSE 2003/10/1 NID201200253596213

NID201200532615372 Miyazaki Medical

College TRUE 1 TRUE FALSE 2003/10/1 NID201200253596213

NID201200253596213 宮崎大学 TRUE 1 TRUE TRUE

NID201200253596213 University of

Miyazaki TRUE 1 TRUE TRUE

NID201200790018667 京都大学 TRUE 1 TRUE TRUE

NID201200790018667 Kyoto University TRUE 1 TRUE TRUE

NID201200262823890 京都大学iPS細胞

研究所 TRUE 1 FALSE NID201200790018667 TRUE

NID201200262823890

Center for iPS Cell Research and

Application Kyoto University

TRUE 1 FALSE NID201200790018667 TRUE

注: 発表用にデータの一部を抜粋している。

Page 22: 大学・公的機関における研究開発に関するデータの整備と公開

大学・公的機関名英語表記ゆれテーブルの例

22

<データ公開>

機関名 表記バリエーション 英語正式

名 出現度数

筑波大学 University of Tsukuba ○ 31,794

筑波大学 Tsukuba University 822

筑波大学 Univ of Tsukuba 327

筑波大学 Univ. of Tsukuba 282

筑波大学 The University of Tsukuba 57

筑波大学 Univ. Tsukuba 18

筑波大学 Tsukuba Univ. 12

1,529件

注: 発表用にデータの一部を抜粋している。

Page 23: 大学・公的機関における研究開発に関するデータの整備と公開

現在公開中のデータ(その2)

• Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1)

– Scopusの論文IDとNISTEP大学・公的機関名辞書の機関IDの対応表

– エルゼビア・ジャパン株式会社の了解を得て公開

– 但し、大学、公的機関以外の機関については現状では同定の精度がやや低いので、セクターのみを公表

23

<データ公開>

Page 24: 大学・公的機関における研究開発に関するデータの整備と公開

対応テーブルの例

match_level scopus_eid scopus_address_seq nid sector

I 2-s2.0-0001211811 0 NID201200918166078 国立大学

I 2-s2.0-0001211811 1 NID201200918166078 国立大学

I 2-s2.0-3743074834 0 NID201200944582170 国立大学

I 2-s2.0-3743074834 1 NID201200104971192 国立大学

I 2-s2.0-33750146162 0 NID201200268901613 国立大学

N 2-s2.0-0030294941 0

I 2-s2.0-0030294941 1 NID201200814643343 特殊法人・独立行政

法人

I 2-s2.0-0030294941 2 NID201200668065067 国立大学

N 2-s2.0-0030294941 3

I 2-s2.0-0030294944 5 NID201200686415426 国立大学

I 2-s2.0-0010280664 0 NID201200847416066 国立大学

I 2-s2.0-0030291871 0 NID201200962922998 国立大学

S 2-s2.0-0030291871 1 会社

I 2-s2.0-0029780194 0 NID201200082411747 国の機関

U 2-s2.0-0030031258 0 NID201200683521656 私立大学

24

<データ公開>

注: 発表用にデータの一部を抜粋している。

Page 25: 大学・公的機関における研究開発に関するデータの整備と公開

対応テーブルの活用

• Scopusで検索した論文データ集合における所属機関を、このテーブルを用いて同定

• ある機関の論文の一括検索(その機関IDを持つScopus論文データの集合をこのテーブルを用いて作成)

• 機関別又はセクター別の論文生産統計の作成と分析

25

<データ公開>

Page 26: 大学・公的機関における研究開発に関するデータの整備と公開

活用事例の紹介

26

<データ公開>

4

① Scopusからのデータのダウンロード

<①Scopusからのデータのダウンロード>

• 本資料では、以下の条件を用いて論文データの抽出を行っています。

• Scopusの論文データは常に更新されており、論文データの抽出を行った時期によって結果が変化します。

• したがって、分析結果には、論文データの抽出を何時行ったかを明示するようにしてください。

• なお、本資料で用いる論文データの抽出を行ったのは2013年6月29日です。

• 詳細については、エルゼビア社が提供しているマニュアル等を参考にしてください。

条件 内容

著者所属機関(国) Japan

出版年 2010年

分野 Chemistry, Chemical Engineering

Scopus-NISTEP大学・公的機関名辞書対応テーブルの活用事例(その1)

2013年7月1日

科学技術・学術政策研究所

科学技術・学術基盤調査研究室

データ・情報基盤の活用事例

1

• 以下の3つのファイルをリレーショナルデータベースにインポートします。

– scopus.csv: Scopusからダウンロードした論文データ

– organization_dictionary_ver_2012_1.xlsx: NISTEP大学・公的機関名辞書

– Scopus_Table_of_the_NISTEP_Affiliation_Dictionary_ver_2013_1.tsv: Scopus-NISTEP大学・公的機関名辞書対応テーブル

• ファイルのインポート方法については、リレーショナルデータベース(Microsoft Access, MySQL, Microsoft SQL Serverなど)に依存しますので、分析に用いるリレーショナルデータベースのマニュアルを参考にしてください。

• Microsoft Accessを用いる場合のテーブルの定義を次ページ以降に示します。

7

② リレーショナルデータベースへのデータのインポート

<②リレーショナルデータベースへのデータのインポート>

• ②で構築したデータベースを用いて分析を実施します。

• ここでは、以下の4つの分析について、分析用のクエリを示します。

– Scopus-NISTEP大学・公的機関名辞書対応テーブルとのマッチングが行われた論文の確認

– マッチング精度ごとの論文数の集計

– セクターごとの論文数の整数カウント法による集計

– 大学・公的研究機関ごとの論文数の整数カウント法による集計

• Microsoft Accessのデータベースに、以下の3つのテーブルがインポートされていることを前提としています。

– 論文データ

– Scopus-NISTEP大学・公的機関名辞書

– Scopus-NISTEP大学・公的機関名辞書対応テーブル

• また、テーブル名およびぞれぞれのテーブルのフィールド名は、②で示したものに合わせてください。

15

③分析の実施

<③分析の実施>

Page 27: 大学・公的機関における研究開発に関するデータの整備と公開

おわりに -今後の整備と公開の計画

• 過去2年間の成果の評価、データと手法の改善

– 機関同定及び異種データ間のミクロ接続の精度の向上

– 機関同定等のアルゴリズムの改善

– データ利用者のための補助情報(利用マニュアルやテーブル定義情報)の整備

– データ整備を将来継続するための作業のマニュアル化

• データの公開

– Web of Scienceについてのデータ

– NISTEP大学・公的機関名辞書の更新

• 新たな機関登録

• 下部組織や機関変遷情報の拡充等

27

<おわりに>

Page 28: 大学・公的機関における研究開発に関するデータの整備と公開

おわりに -ポスト処理の限界

• 名寄せ作業はデータが更新されるたびに行う必要がある。

• 精度が100%になることはない(努力はするが)。

• 持続的なものにしないと意味がない。

• 論文への著者所属の記入方法の機関内での統一化

– 教員のみではなく、ポストドクターや学生にも理解してもらう。

• 謝辞情報についても同様

– 統一的なファンディング番号フォーマットの導入

28

<おわりに>

名寄せは「モグラたたき」のようなもの、モグラが出てこないのが理想