Upload
analytics2014
View
5.979
Download
2
Embed Size (px)
DESCRIPTION
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯(2014年3月8日(土)開催) 銅賞受賞作品
Citation preview
研究力の向上と実社会の発展の関係分析
チーム:日立ソリューションズ東日本
宗形聡、浦邊信太郎、菊地大介、手塚大
アドベンチャー杯にかける意気込み
• データサイエンティストとして必要な知識やスキルのさらなる向上を図りたい!!
• 高度な統計解析を駆使したデータ分析力と,それに基づく課題解決力を持つ企業として,市場でのプレゼンスを高めたい!!
• 本選への出場を達成したい!!
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 2
分析のプロセス
1. テーマの選定 – 科学技術文献の国内外の分野分類データを見ると,1981年~2012年にかけて多くの分野で索引数が増加傾向にある。これは,1つの文献に複数コードが索引されることを考慮しても,多様な分野で研究が活発に推進され,その成果が発信されてきた証左である。活発な研究活動を通して大学や企業の研究力は日々向上していると推察する。
– 多くの研究は学術的な進歩/貢献を目標として実施されているが,最終的には研究成果が社会に還元されて社会生活をより豊かにすることを期待されている。そこで本分析では,研究力の向上が研究成果の還元による社会の発展とどのような関係を持っているか,その因果関係について検証する。
2. 分析手法の選定 – 本分析では,研究力および成果を社会に還元する力のような構成概念を用いる。構成概念の間の因果関係を観測データから推定する手法として,共分散構造解析(以下,SEM)がよく用いられる。本分析でもSEMを採用する。
– SEMでは,構成概念を直接観測できない潜在変数として扱う。観測データの共分散行列から,観測変数と潜在変数間の関係を推定する因子分析と,潜在変数間の関係を推定する重回帰分析を両立した分析ができる。
– 本分析では,研究力と関連する観測値として文献索引数を用いる。また研究成果の社会への還元力と関連する観測値として,法人企業統計と特許統計を用いる。
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 3
分析のプロセス
3. 仮説の設定 – 研究力と研究成果の社会への還元力の関係を検証するに際し以下の仮説を設けた。
研究力には基礎研究力Aと応用研究力Bがあり,AはBに正の影響を与える。 (Aの増加はBの増加につながる因果関係がある)
研究成果を社会へ還元する力は,製品やサービスとしての実用化力Cと生産性を向上させる力Dがあり,BはCとDに正の影響を与える。 (Bの増加はCとDの増加につながる因果関係がある)
Aは理・医・農分野の文献数に正の影響を与える。
Bは工学分野の文献数に正の影響を与える。
Cは法人企業の売上高と特許出願件数に正の影響を与える。
Dは法人企業の売上原価に負の影響を与える。 (Dの増加は原価の低減につながる因果関係がある)
4. データ収集 – 本分析では,観測データとして以下の年次(年度)データを使用した。サンプル数は
1981年~2012年までの32となる。
• 文献数:文献の年次別索引頻度(国内と海外を合算したもの)
• 売上高および売上原価:法人企業統計年報(財務総合政策研究所)記載の年度別売上高および売上原価(それぞれ製造業と非製造業の値を合計したもの)。
• 特許出願件数:World Intellectual Property Indicators(WIPO) 記載の年次特許出願件数
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 4
分析のプロセス
5. モデリング – 設定した仮説を表すモデルをパス図で表現した。観測変数と潜在変数の因果関係や,潜在変数間の因果関係および各変数の誤差がパラメータとなる。
6. データへのモデル適用 – SAS CALISを用いて32サンプルにモデルを適用した。
7. 分析結果の評価 – 主な観測変数と潜在変数間の因果関係の推定結果を表1に示す。潜在変数間の因果関係は仮説を裏付ける結果となった。一方,生産性向上力と売上原価,および応用研究力と原子力工学や鉱山工学などの文献数との間に仮説と異なる結果が出た。これは原価が年々増加し、上記分野の索引数が年々減少しているためと推察する。
– モデルのデータへの適合度指標を表2に示す。GFIやRMSEAなどを見ると適合度は低かった。仮説と合わない観測データへの対応を含め,モデルには改良の余地がある。
– サンプル数32に対してパラメータ数61と多すぎるため,overfittingへの対応も必要。
パス 因果関係 の推定値
応用研究力B ← 基礎研究力A 0.98*
製品実用化力C ← 応用研究力B 0.76*
生産性向上力D ← 応用研究力B 0.71*
売上高 ← 製品実用化力C 0.98*
特許出願 ← 製品実用化力C 0.82*
売上原価 ← 生産性向上力D 0.97*
物理文献数 ← 基礎研究力A 0.95*
・・・
情報工学文献数
← 応用研究力B 0.96*
*:5%水準で有意
表1
指標 値
GFI 0.2129
RMSEA 0.3653
AIC 1750.4506
表2
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 5
分析のプロセス
8. 仮説の修正とモデル改良 – 最初の分析結果を受けて以下のように仮説を修正し,潜在変数と観測変数を集約した。
基礎研究力Aは応用研究力Bに正の影響を与える。
応用研究力Bは研究成果を社会へ還元する力Cに正の影響を与える。
Aは理・医・農の各分野の文献数に正の影響を与える。
Bは工学分野の文献数に正の影響を与える。
Cは法人企業の営業利益と特許出願件数に正の影響を与える。
– 24あった文献分類を互いに関連した分野同士でまとめ10に集約した。
– 売上と原価をまとめて営業利益に集約した。
9. 再分析/評価 – 主な観測変数と潜在変数間の因果関係の推定結果を表3に示す。潜在変数間の因果関係,および観測変数と潜在変数の因果関係は全て仮説を裏付ける結果となった。
– モデルのデータへの適合度指標を表4に示す。GFIやRMSEAを見ると適合度が高いとはいえないが,改良前と比較してよくなっている。AICも小さくなった。
パス 因果関係 の推定値
応用研究力B ← 基礎研究力A 1.00*
社会還元力C ← 応用研究力B 0.63*
営業利益 ← 社会還元力C 0.48*
特許出願 ← 社会還元力C 0.83*
理学分野 ← 基礎研究力A 0.99*
・・・
電気・情報 工学
← 応用研究力B 0.96*
*:5%水準で有意
表3
指標 値
GFI 0.5357
RMSEA 0.3404
AIC 275.2109
表4
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 6
分析のプロセス
10.考察 – 基礎研究力の向上は応用研究力の向上に強く関連している。実社会の発展という視点からも,基礎研究の重要性を認識できる。
– 研究力の向上と研究成果の社会還元の進展には正の因果関係が認められる。たくさん論文を書いて研究力の向上を図れば,成果を社会に還元していく流れも強くなっていくといえる。
– 研究成果を社会に還元する力は企業の利益よりも特許として見えやすい。知的財産は成果と直接的なつながりがあるからではないかと推察する。一方,利益には景気や為替,マーケティングなど研究成果以外の要素も影響してくる。
-以上-
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 7
ここからプレゼンテーション用スライド
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 8
分析の目的と分析手法
• 目的 – 文献数は増加傾向で多様な分野で研究が推進,研究力が向上
– 研究成果は学術的な貢献だけでなく,実社会への還元も必要
– 研究力の向上と成果の還元による実社会の発展にどのような関係があるか,その因果関係について検証
• 分析手法 – 共分散構造解析(SEM)
• 研究力,成果の社会還元力 のような構成概念を扱う
• 構成概念の間の因果関係を 観測データから推定
• 因子分析と重回帰分析の拡張 0
100000
200000
300000
400000
500000
600000
700000
19
81年
1
98
3年
1
98
5年
1
98
7年
1
98
9年
1
99
1年
1
99
3年
1
99
5年
1
99
7年
1
99
9年
2
00
1年
2
00
3年
2
00
5年
2
00
7年
2
00
9年
2
01
1年
文献索引数の推移
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 9
研究力向上と実社会の発展の関係‐仮説設定
• 「研究力」と「成果の社会への還元力」の関係 研究力には基礎研究力Aと応用研究力Bがある
AはBに正の影響を与える(正の因果関係がある)
研究成果を社会へ還元する力は製品やサービスとしての実用化力Cと生産性を向上させる力Dがある
BはCとDに正の影響を与える
Aは理学・医学・農学分野の文献数に正の影響を与える
Bは工学分野の文献数に正の影響を与える
Cは法人企業の売上高と特許出願件数に正の影響を与える
Dは法人企業の売上原価に負の影響を与える
基礎研究力A 応用研究力B
製品実用化力C 生産性向上力D
理学・医学・農学分野の文献数
売上高
特許出願件数 売上原価
工学分野の文献数
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 10
データの収集
• 観測データとして以下の年次(年度)データを使用
• サンプル数は1981年~2012年までの32
– 文献数
• 文献の年次別索引頻度(国内と海外を合算したもの)
• 1文献に複数索引が付与される場合もあるが,便宜上文献数=索引数
– 売上高、売上原価、営業利益
• 法人企業統計年報(財務総合政策研究所)記載の年度別売上高、売上原価、営業利益(それぞれ製造業と非製造業の値を合計したもの)
– 特許出願件数
• World Intellectual Property Indicators(WIPO) 報告書記載の年次特許出願件数
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 11
パス図による仮説モデルの可視化
外生観測変数 内生観測変数 内生潜在変数 外生潜在変数
基礎研究力A 応用研究力B
製品実用化力C 生産性向上力D
特許出願件数 売上高
物理文献数
基礎化学文献数
科学技術 一般文献数
システム 工学文献数
情報工学文献数
経営工学文献数
電気工学文献数
エネルギー 工学文献数
原子力工学文献数
熱工学文献数
機械工学文献数
建設工学文献数
環境工学文献数
工学一般文献数
運輸交通 工学文献数
鉱山工学文献数
金属工学文献数
化学工学文献数
化学工業文献数
その他 工業文献数
宇宙科学文献数
生物文献数
農林水産文献数
医学文献数
売上原価
凡例
a1
a2
a3
a4
a5 a6
a7
b1 b2 b3
b4 b5
b6
b7
b8
b9
b10
b11
b12
b13
b14
b15 b16 b17
α
β γ
p q r
• ai, bi, α,β,γ, p, q, rはパラメータ
• 各変数には誤差変数が付随 Copyright(C)2014 Hitachi Solutions East Japan Ltd.
12
SAS CALISによる分析
基礎研究力A 応用研究力B
製品実用化力C 生産性向上力D
特許出願件数 売上高
物理文献数
基礎化学文献数
科学技術 一般文献数
システム 工学文献数
情報工学文献数
経営工学文献数
電気工学文献数
エネルギー 工学文献数
原子力工学文献数
熱工学文献数
機械工学文献数
建設工学文献数
環境工学文献数
工学一般文献数
運輸交通 工学文献数
鉱山工学文献数
金属工学文献数
化学工学文献数 化学工業
文献数
その他 工業文献数
宇宙科学文献数
生物文献数
農林水産文献数
医学文献数
売上原価
0.96*
1.00 *
0.98*
0.97* 0.96* 0.95* 0.94*
0.78* 0.92* 0.96*
0.89* 0.99*
-0.73
0.84*
0.65*
0.97*
0.99*
0.96*
0.90*
-0.71
0.62*
-0.28
0.96*
0.98*
0.76* 0.71*
0.98* 0.82* 0.97*
• 潜在変数間の因果関係は仮説を裏付け
• 生産性向上力と原価、応用研究力と3分野の文献数で仮説と異なる
• モデルの適合度は低い:GFI=0.21,RMSEA=0.34
• Overfitting対応:32サンプル,61パラメータ
0.76*
*:5%水準
で有意
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 13
仮説(モデル)の修正
• 製品実用化力と生産性向上力を社会への還元力に合成
• 文献の分類粒度を大きくして観測変数を集約
– 理学:物理+化学+生物+宇宙・地学
– 電気通信工学:電気工学+情報工学+システム工学
– 資源エネルギー工学:鉱山工学+エネルギー工学+原子力工学+環境工学
– 土木建築工学:建築工学+交通工学
– 機械工学:機械工学+熱工学
– 応用化学:化学工学+化学工業
• 関連する工学分野同士の相関を考慮
• 一般領域および工業の分類を削除
• 売上と原価をまとめて営業利益に集約
基礎研究力A 応用研究力B
社会への還元力C
理学・医学・農学分野の文献数
特許出願件数 営業利益
工学分野の文献数
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 14
修正版パス図
基礎研究力A 応用研究力B
社会還元力C
特許出願件数 営業利益
経営工学文献数
資源エネルギー工学文献数
機械工学 文献数
土木建築 工学文献数
金属工学 文献数
応用化学 文献数
電気通信工学文献数
医学 文献数
農林水産文献数
理学 文献数
a1 a2 a3 b1 b2 b3 b4
b7
b6
α
β
p q
• ai,bi,α,β,p,q,ψiはパラメータ
• 各変数には誤差変数が付随
b5
ψ1 Ψ2
Ψ3
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 15
SAS CALISによる分析2
基礎研究力A 応用研究力B
社会還元力C
特許出願件数 営業利益
経営工学文献数
資源エネルギー工学文献数
機械工学 文献数
土木建築 工学文献数
金属工学 文献数
応用化学 文献数
電気通信工学文献数
医学 文献数
農林水産文献数
理学 文献数
0.99* 1.00* 0.96* 0.96* 0.86* 0.98* 0.70*
0.98*
0.62*
1.00*
0.63*
0.48* 0.83*
• 潜在変数間の因果関係は仮説を裏付け
• 潜在変数と観測変数の間の因果関係も仮説を裏付け
• モデルの適合度はやや改善:GFI=0.54,RMSEA=0.34
• モデルとしては修正版の方が良い:AIC=1,750→275
0.97*
0.10* 0.11*
0.28*
*:5%水準
で有意
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 16
考察
• 基礎研究と応用研究は密接に関連,基礎研究はとても大事
• 研究力の向上と研究成果の社会還元には正の因果関係 →たくさん研究して論文を書けば成果を社会に還元する流れも強まる
• 研究成果の社会還元は利益よりも特許として見えやすい →利益には成果の還元以外の要素(景気 etc)も絡んでいる
基礎研究力A 応用研究力B
社会還元力C
特許出願件数 営業利益
経営工学文献数
資源エネルギー工学文献数
機械工学 文献数
土木建築 工学文献数
金属工学文献数
応用化学 文献数
電気通信工学文献数
医学 文献数
農林水産 理学 文献数
0.99* 1.00* 0.96* 0.96* 0.86* 0.98*
0.70*
0.98*
0.62*
1.00*
0.63*
0.48* 0.83*
0.97*
0.10* 0.11*
0.28*
*:5%水準
で有意
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 17
まとめ
• 研究力の向上と研究成果の還元による実社会の発展について因果関係を検証
• 潜在変数と観測変数を含む因果関係の解析手法として, 共分散構造解析を使用
• 文献索引数,法人企業統計,特許統計の各データを使用
• 分析はSAS CALISで実行
• 適合度指標ではモデルにまだ改善の余地はあるものの, 研究力の向上と成果の社会還元の進展には関係がある
• たくさん論文を書いて研究力の向上を図りましょう!!
Copyright(C)2014 Hitachi Solutions East Japan Ltd. 18