29
ニュース記事と特許を利用した 科学技術の重要性評価 広島市立大学 難波英嗣 福田悟志 飯沼俊平 竹澤寿幸

ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学

Embed Size (px)

DESCRIPTION

All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯(2014年3月8日(土)開催)入賞作品

Citation preview

Page 1: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

ニュース記事と特許を利用した

科学技術の重要性評価

広島市立大学

難波英嗣 福田悟志 飯沼俊平 竹澤寿幸

Page 2: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

背景

従来の科学技術の重要性の評価

• 論文(誌)の被引用数

たくさん引用される論文(誌)は重要性が高い

• 特許、論文間の引用数

論文を引用している特許が多い分野は産学の

結び付きが強い → 産業界に影響度の高い

学術分野を見つける

2

Page 3: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

背景

従来の科学技術の重要性の評価

• 論文(誌)の被引用数

たくさん引用される論文(誌)は重要性が高い

• 特許、論文間の引用数

論文を引用している特許が多い分野は産学の

結び付きが強い → 産業界に影響度の高い

学術分野を見つける

3

研究者から見た 同業者の成果の評価

産業界から見た 学術界の成果の評価

Page 4: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

問題提起(1/2)

もっと色んな観点や手法に基づく評価があっても良いのでは?

どんな分野に研究費が分配されているのか?

多くの研究費が分配されている分野は、研究費分配機関が重要と考える分野

どんな分野の技術がニュースで取り上げられているのか?

ニュースでよく取り上げられる分野は、世間の人々が関心を持つであろうとマスコミが考える分野

4

Page 5: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

問題提起(2/2)

もっと色んな観点や手法に基づく評価があっても良いのでは?

特許分類体系で見た場合、どの分野で良く論文が発表されているのか?

特許と論文間の引用関係以外に、特許と論文の結び付きを測る

5

Page 6: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

目的

ニュース記事や特許を学術論文と紐付けることで、科学技術の重要性を社会的、経済的側面から分析・評価するシステムを構築

6

特許 研究費

ニュース 記事 論文

Page 7: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

手順

1. ニュース記事、研究費報告書、特許、論文を紐付ける

2. 紐付けた結果を用いて科学技術の重要性を評価

7

Page 8: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

方針

ジャンルの違う文献(ニュース記事、研究費報告書、特許、論文)をどうやって紐付けるのか?

従来の手法

•特許と論文の引用関係

•ジャンル横断検索

特許訴訟に関するニュース記事から該当特許を検出

(NTCIR-3特許検索タスク)

•ジャンル横断文書分類 [Nanba 2010]

論文に国際特許分類コードを自動付与

(NTCIR-7, 8特許マイニングタスク)

8

この技術 を利用 [難波 2009]

Page 9: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

国際特許分類 (IPC)とは?

9

G 06 F 17 /30

セクション

クラス

サブクラス

メイングループ

サブグループ

G セクション 物理学

G06 クラス 計算、計数

G06F サブクラス 電気的デジタルデータ処理

G06F 17/00 メイングループ デジタル計算またはデータ処理の装置、方法

G06F 17/30 サブグループ 情報検索、そのためのデータ構造

国際特許分類第8版ではサブクラスのレベルで643個のカテゴリ

今回はこのレベルで 分類する。

Page 10: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

タイトル:MRA画像からの脳血管芯線抽出の精度評価/MRA画像からの脳血管芯線抽出の精度評価

著者:松本伸子,藤井哲也,江浩,周郷延雄,御任明利,柴田家門

出典:電子情報通信学会技術研究報告. MI, 医用画像/信学技法

国際特許分類:A61B (診断、手術、個人識別)

10

論文に国際特許分類を付与した例

自動分類技術

分類精度:約82% [難波 2009]

Page 11: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

ニュース記事に国際特許分類を付与した例

見出し:警備会社のセコムが侵入者に霧を吹きつける新しい防犯システム開発

本文:宝石店などを狙った多額盗難事件が相次ぐ中で、警備会社の「セコム」(本社・東京)が、侵入者に霧を吹きつけるという新しい防犯システムを開発した。侵入者をセンサーが感知すると、高さ八十センチほどの機械から霧が吹き出して部屋中を白く包み、視界を失った犯人は金庫破りどころではなくなる仕組み。

国際特許分類:G08B (信号または呼出し装置、警報装置)

11

自動分類技術

学術論文分類技術をニュース記事に利用

Page 12: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

ニュース記事に国際特許分類を付与した例

見出し:Yahoo Acquires SkyPhrase

(訳 Yahoo!がSkyPhraseを買収)

本文:Yahoo has acquired SkyPhrase, a startup that builds natural language processing technology, the company revealed today in a blog post. … to help continue its goal of “making computers deeply understand people’s natural language and intentions.”

国際特許分類:G06F (電気的デジタルデ-タ処理)

12

自動分類技術

英語用の学術論文分類技術を利用することで英文ニュース記事も分

類可能!

Page 13: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

分類に用いたデータ

JST論文との紐付けの観点として利用

•読売新聞記事データ(邦文)(1993〜2012年)

•TechCrunch(IT系ニュースサイト)

•科学研究費補助金データベース

13

対象データ 付与コード 付与件数

科学技術文献データ(書誌情報)

国際特許分類 約700,000

科研費コード 6,533,269

読売新聞 (開発・実用化記事)

国際特許分類 8,674

TechCrunch (IT系英文ニュース)

国際特許分類 120,596

Page 14: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

課題番号:09308009

科研費カテゴリ:知能情報学

課題名:自己増殖型言語知識ベース構築技術に関する研究

研究者:田中穂積 乾健太郎 徳永健伸 白井清昭

概要:…次に,得られた形態素情報・構文情報から,形態素・構文解析に必要な知識や解析精度を向上させるための知識として,接続表と数理モデルを学習する.…

14

科学研究費補助金データベースとは

Page 15: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

科研費データベースカテゴリ

科研費の採択済課題の申請書に付与された科研費コードを訓練用データとして、入力された論文に科研費コードを自動付与するシステムを開発[Fukuda 2013]

15

分野 分科 細目表

総合領域 情報学 知能情報学,ソフトウェア など

生活科学 生活科学一般,食生活学

社会科学 法学 刑事法学,民事法学 など

経済学 経営学,経済統計学 など

医歯薬学 基礎医学 化学系薬学,物理系薬学 など

内科系臨床医学 消化器内科学,循環器内科学 など

Page 16: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

手順

1. ニュース記事、研究費報告書、特許、論文を紐付ける

2. 紐付けた結果を用いて科学技術の重要性を評価

16

Page 17: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

分析事例

分析で明らかにしたいこと

(分析1)国際特許分類で見た場合、どの分野で論文が数多く発表されているのか?

(分析2)分野別に見た、「特許の出願傾向」、 「論文」、「ニュース記事の違い」

(分析3)海外の特許との比較(日本が得意な分野の、海外での特許の出願傾向)

17

Page 18: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

分析に用いたデータ

JST論文の傾向分析に利用

•科研費データベース

JST論文との比較対象として利用

•日本国特許公開公報(1993〜2012年)

•国際特許(WO)(1998〜2012年)

18

Page 19: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析1)国際特許分類で見た場合、どの分野で論文が 数多く発表されているのか? 国際特許分類分野別の科学技術文献データの割合

19

IPC 説明 割合

H01L 半導体装置 0.0715

H04N 画像通信(テレビ) 0.0366

G06F 電気的デジタルデータ処理 0.0346

A61K 医薬用,歯科用又は化粧用製剤 0.0258

H01M 電池 0.0251

G02B 光学装置 0.0201

B41J タイプライタ,プリンティング機構

0.0189

Page 20: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い

国際特許分類分野別の特許、ニュース(高頻度順)

20

日本国特許 ニュース記事(読売)

IPC 説明 IPC 説明

H01L 半導体 G06F デジタルデータ

G06F デジタルデータ G06Q データ処理

H04N 画像通信(テレビ) A23L 食品、食料品

G03G 電子写真 A61K 医薬品

G11B 情報記憶 H04N 画像通信(テレビ)

G02B 光学装置 C12N 微生物、酵素

B41J タイプライタ G01N 材料の調査・分析

論文と特許は、比較的分布が似ている。 ニュース記事は、日用品の実用化、開発に関するトピックが多い。

Page 21: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い

国際特許分類分野別の特許 (高頻度順)

21

日本国特許(1993-2012) 日本国特許(2012)

IPC 説明 IPC 説明

H01L 半導体 H01L 半導体

G06F デジタルデータ H04N 画像通信(テレビ)

H04N 画像通信(テレビ) G06F デジタルデータ

G03G 電子写真 A61K 医学

G11B 情報記憶 H01M 電池

G02B 光学装置 G02B 光学装置

B41J タイプライタ B41J タイプライタ

同じ特許でも、期間を区切ることで出願傾向が変わる

Page 22: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い

科研費カテゴリ別の科学技術文献データ (高頻度順)

22

科学技術文献(全) 科学技術文献(2012)

カテゴリ 割合 カテゴリ 割合

電子・電気材料工学 0.0210 電子・電気材料工学 0.0219

化学系薬学 0.0199 計算機システム 0.0195

計算機システム 0.0183 素粒子・原子核・宇宙線 0.0179

合成化学 0.0182 熱工学 0.0171

熱工学 0.0166 電子デバイス・電子機器 0.0152

構造・機能材料 0.0161 化学系薬学 0.0147

材料加工・処理 0.0161 物性II 0.0146

特許と同様、論文でも、期間を区切ることで傾向が変わる

Page 23: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析3)海外の特許との比較(日本が得意な分野の、海外での特許の出願傾向)

H01L(半導体)分野の国際特許の出願傾向(15年)

23

Page 24: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

(分析3)海外の特許との比較(日本が得意な分野の、海外での特許の出願傾向)

H01L(半導体)分野の国際特許の出願傾向(2012)

24

Page 25: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

結論

文書分類技術を用いてニュース記事と特許を学術論文と紐付けることにより、科学技術の重要性を社会的、経済的側面から分析、評価するシステムを構築

文書データごとにコードの分布傾向が違う

SAS Analytics Proを用いた半導体分野の傾向分析

25

文書データ 付与コード 付与件数

科学技術文献データ(書誌情報)

国際特許分類 約700,000

科研費コード 6,533,269

読売新聞 (開発・実用化記事)

国際特許分類 8,674

TechCrunch (IT系英文ニュース)

国際特許分類 120,596

Page 26: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

参考文献

• [Fukuda 2013] Fukuda, S., Nanba, H., Takezawa, T., and Aizawa, A. (2013) “Classification of Research Papers Focusing on Elemental Technologies and Their Effects”. In Proceedings of the 6th Language & Technology Conference (LTC'13) .

• [Nanba 2010] Nanba, H., Fujii, A., Iwayama, M., and Hashimoto, T. (2010) “Overview of the Patent Mining Task at the NTCIR-8 Workshop”. In Proceedings of the 8th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-lingual Information Access, 293-302.

• [難波 2009]難波 英嗣,竹澤 寿幸. (2009) “2種類の翻訳システムを用いた学術論文の特許分類体系への自動分類”『情報処理学会論文誌データベース』,Vol.2,No.3,76-86.

26

Page 27: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

アドベンチャー杯にかける意気込み

我々がこれまでに技術文書を対象に開発して

きた各種分析ツールを、複数ジャンルの文書に適用し、従来とは異なる観点からの重要性を分析した。

論文の表題の日英対から統計的機械翻訳技術を用い翻訳器を作成、さらに、同義語辞書(英語版)を作成したが、今回、発表時間の制約からそれらの内容を割愛したのが非常に残念である。

27

(本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)

Page 28: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

分析のプロセス

開発システムの構築手順

1. ニュース記事、研究費報告書、特許、論文を紐付ける

2. 紐付けた結果を用いて科学技術の重要性を評価

28

(複数ページにわたっても構いません。本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)

Page 29: ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学

分析のプロセス

(分析1)国際特許分類で見た場合、どの分野で論文が数多く発表されているのか?

(分析2)分野別に見た、「特許の出願傾向」、 「論文」、「ニュース記事の違い」

(分析3)海外の特許との比較(日本が得意な分野の、海外での特許の出願傾向)

SAS Analytics Proを用いた出願傾向の分析

29