30
テキストマイニングによる 公報間類似度マップの検討 INFOPRO2015 A21 第12回情報プロフェッショナルシンポジウム 2015年12月11日 ○アジア特許情報研究会 高岡恵理 花王株式会社 安藤俊幸 1

テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

テキストマイニングによる公報間類似度マップの検討

INFOPRO2015 A21

第12回情報プロフェッショナルシンポジウム2015年12月11日

○アジア特許情報研究会 高岡恵理花王株式会社 安藤俊幸

1

Page 2: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

発表内容

検討に至った背景

用いたテスト集合

テキスト情報による公報間類似度

技術分類を併用した場合の類似度

まとめ

今後の課題

2

Page 3: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

検討に至った背景

特許情報を活用した技術分析において、

マクロ分析 セミミクロ段階

公報記載の書誌情報

・各種マップソフト・DB内蔵の統計ツール

そこで、特許公開公報を テキストマイニングし、抽出された

技術用語から公報間類似度を計算し、技術を仕分けられないか?

技術の構成要素から類否判断して仕分ける

人手に依存

3

Page 4: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

用いたテスト集合

:過去10年間の電動歯ブラシ関連の公開公報46件

選定理由

●公報記載の文言に専門用語(複合語、外来語等)が多い●公報記載の文言に専門用語(複合語、外来語等)が多い●出願人間で技術用語が異なる=異表記同義語が多い

また、分類結果の妥当性を図面から比較的容易に判断ができる。

選定条件

●タイトル、要約、請求項の和文テキスト情報が揃っている●IPC、FI・Fターム、CPCの技術分類が付与されている●複数の出願人(3社以上)により継続的に出願されている

4

Page 5: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

データソース&使用ツール

使用データ データソース

和文テキスト Shareresearch/日立製作所

DWPIデータ Thomson Innovation/トムソン・ロイター

ファミリー情報 PatBase(拡張ファミリーNo.)/RWSグループ

データ加工 使用ツール

和文テキストマイニング PatAnalyzer/花王㈱安藤さん制作

クラスタリング KH Coder/立命館大学樋口耕一准教授制作

類似度計算 SimCalc/花王㈱安藤さん制作

類似度の距離変換 R:library(MASS)

多次元空間へのプロット R:library(rgl)

5

Page 6: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

テキストマイニング処理の流れ

テスト集合出願番号(西暦表示) 発明の名称 要約 請求の範囲(全)P2004-309592 歯ブラシ (修正有)【課題】歯ブラシにおけるオーラルケアの【1】ヘッドと、このヘッドの上面からP2006-506950 歯ブラシヘッド 【課題】 歯クリーニング【1】歯ブラシヘッドにおいて、ヘッドのP2007-054703 歯ブラシヘッド 【課題】歯クリーニング【1】歯ブラシヘッドにおいて、ヘッドのP2007-054715 歯ブラシヘッド 【課題】歯クリーニング【1】歯ブラシヘッドにおいて、ヘッドのP2009-529542 電動歯ブラシと、電動歯ブラシ本発明の伝動装置(【1】電動歯ブラシ(12)に用いられるP2006-543711 流体方向づけ部材を備える本発明は、電動歯ブラシの【1】電動歯ブラシ用のリムを備えたブラシヘッドであってP2011-148292 流体方向づけ部材を備える【課題】本発明は、電動歯【1】電動歯ブラシ用のブラシヘッドであってP2012-529007 口腔ケア製品並びにそれを口腔ケア器具は、口腔【1】口腔への挿入のために寸法決P2013-235956 口腔ケア製品並びにそれを(修正有)【課題】ベース【1】口腔への挿入のために寸法決P2009-514651 歯ブラシおよび歯ブラシヘッドと本発明は、モノフィラメントとして【1】モノフィラメントとして構成されP2011-535193 歯ブラシ並びに歯ブラシ 本発明は、歯ブラシ 【1】歯ブラシ用ブリストルであって

抽出処理PatAnalyzer

歯ブラシ 68 記載 93 立上り要素 13特徴 64 歯ブラシ 86 歯ブラシ 13こと 64 前記ヘッド 43 :歯清掃要素 35 前記歯クリーニング要素 36 該歯ブラシ 3前記歯清掃要素 32 歯クリーニング要素 33 :: : :タフト 7 : :: : :

P2004-309592 P2006-506950 P2009-545291

抽出語 頻度

類似度計算

全公報間類似度 Cosine係数使用/SimCalc

P2011-535193 歯ブラシ並びに歯ブラシ 本発明は、歯ブラシ 【1】歯ブラシ用ブリストルであってP2014-105537 歯ブラシ並びに歯ブラシ (修正有)【課題】歯ブラシ【1】歯ブラシ用ブリストルであってP2011-533923 電気歯ブラシ、及び電気歯本発明は、概して、電気歯【1】電気歯ブラシ(1)用のブラシヘッドであってP2011-533925 電気歯ブラシ、及び電気歯本発明は、概して、電気歯【1】電気歯ブラシ(1)用のブラシヘッドであってP2013-543962 効果的な洗浄のための毛特性歯ブラシ10又はマウスピース【1】柄と、基部部材及び歯と接触P2003-541489 複雑な運動の歯ブラシ 電気で駆動する歯ブラシは【1】第1カム及び第2カムを含むシャフトP2003-541491 複数運動歯ブラシ 電動歯ブラシを開示【1】第1端部、第1端部の反対側P2003-541492 複数動作の歯ブラシ 電動歯ブラシが提供【1】内部にモータが配置されたハンドルとP2003-541493 複雑運動の歯ブラシ 電動歯ブラシが、遠端【1】電動歯ブラシであって、歯ブラシのP2007-180265 電動歯ブラシ 【課題】製造するのに【1】電動歯ブラシであって、歯ブラシの

テキスト情報:Excelファイル

: : :回動 6 回転 24 旋回可能 1回動自在 5 : :: 回転自在 4 歯清掃要素 1: : 歯肉処置要素 1: ブリストルタフト 4 :

・TF(Term頻度)・DF(文書頻度)TF・IDFで重み付け

・専門用語・形態素単位

公報番号 P1998-504407 P1998-527479 P2000-506854 P2000-569668 P2000-583388 P2001-175368 P2002-543985 P2002-543986P1998-504407 0 0 0 0 0 0 0 0P1998-527479 0.9546223 0 0 0 0 0 0 0P2000-506854 0.833376 0.7953697 0 0 0 0 0 0P2000-569668 0.9714311 0.9447964 0.9786615 0 0 0 0 0P2000-583388 0.5888051 0.945308 0.9365913 0.982696 0 0 0 0P2001-175368 0.9651633 0.8626221 0.9277118 0.9930673 0.8970379 0 0 0P2002-543985 0.9607788 0.9986628 0.9939299 0.9934112 0.983174 0.9911553 0 0P2002-543986 0.8939807 0.8687187 0.8430547 0.9736708 0.9543828 0.9458383 0.8821606 0

統計ソフトRを用いて公報間類似度を非計量多次元尺度法により距離に変換

6

Page 7: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

分析対象のテキスト情報

テキスト情報

●タイトル●要約

専門用語の抽出は、・・・・・自作PatAnalyzerにてsaezuri liteを介

●全請求項

用語抽出方法

●専門用語の抽出●形態素単位での単語抽出●ノイズ除去後の専門用語

して、形態素解析ツールⅯeCabの品詞と隣接頻度情報から求めた。

形態素単位での単語抽出には、MeCabの形態素(名詞)を そのまま利用した。

7

Page 8: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

発表内容

検討に至った背景

用いたテスト集合

テキスト情報による公報間類似度

技術分類を併用した場合の類似度

まとめ

今後の課題

8

Page 9: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

専門用語による抽出結果0.

51.

0

P1999-004280

P2000-569668

P2000-583388

P2002-330721

P2003-364384P2003-364385P2003-399429

P2007-331337

P2007-547776

独立して稼働する複数のブラシヘッド

-0.5 0.0 0.5

-0.5

0.0

z.iso$points[,1]

z.is

o$po

ints

[,2]

P1998-504407P1998-527479

P2000-283330

P2000-506854

P2001-097386

P2001-175368

P2001-392823

P2002-543986

P2002-547404

P2003-364384P2003-364385

P2003-537443 ▲P2003-541491

P2003-541492●P2004-309592

P2004-564887

P2005-166435

▲P2005-518932

●P2006-506950P2006-520532

●P2006-526951

P2006-543711

P2007-190193

▲P2007-230595▲P2007-230596▲P2007-230597P2007-305567

P2007-539408

P2007-547776

P2009-058686P2009-101416

P2009-514651

P2009-529542

●P2009-545291P2010-071133

P2010-133327

P2010-135325

P2010-164509

P2010-196521

P2011-533923P2011-535193

P2013-521751

P2013-543962●P2012-529007

複数の素材からなる植毛部

9

Page 10: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

関連技術が非類似となった理由

歯ブラシ 68 記載 93 立上り要素 13特徴 64 歯ブラシ 86 歯ブラシ 13こと 64 前記ヘッド 43 :歯清掃要素 35 前記歯クリーニング要素 36 該歯ブラシ 3前記歯清掃要素 32 歯クリーニング要素 33 :

P2004-309592 P2006-506950 P2009-545291

前記歯清掃要素 32 歯クリーニング要素 33 :: : :タフト 7 : :: : :回動 6 回転 24 旋回可能 1回動自在 5 : :: 回転自在 4 歯清掃要素 1: : 歯肉処置要素 1: ブリストルタフト 4 :

専門用語(複合語、外来語等)による抽出でなく、形態素単位の方が良いのでは?

10

Page 11: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

形態素単位での単語抽出0.

5

P2003-364384P2003-364385

▲P2003-541491

▲P2005-518932▲P2007-230597

P2007-305567P2007-331337

P2009-514651

P2009-529542

P2010-071133P2010-133327

P2013-543962

●P2012-529007

独立して稼働する複数のブラシヘッド

複数の素材からなる植毛部

-1.0 -0.5 0.0 0.5 1.0

-0.5

0.0

z.iso$points[,1]

z.is

o$po

ints

[,2]

P1998-504407

P1998-527479

P1999-004280

P2000-283330

P2000-506854P2000-569668

P2000-583388P2001-097386

P2001-175368

P2001-392823

P2002-330721

P2002-543986

P2002-547404

P2003-364384

P2003-399429

P2003-537443

P2003-541492●P2004-309592

P2004-564887

P2005-166435●P2006-506950

P2006-520532

●P2006-526951

P2006-543711 P2007-190193

▲P2007-230595▲P2007-230596

▲P2007-230597

P2007-539408P2007-547776

P2009-058686

P2009-101416

P2009-529542

●P2009-545291

P2010-135325

P2010-164509

P2010-196521

P2011-533923

P2011-535193

P2013-521751

複数の素材からなる植毛部

11

Page 12: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

歯ブラシ 68 記載 93 立上り要素 13特徴 64 歯ブラシ 86 歯ブラシ 13こと 64 前記ヘッド 43 :歯清掃要素 35 前記歯クリーニング要素 36 該歯ブラシ 3前記歯清掃要素 32 歯クリーニング要素 33 :

P2004-309592 P2006-506950 P2009-545291

専門用語のノイズによる影響

TF TF TF

前記歯清掃要素 32 歯クリーニング要素 33 :: : :タフト 7 : :: : :回動 6 回転 24 旋回可能 1回動自在 5 : :: 回転自在 4 歯清掃要素 1: : 歯肉処置要素 1: ブリストルタフト 4 :

特許公報で多用される「前記」等を含む複合語も類似度計算結果に影響しているでは?

12

Page 13: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

ノイズ除去後の専門用語2

P1998-527479

P2000-583388

P2001-175368

P2002-543986

P2002-547404

▲P2003-541491

●P2004-309592

P2004-564887P2006-305601P2006-305628

●P2006-506950

●P2006-526951P2007-305567

P2009-159646P2009-159647

●P2009-545291

P2013-521751

P2013-543962

独立して稼働する複数のブラシヘッド

複数の素材からなる植毛部

-4 -2 0 2

-4-2

0

z.iso$points[,1]

z.is

o$po

ints

[,2]

P1998-504407

P1998-527479

P2000-506854

P2000-569668

P2002-543985

P2003-537443 P2003-541489

P2003-541491

P2003-541492P2003-541493

▲P2005-518932

P2006-543711

P2007-180265

P2007-230594▲P2007-230595▲P2007-230596▲P2007-230597

P2009-092056

P2009-529542

P2010-196521

P2011-148292P2011-533923P2011-533925

■P2011-535193

P2013-235956

P2014-105537

●P2012-529007

■P2009-514651

13

Page 14: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

関連技術が非類似となった理由

Term TF DF IDF TF*IDF 文書ヘッド 589 21 1.9 1100.0 P2009-514651|P2009-545291|P2011-535193他歯ブラシ 827 41 1.2 991.1 P2009-514651|P2011-535193 |P2013-521751他:          角度 99 17 2.1 205.8 |P2009-101416|P2011-533923|P2011-535193他外側 93 15 2.2 205.0 P2009-514651|P2011-533923|P2011-535193他

公報記載のテキスト情報からテキストマイニングして類似度を求める場合の限界?

外側 93 15 2.2 205.0 P2009-514651|P2011-533923|P2011-535193他上面 69 7 3.0 204.7 P2006-526951|P2009-514651|P2009-545291他フィラメント 41 5 3.3 135.4 P2007-539408|P2009-514651|P2010-196521他シェル 15 1 4.9 73.7 P2009-514651外形 10 4 3.5 35.3 P2009-514651|P2010-133327他円柱 3 2 4.2 12.7 P2007-331337|P2009-514651

P2011-535193毛の断面形状を特定

P2009-514651毛の側面形状を特定

14

Page 15: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

発表内容

検討に至った背景

用いたテスト集合

テキスト情報による公報間類似度

技術分類を併用した場合の類似度

まとめ

今後の課題

15

Page 16: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

③ 付与CPC分類の分布

65

① 付与IPC分類の分布

分類数:31

テスト集合に付与された分類

② 付与FI分類の分布

分類数:57

出現公報数

分類数

分類数:65文書数:平均 4.17

標準偏差 4.34

出現公報数

分類数

分類数:31文書数:平均 6.52

標準偏差 9.90

出現公報数

分類数

分類数:57文書数:平均 4.21

標準偏差 7.42

IPC,FI,CPCいずれの技術分類も、付与されている分類は適度にバラついている

(KHCoder使用)16

Page 17: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

CPC分類を選んだもう一つの理由

P atB ase Fam ily N o . IP C C P C IP C + C P C FI Fターム FI+ Fターム IP C + FI

12200988 0.0 0.0 0.0 0.0 0.0 0.0 0.0

20583692 0.0 0.0 0.0 0.0 0.0 0.0 0.0

20702345 0.0 0.0 0.0 3.6 8.0 1.6 0.0

21361742 0.0 0.0 0.0 0.0 0.0 0.0 0.0

28516322 0.0 0.0 0.0 0.0 0.0 0.0 0.0

テスト集合を各技術分類に基づいてクラスタリング(KHCoder使用)し、どの分類を利用したときに同一ファミリーに属する公報が同じクラスターに集結してくるかを確認した。

28813046 0.0 0.0 0.0 0.0 0.0 0.0 0.0

29773615 0.0 0.0 0.0 0.0 4.0 9.0 0.0

30061351 0.0 0.0 0.0 0.0 0.0 0.0 0.0

30666713 0.0 0.0 0.0 0.0 0.0 0.0 0.0

30951420 0.2 0.0 0.0 4.3 4.5 3.0 0.2

31037980 0.0 0.0 0.0 0.0 0.0 0.0 0.0

31058670 0.0 0.0 0.0 0.0 2.3 0.3 0.0

31410886 0.2 0.0 0.0 0.0 6.9 0.2 0.0

31770050 0.0 0.0 0.0 0.0 0.9 0.0 0.0

32017507 0.0 0.0 0.0 0.0 0.3 0.0 0.0

40970518 0.0 0.0 0.0 0.0 0.0 0.0 0.0

41657854 0.0 0.0 0.0 0.0 0.0 0.0 0.0

42066018 0.0 0.0 0.0 0.0 0.0 0.0 0.0

43352823 0.0 0.0 0.0 0.0 0.0 0.0 0.0

44976057 0.0 0.0 0.0 0.0 0.0 1.0 0.0

44989454 0.0 0.0 0.0 0.0 0.0 0.0 0.0

48463943 0.0 0.0 0.0 0.0 0.3 9.0 0.0

49983112 0.0 0.0 0.0 0.0 0.0 0.0 0.0

50550028 0.0 0.0 0.0 0.0 0.0 0.0 0.0

51342209 0.0 0.0 0.0 0.0 0.0 0.0 0.0

バラツキが無い=0バラツキが無い=0

17

Page 18: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

PATBASEの拡張ファミリー

:優先関係に繋がりがある限り、同一ファミリー

出願人が示唆した関連性

JP

JP JP

JPWO

WO

基本特許

一連技術の改良が進む

実施技術

US

導入特許

優先関係

18

Page 19: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

0.5

P2002-543985

P2002-547404

■P2009-514651

P2010-196521

●P2012-529007P2013-235956

専門用語#ノイズ+CPC分類

-1.0 -0.5 0.0 0.5

-0.5

0.0

z.iso$points[,1]

z.is

o$po

ints

[,2] P1998-504407

P1998-527479

P2000-506854

P2000-569668P2000-583388

P2001-175368

P2002-543986

P2003-537443

P2003-541489 P2003-541491

P2003-541492

P2003-541493

●P2004-309592

P2004-564887

▲P2005-518932

P2006-305601P2006-305628

●P2006-506950

●P2006-526951

P2006-543711

P2007-054703 AP2007-054715 P2007-180265

P2007-230594

▲P2007-230595▲P2007-230596

▲P2007-230597

P2009-092056P2009-159646

P2009-159647

■P2009-514651

P2009-529542

●P2009-545291P2011-148292

P2011-533923P2011-533925■P2011-535193

P2013-521751

P2013-543962

P2014-105537独立して稼働する複数のブラシヘッド

複数の素材からなる植毛部

19

Page 20: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

専門用語#ノイズ+CPC分類

独立して稼働する複数のブラシヘッド

●P2009-545291

P2003-537443

P2003-541492

P2003-541493

●P2004-309592

▲P2005-518932

●P2006-526951

P2007-180265

P2007-230594

▲P2007-230595▲P2007-230596

▲P2007-230597

P2009-092056P2009-159646

P2009-159647

P2011-533923P2011-533925

●P2006-506950

20

複数の素材からなる植毛部

独立して稼働する複数のブラシヘッド

Page 21: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

専門用語#ノイズ+CPC分類

独立して稼働する複数のブラシ

中間エリアの公報文献:独立して稼働する複数の素材からなる植毛部を有するブラシヘッド

中間エリアの公報文献:独立して稼働する複数の素材からなる植毛部を有するブラシヘッド

●P2009-545291

P2003-537443

P2003-541492

P2003-541493

●P2004-309592

▲P2005-518932

●P2006-526951

P2007-180265

P2007-230594

▲P2007-230595▲P2007-230596

▲P2007-230597

P2009-092056P2009-159646

P2009-159647

P2011-533923P2011-533925

独立して稼働する複数のブラシヘッド

複数の素材からなる植毛部

●P2006-506950

21

Page 22: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

発表内容

検討に至った背景

用いたテスト集合

テキスト情報による公報間類似度

技術分類を併用した場合の類似度

まとめ

今後の課題

22

Page 23: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

まとめ

テキストマイニングによる公報間類似度マップの作成において、

・公報に多用されるノイズを強制排除 して専門用語を抽出すると、目視判断に近い 結果を得ることができた。

しかし、関連技術であっても使用される用語や語数が異なると非類似と計算されてしまった。そこで、・・・

・テキスト情報に 技術分類情報を併用することに

よりほぼ目視判断に近いレベルにまでマップを改善する事ができた。

23

Page 24: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

今後の課題

今回の検討では、目視判断との差異を確認する都合上、意図的にテスト集合を用意した。そのため、

・他の技術分野でも同様の結果が得られるのか・スケールUPした場合でも同様の精度が得られるか

等についても、今後、確認していく必要がある。

また、専門用語の重み付けに関しても、・文書単位だけでなく、技術分類単位*等でも評価したい。

*Konishi, K.; Kitauchi; A. and Takaki, T. Invalidity Patent Search System of NTT DATA. Proceedings of the 4th NTCIR Workshop. 2004. 24

Page 25: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

謝辞

本報告は、2015年度の「アジア特許情報研究会」のワーキングの一環として報告するものであり、研究会の皆様には多くの情報提供及び数々のアドバイスを頂きました。 ここに改めてお礼申し上げます。

25

Page 26: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

参考資料

26

Page 27: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

CPC分類説明文による公報間類似度0.

60.

81.

0 P2006-506951

電動歯ブラシのヘッド部関連技術が一箇所に集まってしまった

P1997-504125

P1998-504407

P2003-541491

P2003-541492

-0.2 0.2 0.4 0.6 0.8 1.0

-0.4

-0.2

0.0

0.2

0.4

0.6

z.iso$points[,1]

z.is

o$po

ints

[,2]

P1997-504125P1998-504407P2003-541491P2003-541492P2004-309592P2005-518932P2006-506950P2007-230595-7

P2009-514651

P2009-545291P2011-533923

P2011-535193

P2012-529007

0.0

P2009-514651

P2011-535193

P2003-541492

P2004-309592

P2005-518932

P2006-506950

P2007-230595

P2009-545291

P2011-533923

P2012-529007

P2007-230596

P2007-230597

27

Page 28: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

テキスト情報

+技術分類併用

28

Page 29: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

0.5

P2002-543985

P2002-547404

■P2009-514651

■P2011-535193

●P2012-529007P2013-235956

P2014-105537

専門用語#ノイズ+CPC&IPC分類

-1.0 -0.5 0.0 0.5

-0.5

0.0

z.iso$points[,1]

z.is

o$po

ints

[,2] P1998-504407

P1998-527479

P2000-506854

P2000-569668P2000-583388

P2001-175368

P2002-543986

P2003-537443

P2003-541489 ▲P2003-541491

P2003-541492

P2003-541493

●P2004-309592

P2004-564887

▲P2005-518932

P2006-305601P2006-305628

●P2006-506950

●P2006-526951

P2006-543711

P2007-054703P2007-054715

P2007-180265

P2007-230594

▲P2007-230595▲P2007-230596

▲P2007-230597

P2009-092056P2009-159646P2009-159647

P2009-529542

●P2009-545291

P2010-196521

P2011-148292

P2011-533923P2011-533925

P2013-521751

P2013-543962

複数の素材からなる植毛部

独立して稼働する複数のブラシヘッド

29

Page 30: テキストマイニングによる 公報間類似度マップの検討patentsearch.punyu.jp/asia/INFOPRO2015_A21.pdf · テキストマイニング処理の流れ テスト集合

0.2

0.4

P2001-175368

P2003-541489

▲P2003-541491P2003-541492

P2003-541493

●P2004-309592

P2004-564887

●P2006-506950

P2006-543711

P2007-054703P2007-054715

P2007-180265P2007-230594

▲P2007-230597

P2007-305567

P2009-529542●P2009-545291

P2011-148292

専門用語#ノイズ+関連文献情報*

*DWPIファミリー、同引用・彼引用、同関連出願の各情報

-0.4 -0.2 0.0 0.2

-0.6

-0.4

-0.2

0.0

z.iso$points[,1]

z.is

o$po

ints

[,2]

P1998-504407

P1998-527479

P2000-506854

P2000-569668P2000-583388

P2002-543985

P2002-543986

P2002-547404

P2003-537443

▲P2005-518932

P2006-305601P2006-305628

●P2006-526951▲P2007-230595▲P2007-230596

▲P2007-230597

P2009-092056P2009-159646

P2009-159647

■P2009-514651

P2010-196521

P2011-533923P2011-533925

■P2011-535193

●P2012-529007P2013-235956

P2013-521751

P2013-543962

P2014-105537

30