MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習同志社大学

2018/6/17

1

MTMineRを用いたテキストマイニング演習MTMineRを用いたテキストマイニング演習

同志社大学文化情報学研究科データサイエンス研究室

2018.6.10 MK102

1

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド，ネットワーク分析

教師なし分析

教師あり分析

目録

22

2018/6/17

2

MTMineR の概要

データ集計


形態素解析

構文解析

Rによる分析

特徴抽出


教師なし分析

教師あり分析

目録

33

MTMineR の概要

MTMineR (Multilingual Text Miner with R) ：

テキスト型データを構造化して，Rを用いて統計的

に分析を行うソフトウェア

文学作品・アンケートの自由記述・新聞記事など多

種類のテキストの処理やデータの集計，解析等

4 4

2018/6/17

3

MTMineR の機能

5

日本語・英語・中国語・韓国語・ドイツ語・フランス語の多種類言語のテキスト

クリーニング・検索・整形・集計・解析

MTMineR の機能

6

クリーニング・検索・集計などプレーンテキスト

形態素解

構文解析

形態素解析器日本語：JUMAN,

ChaSen, MeCab 中国語：NLPIR 英語・ドイツ語・フラ

ンス語：TreeTagger

構文解析器

日本語：CaboCha

2018/6/17

4

MTMineR の機能

7

データの処理と分析機能

データの変換データの視覚化：ワードクラウド,ネットワーク,折れ

線グラグなど語彙の豊富さ指標の計算と特徴語抽出教師なしの分析方法教師ありの分析方法

MTMineR の概要

データ集計


形態素解析

構文解析

Rによる分析

特徴抽出


教師なし分析

教師あり分析

目録

88

2018/6/17

5

データ収集(プレーンテキスト)MTMineR5.4_64_20180528.zipファイルを解凍して

開く

[MTMineR_WithMyPC.bat]

[MTMineR_WithTools.bat]

[MTMineR5.4.jar]

⇒MTMineRを開く

9

データ収集(プレーンテキスト)テキストの読み込み

フォルダ[sample]

⇒ [Japanese]

⇒ [所信表明演説]

「安倍.txt」「安倍2.txt」「安倍3.txt ｣「菅.txt」「鳩山.txt」「福田.txt」「麻生.txt ｣「野田.txt ｣

10

2018/6/17

6

データ収集(プレーンテキスト)テキストの読み込み

11

File List:

テキストの読み込み

Summary:

テキストの要約

N-gram:

n-gramデータの集計

Length :

文・段落・リズムの長さ

Mark:

特定文字・記号の集計

KWIC:

クウィック検索

Tools:

テキストの整形12

MTMineRの機能(プレーンテキスト)

2018/6/17

7

KWIC （クウィック検索）

KWIC:

(Keyword in Context)

指定したキーワードの前後の文脈を原文から抽出

「No.Left」「No.Right」

前後の文脈長さの指定

13

正規表現による検索

N-gram

n-gram

テキストにおけるある言語単位（文字や形態素、品詞など）が1単位または2単位，3単位などN単位が隣接して生じる言語単位

Unigram(n=1)，Bigram(n=2)，Trigram(n=3)

Fourgram(n=4)，Fivegram(n=5)・・・

文字・記号

形態素

品詞

文節

など

14

2018/6/17

8

N-gram文字単位のn-gram

Ngram Type(n=1,…,6)

Unigram(n=1)

⇓

Sixgram(n=6)

Ngram Extraction Type

Sentence：文ごと

「。_文頭文字」×

Text：文章ごと

Cutoff（閾値）:

データセットのサイズの

コントロール15

N-gram

文字単位のbigram

ステップ

① Bigram(n=2)

② Sentence

③ Cutoff(10)

④ Tab Format

⑤ File in row

⑥ Processing

16

2018/6/17

9

MTMineR の概要

データ集計


形態素解析

構文解析

Rによる分析

特徴抽出

ネットワーク分析

教師なし分析

教師あり分析

目録

1717

タグ付きテキストについてFormat⇒Tagged Text

整形したタグ付きtext [tagged]⇒テキスト読み込

み⇒データ集計

形態素解析済みtext MeCabで解析⇒[MeCab]

ChaSenで解析⇒[ChaSen]

JUMANで解析⇒[JUMAN]

⇒テキスト読み込み⇒デー

タ集計

プレンテキスト

⇒テキストを読み込む⇒形

態素解析⇒データ集計18

2018/6/17

10

日本語の形態素解析

ステップ：

① 形態素解析器を選ぶ

(MeCab, ChaSen, JUMAN)

② 「Call POS Tag」☑

③ 「POS Processing」

④ Tag名前の変更(必要な場合)

⑤ 「Comfirm」

19

日本語の形態素解析

Tagged：形態素解析済みデータ

Retagged:整形したデータ

20

MTMineRを閉じると,「tmp」は自動的に削除されるため,必要に応じて各自保存する

2018/6/17

11

File List:

テキストの読み込み

Summary:

テキストの要約

N-gram:

n-gramデータの集計

Length :

形態素・品詞などの長さ

Mark:

特定形態素・品詞などの集計

KWIC:

クウィック検索

Tools:

テキストの整形

21

MTMineRの機能(タグ付きテキスト)

KWIC (クウィック検索)

KWIC:タグ付きテキストから指定したキーワードの前後の文脈

入力形式：

例：国民＜一般名詞＞

22

2018/6/17

12

N-gramProcessing Type:データの種類の指定

タグ(Tag）形態素（Word）タグ付き形態素（Word Tag）

Ngram Type

Unigram(n=1)

⇓

Sixgram(n=6)

N-gram Extraction type

Sentence：文ごと

「句点_品詞」×

Text：文章ごと23

N-gram

24

[All Tag Processing]

すべてのデータを集計

[Selecting Tag]⇒[Pointed Tag Processing]

指定したデータのみ集計

2018/6/17

13

MTMineR の概要

データ集計


形態素解析

構文解析

Rによる分析

特徴抽出


教師なし分析

教師あり分析

目録

25

25

構文解析Data Format⇒ParserParsed Text:

整形したテキスト

構文解析済みテキスト

Plain Text:Plain Text「POS Processing」

N-gram文節のn-gram

Condi-n-gram条件付きn-gram

Co-occurrence文節の共起

26

2018/6/17

14

構文データの集計N-gram:

Processing Type:

データの種類の指定

タグ(Tag）

形態素（Word）

タグ付き形態素

（Word Tag）

27

構文データの集計Condi-n-gram:条件付き文節のn-gram

指定した属性のn-gramの中から一部の属性データを除外する集計方法

複合語を含めた形態素より長い単位の語句の集計

例：

[Selecting POS]「名詞」

[Remove POS]「助詞」

⇒「国際社会」「社会保障」「経済成長」のような複合語

28

取り除きたい属性

指定したい属性

2018/6/17

15

構文データの集計Co-occurrence:

文節の共起

集計形式：① Pattern

② Word

共起抽出方法：

① Dependency：

係り受け先を考慮

② Co-occurrence：

係り受け関係を考慮せず

29

指定したタグを形態素の形式で表示

英語の形態素解析Language⇒English Data

Format⇒Tagged Text

ステップ：

① TreeTagger

② 「Call POS Tag」③ 「POS Processing」④ Tag名前の変更

(必要な場合)

⑤ 「Comfirm 」

30

2018/6/17

16

英語の形態素解析

• Prototypeを選択しない

[単語/タグ]

• Prototypeを選択

[単語の原型/タグ]

単語タグ単語の原型

31

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴抽出


教師なし分析

教師あり分析

目録

32

32

2018/6/17

17

特徴抽出

33

特徴抽出2群及び多群のものに関してグループ間に差がある

ものを抽出をすることでそれぞれの特徴をみる

演習MTMineRの中にある三島由紀夫と川端康成の作品

について、一般名詞の特徴を考察してみる

○フォルダ[sample]⇒[Japanese]⇒[川端・三島]

特徴抽出

34 34

データ集計・準備（1）一般名詞の集計（2）集計データをRに読み込み

＊（3）度数データを相対頻度データに変換

特徴量抽出Chi-square Test (カイ二乗統計量）Likelihood Ratio Test (尤度検定統計量）Mahalanobis’ Distance （マハラノビス距離）Mean Accuracy （RFのMean Decrease Accuracy）Mean Gini(RFのMean Decrease Gini）Kruskal-Wallis （クラスカル・ウォリス検定統計量）

2018/6/17

18

特徴抽出

35

・解析器選択：Mecab

・「Call POS Tagger」にチェック

・「POS Renaming」をクリック

・処理の種類：Word

・cutoff 値設定：10

・集計対象タグの選択：一般名詞

・集計実施（Pointed Processinｇ）

（１）一般名詞の集計

特徴抽出

36

（2）集計データをRに読み込み *（3）度数データを相対頻度データに変換

2018/6/17

19

特徴抽出

37

メニュー［Indexes] ⇒［Features］

データ選択「meishi」

チェックを入れ，個体を指定

グループを指定

グループの名前を記述

手法選択

特徴抽出

38

2018/6/17

20

特徴抽出

39

変量指定

Barplot:棒グラフScatterplot:散布図

グラフのタイトル，色，グラフ周辺のマージン，ラベルの文字列の方向を指定

特徴抽出

40

・川端の特徴

母，銀，曲玉，墓，平

娘，妻

・三島の特徴

夫人，少年

2018/6/17

21

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴量抽出


教師なし分析

教師あり分析

目録

41

41

ワードクラウド

42

ワードクラウド文章中で出現頻度が高い単語をその頻度に応じた大きさで図示する方法

演習MTMineRの中にある各首相の所信表明演説文

についてワードクラウドで考察せよ．

○フォルダ[sample]⇒[Japanese]

⇒ [所信表明演説]の「安倍.txt」「福田.txt」「麻生.txt ｣

「安倍.txt」「福田.txt」「麻生3.txt ｣

2018/6/17

22

43


（１）名詞の集計






・集計対象タグの選択：一般名詞，

固有名詞


44


→メニュー［plot] ⇒［Word Croud］（2）集計データをRに読み込み

安安

福福

菅

野福

鳩鳩

麻麻

政政国国

国

人

大大大経経

地地皆皆

皆ささ

社社

原原危危

環環

予予

地方

世世

財政

国国立立

責責事事段段

一人ひひひ

行政

分野

政政

あひ地

事事

政政

エエエエエ

年年

活活

医医

状状

目目

産事

内内

課課

具具

人人

戦戦

景景

需需

我が国

構構首首

ききき

社社

法法

心

皆ささ

取ひ組み

世世

取組

いいい

財財

官官

市国

世世

夏

基基年年ひ

先麻

能活

日基人

リエリエリリリ

手段

議社

未未

原原活

道

視視自分

総総

暮らら

若若

自政具

時世

外外

憲法

空空

目

イイイエリイイ

おおあささ住住

居立居

税年

文文

平平

住住

一具

全活

地地

らがらみ

年

既既権権

基地

ＮＮＮ

住国

中中食食

企事

誇ひ

家家

かかい

先

大大

住職

志

総事

人方

高高

国民

具体

情情

情情

次

人民

ミミイエ

名

否

底活

法

第第第

論論

諸諸零零

考え地

中民

円

周周

絆

国社

全国

事若

技技

エエエ

外国

地地

官官役役地地自政具

強み

声

テテ

人人

下ＧＧＮ

税

大災

早早

被災

資年

権権

手

政政

規規

重視

見見ら

家家

主第

内外

次世世

都社

各国

国国

観視

農事

学活

魅活

公公

与野政

抜基

あきらあチイエチ使い道出出

友友

工立友

政職

根基

笑笑親

税体

学学

危機

具体

居所

最大自自

道道

地方

ボボイテボボ

全全

実実

水産

体制

年制

感情

姿情

科学

活

国国

漁事

物実需需

正規

立

喫喫

海海

街

ガガ

国主

伝伝

省省

悲らみ

年金

全全

各各

中心

パエパパエ

ボイラ

条条

麻物

資資

権世

原どど

同同

命

不所

海外

都市

精精

法

先先

公

効効

市立

政権

内官

救救

人人

怒ひ

豪豪

ビビイイ

レイエ

在ひ地

歳出

議議

喜び

目目

部部

基本

国家

身

視野

歴歴

野政

諸国

やや景

チチイガ

ラリエフエ

ブボイブ

例

勝い叡叡

食実

少原文

現行

麻さま

産食負け

資産

少原

思い

姿

全

個人

原視

事職

規規

農農

リガチ

正全

基部

国職

実

総理

利権

イイフエエリイ

汗

民

両国教議

国民

活活

国内

効効

2018/6/17

23


45

ネットワーク分析さまざまな対象を点と線からなるネットワークで表現構造的な特徴を探る

演習MTMineRの中にある安倍総理の所信表明演説文

についてネットワーク分析を行う

○フォルダ[sample]⇒[Japanese]

⇒ [所信表明演説]の「安倍.txt」「安倍2.txt」「安倍3.txt ｣

46


・Data Format：Parser

・Plain Text を選択


非自立名詞を形式名詞と変更



・集計対象タグ：名詞，形容詞

・集計除外タグ：助詞，形式名詞


（１）名詞，形容詞の共起関係の集計

2018/6/17

24

47


4

4

3

3

3

3

2

2

2

2

22

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

1

1

1

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

「意志

「美らい

「強い

国国

昨年

「三基

すすす

デラレ

一一

世世全す

国

国家国国

基基目人権、

外外・安全安安政政

大事き

安全で

平平

我が国

戦戦目き

新らい

国主主第、

自所

自自、

自自き若い

安災

額

２２世世

〇・八三安だだか

「おいらお、

「ねさきさ定早定」

「世世

「人麻

「住さい

「公」

「中学学

「日基日

「暮らら

「筋筋実

「経経経麻」

「自ら

「西国さいさお

「大大震震」

『我方自身おおあささ

お原ささ

活」

国、

経経」

国」

皆皆皆びび

末

矢」、

円高

手手

安定拉拉被災若

地地

かあ

法

立す見ら

隣国です。

おいらい

叡叡

外外

時世

誇ひ

社社世世

有有

汗ら

ふさふらい

有効有人安効、

日基産食」

仕組み

中心、活活らやすい

リガチ

震震工復復」

担い手

建す欲らい

社社安安体制」

安心・地地活活文」政政」

国国ひ

活

立志立

「危危危総」

手

お母ささ

友情、

→メニュー［plot] ⇒［Graph plot］（2）集計データをRに読み込み

ネットワーク分析(tkplot)

〇R Console1. データを変換

2. 色の指定：“red”,”blue”等

3. 図を出力

> abe <- graph.data.frame(kyouki[1:50,])

> V(abe)$color <- “skyblue”

> tkplot(abe)

48

2018/6/17

25


49

ネットワーク分析(次数が高いもの)

〇R Console>ng <- neighborhood(abe,1,sort.list

(degree(abe),decreasing=TRUE)[1:10])

>z.sub <- c(ng[[1]])

>for(i in 2:10){

z.sub<-c(z.sub,ng[[i]])

}

>zisuu <- induced.subgraph(abe,z.sub)

>zisu <- simplify(zisuu)

>tkplot(zisu)

50

2018/6/17

26


51

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴量抽出


教師なし分析

教師あり分析

目録

52

52

2018/6/17

27

教師なし分析

53

教師なし分析目的変数なしの分析方法

演習MTMineRの中にある三島由紀夫と川端康成の作品に

ついて教師なし手法を用いて分析せよ

○フォルダ[sample]⇒[Japanese]⇒[川端・三島]

教師なし分析

54

データ集計・準備（1）データの集計（2）集計データをRに読み込み

＊（3）度数データを相対頻度データに変換

分析手法Principal Components Analysis （主成分分析）Correspondence Analysis （対応分析）Hierarchical Clustering （階層的クラスター分析）K-means Clustering （K-meansクラスタリング）Multidimensinal Scaling （多次元尺度法）Partitioning Around Medoids （k-medoids 法）Latent Dirichlet Allocation （潜在的ディリクレ配分法）

2018/6/17

28

教師なし分析

55

データ集計・準備（1）助詞のunigramの集計






・集計対象タグの選択：助詞全般


主成分分析

56

主成分分析多次元のデータをデータの損失をなるべく少なくし，低次元に縮約，データの概要を把握○量的データを用いる

→相対度数データ

Centerのみにチェック→分散共分散行列Center とScale両方にチェック→相関行列

2018/6/17

29

主成分分析

57

主成分分析第2主成分までのプロット

-6 -4 -2 0 2 4

-4-2

02

4

PC1(45.88%)

PC

2(17

.63%

)

かさたらK_

みみみみK_

経再若K_

中小日K_

少年K_

岩び菊K_

事故K_

横横K_

自自K_

豪い日K_

孤孤孤方M_

家家家家M_

携携携M_月M_

効実M_

海ひ夕夕M_

詩を書お少年M_

近世近景実M_

遠遠社M_

鴛鴛M_

-0.4 -0.2 0.0 0.2 0.4 0.6

-0.6

-0.4

-0.2

0.0

0.2

0.4

PC1(45.88%)

PC

2(17

.63%

)

は

す

び

を

が

ひ

ど

で

から

へ

いひいみ

きがら

おいで

さでほどだけ

かどきどよひ

ひらす

らでどおかひいび

けまどどびにいすらかひどさえびよだすびひだすきにきいみおらいび対すやけここだひきさかびにますだだすどいいやよだすすぐらいきひやらを以すかららねを一らすからびはけまどににひかいみびかいすやび対らすび機すやさかだすひひどびきさすびかけすびかいらすすらぜどどきなびおいすびすび従だすび機らすさでヘらどじじないじすいみひいだかひいふひ公びどこどかきさなびあかやびにけびにまびよやび従いねさおからおだかひふをあぐだすを一じす之復迄

PC1 PC3 PC5 PC7 PC9 PC12 PC15 PC18

Cumulative ProportionProportion of Variance

020

4060

8010

0

対応分析

58

対応分析多次元のデータをデータの損失をなるべく少なくし，低次元に縮約，データの概要を把握○質的データを用いる

→度数データ

2018/6/17

30

対応分析

59

対応分析

第2軸までのバイプロット

赤：変数（助詞のunigram）黒：作品

類似しているものは近くに配置

-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

First Score

Sec

ond

Sco

re

かさたらK_

みみみみK_

経再若K_ 中小日K_

少年K_

事故K_

横横K_

自自K_豪い日K_

孤孤孤方M_ 家家家家M_

携携携M_

月M_

効実M_

海ひ夕夕M_詩を書お少年M_

近世近景実M_

遠遠社M_鴛鴛M_

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

はすど

がひできがら

からお

いでさで

ほど

だけ

かど

きどら

でどおかひ

いび

けまどど

らか

ひど

さえ

きにき

いみ

おらい

け

ここ

きさか

階層的クラスター分析

60

階層的クラスター分析異なる性質が混ざった集団から，互いに似た性質の

ものを集めクラスターを作成

距離Euclidian， MaximumManhattan， CanberraBinarySymmetric Chisq distCosain disSymmetric KLD distStandard Euclidian Jaccard dist

結合方法ward.D2SingleCompleteAverageMcquittyMedianCentroid

2018/6/17

31


61


携携携

M_

近世近景実

M_

孤孤孤方

M_ 家家家家

M_

海ひ夕夕

M_

月M

_ 効実

M_ 遠遠社

M_

鴛鴛

M_ 少年

K_ 岩び菊

K_

詩を書お少年

M_

自自

K_ 事故

K_ 豪い日

K_ かさたら

K_ みみみみ

K_

経再若

K_ 中小日

K_

横横

K_

0.10

0.20

0.30

0.40

Cluster Dendrogram

hclust (*, "ward.D2")ld

Hei

ght

教師なし分析

62

データ集計・準備（1）品詞タグのbigramの集計




・処理の種類：Tag


・集計実施（All Tag Processinｇ）

2018/6/17

32

階層的クラスター

63


非階層的クラスター分析

64

非階層的クラスター分析異なる性質が混ざった集団から，互いに似た性質のものを集めクラスターを作成→階層構造を持たず，あらかじめいくつのクラスターに分けるか設定例）今回は川端と三島の2群であるため，

2クラスターと設定

分析手法○K-means Clustering （K-meansクラスタリング）○Partitioning Around Medoids （k-medoids 法）

2018/6/17

33

非階層的クラスター

65

k-medoids 法

トピックモデル

66

トピックモデル文章データ群から，各文章の主題（トピック）を

判断するためのモデルを構築例）ホームラン，キャッチャー → 「野球」

○LDA(潜在的ディリクレ配分法)多次元のデータをデータの損失をなるべく少なくし，低次元に縮約，データの概要を把握

○フォルダ[sample]⇒[Japanese]⇒[作文]

三つのテーマで書いた11人の作文

2018/6/17

34


67

LDA

yuka

2ta

ka2

ori5

ori2

oota

2m

ari2

kum

i2ka

to2

kana

2ak

ke2

atak

a2yu

ka5

taka

5oo

ta5

nogu

5m

ari5

kum

i5ka

to5

kana

5ak

ke5

atak

a5yu

ka9

taka

9or

i9oo

ta9

nogu

9no

gu2

mar

i9ku

mi9

kato

9ka

na9

akke

9at

aka9

01

23

45

Cluster Dendrogram

hclust (*, "ward.D2")dist(x, method = "euclidean")

Hei

ght

他

実家

イトト

外一

ガスエブ

人

人民

自分

事事

車

Topic 1

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35


68

LDA

パイ

さ飯

自分

国

人

平食

日基人

寿寿

文文

食

Topic 2

0.00

0.02

0.04

0.06

0.08

0.10

親友

チボガ

高学

言言

大学

グエエリ

友人

自分

人

友友

Topic 3

0.00

0.05

0.10

0.15

0.20

0.25

2018/6/17

35

MTMineR の概要

データ集計


形態素解析

構文解析

Rによる分析

特徴抽出


教師なし分析

教師あり分析

目録

69

69

教師あり分析データ集計:

MTMineR → sample

中国語

英語

日本語• 川端康成 10編• 三島由紀夫 10編

韓国語

形態素解析済みのテキスト→Tagのunigram

cutoff=070

2018/6/17

36

教師あり分析データ変換:

Proportion in Each Row

Processing

Data “temp.tra” is added into R→OK

Select Data:

[temp.tra]

71

教師あり分析ラベル設定:

ステップ：

① グループの指定

② ラベルを付ける

③ OK → ラベル付き

データセットが完成

④ 作成したデータセット

temp.tra.groupedを[Select Data]で指定

72

2018/6/17

37

教師あり分析タブSupervisedには教師ありの機械学習法が実装されている

CART C5.0 k-Nearest Neighbour RandomForest SVM (support vector machine) LDA (Linear Discriminant Analysis) HDDA (High-Dimensional Discriminant Analysis)

MTMineR の中の各分析方法における関数およびパラメータはRと同様であるため、必要であれば各パッケージのサイト

にご確認ください

73

CART (決定木)決定木：

テキストの分類や回帰分析を行う機械学習法の一つ，変数を分岐頂点とし，葉を予測値とした樹状構造の統計モデル

特徴：

ノンパラメトリックな教師あり学習方法

解析対象のデータの分布を仮定しない事前に与えられたデータから未知のデータを推定

74

2018/6/17

38

CART (決定木)

イメージ：

75

降水確率40％

所持金2000年以上

課題の数3以上

図書館に行く

映画館に行く

ゲームをする

課題を終わらせる

NO

NO NO

Yes

YesYes

CART (決定木)長所：

可読性が高い木が生成されるイメージで結果を出力し，わかりやすい

説明変数・目的変数共に名義尺度・間隔尺度など様々データの対応

外れ値に対して頑健

短所：分類性能の高い手法ではない過学習を起こしやすい

パラメータの調整や枝の刈り込みを上手に行う必要

76

2018/6/17

39

各パラメータはRパッケージ

の中の名前と同じであるので,各パッケージのサイトに確認

パラメータを変換することで,異なるプロットが描かれる

77

CART (決定木)

Random Forest

決定木を複数組み合わせ、各決定木の予測結果を多数決することによって結果を得る

アルゴリズム：

① ランダムにデータを抽出する

② 決定木を成長させる

③ ステップ①②を指定回繰り返す

④ 予測結果を多数決することによって分類ラベ

ルを決定する

78

2018/6/17

40

長所：

考慮するパラメータが少ない

主なパラメータ：

① サンプリング数

② 決定木を成長させる際に使用する変数の数

重要度の高い変数を出力できる

短所：

データが少ない場合は、分類精度が高くない

79

Random Forest

Random Forest Summary: 要約の出力

Print: OOBでの予測結果

Accurary rate:正解率

Plot:木の数と誤り率との対応図

Important: 変数重要度の計算

VarImpPlot: 分類における変数

の重要度のランキング

Testing: 予測

LOOCV：Leave-one-outを行う

Arrange the Discrimination Maker:

Mean Decrease Accuracyによる変

数重要度に基づき、変数を降順で

ソートし、結果をarrangeに入れる

Feature Selection:テキスト分類に用いるべき変数の

数を決める

80

2018/6/17

41

Random ForestOOB：out-of-bag

81

Random Forestでは、

各決定木で異なるサンプルを使って学習する。

学習データのうち、平均的に約1/3のデータは学習に使われない、それをOOBと呼ぶ

Random Forest変数重要度の結果

82

2018/6/17

42

ご清聴ありがとうございましたご清聴ありがとうございました

83

Documents

MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習同志社大学