View
3
Download
0
Category
Preview:
Citation preview
2018/6/17
1
MTMineRを用いたテキストマイニング演習MTMineRを用いたテキストマイニング演習
同志社大学 文化情報学研究科データサイエンス研究室
2018.6.10 MK102
1
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
22
2018/6/17
2
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
33
MTMineR の概要
MTMineR (Multilingual Text Miner with R) :
テキスト型データを構造化して,Rを用いて統計的
に分析を行うソフトウェア
文学作品・アンケートの自由記述・新聞記事など多
種類のテキストの処理やデータの集計,解析等
4 4
2018/6/17
3
MTMineR の機能
5
日本語・英語・中国語・韓国語・ドイツ語・フランス語の多種類言語のテキスト
クリーニング・検索・整形・集計・解析
MTMineR の機能
6
クリーニング・検索・集計など プレーンテキスト
形態素解
構文解析
形態素解析器 日本語:JUMAN,
ChaSen, MeCab 中国語:NLPIR 英語・ドイツ語・フラ
ンス語:TreeTagger
構文解析器
日本語:CaboCha
2018/6/17
4
MTMineR の機能
7
データの処理と分析機能
データの変換 データの視覚化:ワードクラウド,ネットワーク,折れ
線グラグなど 語彙の豊富さ指標の計算と特徴語抽出 教師なしの分析方法 教師ありの分析方法
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
88
2018/6/17
5
データ収集(プレーンテキスト)MTMineR5.4_64_20180528.zipファイルを解凍して
開く
[MTMineR_WithMyPC.bat]
[MTMineR_WithTools.bat]
[MTMineR5.4.jar]
⇒MTMineRを開く
9
データ収集(プレーンテキスト)テキストの読み込み
フォルダ[sample]
⇒ [Japanese]
⇒ [所信表明演説]
「安倍.txt」「安倍2.txt」「安倍3.txt 」「菅.txt」「鳩山.txt」「福田.txt」「麻生.txt 」「野田.txt 」
10
2018/6/17
6
データ収集(プレーンテキスト)テキストの読み込み
11
File List:
テキストの読み込み
Summary:
テキストの要約
N-gram:
n-gramデータの集計
Length :
文・段落・リズムの長さ
Mark:
特定文字・記号の集計
KWIC:
クウィック検索
Tools:
テキストの整形12
MTMineRの機能(プレーンテキスト)
2018/6/17
7
KWIC (クウィック検索)
KWIC:
(Keyword in Context)
指定したキーワードの前後の文脈を原文から抽出
「No.Left」「No.Right」
前後の文脈長さの指定
13
正規表現による検索
N-gram
n-gram
テキストにおけるある言語単位(文字や形態素、品詞など)が1単位または2単位,3単位などN単位が隣接して生じる言語単位
Unigram(n=1),Bigram(n=2),Trigram(n=3)
Fourgram(n=4),Fivegram(n=5)・・・
文字・記号
形態素
品詞
文節
など
14
2018/6/17
8
N-gram文字単位のn-gram
Ngram Type(n=1,…,6)
Unigram(n=1)
⇓
Sixgram(n=6)
Ngram Extraction Type
Sentence:文ごと
「。_文頭文字」×
Text:文章ごと
Cutoff(閾値):
データセットのサイズの
コントロール15
N-gram
文字単位のbigram
ステップ
① Bigram(n=2)
② Sentence
③ Cutoff(10)
④ Tab Format
⑤ File in row
⑥ Processing
16
2018/6/17
9
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ネットワーク分析
教師なし分析
教師あり分析
目録
1717
タグ付きテキストについてFormat⇒Tagged Text
整形したタグ付きtext [tagged]⇒テキスト読み込
み⇒データ集計
形態素解析済みtext MeCabで解析⇒[MeCab]
ChaSenで解析⇒[ChaSen]
JUMANで解析⇒[JUMAN]
⇒テキスト読み込み⇒デー
タ集計
プレンテキスト
⇒テキストを読み込む⇒形
態素解析⇒データ集計18
2018/6/17
10
日本語の形態素解析
ステップ:
① 形態素解析器を選ぶ
(MeCab, ChaSen, JUMAN)
② 「Call POS Tag」☑
③ 「POS Processing」
④ Tag名前の変更(必要な場合)
⑤ 「Comfirm」
19
日本語の形態素解析
Tagged:形態素解析済みデータ
Retagged:整形したデータ
20
MTMineRを閉じると,「tmp」は自動的に削除されるため,必要に応じて各自保存する
2018/6/17
11
File List:
テキストの読み込み
Summary:
テキストの要約
N-gram:
n-gramデータの集計
Length :
形態素・品詞などの長さ
Mark:
特定形態素・品詞などの集計
KWIC:
クウィック検索
Tools:
テキストの整形
21
MTMineRの機能(タグ付きテキスト)
KWIC (クウィック検索)
KWIC:タグ付きテキストから指定したキーワードの前後の文脈
入力形式:
例:国民<一般名詞>
22
2018/6/17
12
N-gramProcessing Type:データの種類の指定
タグ(Tag)形態素(Word)タグ付き形態素(Word Tag)
Ngram Type
Unigram(n=1)
⇓
Sixgram(n=6)
N-gram Extraction type
Sentence:文ごと
「句点_品詞」×
Text:文章ごと23
N-gram
24
[All Tag Processing]
すべてのデータを集計
[Selecting Tag]⇒[Pointed Tag Processing]
指定したデータのみ集計
2018/6/17
13
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
25
25
構文解析Data Format⇒ParserParsed Text:
整形したテキスト
構文解析済みテキスト
Plain Text:Plain Text「POS Processing」
N-gram文節のn-gram
Condi-n-gram条件付きn-gram
Co-occurrence文節の共起
26
2018/6/17
14
構文データの集計N-gram:
Processing Type:
データの種類の指定
タグ(Tag)
形態素(Word)
タグ付き形態素
(Word Tag)
27
構文データの集計Condi-n-gram:条件付き文節のn-gram
指定した属性のn-gramの中から一部の属性データを除外する集計方法
複合語を含めた形態素より長い単位の語句の集計
例:
[Selecting POS]「名詞」
[Remove POS]「助詞」
⇒「国際社会」「社会保障」「経済成長」のような複合語
28
取り除きたい属性
指定したい属性
2018/6/17
15
構文データの集計Co-occurrence:
文節の共起
集計形式:① Pattern
② Word
共起抽出方法:
① Dependency:
係り受け先を考慮
② Co-occurrence:
係り受け関係を考慮せず
29
指定したタグを形態素の形式で表示
英語の形態素解析Language⇒English Data
Format⇒Tagged Text
ステップ:
① TreeTagger
② 「Call POS Tag」③ 「POS Processing」④ Tag名前の変更
(必要な場合)
⑤ 「Comfirm 」
30
2018/6/17
16
英語の形態素解析
• Prototypeを選択しない
[単語/タグ]
• Prototypeを選択
[単語の原型/タグ]
単語 タグ 単語の原型
31
MTMineR の概要
データ集計
平テスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
32
32
2018/6/17
17
特徴抽出
33
特徴抽出2群及び多群のものに関してグループ間に差がある
ものを抽出をすることでそれぞれの特徴をみる
演習MTMineRの中にある三島由紀夫と川端康成の作品
について、一般名詞の特徴を考察してみる
○フォルダ[sample]⇒[Japanese]⇒[川端・三島]
特徴抽出
34 34
データ集計・準備(1)一般名詞の集計(2)集計データをRに読み込み
*(3)度数データを相対頻度データに変換
特徴量抽出Chi-square Test (カイ二乗統計量)Likelihood Ratio Test (尤度検定統計量)Mahalanobis’ Distance (マハラノビス距離)Mean Accuracy (RFのMean Decrease Accuracy)Mean Gini(RFのMean Decrease Gini)Kruskal-Wallis (クラスカル・ウォリス検定統計量)
2018/6/17
18
特徴抽出
35
・解析器選択:Mecab
・「Call POS Tagger」にチェック
・ 「POS Renaming」をクリック
・処理の種類:Word
・cutoff 値設定:10
・集計対象タグの選択:一般名詞
・集計実施(Pointed Processing)
(1)一般名詞の集計
特徴抽出
36
(2)集計データをRに読み込み *(3)度数データを相対頻度データに変換
2018/6/17
19
特徴抽出
37
メニュー [Indexes] ⇒[Features]
データ選択「meishi」
チェックを入れ,個体を指定
グループを指定
グループの名前を記述
手法選択
特徴抽出
38
2018/6/17
20
特徴抽出
39
変量指定
Barplot:棒グラフScatterplot:散布図
グラフのタイトル,色,グラフ周辺のマージン,ラベルの文字列の方向を指定
特徴抽出
40
・川端の特徴
母,銀,曲玉,墓,平
娘,妻
・三島の特徴
夫人,少年
2018/6/17
21
MTMineR の概要
データ集計
平テスト
形態素解析
構文解析
Rによる分析
特徴量抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
41
41
ワードクラウド
42
ワードクラウド文章中で出現頻度が高い単語をその頻度に応じた大きさで図示する方法
演習MTMineRの中にある各首相の所信表明演説文
についてワードクラウドで考察せよ.
○フォルダ[sample]⇒[Japanese]
⇒ [所信表明演説]の「安倍.txt」「福田.txt」「麻生.txt 」
「安倍.txt」「福田.txt」「麻生3.txt 」
2018/6/17
22
43
ワードクラウド
(1)名詞の集計
・解析器選択:Mecab
・「Call POS Tagger」にチェック
・ 「POS Renaming」をクリック
・処理の種類:Word
・cutoff 値設定:1
・集計対象タグの選択:一般名詞,
固有名詞
・集計実施(Pointed Processing)
44
ワードクラウド
→メニュー [plot] ⇒[Word Croud](2)集計データをRに読み込み
安安
福福
菅
野福
鳩鳩
麻麻
政政国国
国
人
大大大経経
地地皆皆
皆ささ
社社
原原危危
環環
予予
地方
世世
財政
国国立立
責責事事段段
一人ひひひ
行政
分野
政政
あひ地
事事
政政
エエエエエ
年年
活活
医医
状状
目目
産事
内内
課課
具具
人人
戦戦
景景
需需
我が国
構構首首
ききき
社社
法法
心
皆ささ
取ひ組み
世世
取組
いいい
財財
官官
市国
世世
夏
基基 年年ひ
先麻
能活
日基人
リエリエリリリ
手段
議社
未未
原原活
道
視視自分
総総
暮らら
若若
自政具
時世
外外
憲法
空空
目
イイイエリイイ
おおあささ 住住
居立居
税年
文文
平平
住住
一具
全活
地地
らがらみ
年
既既権権
基地
NNN
住国
中中食食
企事
誇ひ
家家
かかい
先
大大
住職
志
総事
人方
高高
国民
具体
情情
情情
次
人民
ミミイエ
名
否
底活
法
第第第
論論
諸諸零零
考え地
中民
円
周周
絆
国社
全国
事若
技技
エエエ
外国
地地
官官 役役地地自政具
強み
声
テテ
人人
下GGN
税
大災
早早
被災
資年
権権
手
政政
規規
重視
見見ら
家家
主第
内外
次世世
都社
各国
国国
観視
農事
学活
魅活
公公
与野政
抜基
あきらあ チイエチ使い道 出出
友友
工立 友
政職
根基
笑笑親
税体
学学
危機
具体
居所
最大 自自
道道
地方
ボボイテボボ
全全
実実
水産
体制
年制
感情
姿情
科学
活
国国
漁事
物実需需
正規
立
喫喫
海海
街
ガガ
国主
伝伝
省省
悲らみ
年金
全全
各各
中心
パエパパエ
ボイラ
条条
麻物
資資
権世
原どど
同同
命
不所
海外
都市
精精
法
先先
公
効効
市立
政権
内官
救救
人人
怒ひ
豪豪
ビビイイ
レイエ
在ひ地
歳出
議議
喜び
目目
部部
基本
国家
身
視野
歴歴
野政
諸国
やや景
チチイガ
ラリエフエ
ブボイブ
例
勝い叡叡
食実
少原文
現行
麻さま
産食負け
資産
少原
思い
姿
全
個人
原視
事職
規規
農農
リガチ
正全
基部
国職
実
総理
利権
イイフエエリイ
汗
民
両国教議
国民
活活
国内
効効
2018/6/17
23
ネットワーク分析
45
ネットワーク分析さまざまな対象を点と線からなるネットワークで表現構造的な特徴を探る
演習MTMineRの中にある安倍総理の所信表明演説文
についてネットワーク分析を行う
○フォルダ[sample]⇒[Japanese]
⇒ [所信表明演説]の「安倍.txt」「安倍2.txt」「安倍3.txt 」
46
ネットワーク分析
・Data Format:Parser
・Plain Text を選択
・ 「POS Renaming」をクリック
非自立名詞を形式名詞と変更
・処理の種類:Word
・cutoff 値設定:1
・集計対象タグ:名詞,形容詞
・集計除外タグ:助詞,形式名詞
・集計実施(Pointed Processing)
(1)名詞,形容詞の共起関係の集計
2018/6/17
24
47
ネットワーク分析
4
4
3
3
3
3
2
2
2
2
22
2
2
2
2
2
2
2
2
2
2
2
2
2
22
2
2
2
1
1
1
11
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
「意志
「美らい
「強い
国国
昨年
「三基
すすす
デラレ
一一
世世全す
国
国家国国
基基目人権、
外外・安全安安政政
大事き
安全で
平平
我が国
戦戦目き
新らい
国主主第、
自所
自自、
自自き若い
安災
額
22世世
〇・八三安だだか
「おいらお、
「ねさきさ定早定」
「世世
「人麻
「住さい
「公」
「中学学
「日基日
「暮らら
「筋筋実
「経経経麻」
「自ら
「西国さいさお
「大大震震」
『我方自身おおあささ
お原ささ
活」
国、
経経」
国」
皆皆皆びび
末
矢」、
円高
手手
安定拉拉被災若
地地
かあ
法
立す見ら
隣国です。
おいらい
叡叡
外外
時世
誇ひ
社社世世
有有
汗ら
ふさふらい
有効有人安効、
日基産食」
仕組み
中心、活活らやすい
リガチ
震震工復復」
担い手
建す欲らい
社社安安体制」
安心・地地活活文」政政」
国国ひ
活
立志立
「危危危総」
手
お母ささ
友情、
→メニュー [plot] ⇒[Graph plot](2)集計データをRに読み込み
ネットワーク分析(tkplot)
〇R Console1. データを変換
2. 色の指定:“red”,”blue”等
3. 図を出力
> abe <- graph.data.frame(kyouki[1:50,])
> V(abe)$color <- “skyblue”
> tkplot(abe)
48
2018/6/17
25
ネットワーク分析(tkplot)
49
ネットワーク分析(次数が高いもの)
〇R Console>ng <- neighborhood(abe,1,sort.list
(degree(abe),decreasing=TRUE)[1:10])
>z.sub <- c(ng[[1]])
>for(i in 2:10){
z.sub<-c(z.sub,ng[[i]])
}
>zisuu <- induced.subgraph(abe,z.sub)
>zisu <- simplify(zisuu)
>tkplot(zisu)
50
2018/6/17
26
ネットワーク分析(tkplot)
51
MTMineR の概要
データ集計
平テスト
形態素解析
構文解析
Rによる分析
特徴量抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
52
52
2018/6/17
27
教師なし分析
53
教師なし分析目的変数なしの分析方法
演習MTMineRの中にある三島由紀夫と川端康成の作品に
ついて教師なし手法を用いて分析せよ
○フォルダ[sample]⇒[Japanese]⇒[川端・三島]
教師なし分析
54
データ集計・準備(1)データの集計(2)集計データをRに読み込み
*(3)度数データを相対頻度データに変換
分析手法Principal Components Analysis (主成分分析)Correspondence Analysis (対応分析)Hierarchical Clustering (階層的クラスター分析)K-means Clustering (K-meansクラスタリング)Multidimensinal Scaling (多次元尺度法)Partitioning Around Medoids (k-medoids 法)Latent Dirichlet Allocation (潜在的ディリクレ配分法)
2018/6/17
28
教師なし分析
55
データ集計・準備(1)助詞のunigramの集計
・解析器選択:Mecab
・「Call POS Tagger」にチェック
・ 「POS Renaming」をクリック
・処理の種類:Word
・cutoff 値設定:10
・集計対象タグの選択:助詞全般
・集計実施(Pointed Processing)
主成分分析
56
主成分分析多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握○量的データを用いる
→相対度数データ
Centerのみにチェック→分散共分散行列Center とScale両方にチェック→相関行列
2018/6/17
29
主成分分析
57
主成分分析第2主成分までのプロット
-6 -4 -2 0 2 4
-4-2
02
4
PC1(45.88%)
PC
2(17
.63%
)
かさたらK_
みみみみK_
経再若K_
中小日K_
少年K_
岩び菊K_
事故K_
横横K_
自自K_
豪い日K_
孤孤孤方M_
家家家家M_
携携携M_月M_
効実M_
海ひ夕夕M_
詩を書お少年M_
近世近景実M_
遠遠社M_
鴛鴛M_
-0.4 -0.2 0.0 0.2 0.4 0.6
-0.6
-0.4
-0.2
0.0
0.2
0.4
PC1(45.88%)
PC
2(17
.63%
)
は
す
び
を
が
ひ
ど
で
から
へ
いひいみ
きがら
おいで
さでほどだけ
かどきどよひ
ひらす
らでどおかひいび
けまどどびにいすらかひどさえびよだすびひだすきにきいみおらいび対すやけここだひきさかびにますだだすどいいやよだすすぐらいきひやらを以すかららねを一らすからびはけまどににひかいみびかいすやび対らすび機すやさかだすひひどびきさすびかけすびかいらすすらぜどどきなびおいすびすび従だすび機らすさでヘらどじじないじすいみひいだかひいふひ公びどこどかきさなびあかやびにけびにまびよやび従いねさおからおだかひふをあぐだすを一じす之復迄
PC1 PC3 PC5 PC7 PC9 PC12 PC15 PC18
Cumulative ProportionProportion of Variance
020
4060
8010
0
対応分析
58
対応分析多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握○質的データを用いる
→度数データ
2018/6/17
30
対応分析
59
対応分析
第2軸までのバイプロット
赤:変数(助詞のunigram)黒:作品
類似しているものは近くに配置
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
First Score
Sec
ond
Sco
re
かさたらK_
みみみみK_
経再若K_ 中小日K_
少年K_
事故K_
横横K_
自自K_豪い日K_
孤孤孤方M_ 家家家家M_
携携携M_
月M_
効実M_
海ひ夕夕M_詩を書お少年M_
近世近景実M_
遠遠社M_鴛鴛M_
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
はすど
がひできがら
からお
いでさで
ほど
だけ
かど
きどら
でどおかひ
いび
けまどど
らか
ひど
さえ
きにき
いみ
おらい
け
ここ
きさか
階層的クラスター分析
60
階層的クラスター分析異なる性質が混ざった集団から,互いに似た性質の
ものを集めクラスターを作成
距離Euclidian, MaximumManhattan, CanberraBinarySymmetric Chisq distCosain disSymmetric KLD distStandard Euclidian Jaccard dist
結合方法ward.D2SingleCompleteAverageMcquittyMedianCentroid
2018/6/17
31
階層的クラスター分析
61
階層的クラスター分析
携携携
M_
近世近景実
M_
孤孤孤方
M_ 家家家家
M_
海ひ夕夕
M_
月M
_ 効実
M_ 遠遠社
M_
鴛鴛
M_ 少年
K_ 岩び菊
K_
詩を書お少年
M_
自自
K_ 事故
K_ 豪い日
K_ かさたら
K_ みみみみ
K_
経再若
K_ 中小日
K_
横横
K_
0.10
0.20
0.30
0.40
Cluster Dendrogram
hclust (*, "ward.D2")ld
Hei
ght
教師なし分析
62
データ集計・準備(1)品詞タグのbigramの集計
・解析器選択:Mecab
・「Call POS Tagger」にチェック
・ 「POS Renaming」をクリック
・処理の種類:Tag
・cutoff 値設定:10
・集計実施(All Tag Processing)
2018/6/17
32
階層的クラスター
63
階層的クラスター分析
非階層的クラスター分析
64
非階層的クラスター分析異なる性質が混ざった集団から,互いに似た性質のものを集めクラスターを作成→階層構造を持たず,あらかじめいくつのクラスターに分けるか設定例)今回は川端と三島の2群であるため,
2クラスターと設定
分析手法○K-means Clustering (K-meansクラスタリング)○Partitioning Around Medoids (k-medoids 法)
2018/6/17
33
非階層的クラスター
65
k-medoids 法
トピックモデル
66
トピックモデル文章データ群から,各文章の主題(トピック)を
判断するためのモデルを構築例)ホームラン,キャッチャー → 「野球」
○LDA(潜在的ディリクレ配分法)多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握
○フォルダ[sample]⇒[Japanese]⇒[作文]
三つのテーマで書いた11人の作文
2018/6/17
34
トピックモデル
67
LDA
yuka
2ta
ka2
ori5
ori2
oota
2m
ari2
kum
i2ka
to2
kana
2ak
ke2
atak
a2yu
ka5
taka
5oo
ta5
nogu
5m
ari5
kum
i5ka
to5
kana
5ak
ke5
atak
a5yu
ka9
taka
9or
i9oo
ta9
nogu
9no
gu2
mar
i9ku
mi9
kato
9ka
na9
akke
9at
aka9
01
23
45
Cluster Dendrogram
hclust (*, "ward.D2")dist(x, method = "euclidean")
Hei
ght
他
実家
イトト
外一
ガスエブ
人
人民
自分
事事
車
Topic 1
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
トピックモデル
68
LDA
パイ
さ飯
自分
国
人
平食
日基人
寿寿
文文
食
Topic 2
0.00
0.02
0.04
0.06
0.08
0.10
親友
チボガ
高学
言言
大学
グエエリ
友人
自分
人
友友
Topic 3
0.00
0.05
0.10
0.15
0.20
0.25
2018/6/17
35
MTMineR の概要
データ集計
プレーンテキスト
形態素解析
構文解析
Rによる分析
特徴抽出
ワードクラウド,ネットワーク分析
教師なし分析
教師あり分析
目録
69
69
教師あり分析データ集計:
MTMineR → sample
中国語
英語
日本語• 川端康成 10編• 三島由紀夫 10編
韓国語
形態素解析済みのテキスト→Tagのunigram
cutoff=070
2018/6/17
36
教師あり分析データ変換:
Proportion in Each Row
Processing
Data “temp.tra” is added into R→OK
Select Data:
[temp.tra]
71
教師あり分析ラベル設定:
ステップ:
① グループの指定
② ラベルを付ける
③ OK → ラベル付き
データセットが完成
④ 作成したデータセット
temp.tra.groupedを[Select Data]で指定
72
2018/6/17
37
教師あり分析タブSupervisedには教師ありの機械学習法が実装されている
CART C5.0 k-Nearest Neighbour RandomForest SVM (support vector machine) LDA (Linear Discriminant Analysis) HDDA (High-Dimensional Discriminant Analysis)
MTMineR の中の各分析方法における関数およびパラメータはRと同様であるため、必要であれば各パッケージのサイト
にご確認ください
73
CART (決定木)決定木:
テキストの分類や回帰分析を行う機械学習法の一つ,変数を分岐頂点とし,葉を予測値とした樹状構造の統計モデル
特徴:
ノンパラメトリックな教師あり学習方法
解析対象のデータの分布を仮定しない 事前に与えられたデータから未知のデータを推定
74
2018/6/17
38
CART (決定木)
イメージ:
75
降水確率40%
所持金2000年以上
課題の数3以上
図書館に行く
映画館に行く
ゲームをする
課題を終わらせる
NO
NO NO
Yes
YesYes
CART (決定木)長所:
可読性が高い木が生成されるイメージで結果を出力し,わかりやすい
説明変数・目的変数共に名義尺度・間隔尺度など様々データの対応
外れ値に対して頑健
短所: 分類性能の高い手法ではない 過学習を起こしやすい
パラメータの調整や枝の刈り込みを上手に行う必要
76
2018/6/17
39
各パラメータはRパッケージ
の中の名前と同じであるので,各パッケージのサイトに確認
パラメータを変換することで,異なるプロットが描かれる
77
CART (決定木)
Random Forest
決定木を複数組み合わせ、各決定木の予測結果を多数決することによって結果を得る
アルゴリズム:
① ランダムにデータを抽出する
② 決定木を成長させる
③ ステップ①②を指定回繰り返す
④ 予測結果を多数決することによって分類ラベ
ルを決定する
78
2018/6/17
40
長所:
考慮するパラメータが少ない
主なパラメータ:
① サンプリング数
② 決定木を成長させる際に使用する変数の数
重要度の高い変数を出力できる
短所:
データが少ない場合は、分類精度が高くない
79
Random Forest
Random Forest Summary: 要約の出力
Print: OOBでの予測結果
Accurary rate:正解率
Plot:木の数と誤り率との対応図
Important: 変数重要度の計算
VarImpPlot: 分類における変数
の重要度のランキング
Testing: 予測
LOOCV:Leave-one-outを行う
Arrange the Discrimination Maker:
Mean Decrease Accuracyによる変
数重要度に基づき、変数を降順で
ソートし、結果をarrangeに入れる
Feature Selection:テキスト分類に用いるべき変数の
数を決める
80
2018/6/17
41
Random ForestOOB:out-of-bag
81
Random Forestでは、
各決定木で異なるサンプルを使って学習する。
学習データのうち、平均的に約1/3のデータは学習に使われない、それをOOBと呼ぶ
Random Forest変数重要度の結果
82
2018/6/17
42
ご清聴ありがとうございましたご清聴ありがとうございました
83
Recommended