42
2018/6/17 1 MTMineRを用いたテキストマイニング演習 MTMineRを用いたテキストマイニング演習 同志社大学 文化情報学研究科 タサイエス研究室 2018.6.10 MK102 1 MTMineRの概要 タ集計 キス 形態素解析 構文解析 Rによる分析 特徴抽出 クウ,ク分析 教師なし分析 教師あり分析 目録 2 2

MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

1

MTMineRを用いたテキストマイニング演習MTMineRを用いたテキストマイニング演習

同志社大学 文化情報学研究科データサイエンス研究室

2018.6.10 MK102

1

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

22

Page 2: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

2

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

33

MTMineR の概要

MTMineR (Multilingual Text Miner with R) :

テキスト型データを構造化して,Rを用いて統計的

に分析を行うソフトウェア

文学作品・アンケートの自由記述・新聞記事など多

種類のテキストの処理やデータの集計,解析等

4 4

Page 3: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

3

MTMineR の機能

5

日本語・英語・中国語・韓国語・ドイツ語・フランス語の多種類言語のテキスト

クリーニング・検索・整形・集計・解析

MTMineR の機能

6

クリーニング・検索・集計など プレーンテキスト

形態素解

構文解析

形態素解析器 日本語:JUMAN,

ChaSen, MeCab 中国語:NLPIR 英語・ドイツ語・フラ

ンス語:TreeTagger

構文解析器

日本語:CaboCha

Page 4: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

4

MTMineR の機能

7

データの処理と分析機能

データの変換 データの視覚化:ワードクラウド,ネットワーク,折れ

線グラグなど 語彙の豊富さ指標の計算と特徴語抽出 教師なしの分析方法 教師ありの分析方法

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

88

Page 5: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

5

データ収集(プレーンテキスト)MTMineR5.4_64_20180528.zipファイルを解凍して

開く

[MTMineR_WithMyPC.bat]

[MTMineR_WithTools.bat]

[MTMineR5.4.jar]

⇒MTMineRを開く

9

データ収集(プレーンテキスト)テキストの読み込み

フォルダ[sample]

⇒ [Japanese]

⇒ [所信表明演説]

「安倍.txt」「安倍2.txt」「安倍3.txt 」「菅.txt」「鳩山.txt」「福田.txt」「麻生.txt 」「野田.txt 」

10

Page 6: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

6

データ収集(プレーンテキスト)テキストの読み込み

11

File List:

テキストの読み込み

Summary:

テキストの要約

N-gram:

n-gramデータの集計

Length :

文・段落・リズムの長さ

Mark:

特定文字・記号の集計

KWIC:

クウィック検索

Tools:

テキストの整形12

MTMineRの機能(プレーンテキスト)

Page 7: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

7

KWIC (クウィック検索)

KWIC:

(Keyword in Context)

指定したキーワードの前後の文脈を原文から抽出

「No.Left」「No.Right」

前後の文脈長さの指定

13

正規表現による検索

N-gram

n-gram

テキストにおけるある言語単位(文字や形態素、品詞など)が1単位または2単位,3単位などN単位が隣接して生じる言語単位

Unigram(n=1),Bigram(n=2),Trigram(n=3)

Fourgram(n=4),Fivegram(n=5)・・・

文字・記号

形態素

品詞

文節

など

14

Page 8: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

8

N-gram文字単位のn-gram

Ngram Type(n=1,…,6)

Unigram(n=1)

Sixgram(n=6)

Ngram Extraction Type

Sentence:文ごと

「。_文頭文字」×

Text:文章ごと

Cutoff(閾値):

データセットのサイズの

コントロール15

N-gram

文字単位のbigram

ステップ

① Bigram(n=2)

② Sentence

③ Cutoff(10)

④ Tab Format

⑤ File in row

⑥ Processing

16

Page 9: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

9

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ネットワーク分析

教師なし分析

教師あり分析

目録

1717

タグ付きテキストについてFormat⇒Tagged Text

整形したタグ付きtext [tagged]⇒テキスト読み込

み⇒データ集計

形態素解析済みtext MeCabで解析⇒[MeCab]

ChaSenで解析⇒[ChaSen]

JUMANで解析⇒[JUMAN]

⇒テキスト読み込み⇒デー

タ集計

プレンテキスト

⇒テキストを読み込む⇒形

態素解析⇒データ集計18

Page 10: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

10

日本語の形態素解析

ステップ:

① 形態素解析器を選ぶ

(MeCab, ChaSen, JUMAN)

② 「Call POS Tag」☑

③ 「POS Processing」

④ Tag名前の変更(必要な場合)

⑤ 「Comfirm」

19

日本語の形態素解析

Tagged:形態素解析済みデータ

Retagged:整形したデータ

20

MTMineRを閉じると,「tmp」は自動的に削除されるため,必要に応じて各自保存する

Page 11: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

11

File List:

テキストの読み込み

Summary:

テキストの要約

N-gram:

n-gramデータの集計

Length :

形態素・品詞などの長さ

Mark:

特定形態素・品詞などの集計

KWIC:

クウィック検索

Tools:

テキストの整形

21

MTMineRの機能(タグ付きテキスト)

KWIC (クウィック検索)

KWIC:タグ付きテキストから指定したキーワードの前後の文脈

入力形式:

例:国民<一般名詞>

22

Page 12: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

12

N-gramProcessing Type:データの種類の指定

タグ(Tag)形態素(Word)タグ付き形態素(Word Tag)

Ngram Type

Unigram(n=1)

Sixgram(n=6)

N-gram Extraction type

Sentence:文ごと

「句点_品詞」×

Text:文章ごと23

N-gram

24

[All Tag Processing]

すべてのデータを集計

[Selecting Tag]⇒[Pointed Tag Processing]

指定したデータのみ集計

Page 13: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

13

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

25

25

構文解析Data Format⇒ParserParsed Text:

整形したテキスト

構文解析済みテキスト

Plain Text:Plain Text「POS Processing」

N-gram文節のn-gram

Condi-n-gram条件付きn-gram

Co-occurrence文節の共起

26

Page 14: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

14

構文データの集計N-gram:

Processing Type:

データの種類の指定

タグ(Tag)

形態素(Word)

タグ付き形態素

(Word Tag)

27

構文データの集計Condi-n-gram:条件付き文節のn-gram

指定した属性のn-gramの中から一部の属性データを除外する集計方法

複合語を含めた形態素より長い単位の語句の集計

例:

[Selecting POS]「名詞」

[Remove POS]「助詞」

⇒「国際社会」「社会保障」「経済成長」のような複合語

28

取り除きたい属性

指定したい属性

Page 15: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

15

構文データの集計Co-occurrence:

文節の共起

集計形式:① Pattern

② Word

共起抽出方法:

① Dependency:

係り受け先を考慮

② Co-occurrence:

係り受け関係を考慮せず

29

指定したタグを形態素の形式で表示

英語の形態素解析Language⇒English Data

Format⇒Tagged Text

ステップ:

① TreeTagger

② 「Call POS Tag」③ 「POS Processing」④ Tag名前の変更

(必要な場合)

⑤ 「Comfirm 」

30

Page 16: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

16

英語の形態素解析

• Prototypeを選択しない

[単語/タグ]

• Prototypeを選択

[単語の原型/タグ]

単語 タグ 単語の原型

31

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

32

32

Page 17: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

17

特徴抽出

33

特徴抽出2群及び多群のものに関してグループ間に差がある

ものを抽出をすることでそれぞれの特徴をみる

演習MTMineRの中にある三島由紀夫と川端康成の作品

について、一般名詞の特徴を考察してみる

○フォルダ[sample]⇒[Japanese]⇒[川端・三島]

特徴抽出

34 34

データ集計・準備(1)一般名詞の集計(2)集計データをRに読み込み

*(3)度数データを相対頻度データに変換

特徴量抽出Chi-square Test (カイ二乗統計量)Likelihood Ratio Test (尤度検定統計量)Mahalanobis’ Distance (マハラノビス距離)Mean Accuracy (RFのMean Decrease Accuracy)Mean Gini(RFのMean Decrease Gini)Kruskal-Wallis (クラスカル・ウォリス検定統計量)

Page 18: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

18

特徴抽出

35

・解析器選択:Mecab

・「Call POS Tagger」にチェック

・ 「POS Renaming」をクリック

・処理の種類:Word

・cutoff 値設定:10

・集計対象タグの選択:一般名詞

・集計実施(Pointed Processing)

(1)一般名詞の集計

特徴抽出

36

(2)集計データをRに読み込み *(3)度数データを相対頻度データに変換

Page 19: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

19

特徴抽出

37

メニュー [Indexes] ⇒[Features]

データ選択「meishi」

チェックを入れ,個体を指定

グループを指定

グループの名前を記述

手法選択

特徴抽出

38

Page 20: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

20

特徴抽出

39

変量指定

Barplot:棒グラフScatterplot:散布図

グラフのタイトル,色,グラフ周辺のマージン,ラベルの文字列の方向を指定

特徴抽出

40

・川端の特徴

母,銀,曲玉,墓,平

娘,妻

・三島の特徴

夫人,少年

Page 21: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

21

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴量抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

41

41

ワードクラウド

42

ワードクラウド文章中で出現頻度が高い単語をその頻度に応じた大きさで図示する方法

演習MTMineRの中にある各首相の所信表明演説文

についてワードクラウドで考察せよ.

○フォルダ[sample]⇒[Japanese]

⇒ [所信表明演説]の「安倍.txt」「福田.txt」「麻生.txt 」

「安倍.txt」「福田.txt」「麻生3.txt 」

Page 22: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

22

43

ワードクラウド

(1)名詞の集計

・解析器選択:Mecab

・「Call POS Tagger」にチェック

・ 「POS Renaming」をクリック

・処理の種類:Word

・cutoff 値設定:1

・集計対象タグの選択:一般名詞,

固有名詞

・集計実施(Pointed Processing)

44

ワードクラウド

→メニュー [plot] ⇒[Word Croud](2)集計データをRに読み込み

安安

福福

野福

鳩鳩

麻麻

政政国国

大大大経経

地地皆皆

皆ささ

社社

原原危危

環環

予予

地方

世世

財政

国国立立

責責事事段段

一人ひひひ

行政

分野

政政

あひ地

事事

政政

エエエエエ

年年

活活

医医

状状

目目

産事

内内

課課

具具

人人

戦戦

景景

需需

我が国

構構首首

ききき

社社

法法

皆ささ

取ひ組み

世世

取組

いいい

財財

官官

市国

世世

基基 年年ひ

先麻

能活

日基人

リエリエリリリ

手段

議社

未未

原原活

視視自分

総総

暮らら

若若

自政具

時世

外外

憲法

空空

イイイエリイイ

おおあささ 住住

居立居

税年

文文

平平

住住

一具

全活

地地

らがらみ

既既権権

基地

NNN

住国

中中食食

企事

誇ひ

家家

かかい

大大

住職

総事

人方

高高

国民

具体

情情

情情

人民

ミミイエ

底活

第第第

論論

諸諸零零

考え地

中民

周周

国社

全国

事若

技技

エエエ

外国

地地

官官 役役地地自政具

強み

テテ

人人

下GGN

大災

早早

被災

資年

権権

政政

規規

重視

見見ら

家家

主第

内外

次世世

都社

各国

国国

観視

農事

学活

魅活

公公

与野政

抜基

あきらあ チイエチ使い道 出出

友友

工立 友

政職

根基

笑笑親

税体

学学

危機

具体

居所

最大 自自

道道

地方

ボボイテボボ

全全

実実

水産

体制

年制

感情

姿情

科学

国国

漁事

物実需需

正規

喫喫

海海

ガガ

国主

伝伝

省省

悲らみ

年金

全全

各各

中心

パエパパエ

ボイラ

条条

麻物

資資

権世

原どど

同同

不所

海外

都市

精精

先先

効効

市立

政権

内官

救救

人人

怒ひ

豪豪

ビビイイ

レイエ

在ひ地

歳出

議議

喜び

目目

部部

基本

国家

視野

歴歴

野政

諸国

やや景

チチイガ

ラリエフエ

ブボイブ

勝い叡叡

食実

少原文

現行

麻さま

産食負け

資産

少原

思い

姿

個人

原視

事職

規規

農農

リガチ

正全

基部

国職

総理

利権

イイフエエリイ

両国教議

国民

活活

国内

効効

Page 23: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

23

ネットワーク分析

45

ネットワーク分析さまざまな対象を点と線からなるネットワークで表現構造的な特徴を探る

演習MTMineRの中にある安倍総理の所信表明演説文

についてネットワーク分析を行う

○フォルダ[sample]⇒[Japanese]

⇒ [所信表明演説]の「安倍.txt」「安倍2.txt」「安倍3.txt 」

46

ネットワーク分析

・Data Format:Parser

・Plain Text を選択

・ 「POS Renaming」をクリック

非自立名詞を形式名詞と変更

・処理の種類:Word

・cutoff 値設定:1

・集計対象タグ:名詞,形容詞

・集計除外タグ:助詞,形式名詞

・集計実施(Pointed Processing)

(1)名詞,形容詞の共起関係の集計

Page 24: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

24

47

ネットワーク分析

4

4

3

3

3

3

2

2

2

2

22

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

1

1

1

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

「意志

「美らい

「強い

国国

昨年

「三基

すすす

デラレ

一一

世世全す

国家国国

基基目人権、

外外・安全安安政政

大事き

安全で

平平

我が国

戦戦目き

新らい

国主主第、

自所

自自、

自自き若い

安災

22世世

〇・八三安だだか

「おいらお、

「ねさきさ定早定」

「世世

「人麻

「住さい

「公」

「中学学

「日基日

「暮らら

「筋筋実

「経経経麻」

「自ら

「西国さいさお

「大大震震」

『我方自身おおあささ

お原ささ

活」

国、

経経」

国」

皆皆皆びび

矢」、

円高

手手

安定拉拉被災若

地地

かあ

立す見ら

隣国です。

おいらい

叡叡

外外

時世

誇ひ

社社世世

有有

汗ら

ふさふらい

有効有人安効、

日基産食」

仕組み

中心、活活らやすい

リガチ

震震工復復」

担い手

建す欲らい

社社安安体制」

安心・地地活活文」政政」

国国ひ

立志立

「危危危総」

お母ささ

友情、

→メニュー [plot] ⇒[Graph plot](2)集計データをRに読み込み

ネットワーク分析(tkplot)

〇R Console1. データを変換

2. 色の指定:“red”,”blue”等

3. 図を出力

> abe <- graph.data.frame(kyouki[1:50,])

> V(abe)$color <- “skyblue”

> tkplot(abe)

48

Page 25: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

25

ネットワーク分析(tkplot)

49

ネットワーク分析(次数が高いもの)

〇R Console>ng <- neighborhood(abe,1,sort.list

(degree(abe),decreasing=TRUE)[1:10])

>z.sub <- c(ng[[1]])

>for(i in 2:10){

z.sub<-c(z.sub,ng[[i]])

}

>zisuu <- induced.subgraph(abe,z.sub)

>zisu <- simplify(zisuu)

>tkplot(zisu)

50

Page 26: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

26

ネットワーク分析(tkplot)

51

MTMineR の概要

データ集計

平テスト

形態素解析

構文解析

Rによる分析

特徴量抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

52

52

Page 27: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

27

教師なし分析

53

教師なし分析目的変数なしの分析方法

演習MTMineRの中にある三島由紀夫と川端康成の作品に

ついて教師なし手法を用いて分析せよ

○フォルダ[sample]⇒[Japanese]⇒[川端・三島]

教師なし分析

54

データ集計・準備(1)データの集計(2)集計データをRに読み込み

*(3)度数データを相対頻度データに変換

分析手法Principal Components Analysis (主成分分析)Correspondence Analysis (対応分析)Hierarchical Clustering (階層的クラスター分析)K-means Clustering (K-meansクラスタリング)Multidimensinal Scaling (多次元尺度法)Partitioning Around Medoids (k-medoids 法)Latent Dirichlet Allocation (潜在的ディリクレ配分法)

Page 28: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

28

教師なし分析

55

データ集計・準備(1)助詞のunigramの集計

・解析器選択:Mecab

・「Call POS Tagger」にチェック

・ 「POS Renaming」をクリック

・処理の種類:Word

・cutoff 値設定:10

・集計対象タグの選択:助詞全般

・集計実施(Pointed Processing)

主成分分析

56

主成分分析多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握○量的データを用いる

→相対度数データ

Centerのみにチェック→分散共分散行列Center とScale両方にチェック→相関行列

Page 29: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

29

主成分分析

57

主成分分析第2主成分までのプロット

-6 -4 -2 0 2 4

-4-2

02

4

PC1(45.88%)

PC

2(17

.63%

)

かさたらK_

みみみみK_

経再若K_

中小日K_

少年K_

岩び菊K_

事故K_

横横K_

自自K_

豪い日K_

孤孤孤方M_

家家家家M_

携携携M_月M_

効実M_

海ひ夕夕M_

詩を書お少年M_

近世近景実M_

遠遠社M_

鴛鴛M_

-0.4 -0.2 0.0 0.2 0.4 0.6

-0.6

-0.4

-0.2

0.0

0.2

0.4

PC1(45.88%)

PC

2(17

.63%

)

から

いひいみ

きがら

おいで

さでほどだけ

かどきどよひ

ひらす

らでどおかひいび

けまどどびにいすらかひどさえびよだすびひだすきにきいみおらいび対すやけここだひきさかびにますだだすどいいやよだすすぐらいきひやらを以すかららねを一らすからびはけまどににひかいみびかいすやび対らすび機すやさかだすひひどびきさすびかけすびかいらすすらぜどどきなびおいすびすび従だすび機らすさでヘらどじじないじすいみひいだかひいふひ公びどこどかきさなびあかやびにけびにまびよやび従いねさおからおだかひふをあぐだすを一じす之復迄

PC1 PC3 PC5 PC7 PC9 PC12 PC15 PC18

Cumulative ProportionProportion of Variance

020

4060

8010

0

対応分析

58

対応分析多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握○質的データを用いる

→度数データ

Page 30: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

30

対応分析

59

対応分析

第2軸までのバイプロット

赤:変数(助詞のunigram)黒:作品

類似しているものは近くに配置

-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

First Score

Sec

ond

Sco

re

かさたらK_

みみみみK_

経再若K_ 中小日K_

少年K_

事故K_

横横K_

自自K_豪い日K_

孤孤孤方M_ 家家家家M_

携携携M_

月M_

効実M_

海ひ夕夕M_詩を書お少年M_

近世近景実M_

遠遠社M_鴛鴛M_

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

はすど

がひできがら

からお

いでさで

ほど

だけ

かど

きどら

でどおかひ

いび

けまどど

らか

ひど

さえ

きにき

いみ

おらい

ここ

きさか

階層的クラスター分析

60

階層的クラスター分析異なる性質が混ざった集団から,互いに似た性質の

ものを集めクラスターを作成

距離Euclidian, MaximumManhattan, CanberraBinarySymmetric Chisq distCosain disSymmetric KLD distStandard Euclidian Jaccard dist

結合方法ward.D2SingleCompleteAverageMcquittyMedianCentroid

Page 31: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

31

階層的クラスター分析

61

階層的クラスター分析

携携携

M_

近世近景実

M_

孤孤孤方

M_ 家家家家

M_

海ひ夕夕

M_

月M

_ 効実

M_ 遠遠社

M_

鴛鴛

M_ 少年

K_ 岩び菊

K_

詩を書お少年

M_

自自

K_ 事故

K_ 豪い日

K_ かさたら

K_ みみみみ

K_

経再若

K_ 中小日

K_

横横

K_

0.10

0.20

0.30

0.40

Cluster Dendrogram

hclust (*, "ward.D2")ld

Hei

ght

教師なし分析

62

データ集計・準備(1)品詞タグのbigramの集計

・解析器選択:Mecab

・「Call POS Tagger」にチェック

・ 「POS Renaming」をクリック

・処理の種類:Tag

・cutoff 値設定:10

・集計実施(All Tag Processing)

Page 32: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

32

階層的クラスター

63

階層的クラスター分析

非階層的クラスター分析

64

非階層的クラスター分析異なる性質が混ざった集団から,互いに似た性質のものを集めクラスターを作成→階層構造を持たず,あらかじめいくつのクラスターに分けるか設定例)今回は川端と三島の2群であるため,

2クラスターと設定

分析手法○K-means Clustering (K-meansクラスタリング)○Partitioning Around Medoids (k-medoids 法)

Page 33: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

33

非階層的クラスター

65

k-medoids 法

トピックモデル

66

トピックモデル文章データ群から,各文章の主題(トピック)を

判断するためのモデルを構築例)ホームラン,キャッチャー → 「野球」

○LDA(潜在的ディリクレ配分法)多次元のデータをデータの損失をなるべく少なくし,低次元に縮約,データの概要を把握

○フォルダ[sample]⇒[Japanese]⇒[作文]

三つのテーマで書いた11人の作文

Page 34: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

34

トピックモデル

67

LDA

yuka

2ta

ka2

ori5

ori2

oota

2m

ari2

kum

i2ka

to2

kana

2ak

ke2

atak

a2yu

ka5

taka

5oo

ta5

nogu

5m

ari5

kum

i5ka

to5

kana

5ak

ke5

atak

a5yu

ka9

taka

9or

i9oo

ta9

nogu

9no

gu2

mar

i9ku

mi9

kato

9ka

na9

akke

9at

aka9

01

23

45

Cluster Dendrogram

hclust (*, "ward.D2")dist(x, method = "euclidean")

Hei

ght

実家

イトト

外一

ガスエブ

人民

自分

事事

Topic 1

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

トピックモデル

68

LDA

パイ

さ飯

自分

平食

日基人

寿寿

文文

Topic 2

0.00

0.02

0.04

0.06

0.08

0.10

親友

チボガ

高学

言言

大学

グエエリ

友人

自分

友友

Topic 3

0.00

0.05

0.10

0.15

0.20

0.25

Page 35: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

35

MTMineR の概要

データ集計

プレーンテキスト

形態素解析

構文解析

Rによる分析

特徴抽出

ワードクラウド,ネットワーク分析

教師なし分析

教師あり分析

目録

69

69

教師あり分析データ集計:

MTMineR → sample

中国語

英語

日本語• 川端康成 10編• 三島由紀夫 10編

韓国語

形態素解析済みのテキスト→Tagのunigram

cutoff=070

Page 36: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

36

教師あり分析データ変換:

Proportion in Each Row

Processing

Data “temp.tra” is added into R→OK

Select Data:

[temp.tra]

71

教師あり分析ラベル設定:

ステップ:

① グループの指定

② ラベルを付ける

③ OK → ラベル付き

データセットが完成

④ 作成したデータセット

temp.tra.groupedを[Select Data]で指定

72

Page 37: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

37

教師あり分析タブSupervisedには教師ありの機械学習法が実装されている

CART C5.0 k-Nearest Neighbour RandomForest SVM (support vector machine) LDA (Linear Discriminant Analysis) HDDA (High-Dimensional Discriminant Analysis)

MTMineR の中の各分析方法における関数およびパラメータはRと同様であるため、必要であれば各パッケージのサイト

にご確認ください

73

CART (決定木)決定木:

テキストの分類や回帰分析を行う機械学習法の一つ,変数を分岐頂点とし,葉を予測値とした樹状構造の統計モデル

特徴:

ノンパラメトリックな教師あり学習方法

解析対象のデータの分布を仮定しない 事前に与えられたデータから未知のデータを推定

74

Page 38: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

38

CART (決定木)

イメージ:

75

降水確率40%

所持金2000年以上

課題の数3以上

図書館に行く

映画館に行く

ゲームをする

課題を終わらせる

NO

NO NO

Yes

YesYes

CART (決定木)長所:

可読性が高い木が生成されるイメージで結果を出力し,わかりやすい

説明変数・目的変数共に名義尺度・間隔尺度など様々データの対応

外れ値に対して頑健

短所: 分類性能の高い手法ではない 過学習を起こしやすい

パラメータの調整や枝の刈り込みを上手に行う必要

76

Page 39: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

39

各パラメータはRパッケージ

の中の名前と同じであるので,各パッケージのサイトに確認

パラメータを変換することで,異なるプロットが描かれる

77

CART (決定木)

Random Forest

決定木を複数組み合わせ、各決定木の予測結果を多数決することによって結果を得る

アルゴリズム:

① ランダムにデータを抽出する

② 決定木を成長させる

③ ステップ①②を指定回繰り返す

④ 予測結果を多数決することによって分類ラベ

ルを決定する

78

Page 40: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

40

長所:

考慮するパラメータが少ない

主なパラメータ:

① サンプリング数

② 決定木を成長させる際に使用する変数の数

重要度の高い変数を出力できる

短所:

データが少ない場合は、分類精度が高くない

79

Random Forest

Random Forest Summary: 要約の出力

Print: OOBでの予測結果

Accurary rate:正解率

Plot:木の数と誤り率との対応図

Important: 変数重要度の計算

VarImpPlot: 分類における変数

の重要度のランキング

Testing: 予測

LOOCV:Leave-one-outを行う

Arrange the Discrimination Maker:

Mean Decrease Accuracyによる変

数重要度に基づき、変数を降順で

ソートし、結果をarrangeに入れる

Feature Selection:テキスト分類に用いるべき変数の

数を決める

80

Page 41: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

41

Random ForestOOB:out-of-bag

81

Random Forestでは、

各決定木で異なるサンプルを使って学習する。

学習データのうち、平均的に約1/3のデータは学習に使われない、それをOOBと呼ぶ

Random Forest変数重要度の結果

82

Page 42: MTMineRを用いたテキストマイニング演習mjin.doshisha.ac.jp/lab/TextminingExercise.pdf · 2018/6/17 1 MTMineRを用いたテキストマイニング演習 同志社大学

2018/6/17

42

ご清聴ありがとうございましたご清聴ありがとうございました

83