28
1 ――手軽なマウス操作による分析からプラグイン作成まで―― 樋口耕一 / @khcoder フリーソフトウェア「KH Coder」 を使った計量テキスト分析 2014 12/20 #TokyoWebmining

フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

  • Upload
    khcoder

  • View
    6.467

  • Download
    6

Embed Size (px)

Citation preview

Page 1: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

1

――手軽なマウス操作による分析からプラグイン作成まで――

樋口耕一 / @khcoder

フリーソフトウェア「KH Coder」 を使った計量テキスト分析

2014 12/20 #TokyoWebmining

Page 2: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

2

計量的分析にまつわる懸念

計量的な分析は「乱暴」 微妙なニュアンスは失われてしまう?

計量的な分析は「浅い」 人間のような「深い分析」は無理?

→すべて杞憂であることを示しつつ、 「計量テキスト分析」をご紹介

イントロダクション

本当にメリットがあるのか 利点は単に「客観的」なだけ?

Page 3: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

3

計量テキスト分析?

伝統的な内容分析(content analysis)の考え方と テキストマイニング技術を活かした分析

実現のためのフリーソフトウェア「KH Coder」

イントロダクション

Page 4: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

4

本日の内容

アンケート自由回答の分析事例

計量テキスト分析の考え方と、実現のためのソフトウェア「KH Coder」

カスタマイズ

イントロダクション

Page 5: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

5

アンケート自由回答 の分析事例

Page 6: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

6

自由回答項目の利点①

網羅的で完全な選択肢の準備は困難 上手く聞き出せるような選択肢とは?

たくさん選択肢を並べることはできない

→こうした選択肢型項目の課題を補い、 探索的に調査を進められる。

選択肢を提示すること自体によって、 肯定的反応を誘発する場合も

Ex. なぜ現在の学科に進学しましたか? →「その学問に興味があるから」

(安田 1970)

(安田 1970, 林 1975)

自由回答の分析

Page 7: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

7

自由回答項目の利点②

選択肢型項目の分析と組合せることで 知見に相乗的な広がりを

自由回答の分析

Page 8: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

8

事例「なんとなく進学」

質問項目 もしも、あなたのお子様が特に勉強したいこともないのに、「なんとなく進学する」ことになったら、あなたはこの考えに賛成できますか(後略)

調査概要 高校生とその母親の教育意識に関する全国調査 2002

SRDQ(http://srdq.hus.osaka-u.ac.jp)に詳細

1. 賛成できる 2. やや賛成できる 3. あまり賛成できない 4. まったく賛成できない

選んだ理由:

(樋口 2012)

自由回答の分析

Page 9: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

9

賛成・反対をまず見ると

b S.E. StdYX

母親年齢 -.013 .013 .044

母親教育年数 -.105 ** .031 .151

世帯収入 -.047 ** .013 .162 N = 574, R 2 = .065, ** p < .01, * p < .05

学歴高い母親ほど賛成

表1:「なんとなく進学賛否」の回帰分析(WLSMV)

自由回答の分析

この表だけを見ながら想像するのは 難しいので、自由回答にあたろう! (自由回答項目の利点②を活用しよう!)

なぜ?

Page 10: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

10

図1:共起ネットワークから主なテーマを 自由回答の分析

それぞれの語が、

ほかのどんな語と

結びついて、どん

なテーマを形作っ

ているかを見てお

く。そうすると、

以降の分析結果を

解釈しやすく。

Page 11: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

12

図2:「賛否&学歴」と理由の対応分析 自由回答の分析

Page 12: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

13

図2:「賛否&学歴」と理由の対応分析 自由回答の分析

「反対」の理由は学歴に

よってあまり変化しない

「賛成」の理由は学歴

によって異なる

Page 13: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

14

図2:「賛否&学歴」と理由の対応分析

学歴が高卒では将来不安 友達が多くできる

自由回答の分析

Page 14: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

15

図2:「賛否&学歴」と理由の対応分析

色々な経験をする中で自分の道をみつけてくれれば

自由回答の分析

色々な人と出会い、新しい目標が生まれるかも

Page 15: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

16

利点はあるが注意も必要

回答者の負担 選択肢型の方が答えるのが楽

少しでも答えやすくなるような工夫を

分析しやすい回答を得るために 主題を設定する

△質問紙の最後に「ご意見をご自由に」

通常項目との組合せ方を含めて、分析計画は あらかじめ考えておく

※「自由回答の取得方法(中略)の研究はそう進んでいるとは言えない」(大隅・Lebart 2000: 374)という状況に、それほど劇的な変化は生じていない

自由回答の分析

Page 16: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

17

ここで分析デモ

データや分析手法に合わせてデフォルト値を自動設定

これをクリック するだけ?!

自由回答の分析

Page 17: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

18

計量テキスト分析の考え方と、 実現のためのソフトウェア

Page 18: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

19

データ探索と信頼性向上 2. 分析事例 方法とソフト

データの 全体像

引用すべき 部分

どこにデータの特徴があらわれている?

全体としてデータの様子はどんなか?

分析者は偏った印象を持っていないか?

引用する部分を分析者はどう選んだのか?

分析者 第三者

データをより良く理解すると同時に、 分析の信頼性を向上!

Page 19: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

一 六 十一

十六

二十一

二十六

三十一

三十六

四十一

四十六

五十一

五十六

静(お嬢さん)

静の母(奥さん)

20

量的方法と質的方法

妻はそれをこんにちに困らない(財産がある)から心に弛みが出るのだと観察していたようでした。(・・・)しかし私の動かなくなった原因の主なものは、全くそこにはなかったのです。(・・・)自分もあの叔父と同じ人間だと意識した時、私は急にふらふらしました。他に愛想を尽かした私は、自分にも愛想を尽かして動けなくなったのです。

量的分析 質的分析(引用・解釈)

循環的な関係 「質的方法が洞察にあふれ、量的方法が仮説検証のための単に機械的なものだと決めつけるべきではない。この両者の関係は循環的なものである。すなわち、それぞれが新たな洞察をもたらし、それによって他方に資するものである」 (Pool 1959: 192, 筆者訳)

方法とソフト

Page 20: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

21

素データを検索・確認する機能にも注力

“Closeness to Data” (Stone et al. 1966)

方法とソフト

Page 21: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

23

カスタマイズ

Page 22: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

24

柔軟性・拡張性も カスタマイズ

MySQL:データベース (整理と検索)

(統計分析)

テキスト 分析結果

検索結果

茶筌:形態素解析 (語の取り出し)

KH Coder

→お仕着せの分析しかできない既製品ではなく、 創意工夫を発揮できる「環境」として

Page 23: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

25

プロットをRコマンド形式で保存1 カスタマイズ

Page 24: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

26

プロットをRコマンド形式で保存2 カスタマイズ

Rで実行すれば、まったく同じプロットを得られる。 コマンドに手を加えることで自在にカスタマイズ可。

Page 25: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

27

分析機能の追加(プラグイン)1 カスタマイズ

Page 26: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

28

分析機能の追加(プラグイン)2

→PerlとRのコードを追加することで、分析に使う語を選択し、分析を実行

詳細はサンプル(plugin_jp/p1_sample5_mds.pm)やUseful R ⑩を

カスタマイズ

Page 27: フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

29

自動実行(プラグイン) カスタマイズ

コマンドラインから「kh_coder.exe –auto_run ファイル名」

のように起動すると、自動処理が実行される。