LT: KHCoderご紹介 GUIで簡単テキストマイニング
大城 信晃
2015/01/17
TokyoR #45
自己紹介
これまで / 現在の仕事
KHCoderとは
• KH Coderとは、テキスト型(文章型)データを統計的
に分析するためのフリーソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、 さ
まざまな社会調査データを分析するために制作しました。「計量テキスト分析」または「テキストマイニング」と呼ばれる方法に対応。 (作者HPより引用)
http://khc.sourceforge.net/
作者:樋口先生
• 1978年生まれ。2005年大阪大学大学院人間科学研究科修了。博士(人間科学)。日本学術振興会特別研究員、大阪大学大学院人間科学研究科助教を経て、立命館大学産業社会学部准教授。 http://www.amazon.co.jp/%E6%A8%8B%E5%8F%A3-%E8%80%95%E4%B8%80/e/B00HV5RN48/ref=dp_byline_cont_book_1
Rと何の関係があるの?
Rと何の関係があるの?
裏側でRを使っている & Rのコードで出力できる!
メリット
• 非エンジニアに優しい
–黒い画面(コマンドライン)使わなくてよい
–白い画面(エクセル)ユーザでも使える
• デフォルト設定で色々できる
–形態素解析(ChaSen)も標準で入っている
• KHCoderで出来ることをRでカスタマイズする
– Rでどういうことが出来るのかの啓蒙にもいいかも
デメリット
• Windows限定(こちらは無料)
• Mac版は導入方法を自分で調べてmysql等細かい設定をするか、有償サポート(@3,980yen)を受ける必要がある
[対策] => 自力でがんばる、有償サポート、Windowsを買う
本LT目標
• KHCoderで夏目漱石「こころ」テキストのネットワーク図を作成
• それを.R形式で出力
• 出力結果をRstudioで再現
• カスタマイズ
以下、チュートリアルより
• KHCoder自体の使い方
–作者のチュートリアル(分かりやすい)があるので一部紹介
http://www.slideshare.net/khcoder/kh-coder-28776074?ref=http://khc.sourceforge.net/kh_tuto.html
以下、チュートリアルより
=>データを用意する(今回は付属のサンプルデータ)
以下、チュートリアルより
以下、チュートリアルより
以下、チュートリアルより
本題
• KHCoderで「こころ」を解析し
• 作成した共起ネットワークをRで出力してみる
共起ネットワークから「保存」
ココ
R Sourceで保存
先ほどのファイルをRstudioで 読み込み&実行
で実行
補足:パッケージ足りないことも
• 足りない場合はパッケージ追加してください
– install.packages("igraph")
– library(igraph)
実行して待つ ・・
数分後
Rstudioで再現できた!
これでカスタマイズし放題・・!?
これでカスタマイズし放題・・!?
ソースを覗いてみると
これでカスタマイズし放題・・!?
2195行!! (データ約1200行 + ソース1000行。。心が折れた)
ソースを覗いてみると
本LT結果
• KHCoderで夏目漱石「こころ」テキストのネットワーク図を作成 => OK
• それを.R形式で出力 => OK
• 出力結果をRstudioで再現 => OK
• カスタマイズ => また今度
所感
• 一度出力してRで動かすとツールよりやや遅い
• ソースはコメントが付いているので、じっくり見ればカスタマイズはできそう
• ただし、KHCoderのGUI上でも色々設定できるのでKhcorerを使う分には困らないかも
• ソースを読むなら
–細かく描画をカスタマイズしたい場合
– Rで再現したい場合の参考、など
ツール自体はオススメ
• GUIのみで、数ステップの操作でネットワーク分析までできるので、オススメ。
• 社内のエクセル使いに対して
– KHCoderを使ってもらう => 便利!すごい!
–裏側はRであることを伝える => 便利!すごい!
ツール自体はオススメ
• GUIのみで、数ステップの操作でネットワーク分析までできるので、オススメ。
• 社内のエクセル使いに対して
– KHCoderを使ってもらう => 便利!すごい!
–裏側はRであることを伝える => 便利!すごい!
=> KHCoderで間接的なRの地位向上を狙う
enjoy!!
参考資料
• KHCoder本家サイト
– http://khc.sourceforge.net/
• 社会調査のための計量テキスト分析―内容分析の継承と発展を目指して
– http://amazon.jp/dp/4779508037