Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
2
目次01 研究背景
02
03
04
05
提案手法
評価
まとめ
参考文献
1 . 各 単 語 の 出 現 頻 度 の 解 析 と 類 義 語 の 統 一2 . グ ラ デ ー シ ョ ン コ ー ド と プ ロ ッ ト 座 標 の 取 得3 . 描 画
研究背景B a c k g r o u n d
研究背景
4
ワードクラウド
文章内容を重要単語の描写により視覚的に理解する手法の例
・出現位置を表す時系列情報が分からない・文章内容を一目で理解するのは難しい
問題点
文章中の出現頻度が高い単語を選び出し、その頻度に応じた大きさで図示する手法
研究背景
5
・既存のワードクラウドに時系列情報を新たに追加できないか?・時系列情報をグラデーションで表現できないか?・文章全体の流れを横軸で表現できないか?
アイデア
鬼おばあさん
提案手法P r o p o s a l
7
提案手法
8
1 各単語の出現頻度の解析と類義語の統一
2 グラデーションコードとプロット座標の取得
3 解析結果の描写
類義語や同義語の語彙集、本研究では日本語WordNetを使用9
1 各単語の出現頻度の解析と類義語の統一
解析対象のテキストの読み込み、空白・改行の削除1
日本語形態素解析器RMeCabを用いて名詞の取得2
数・非自立語・接尾語や余分な単語(ノイズ)の削除3
頻出単語の類義語をシソーラスを用いて探索し1つの単語に統一4
言語で意味を持つ最小単位の言語に分割して品詞等を判断
10
2 グラデーションコードとプロット座標の取得
対象のテキストの長さを取得し10個の区間に分割1
2 9 4 2 1 2 4 2 10 9
1~ 1000文字 1001~ 2000文字
例えば10000文字の文章
頻出単語の出現位置の確認とプロット座標の決定を行う
2 9 4 2 1 2 4 2 910
MAX
”#ccf4ff" "#60e6ff" "#84eaff" "#72e8ff" "#99edff" "#72e8ff" "#00d8ff" "#72e8ff" "#a5eeff" "#60e6ff"
緑
ピンク
オレンジ
水色
4種類からランダムで生成
11
2 グラデーションコードとプロット座標の取得
単語がそれぞれの分割区間に何個ずつあるか探索2-1
グラデーション用のカラーコードを発行2-2
1 6 9 12
2 グラデーションコードとプロット座標の取得
オリジナルアルゴリズムでプロット位置を決定する2-3
0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 1 1 1 0 0 01 1 0 0 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0
〜
10個
1 2 3 4 5 6 7 8 9 10
単語の再頻出位置 下から積み重ねる横軸 縦軸
13
3 解析結果の描写
評価E v a l u a t i o n
出力例1
15
トヨタの文章で読む75年の歴史
既存のワードクラウドと比較してテキスト全体の流れと各頻出単語の出現位置が視覚的に確認できる
15930単語
評価
16
26名の大学・大学院生にワードクラウドに関するアンケート調査を実施
グラデーションによる描写は文章の内容とストーリーが分かりやすいと思いますか?Q 1
80.7%の人が分かりやすい/非常に分かりやすいと回答
既存の物と今回提案したワードクラウドでどちらが文章の内容とストーリーが分かりやすいと思いますか?Q 2
76.9%の人が今回提案した手法の方が分かりやすいと回答*22.7%の人がどちらもあまり変わらないと回答
まとめC o n c l u s i o n
まとめ
18
• 既存のワードクラウドに各頻出単語の出現位置をグラデーションで描写することにより文章内容と流れを理解できることを確認できた
• 長期的な時系列を持つテキストデータの解析に向いている
• アンケート調査の結果、ワードクラウドの出力方法の変更による改善が見られることが分かった
参考文献
19
砂山渡, テキストの話を視覚化するインタフェース-川下りシステム-, 情報処理学会研究報告, NL-181, pp.71-78. (2007).
金子満生, 恵谷淳一郎, 松澤由梨枝, 韓東力, 重要語句抽出を利用した要旨作成システム, 言語処理学会年次大会発表論文集, pp.1043-1046. (2012).
RMeCabの使い方, http://rmecab.jp/wiki/index.php?plugin=attach&refer=S oftArchive&openfile=manual081108.pdf, 石田 基広. (2018.1.10).
日本語WordNet, http://compling.hss.ntu.edu.sg/wnja/index.ja.html, NICT. (2018.1.11).
文章で読む75年の歩み, https://www.toyota.co.jp/jpn/company/history/ 75years/text/, トヨタ自動車. (2018.1.20)
1
2
3
4
5
ご静聴ありがとうございました
私の原稿を本システムで解析した結果 20