20
ワードクラウドの グラデーション描写による多次元化 早稲田大学基幹理工学部情報理工学科 稲垣 有哉 深澤 良彰 [email protected] [email protected]

ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

ワードクラウドの グラデーション描写による多次元化

早稲田大学基幹理工学部情報理工学科稲垣 有哉 深澤 良彰

[email protected] [email protected]

Page 2: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

2

目次01 研究背景

02

03

04

05

提案手法

評価

まとめ

参考文献

1 . 各 単 語 の 出 現 頻 度 の 解 析 と 類 義 語 の 統 一2 . グ ラ デ ー シ ョ ン コ ー ド と プ ロ ッ ト 座 標 の 取 得3 . 描 画

Page 3: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

研究背景B a c k g r o u n d

Page 4: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

研究背景

4

ワードクラウド

文章内容を重要単語の描写により視覚的に理解する手法の例

・出現位置を表す時系列情報が分からない・文章内容を一目で理解するのは難しい

問題点

文章中の出現頻度が高い単語を選び出し、その頻度に応じた大きさで図示する手法

Page 5: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

研究背景

5

・既存のワードクラウドに時系列情報を新たに追加できないか?・時系列情報をグラデーションで表現できないか?・文章全体の流れを横軸で表現できないか?

アイデア

鬼おばあさん

Page 6: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

提案手法P r o p o s a l

Page 7: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

7

Page 8: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

提案手法

8

1 各単語の出現頻度の解析と類義語の統一

2 グラデーションコードとプロット座標の取得

3 解析結果の描写

Page 9: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

類義語や同義語の語彙集、本研究では日本語WordNetを使用9

1 各単語の出現頻度の解析と類義語の統一

解析対象のテキストの読み込み、空白・改行の削除1

日本語形態素解析器RMeCabを用いて名詞の取得2

数・非自立語・接尾語や余分な単語(ノイズ)の削除3

頻出単語の類義語をシソーラスを用いて探索し1つの単語に統一4

言語で意味を持つ最小単位の言語に分割して品詞等を判断

Page 10: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

10

2 グラデーションコードとプロット座標の取得

対象のテキストの長さを取得し10個の区間に分割1

2 9 4 2 1 2 4 2 10 9

1~ 1000文字 1001~ 2000文字

例えば10000文字の文章

頻出単語の出現位置の確認とプロット座標の決定を行う

Page 11: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

2 9 4 2 1 2 4 2 910

MAX

”#ccf4ff" "#60e6ff" "#84eaff" "#72e8ff" "#99edff" "#72e8ff" "#00d8ff" "#72e8ff" "#a5eeff" "#60e6ff"

ピンク

オレンジ

水色

4種類からランダムで生成

11

2 グラデーションコードとプロット座標の取得

単語がそれぞれの分割区間に何個ずつあるか探索2-1

グラデーション用のカラーコードを発行2-2

Page 12: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

1 6 9 12

2 グラデーションコードとプロット座標の取得

オリジナルアルゴリズムでプロット位置を決定する2-3

0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 1 1 1 0 0 01 1 0 0 1 1 1 1 1 1

0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0

10個

1 2 3 4 5 6 7 8 9 10

単語の再頻出位置 下から積み重ねる横軸 縦軸

Page 13: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

13

3 解析結果の描写

Page 14: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

評価E v a l u a t i o n

Page 15: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

出力例1

15

トヨタの文章で読む75年の歴史

既存のワードクラウドと比較してテキスト全体の流れと各頻出単語の出現位置が視覚的に確認できる

15930単語

Page 16: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

評価

16

26名の大学・大学院生にワードクラウドに関するアンケート調査を実施

グラデーションによる描写は文章の内容とストーリーが分かりやすいと思いますか?Q 1

80.7%の人が分かりやすい/非常に分かりやすいと回答

既存の物と今回提案したワードクラウドでどちらが文章の内容とストーリーが分かりやすいと思いますか?Q 2

76.9%の人が今回提案した手法の方が分かりやすいと回答*22.7%の人がどちらもあまり変わらないと回答

Page 17: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

まとめC o n c l u s i o n

Page 18: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

まとめ

18

• 既存のワードクラウドに各頻出単語の出現位置をグラデーションで描写することにより文章内容と流れを理解できることを確認できた

• 長期的な時系列を持つテキストデータの解析に向いている

• アンケート調査の結果、ワードクラウドの出力方法の変更による改善が見られることが分かった

Page 19: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

参考文献

19

砂山渡, テキストの話を視覚化するインタフェース-川下りシステム-, 情報処理学会研究報告, NL-181, pp.71-78. (2007).

金子満生, 恵谷淳一郎, 松澤由梨枝, 韓東力, 重要語句抽出を利用した要旨作成システム, 言語処理学会年次大会発表論文集, pp.1043-1046. (2012).

RMeCabの使い方, http://rmecab.jp/wiki/index.php?plugin=attach&refer=S oftArchive&openfile=manual081108.pdf, 石田 基広. (2018.1.10).

日本語WordNet, http://compling.hss.ntu.edu.sg/wnja/index.ja.html, NICT. (2018.1.11).

文章で読む75年の歩み, https://www.toyota.co.jp/jpn/company/history/ 75years/text/, トヨタ自動車. (2018.1.20)

1

2

3

4

5

Page 20: ワードクラウドの グラデーション描写による多次元化 - Yuya …2019/05/30  · 18 • 既存のワードクラウドに各頻出単語の出現位置をグラデーションで

ご静聴ありがとうございました

私の原稿を本システムで解析した結果 20