26
閲覧期間を考慮したTwitter上の 見落とし情報抽出手法 ◎大原 啓詳(甲南大学) 鈴木 優 (奈良先端科学技術大学院大学) 灘本 明代(甲南大学)

研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間を考慮したTwitter上の見落とし情報抽出手法

◎大原 啓詳(甲南大学)

鈴木 優 (奈良先端科学技術大学院大学)

灘本 明代(甲南大学)

Page 2: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

背景

興味のある事柄について詳しいユーザ

Follow

共通の趣味

有益な情報の見落としが発生

Tweet

Twitterにおけるユーザ同士の繋がり

一方…

多くのユーザをフォロー⇒多くの情報が得られる

タイムラインを常時確認することは困難

タイムライン上に莫大な量の多様な情報が混在

Page 3: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

背景

閲覧していない期間の情報を全て確認

フォロー数の多い閲覧者には負担が大きい

見落した期間に投稿された情報について閲覧者が容易に取得できる仕組みが必要

閲覧期間の時間情報 ツイートの話題構造

見落とした期間中の情報を閲覧者が理解しやすい形で提示

Page 4: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間の時間情報

Follow

Timeline 見落とした期間

TLを確認する時間が取れなくなる

Baseball

閲覧者 情報発信者

Baseball

Soccer

t

Research

閲覧者が見落とした情報の中に見落とした期間特有の話題

Page 5: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

ツイートの話題構造

TLを確認する時間が取れなくなる

Follow

Baseball

閲覧者 情報発信者

Timeline 見落とした期間

BaseballGiants

WBC

t

共通の上位概念を持つ話題でも見落とし期間特有の内容を含む

Page 6: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

目的

抽出

閲覧者が閲覧していない期間にのみフォローしているユーザから

発信された情報

見落とし情報

閲覧期間における話題との関係を考慮し提示

有益な情報の発見が容易に

Page 7: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

目的

未知の話題に関する情報

既知の話題に関する情報

上位概念は同じであるが、サブトピックが見落とし期間特有⇒閲覧者の興味のある情報と考え詳細な部分での情報を提示

見落とし期間特有の話題⇒閲覧者にとって重要な情報であるかわからないため、概要を表示

見落とした期間

Baseball

Soccer

見落とした期間

Baseball(Giants)

Baseball(WBC)

Page 8: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

手法の全体図(1)あるユーザの発信したツイート群をトピック毎に分類

Baseball SoccerResearch

(2)閲覧者の見落とした期間の時間情報により話題を未知の話題と既知の話題に分類

未知の話題Soccer

既知の話題Research Baseball

(3)未知の話題は全体を未知の概要を提示既知の話題は見落とし期間特有の情報のみを提示

未知の話題Soccer

既知の話題

WBC

Baseballに関する見落とし情報

World Series

Page 9: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

ツイートの話題ごとのクラスタリング

各ツイートの特徴語

固有名詞 一般名詞・未知語

Repeated bisection法によりクラスタリング

いずれのクラスタに対しても所属度の低いツイートを削除

得られたクラスタをツイートの話題ごとのクラスタとする

Page 10: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間に基づく話題の分類(1)あるユーザの発信したツイート群をトピック毎に分

類Baseball SoccerResearch

(2)閲覧者の見落とした期間の時間情報により話題を未知の話題と既知の話題に分類

未知の話題Soccer

既知の話題Research Baseball

(3)未知の話題は全体を未知の概要を提示既知の話題は見落とし期間特有の情報のみを提示

未知の話題Soccer

既知の話題

WBC

Baseballに関する見落とし情報

World Series

Page 11: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間に基づく話題の分類

𝑆𝐶𝑖 =|𝐶𝑖 ∩ 𝐶𝑢|

|𝐶𝑖|

各話題クラスタについての見落とし率𝑆𝐶𝑖を以下の式で算出

𝐶𝑖:あるクラスタに属するツイートすべての集合𝐶𝑢:閲覧者の見落とし期間に存在する

ツイートすべての集合

𝑆𝐶𝑖が閾値α以上となったクラスタを見落した話題に関するクラスタとする

Page 12: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間に基づく話題の分類

見落とした期間

見落とし期間に存在するツイート𝐶𝑢

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

Soccer

Baseball

閲覧したツイート

閲覧したツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

閲覧したツイート

閲覧したツイート

閲覧したツイート

閲覧したツイート

閲覧したツイート

既知の話題

未知の話題

Page 13: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

話題へ話題構造の付与

(1)あるユーザの発信したツイート群をトピック毎に分類Baseball SoccerResearch

(2)閲覧者の見落とした期間の時間情報により話題を未知の話題と既知の話題に分類

未知の話題Soccer

既知の話題Research Baseball

(3)未知の話題は全体を未知の概要を提示既知の話題は見落とし期間特有の情報のみを提示

未知の話題Soccer

既知の話題

WBC

Baseballに関する見落とし情報

World Series

Page 14: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

話題への話題構造の付与

トピック間の概念構造に着目

クラスタリング結果として得られた各トピックは非常に詳細なトピックに関する

ツイートの集合

Giants Ichiro Honda Kagawa Tigers

Baseball

Team

Giants

Player

Ichiro

Tigers

Soccer

Player

Kagawa

Honda

Page 15: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

話題への話題構造の付与

Baseball

Team

Giants

Player

Ichiro

Tigers

Soccer

Player

Kagawa

Honda

未知の情報については投稿があったことを通知既知の情報については見落とした部分についてのみ

ツイートの表示を行う

Page 16: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

話題への話題構造の付与

概念構造:Wikipediaのカテゴリ構造の利用クラスタに付与された特徴語をタイトルとする記事を検索

⇒記事のカテゴリをクラスタのカテゴリとする

問題点・クラスタリング結果について付与された特徴語と同じタイトルを持つ記事が存在しない場合がある(略称・新語・記事ではなく小見出しに記載)

・明確に指し示す記事が分からない特徴語がある例:本田⇒地名・人名・会社名など具体的な内容が分からない

Page 17: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

話題への話題構造の付与

各クラスタの特徴語のうち特徴量の高い上位2語

特徴語A

Wikipediaの記事データに対して特徴語Aと特徴語BのAND検索

検索結果の記事に付与されているカテゴリをクラスタの上位概念として付与

特徴語B

Page 18: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

実験

・クラスタリング部分

・閲覧期間に基づく話題の分類

Page 19: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

クラスタリング部分に関する実験

実験条件・データセット

5アカウントについて各1000ツイートを取得し重複ツイートを削除したデータ

・クラスタリングツール:Bayon

・クラスタ数:分割ポイントにより指定

・分割ポイント:1.0

Page 20: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

クラスタリング部分に関する実験

実験条件

・中心ベクトルとツイートの特徴ベクトルのcos類似度が0.5以下のものは削除

・クラスタ中のツイート数が1件のみのものは削除

・クラスタ中のツイートが適切に分類されたかを評価し適合率を算出

Page 21: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

クラスタリング部分に関する実験実験結果

アカウント ツイート数 クラスタ数最大クラスタ中のツイート数

適合率

A 325 97 14 0.708

B 252 47 23 0.912

C 641 188 8 0.761

D 487 124 14 0.891

E 469 121 12 0.938

・いずれのユーザについても比較的高い適合率が得られた

・クラスタの大きさはいずれのユーザについても比較的小さい

Page 22: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

クラスタリング部分に関する実験

・ツイートの最小単位のトピックへの分類は提案した特徴語を用いたクラスタリングにより実現できる.

・いずれのユーザについても似通った内容のクラスタが複数存在している

例:「マートン」「大和」「西岡」といった同球団の選手についてのクラスタやその上位概念の「タイガース」クラスタが別のクラスタとして存在

Page 23: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間に基づく話題の分類に関する実験

実験条件・クラスタリング部分の実験結果を利用

・見落とし期間は各ユーザの1000ツイートを取得した期間の3分の1の期間

・未知のクラスタを判断するための閾値α=0.7

・未知の話題と分類されたクラスタ中のツイートが既知の話題と重複する話題ではないかの評価

Page 24: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

実験結果

・クラスタリング時には高い適合率が得られたユーザEについて,適合率が低下⇒類似したクラスタが多数存在していた

アカウント未知の話題と判断されたクラスタ数

ツイート数 適合率

A 4 13 0.769

B 18 64 0.672

C 18 56 0.786

D 20 63 0.762

E 24 77 0.52

閲覧期間に基づく話題の分類に関する実験

Page 25: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

閲覧期間に基づく話題の分類に関する実験

・類似クラスタの存在⇒クラスタの上位概念を考慮することで同一のクラスタとして扱うことが可能と考えられる

⇒話題の構造についての分析話題構造の付与が必要

Page 26: 研究テーマ考案 ブログ記事を知識源とした 雑談メ …...手法の全体図 (1)あるユーザの発信したツイート群をトピック毎に分類 Baseball

まとめと今後の課題

まとめ・閲覧期間と話題の構造に基づく見落とし情報の抽出手法について提案

具体的には…

・ツイートの話題ごとの分類手法の提案・閲覧期間に基づく話題の分類手法の提案・各話題への階層構造の付与手法の提案

今後の課題・話題への階層構造付与話題の階層構造の明確化

・粒度を意識した提示情報の最適化