22
ACL 読読読 2014@ 読読読 “ Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs” Ting-Xuan Wang* and Kun-Yu Tsai and Wen-Hsiang Lu 首首首首首首 首首首首首首首首首首 首首首首首 M1 首首首

ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Embed Size (px)

DESCRIPTION

“Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs” Ting-Xuan Wang* and Kun-Yu Tsai and Wen-Hsiang Lu ACL2014読み会@小町研 8/1

Citation preview

Page 1: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

ACL 読み会 2014@ 小町研

“ Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from

Microblogs”Ting-Xuan Wang* and Kun-Yu Tsai and Wen-Hsiang Lu

首都大学東京 情報通信システム学域小町研究室 M1 塘優旗

Page 2: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

一般的な検索エンジン• 検索クエリにおける潜在的な複雑なタスク

(Complex Task) を考慮しない

検索クエリから潜在的な複雑なタスクを考慮して検索する技術が求められている• 検索クエリに潜む複雑なタスクを推定• 推定されたタスクを網羅できる適切な検索結果を返

したい

はじめに

Page 3: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

例えば

表1

ここを予測したい

入力されるクエリ

Page 4: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

問題を以下 3 つに分類1. 複雑なタスクに対して固有なエンティティを生成す

る2. 複雑なタスクに対してタスクの名前を生成する3. 複雑なタスクにおけるすべての望ましいエンティ

ティをカバーする適切な検索結果を提示する。

論文の概要

本論文では、1、2の問題にのみ着目する。

Page 5: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

マイクロブログ (Twitter,Weibo)• ユーザは複雑なタスクを行ったことを投稿することが多い• 140字制限があるのでキーポイント ( タスク名 , エンティティ )

が押さえられていることが多い Entity-driven Complex Task Model(ECTM) の提案• 自動で複雑なタスクの名前 (Complex Task Name), 関係するタ

スク固有のエンティティ (task-intrinsic entities) を生成するモデル

基本的な考え 

Page 6: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Boldi et al.(2002)long-term の検索セッションを分割して検索タスクにするために graph-based の手法を提案 Guo and Agichtein(2010)検索セッションに基づいた一連の検索行動とともに、複雑なタスクの階層構造を調査する試みを行った。 Cui et al.(2011)検索セッションからサーチタスクを発見するランダムウォークをベースとした手法を提案した。etc….

研究者は検索セッション (search sessions) から複雑なタスクを理解、認識することへ努力を注いできた。

Related Work関連研究

Page 7: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

関係するタスク固有のエンティティとともにタスク名の生成を行う点

マイクロブログを用いてタスクの認識、人間の理解できるタスク名の生成をしている点

本手法の新規性

Page 8: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Entity-driven Complex Task Model(ECTM)

クエリ q に対するタスク tの事後確率

クエリセット Qt に対するタスク t の事後確率

クエリ拡張モデル

マイクロブログ検索モデル

タスク認知モデル

Page 9: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Query Expansion Modelクエリ拡張モデル①

30分間隔でクエリログをセッションに分割

入力クエリ q を含むセッションを Sqに格納

Page 10: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Query Expansion Modelクエリ拡張モデル②

Sq からタスク関連のクエリのセット Qt を抽出するために以下の三つの素性と対数線形モデル (LLM) を用いる。Qt を抽出

Page 11: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Microblog Retrieval Modelマイクロブログ検索モデル

Qt の各クエリ中の名詞を抽出し、タスク固有エンティティのリスト Et に頻度順で格納

Et のトップ n のエンティティの 2~3 つで疑似クエリ (pseudo queries) を生成

疑似クエリ (pseudo queries) を用いてマイクロブログを検索

Page 12: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

①Candidatte Task Name Extractionタスク名候補の抽出

②Correct Task Name Determination正解タスク名の決定

Task Identification Modelタスク認知モデル

Page 13: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

①Candidatte Task Name Extractionタスク名候補の抽出

表2bigram,trigram

検索されたマイクロブログ Mq の各ポストに対して、表 2 のPOS( 品詞 ) パターンにマッチする bigram,trigram を抜き出し、入力クエリ q に対してのタスク名候補のリスト Tq に格納

bigram,trigram

Page 14: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

②Correct Task Name Determination正解タスク名の決定

Zeng et al.(2004) により提案された短いテキストに対して有効な 5 つの素性、プラクティカルな素性 2 つと対数線形モデル (LLM) を用いて候補タスク名 Tq から正解タスク名を決定する

素性 K:k1~k5 : Zeng et al.(2004) に提案された素性TFIDF, フレーズ長 , クラスタ内の類似度 , クラスタのエントロピー ,  フレーズの独立性 k6,k7: プラクティカルな素性task name coverage( マイクロブログのポストが候補タスク名を含んでいるパーセンテージ ),chi-square score(Mannig 1999)

Page 15: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Experiments実験

Page 16: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

使用するデータSogou search の一ヶ月のクエリログ( 21,422,773records, 3,163,170 distinct queries. )各 record はユーザ ID, クエリ , クリックした URL, クエリに対してクリックした順番 , クリックした URL のサーチ検索結果の順 を含む。

クエリログを分割し、セッションのセット S を作る複雑な検索タスクは達成するのに時間がかかるため、セッションを分割するための間隔を1週間として、 264,360 セッションを付加した。

クエリ検索モデル上記のデータから生成された疑似クエリ Qp の各クエリに対して Weibo( マイクロブログ ) からトップ 50 のポストを取得

Dataデータ

Page 17: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

評価のためのテストデータの作成検索セッションから人手で complex task に対する検索における 30個のテストクエリを選択し、3人のアノテータが個別に 30 のテストクエリにラベル付け ( 以下図 3) を行い、似たようなタスク名を統合。

Dataデータ

図3

Page 18: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

最先端の短いテキストのスニペット(マイクロブログのポスト、検索結果のスニペット)に適したフレーズ抽出手法と比較を行う。

Cluster_Q_RS( ベースライン )Zeng et al(2004) の手法であり、検索結果のスニペットから重要なフレーズを特定するために提案された。前に述べた5つの素性を用いて、入力クエリ q によるウェブ検索結果のスニペットからフレーズを抽出する

Cluster_EQ_RS上記で述べた方法は一つの入力クエリ q のみからしか重要なフレーズを抜き出すことができない。この研究において提案したクエリ q から拡張されたクエリセット Qt の各クエリによるウェブ検索結果のスニペットからフレーズを抽出することで Cluster_Q_RS( ベースライン ) を発展させたもの

ECTM_RS疑似クエリセットの各クエリによる検索結果のスニペットに対して、 POS パターンを利用し、タスク名の決定で提案された 7 つのすべての素性を利用する

ECTM_MB(筆者らの提案手法 )この手法と上記の手法の唯一の違いは、マイクロブログのポストからタスク名を認識しようとしている点である。

Compared Methods比較手法

Page 19: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

補足 : 検索結果のスニペット

スニペット

Page 20: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

• 重み各素性関数の重み W,Γ は用意したラベル付きデータを基に、 5 分割交差検定を用いて学習する。• エンティティ数疑似クエリを生成する際に使われるタスク固有のエンティティの数 n 。図2において、 30個のテストクエリに対して、トップ n(1~10) のエンティティをとったときのカバレージ率とプレシジョンを示している。 n=5 となるときが一番良い結果を達成した。したがって、 20個 (5C2+5C3) の疑似クエリを生成し、各疑似クエリに対するトップ 10 のマイクロブログのポストを検索する。

Parameter Selectionパラメータの調整

図2

Page 21: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

指標 (metric)認知されたタスク名のセット Tq_ans の上位 k における正解タスク名の含有率を指標とする。 結果

Results of Task Name Identificationタスク名認知の結果

表 4

表 4 から ECTM_MB の手法が一番良い結果

現実のタスクを記述するにあたって、検索結果のスニペットはとても多様でタスクに対して本質的でない (task-extinsic) 、一方マイクロブログのポストはタスクに対して一貫性 (task-coherent) がある。

Page 22: ACL2014読み会@小町研 “Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs”

Entity-driven Complex Task Model(ECTM) を提案• 入力されたクエリから様々なタスク固有のエンティティを

用いて、有効に複雑なタスクを認識することができる future work• 現実生活における complex task を基にしたクエリ

を処理できる complex-task-based search engineを開発するためのランキングアルゴリズムの研究

Conclusionまとめ