Upload
yuki-tomo
View
194
Download
2
Embed Size (px)
DESCRIPTION
“Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs” Ting-Xuan Wang* and Kun-Yu Tsai and Wen-Hsiang Lu ACL2014読み会@小町研 8/1
Citation preview
ACL 読み会 2014@ 小町研
“ Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from
Microblogs”Ting-Xuan Wang* and Kun-Yu Tsai and Wen-Hsiang Lu
首都大学東京 情報通信システム学域小町研究室 M1 塘優旗
一般的な検索エンジン• 検索クエリにおける潜在的な複雑なタスク
(Complex Task) を考慮しない
検索クエリから潜在的な複雑なタスクを考慮して検索する技術が求められている• 検索クエリに潜む複雑なタスクを推定• 推定されたタスクを網羅できる適切な検索結果を返
したい
はじめに
例えば
表1
ここを予測したい
入力されるクエリ
問題を以下 3 つに分類1. 複雑なタスクに対して固有なエンティティを生成す
る2. 複雑なタスクに対してタスクの名前を生成する3. 複雑なタスクにおけるすべての望ましいエンティ
ティをカバーする適切な検索結果を提示する。
論文の概要
本論文では、1、2の問題にのみ着目する。
マイクロブログ (Twitter,Weibo)• ユーザは複雑なタスクを行ったことを投稿することが多い• 140字制限があるのでキーポイント ( タスク名 , エンティティ )
が押さえられていることが多い Entity-driven Complex Task Model(ECTM) の提案• 自動で複雑なタスクの名前 (Complex Task Name), 関係するタ
スク固有のエンティティ (task-intrinsic entities) を生成するモデル
基本的な考え
Boldi et al.(2002)long-term の検索セッションを分割して検索タスクにするために graph-based の手法を提案 Guo and Agichtein(2010)検索セッションに基づいた一連の検索行動とともに、複雑なタスクの階層構造を調査する試みを行った。 Cui et al.(2011)検索セッションからサーチタスクを発見するランダムウォークをベースとした手法を提案した。etc….
研究者は検索セッション (search sessions) から複雑なタスクを理解、認識することへ努力を注いできた。
Related Work関連研究
関係するタスク固有のエンティティとともにタスク名の生成を行う点
マイクロブログを用いてタスクの認識、人間の理解できるタスク名の生成をしている点
本手法の新規性
Entity-driven Complex Task Model(ECTM)
クエリ q に対するタスク tの事後確率
クエリセット Qt に対するタスク t の事後確率
クエリ拡張モデル
マイクロブログ検索モデル
タスク認知モデル
Query Expansion Modelクエリ拡張モデル①
30分間隔でクエリログをセッションに分割
入力クエリ q を含むセッションを Sqに格納
Query Expansion Modelクエリ拡張モデル②
Sq からタスク関連のクエリのセット Qt を抽出するために以下の三つの素性と対数線形モデル (LLM) を用いる。Qt を抽出
Microblog Retrieval Modelマイクロブログ検索モデル
Qt の各クエリ中の名詞を抽出し、タスク固有エンティティのリスト Et に頻度順で格納
Et のトップ n のエンティティの 2~3 つで疑似クエリ (pseudo queries) を生成
疑似クエリ (pseudo queries) を用いてマイクロブログを検索
①Candidatte Task Name Extractionタスク名候補の抽出
②Correct Task Name Determination正解タスク名の決定
Task Identification Modelタスク認知モデル
①Candidatte Task Name Extractionタスク名候補の抽出
表2bigram,trigram
検索されたマイクロブログ Mq の各ポストに対して、表 2 のPOS( 品詞 ) パターンにマッチする bigram,trigram を抜き出し、入力クエリ q に対してのタスク名候補のリスト Tq に格納
bigram,trigram
②Correct Task Name Determination正解タスク名の決定
Zeng et al.(2004) により提案された短いテキストに対して有効な 5 つの素性、プラクティカルな素性 2 つと対数線形モデル (LLM) を用いて候補タスク名 Tq から正解タスク名を決定する
素性 K:k1~k5 : Zeng et al.(2004) に提案された素性TFIDF, フレーズ長 , クラスタ内の類似度 , クラスタのエントロピー , フレーズの独立性 k6,k7: プラクティカルな素性task name coverage( マイクロブログのポストが候補タスク名を含んでいるパーセンテージ ),chi-square score(Mannig 1999)
Experiments実験
使用するデータSogou search の一ヶ月のクエリログ( 21,422,773records, 3,163,170 distinct queries. )各 record はユーザ ID, クエリ , クリックした URL, クエリに対してクリックした順番 , クリックした URL のサーチ検索結果の順 を含む。
クエリログを分割し、セッションのセット S を作る複雑な検索タスクは達成するのに時間がかかるため、セッションを分割するための間隔を1週間として、 264,360 セッションを付加した。
クエリ検索モデル上記のデータから生成された疑似クエリ Qp の各クエリに対して Weibo( マイクロブログ ) からトップ 50 のポストを取得
Dataデータ
評価のためのテストデータの作成検索セッションから人手で complex task に対する検索における 30個のテストクエリを選択し、3人のアノテータが個別に 30 のテストクエリにラベル付け ( 以下図 3) を行い、似たようなタスク名を統合。
Dataデータ
図3
最先端の短いテキストのスニペット(マイクロブログのポスト、検索結果のスニペット)に適したフレーズ抽出手法と比較を行う。
Cluster_Q_RS( ベースライン )Zeng et al(2004) の手法であり、検索結果のスニペットから重要なフレーズを特定するために提案された。前に述べた5つの素性を用いて、入力クエリ q によるウェブ検索結果のスニペットからフレーズを抽出する
Cluster_EQ_RS上記で述べた方法は一つの入力クエリ q のみからしか重要なフレーズを抜き出すことができない。この研究において提案したクエリ q から拡張されたクエリセット Qt の各クエリによるウェブ検索結果のスニペットからフレーズを抽出することで Cluster_Q_RS( ベースライン ) を発展させたもの
ECTM_RS疑似クエリセットの各クエリによる検索結果のスニペットに対して、 POS パターンを利用し、タスク名の決定で提案された 7 つのすべての素性を利用する
ECTM_MB(筆者らの提案手法 )この手法と上記の手法の唯一の違いは、マイクロブログのポストからタスク名を認識しようとしている点である。
Compared Methods比較手法
補足 : 検索結果のスニペット
スニペット
• 重み各素性関数の重み W,Γ は用意したラベル付きデータを基に、 5 分割交差検定を用いて学習する。• エンティティ数疑似クエリを生成する際に使われるタスク固有のエンティティの数 n 。図2において、 30個のテストクエリに対して、トップ n(1~10) のエンティティをとったときのカバレージ率とプレシジョンを示している。 n=5 となるときが一番良い結果を達成した。したがって、 20個 (5C2+5C3) の疑似クエリを生成し、各疑似クエリに対するトップ 10 のマイクロブログのポストを検索する。
Parameter Selectionパラメータの調整
図2
指標 (metric)認知されたタスク名のセット Tq_ans の上位 k における正解タスク名の含有率を指標とする。 結果
Results of Task Name Identificationタスク名認知の結果
表 4
表 4 から ECTM_MB の手法が一番良い結果
現実のタスクを記述するにあたって、検索結果のスニペットはとても多様でタスクに対して本質的でない (task-extinsic) 、一方マイクロブログのポストはタスクに対して一貫性 (task-coherent) がある。
Entity-driven Complex Task Model(ECTM) を提案• 入力されたクエリから様々なタスク固有のエンティティを
用いて、有効に複雑なタスクを認識することができる future work• 現実生活における complex task を基にしたクエリ
を処理できる complex-task-based search engineを開発するためのランキングアルゴリズムの研究
Conclusionまとめ