文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking

文献紹介(2015/5/8)Paraphrasing Adaptation for Web Search Ranking

長岡技術科学大学電気電子情報工学専攻

自然言語処理研究室高橋寛治

文献について

•Paraphrasing Adaptation for Web Search Ranking

•Chenguang Wang, Nan Duan, Ming Zhou, Ming Zhang, 2013, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pp.41-46

概要

•Web検索において、クエリと文書のミスマッチは問題

•換言を3つの側面から行い、Web検索の精度を向上。

•結果、3ポイントほど向上

はじめに

•換言とは、入力文に対して別の表現で伝えること

•Web検索では、検索クエリに対して同じ意味でも表現が違うと、うまく検索できない。• X is the author of Y

• Y was written by X

•そこで、Web検索に特化した換言を深く調査する

Web検索のための換言

•換言知識の取得•バイリンガルコーパスから取得(Callison-Burch 2005)•分布仮説によりモノリンガルコーパスから取得(Lin and

Pantel 2001)• WordNetから取得(Miller 1995)

•換言に3つの手法を用いる•検索指向の換言モデル• NDCGベースのパラメータ最適化•強化したランキングモデル

検索に適応した換言モデル

•統計的機械翻訳と同様の考え方•入力クエリQに対して、線形モデルにより換言候補を列挙する𝑄 = arg max

𝑄′∈ℋ(𝑄)𝑃 𝑄′ 𝑄)

= arg max𝑄′∈ℋ(𝑄)

𝑚=1𝑀 𝜆𝑚ℎ𝑚(𝑄, 𝑄′)

• HはQに対するすべての換言候補• Q’はQに対する候補• 𝜆𝑚とℎ𝑚は素性に対する重みづけ

NDCGベースのパラメータ最適化

•NDCGは順位づけ問題の精度評価指標の１つ

•MERT(最少誤り率訓練)を利用•換言モデルにおける素性の重みづけを行う

強化したランキングモデル

•Web検索においては、クエリに関連する文書のランク付けを行うことが重要

•Qはクエリ、Dはドキュメントセット、Fは一致素性

ℛ 𝑄,𝐷𝑄 =

𝑘=1

𝐾

𝜆𝑘𝐹𝑘(𝑄, 𝐷𝑄)

実験

•換言対を580万文取得

•検索エンジンのログから無作為に抽出した2838のクエリをアノテーション• 1419をパラメータ学習、残りをテストセットとして利用

•NDCG@1を用いて評価• Web検索タスクの評価手法

ベースラインシステム

•換言のベースライン：BL-Para•伝統的な統計的機械翻訳の素性のみを用いる

• 重みづけにBLEU評価を用いたMERTを用いる

•ランク付けのベースライン：BL-Rank•もとのクエリと、Webページの内容を使用し、SVM-rank toolkitでモデルを学習

検索指向の素性の影響

•BL-Para+SF•検索指向の素性(search-oriented)を追加したもの

•Cand@1はそれぞれの手法で生成された最もよい換言候補

最適化アルゴリズムの影響

•MERT(最少誤り率訓練)により最適化されたことにより、スコアが上がる

強化ランキングモデルの影響

•NDCGの改善は元クエリの隠れた換言から

•クエリと文書のミスマッチをある程度防ぐ

まとめ

•Web検索のための換言について深く掘り下げた•モデルの選択と最適化の方面から

•今後は、ほかのクエリ変更手法と比較したい

Education

文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking