Beliefs and Biases in Web Search (SIGIR'13 Best paper）読んだ

Beliefs and Biases in Web Search（SIGIR’13 Best paper）

背景

• 人々の信念、また信念から発生する無意識のバイアスは判断や決断、行動に影響する重要な要素→検索エンジンの設計にも考慮すべき

• 検索におけるバイアスを解明し、下記のような質問に答える– 人々は検索の結果として信念を変えるのか

– 検索エンジンの結果には、どの程度特定の結果を返しやすいといったバイアスがあるのか

– 検索時の行動にバイアスはどの程度現れるのか

– これらの要素は検索結果の精度にどのような影響をあたえるのか

背景

• 人々の信念、また信念から発生する無意識のバイアスは判断や決断、行動に影響する重要な要素→検索エンジンの設計にも考慮すべき

• 検索におけるバイアスを解明し、下記のような質問に答える– 人々は検索の結果として信念を変えるのか

変えない

– 検索エンジンの結果には、どの程度特定の結果を返しやすいといったバイアスがあるのか肯定的な結果ばっかり返す

– 検索時の行動にバイアスはどの程度現れるのか都合の良い結果ばっかり見る

– これらの要素は検索結果の精度にどのような影響をあたえるのかそういうユーザの行動に適合して正解かどうかは二の次

調査方法

• Microsoftの従業員にメールでサンプリング

• Yes-no質問をウェブ検索で行った人を対象

– “Does chocolate contain caffeine?”– “Are shingles contagious?”

• Yes/no質問は2つの対立する結果しかないので、信念の度合いを素早く図れる

• 198人（23.1%）の回答者が何かしらの検索エンジンに2週間以内にyes-no質問をしていた

調査方法

• 前向き研究（prospective study）• 後ろ向き研究（retrospective study）←こっち

– 既に検索を行った人に、その時のことを思い出して貰って質問に回答してもらう

– 回想に依存するが、yes-no質問をサーベイ時に作成するような調査は現実的ではない

– 既存のクエリで他の人に検索させるのも、検索者の真の信念や動機を考慮できない

3.1 Belief Dynamics

• 検索によって信念がどのように変化したかに焦点を当てる

• 検索の前後で信念のレベルを測る

– Rate your relative prior belief about the likelihood of each outcome before you used the search engine

– Rate your relative posterior belief about the likelihood of each outcome once you finished searching

• 回答は9段階、集計は5段階

NoYes EqualLean yes Lean no

3.1 Belief Dynamics

• 検索前に、検索結果がyesと思っている人の割合が58%（←noは21%）

• ややyes, noの状態で検索した人の47%は彼らの

信念の確認のために検索をしていると明言

58% 21%

3.1 Belief Dynamics

• Yesとnoの割合が増加し、

確信がない人の割合が減少（77%→48%）

• Yesの割合が他のどのレ

ベルよりも倍以上多くなっており、ややyesからyesへ

77%

48%

3.1 Belief Dynamics• 検索前の信念レベルがどのように変わったかを調査

• 検索者が確信を持っている場合は検索によって信念が変わらない• 心理学におけるヒューリスティクス

– 係留と調整（anchoring and adjustment）– 最初に与えられた情報を基準として、それに調整を加えることで判断

し、最初の情報に現れた特定の特徴を極端に重視しやすい意思決定プロセス

100%

3.1 Belief Dynamics

• ①ややyes、noだった回答者は引き続きその信念を維持するがより確信へと変わる

• 最初にyesかno（やや含む）の信念だった場合、逆の信念に変化することはあまりない

• Equalだった場合、equalに留まるか（44%）、yes側に変わる（23%＋13%）事が多い←no側に変わるのは21%（15%＋5%）

この結果を説明する仮説

• 検索者は、元の信念を支持する情報に引きずられ、その信念と逆の情報を見ようとせず、元の信念を変えようとしない

• 検索エンジンが、検索者がより検索結果を見るように誘導するため、yesの結果を上位に持ってきている

• 検索エンジンに投げられるyes/no質問に対する答えの事前確率がyesに偏っている

3.2 Answer Perceptions and Follow-on Search

• 検索エンジンで得られた答えは実世界の行動に影響をあたえるため、人々がそもそも答えを得られたのか、その答えをどの程度確信しているのかを調査

• 85%の回答者が検索で答えを見つけており、その92%がその答えを確信している

3.2 Answer Perceptions and Follow-on Search

• 検索者は頻繁に複数の結果を確認するためその動機を調査

– If you found an answer early in your search, did you still consider multiple results before settling on your final answer?

– 49%がyes– そのモチベーションは最初の答えの確認

最初の答えを、反対の答えから検証

4.1 Searcher Questions

• Sep. 2012から2週間の間に230万人の米国内のBingユーザからのクエリをサンプルし、yes-no質問を自動抽出– user identifiers, timestamps, queries, result clicks, and the captions

(titles, snippets, URLs) of each of the top 10 results– Be, have, do, 助動詞が利用されている疑問文を抽出

– 340万のyes-no質問を抽出された（サンプルの2%）

– Yes-no質問に対する信頼性の高い正解が得られる医療分野に限定、専門家（内科医）に正解を求めた

• クエリは下記の条件を満たすようにフィルタ

– Top-10の検索結果が2週間の間で変わっていない

– セッション中唯一の検索クエリ、またはセッション中最後の検索クエリで、それより前の検索で同じ単語が利用されていない

4.1 Searcher Questions• Yes-no質問に対する信頼性の高い正解が得られる医療分野に限定、Bingのクエリ分類器を用い、医療分野の質問を抽出（2.5%）、そこからランダムに1000個の質問をサンプル

• 信頼性担保のため少なくとも10ユーザから発行された質問に限定– Do food allergies make you tired?食物アレルギーは疲労を引き起こすか

– Is congestive heart failure a heart attack?うっ血性心不全は心臓麻痺か

– Can aspirin cause blood in urine?アスピリンは血尿の原因となるか

4.2 Physician Answers

• 2人の内科医が回答をyes, 50/50, noにラベル付け

• 一般的なシナリオでyes, noどちらもありうる場合または、判定には追加の情報が必要である場合のみ50/50

• Don’t know, n/a（医療関係のyes-no質問でない）の回答も可能→全体の4%

• 70.2%の質問に対し、yesかnoで回答が一致（30%くらいで意見が別れるという文献もある）

• Κ統計量は0.63（かなりの一致）

4.2 Physician Answers

• Canで始まる質問は49.3%で合意なし、34.0%で合意

• 55.2%がyesで合意、noが44.8%（yes/noに限定）

• Yes-no質問の正解の事前確率には偏りがある（が前の章の結果ほどではない）

• 検索エンジンやユーザがyes/noにこの比率より偏れば、それらにもbiasがあると言える

4.3 Crowdsourced Judgments• 検索結果の解析

• 検索結果のキャプションが与えられ、それらを4種類に分類するタスク

• 3～5人が6,740キャプションを分類

• 3人が同じ分類をした場合を合意とする（96%）

• 85%は3人のみの合意

• ランディングページにも同様の解析を行った

• 専門家にも同様のタスクを依頼、κ>0.886で合意

• 専門家とクラウドソーシングもκ>0.853で合意

• キャプションとランディングページの食い違いは6%

このデータを利用して以降で分析

5.1 Answer Presence and Result Distributions

• 検索結果に含まれるyes-no回答の割合（Result＝ランディングページ）

• キャプション/ランディングページのyes-no回答の割合

– Yesに偏っている

– 専門家の正解で条件付けをしてもあまり違いはない＝検索エンジンは正解によって上記の割合が変化しない

5.2 Distribution of Highest-Ranked Answers5.3 Relative Ordering of Yes and No

• 検索結果の上位10件での統計

– Yesの回答が上位ランクにくる

– ランディングページのほうが顕著にその傾向

6.1 SERP Behaviors

• 検索者のバイアスが行動に与える影響の調査

• 最低1回のクリックがある検索を抽出（674のうち496）

• 検索時の学習の影響を取り除くため最初のクリックにフォーカス

6.1.1 Result Clicks• SERPx：検索結果にxが含まれる

• Captionx：キャプションにxが含まれる

• Yesの結果がクリックされやすい

• Rank1に絞っても同様の影響（ランキングの影響がないケース）

（Ground truth）

6.2 Answer Accuracy

• 検索エンジンはyes-no質問に正しい答えを返すのか？（検索者が正しい答えを得られたのか）

• 下記の情報を元に解析

– Top-1の結果

– First satisfied click（滞在時間30秒以上）

– Last satisfied click

• ほとんどのケースではユーザは1クリックしかしていないのでfirstとlastが同じになるケースが多い

6.2.2 Answer Correctness6.2.3 Answer Transitions

• Top-1の精度は45%<50%• 正解がNoの質問では23-29%の精度

• 検索者が選択した結果は精度が向上

• Isやdoesで始まる質問は精度が高く（61%, 59%）、canで始まる質問は精度が低い（38%）

• Yes/noをクリックした後、逆の結果をクリックしない

7. DISCUSSION AND IMPLICATIONS• 検索時のバイアスに関するエビデンスを示した

• 検索エンジンは誤った答えへと導くこともある

• 質問の種類で大きく精度が違う（可能性に関する質問は精度が低い）

• 制限事項として、データセットが小さい（特定の質問タイプ、yes/no質問のみ等の選定）←それでもクラウドソーシングで2000人日の労力

• 検索エンジンの設計を改良するための示唆

• 事実にかかわらずyesの回答をしてしまう

• 検索エンジンがユーザのバイアスを学習した結果かも

• ユーザのクエリの作成方法にも関連があるかも←ユーザはあまり否定疑問文でクエリを作成しない

• 検索結果は真実を反映していないが、サイト作成者や検索者の支配的な意見は反映しているかもしれない←平均的に見るとみんな満足

• パーソナライゼーションにおいては、ユーザの視点と合わない情報がフィルタアウトされることが指摘されているが、似たような示唆がある

• …

Technology

Beliefs and Biases in Web Search (SIGIR'13 Best paper）読んだ