55
Вопросноответный поиск Вопросноответный поиск в интернете Павел Браславский б NLP seminar, СПб 18.12.2010 Использованы слайды: Chris Manning, Eugene Agichtein

Браславский: вопросно-ответный поиск

Embed Size (px)

Citation preview

Page 1: Браславский: вопросно-ответный поиск

Вопросно‐ответный поискВопросно‐ответный поиск в интернетер

Павел БраславскийбNLP seminar, СПб 

18.12.2010

Использованы слайды: Chris Manning, Eugene Agichtein

Page 2: Браславский: вопросно-ответный поиск

ПланПлан

• Почему «ответы на вопросы»?

• «Традиционный» вопросно‐ответный поиск«Традиционный» вопросно ответный поиск

• Ответы на вопросы в Вебе

• Социальный вопросно‐ответный поиск

• ЗаключениеЗаключение

218.12.2010 Павел Браславский 

Page 3: Браславский: вопросно-ответный поиск

ИдеяИдея

ВопросИсчерпывающая и естественная формулировка р щ ф р у ринформационной потребности

ОтветОтветТочный ответ или фрагмент документа, содержащий ответ

ДанныеТекстовая коллекция

318.12.2010 Павел Браславский 

Page 4: Браславский: вопросно-ответный поиск

Запросы вопросы: 2 3%Запросы – вопросы: 2‐3%

http://company.yandex.ru/facts/researches/ya_search_2009.xml

Павел Браславский ‐ Анализ запросов 4

Page 5: Браславский: вопросно-ответный поиск

Близкие областиБлизкие области

• ЕЯ‐интерфейс к БД

• Диалоговые системыДиалоговые системы

518.12.2010 Павел Браславский 

Page 6: Браславский: вопросно-ответный поиск

Примеры вопросов TRECПримеры вопросов TREC

1 Wh i th th f th b k "Th I L d A Bi h f1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"?

2. What was the monetary value of the Nobel Peace Prize in 1989?3. What does the Peugeot company manufacture?4. How much did Mercury spend on advertising in 1993?5. What is the name of the managing director of Apricot Computer?5. What is the name of the managing director of Apricot Computer?6. Why did David Koresh ask the FBI for a word processor?7. What debts did Qintex group leave?8 Wh i h f h l i l di i h8. What is the name of the rare neurological disease with symptoms 

such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?

618.12.2010 Павел Браславский 

Page 7: Браславский: вопросно-ответный поиск

[Manning]718.12.2010 Павел Браславский 

Page 8: Браславский: вопросно-ответный поиск

18.12.2010 Павел Браславский  8[Manning]

Page 9: Браславский: вопросно-ответный поиск

18.12.2010 Павел Браславский  9[Manning]

Page 10: Браславский: вопросно-ответный поиск

Ключевые компонентыКлючевые компоненты 

• ИПС (индексирование документов, извлечение и ранжирование фрагментов)р р фр )

• NER

ф (• Классификатор вопросов ( гипотезы ответа)

• Синтаксический и семантический анализ

М• Машина вывода 

textual inference/entailment/reasoningg

18.12.2010 Павел Браславский  10

Page 11: Браславский: вопросно-ответный поиск

ПримерПример

• Сегодня в возрасте восьмидесяти лет в Переделкино умер глава русской р д у р руправославной церкви Алексий Второй.

• Патриарх Алексий II скончался 5 декабря• Патриарх Алексий II скончался 5 декабря 2008 года.

1118.12.2010 Павел Браславский 

Page 12: Браславский: вопросно-ответный поиск

CLEF 2009CLEF 2009

bliQ 00 l l i• ResPubliQA: 500 natural language questions, systems must return the passage, multilingual ll ti f l i l ti d tcollection of legislation documents. 

• QAST: written and oral questions (factual and definitional) in different languages are formulated against a set of audio recordings. 

• GikiCLEF: open list questions over Wikipedia that require geographic reasoning, complex information extraction, and cross‐lingual processing. 

18.12.2010 Павел Браславский  12

Page 13: Браславский: вопросно-ответный поиск

GikiCLEFGikiCLEF• EX01 Name Portuguese speaking Nobel prize winners• EX01: Name Portuguese‐speaking Nobel prize winners• EX02: List Portuguese Pop/Rock groups created in the 90s. • EX03: Which Brazilian football players play in clubs in the Iberian

Pensinsula?Pensinsula? • EX04: What capitals of Dutch provinces received their town privileges

during the sixteenth century? • EX05: In which places did Italo Calvino live during adulthood?• EX05: In which places did Italo Calvino live during adulthood? • EX06: Name Mexican poets who published volumes with ballads until

1930. • EX07: Name authors born in Alaska and who wrote fiction about it• EX07: Name authors born in Alaska and who wrote fiction about it. • EX08: What Belgians won the Tour de France exactly twice? • EX09: Find Amazon tribes which have no written language

EX10 Fi d N h E i hi h d l i• EX10: Find Northern Europe companies which produce nano‐electroniccomponents for planes. 

Павел Браславский 13

Page 14: Браславский: вопросно-ответный поиск

РОМИПРОМИП

К BYWEB• Коллекция BY.WEB• 10K запросов‐вопросов из лога поисковой машины

– gta san andreas как сделать машину призрак?g д у р р– монгольские полевки как ухаживать?– берут ли с экземой в армию?– перелёт до екатеринбурга от москвы сколько по времени?– черезсколько дней появляются корни у отростка традесканции?– всем ли девушкам важны деньги?– как заполучить парня своей мечты?

где пройдет финал кубка уефа 2009?– где пройдет финал кубка уефа 2009?

• До 5 ответов системы: docID, краткий ответ, фрагмент (до 300 символов)

http://romip.ru/ru/2010/tracks/qa.html

18.12.2010 Павел Браславский  14

Page 15: Браславский: вопросно-ответный поиск

AskMSRAskMSRКлассификация вопроса (7 категорий)

взвешивание

Регулярные выражения

1518.12.2010 Павел Браславский 

Page 16: Браславский: вопросно-ответный поиск

18.12.2010 Павел Браславский  16[Manning]

Page 17: Браславский: вопросно-ответный поиск

AnswerBusAnswerBus

1718.12.2010 Павел Браславский 

Page 18: Браславский: вопросно-ответный поиск

Примеры системПримеры систем

• AnswerBus, PowerSet иLLC (http://www.languagecomputer.com/) ( p g g p )не работают 

• EasyAsk AnswerLogic AnswerFriend Start• EasyAsk, AnswerLogic, AnswerFriend, Start, Quasm, Mulder, Webclopedia, ISI TextMap, 

[ ]etc. [Manning]

1818.12.2010 Павел Браславский 

Page 19: Браславский: вопросно-ответный поиск

Wolfram AlphaWolfram Alpha

18.12.2010 Павел Браславский  19

Page 20: Браславский: вопросно-ответный поиск

18.12.2010 Павел Браславский  20

Page 21: Браславский: вопросно-ответный поиск

Ask.com

18.12.2010 Павел Браславский  21

Page 22: Браславский: вопросно-ответный поиск

Разные данные/подходыРазные данные/подходы

• Поиск ответа по коллекции текстов

• Поиск ответа в структурированных данныхПоиск ответа в структурированных данных

• Поиск ответа в коллекции вопросов и ответов– FAQ

– Онлайн консультации

– Форумы сообщества– Форумы, сообщества

– Специализированные социальные сервисы

18.12.2010 Павел Браславский  22

Page 23: Браславский: вопросно-ответный поиск

Социальный поискСоциальный поиск

1. Поиск с помощью сообщества

2. Поиск с учетом социальных2. Поиск с учетом социальных взаимодействий пользователей

3 П й3. Поиск по контенту, который является результатом социальных взаимодействий

2318.12.2010 Павел Браславский 

Page 24: Браславский: вопросно-ответный поиск

2418.12.2010 Павел Браславский 

Page 25: Браславский: вопросно-ответный поиск

otvety.mail.ru

18.12.2010 Павел Браславский  25

Page 26: Браславский: вопросно-ответный поиск

quora.com

18.12.2010 Павел Браславский  26

Page 27: Браславский: вопросно-ответный поиск

Проблемы/задачиПроблемы/задачи

• Качество контента– Информация/общениеф р ц / щ

• Устранение избыточности (смысловые дубликаты)дубликаты)

• Релевантность/ранжирование 

• Классификация запросов

З В• Запрос  Вопрос

2718.12.2010 Павел Браславский 

Page 28: Браславский: вопросно-ответный поиск

Finding High Quality Content in SMFinding High Quality Content in SM

E A i h i C C ill D D A Gi i d GE. Agichtein, C. Castillo, D. Donato, A. Gionis, and G. Mishne, Finding High Quality Content in Social Media inWSDM 2008

• Well‐written

Media, in WSDM 2008 

• Interesting• Relevant (answer)

As judged by professional editorse e a (a s e )

• Factually correct• Popular?

professional editors

Popular?• Provocative?• Useful?

18.12.2010 Павел Браславский  28

• Useful?

[Agichtein]

Page 29: Браславский: вопросно-ответный поиск

292929

Page 30: Браславский: вопросно-ответный поиск

How do Question and Answer Quality relate?

30[Agichtein]

Page 31: Браславский: вопросно-ответный поиск

313131

Page 32: Браславский: вопросно-ответный поиск

323232

Page 33: Браславский: вопросно-ответный поиск

333333

Page 34: Браславский: вопросно-ответный поиск

343434

Page 35: Браславский: вопросно-ответный поиск

CommunityCommunityCommunityCommunity

3535[Agichtein]

Page 36: Браславский: вопросно-ответный поиск

Link Analysis for Authority EstimationLink Analysis for Authority Estimation

Q ti 1Answer 1 User 3 User 3

Question 1

Answer 2

User 1User 4

User 1User 4

Question 2

Answer 4

Answer 3

User 2User 6

User 5

User 2 User 6

User 5

Answer 5

Answer 4 User 6

Question 3

Answer 6∑=

=Mi

iHjA0

)()(

∑=

=Kj

jAiH0

)()(= Mi ..0

H b ( k ) A th it ( )

36

= Kj ..0 Hub (asker) Authority (answerer)

[Agichtein]

Page 37: Браславский: вопросно-ответный поиск

Random forest classifier

373737

Page 38: Браславский: вопросно-ответный поиск

Result 1: Identifying High Quality Questions

38[Agichtein]

Page 39: Браславский: вопросно-ответный поиск

Top Features for Question ClassificationTop Features for Question Classification

A k l it (“ t ”)• Asker popularity (“stars”)

• Punctuation density

• Topical category

• Page views

• KL Divergence from reference corpus LM

39[Agichtein]

Page 40: Браславский: вопросно-ответный поиск

Identifying High Quality AnswersIdentifying High Quality Answers

40[Agichtein]

Page 41: Браславский: вопросно-ответный поиск

Top Features for Answer ClassificationTop Features for Answer Classification

A l th• Answer length

• Community ratings

Answerer reputation

• Word overlap 

• Kincaid readability score

41[Agichtein]

Page 42: Браславский: вопросно-ответный поиск

Dimensions of “Quality”Dimensions of  Quality

ll i• Well‐written• Interestingg• Relevant (answer)• Factually correct• Factually correct• Popular?• Timely?• Provocative?

As judged by the asker (or community)Provocative?

• Useful?

42[Agichtein]

Page 43: Браславский: вопросно-ответный поиск

Yahoo! Answers: The Good NewsYahoo! Answers: The Good News

• Active community of millions of users in many countries and languagesg g

Eff i f bj i i f i d• Effective for subjective information needs– Great forum for socialization/chat

C b i l bl f h d t fi d i f ti• Can be invaluable for hard‐to‐find information not available on the web

4343[Agichtein]

Page 44: Браславский: вопросно-ответный поиск

4444[Agichtein]

Page 45: Браславский: вопросно-ответный поиск

Yahoo! Answers: The Bad NewsMay have to wait a long time to get a satisfactory answer

Yahoo! Answers: The Bad News

1 FIFA World Cup

30

35

40 1. FIFA World Cup2. Optical3. Poetry

20

25

30 3. Poetry4. Football (American)5. Soccer

10

15 6. Medicine7. Winter Sports8 Special Education

0

5

1 2 3 4 5 6 7 8 9 10

8. Special Education9. General Health Care10. Outdoor Recreation

May never obtain a satisfying answer

10. Outdoor RecreationTime to close a question (hours)

May never obtain a satisfying answer4545

[Agichtein]

Page 46: Браславский: вопросно-ответный поиск

Y Liu J Bian and E Agichtein in SIGIR 2008

Predicting Asker SatisfactionY. Liu, J. Bian, and E. Agichtein, in SIGIR 2008 

Given a question submitted by an asker in CQA, predict whether the user will be satisfied with thepredict whether the user will be satisfied with the answers contributed by the community.

– “Satisfied” :• The asker has closed the question AND• The asker has closed the question AND• Selected the best answer AND• Rated best answer >= 3 “stars” (# not important)• Rated best answer >= 3  stars (# not important) 

– Else, “Unsatisfied

46[Agichtein]

Page 47: Браславский: вопросно-ответный поиск

ASP: Asker Satisfaction PredictionASP: Asker Satisfaction Prediction

Answerer History

TextCategory

Answerer History

Asker History

Answer

Question

Wikipedia

NewsClassifier

asker is asker is not

News

asker is satisfied

asker is not satisfied

47[Agichtein]

Page 48: Браславский: вопросно-ответный поиск

Experimental Setup: DataExperimental Setup: DataCrawled from Yahoo! Answers in early 2008

Questions Answers Askers Categories % Satisfied216,170 1,963,615 158,515 100 50.7%

“Anonymized” dataset available at: http://irmathcs emory edu/shared/http://ir.mathcs.emory.edu/shared/ 

/ h ! b “ h ”1/2009: Yahoo! Webscope : “Comprehensive” Answers dataset: ~5M questions & answers.

48[Agichtein]

Page 49: Браславский: вопросно-ответный поиск

Satisfaction by TopicSatisfaction by TopicTopic Questions Answers A per Q Satisfied Asker Time to close

b krating by asker2006 FIFA W ld C

1194 35,659 329.86 55.4% 2.63 47 iWorld Cup minutes

Mental H lth

151 1159 7.68 70.9% 4.30 1.5 daysHealth

Mathematics 651 2329 3.58 44.5% 4.48 33 minutesminutes

Diet & Fitness

450 2436 5.41 68.4% 4.30 1.5 daysFitness

49[Agichtein]

Page 50: Браславский: вопросно-ответный поиск

Satisfaction Prediction: Human JudgesSatisfaction Prediction: Human Judges

T th k ’ ti• Truth: asker’s rating• A random sample of 130 questions• Researchers 

– Agreement:  0.82  F1: 0.45  2P*R/(P+R)

• Amazon Mechanical TurkAmazon Mechanical Turk– Five workers per question. – Agreement: 0.9 F1: 0.61Agreement: 0.9  F1: 0.61 – Best when at least 4 out of 5 raters agree

50[Agichtein]

Page 51: Браславский: вопросно-ответный поиск

Performance: ASP vs Humans (F1 Satisfied)Performance: ASP vs. Humans (F1, Satisfied)Classifier With Text Without Text Selected Features

ASP_SVM 0.69 0.72 0.62

ASP_C4.5 0.75 0.76 0.77ASP_RandomForest 0.70 0.74 0.68

ASP_Boosting 0.67 0.67 0.67

ASP_NB 0.61 0.65 0.58

Best Human Perf 0.61Baseline (random) 0.66

Human F1 is lower than the random baseline!

ASP is significantly more effective than humans

Human F1 is lower than the random baseline!

51

g y

Page 52: Браславский: вопросно-ответный поиск

Top Features by Information GainTop Features by Information Gain

0 14 Q A k ’ i ti• 0.14  Q: Askers’ previous rating• 0.14  Q: Average past rating by asker• 0.10  UH: Member since (interval)• 0.05  UH: Average # answers for by past Qg y p Q• 0.05  UH: Previous Q resolved for the asker• 0 04 CA: Average asker rating for category0.04  CA: Average asker rating for category• 0.04  UH: Total number of answers receivedreceived

52[Agichtein]

Page 53: Браславский: вопросно-ответный поиск

СсылкиСсылки

• В + М QA ( NLP• Видео + транскрипт лекции Маннига про QA (курс NLP, лекция 18) http://see.stanford.edu/see/courses.aspx

• Слайды лекции Маннига про QA htt // t f d d / l / 224 / ll b ht l#l 18http://www.stanford.edu/class/cs224n/syllabus.html#lec18

• РОМИП QA http://romip.ru/ru/2010/tracks/qa.html• QA @ TREC http://trec.nist.gov/data/qamain.htmlp g q• CLEF http://www.clef‐campaign.org/• AnswerBus http://answerbus.coli.uni‐sb.de/• Ответы@mail ru http://otvety mail ru/• Ответы@mail.ru http://otvety.mail.ru/• Yahoo! Answers http://answers.yahoo.com/• Quora http://www.quora.com/• Aardvark http://vark.com/• WolframAlpha http://www.wolframalpha.com/

5318.12.2010 Павел Браславский 

Page 54: Браславский: вопросно-ответный поиск

СтатьиСтатьи• Dmitri Roussinov Weiguo Fan and Jose Robles Flores 2008 Beyond• Dmitri Roussinov, Weiguo Fan, and Jose Robles‐Flores. 2008. Beyond 

keywords: Automated question answering on the web. Commun. ACM 51, 9.

• Kwok C Etzioni O and Weld D S Scaling Question Answering to the WebKwok C., Etzioni O. and Weld D.S. Scaling Question Answering to the Web. ACM TOIS, Vol. 19, No. 3, July 2001.

• Banko M. et al. AskMSR: Question Answering Using the Worldwide Web. In Proc. of 2002 AAAI Spring Symposium on Mining Answers from Texts p g y p gand Knowledge Bases.

• Zhiping Zheng. 2003. Question answering using web news as knowledge base. In Proceedings of the tenth conference on European chapter of the 

i i f i l i i i l ( ' ) lAssociation for Computational Linguistics ‐ Volume 2 (EACL '03), Vol. 2. Association for Computational Linguistics, Morristown, NJ, USA, 251‐254.

• E. Agichtein, C. Castillo, D. Donato, A. Gionis, and G. Mishne, Finding High Quality Content in Social Media inWSDM 2008Quality Content in Social Media, in WSDM 2008

• Y. Liu, J. Bian, and E. Agichtein, Predicting Asker Satisfaction, SIGIR 2008 

18.12.2010 Павел Браславский  54

Page 55: Браславский: вопросно-ответный поиск

Спасибо за внимание!

Павел БраславскийПавел Браславский

pb@yandex‐team.ru

18.12.2010 Павел Браславский  55