33
Анализ поисковых запросов Павел Браславский Санкт Петербург , ноябрь‐декабрь 2010

Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Embed Size (px)

Citation preview

Page 1: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Анализ поисковых запросов

Павел Браславский

Санкт Петербург, р ур ,ноябрь‐декабрь 2010

Page 2: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

План на ноябрьПлан на ноябрь

• Введение

• Характеристики потока запросовХарактеристики потока запросов

• Данные для анализа

• Сегментация

• Тематическая классификацияТематическая классификация 

• Близкие запросы

• Практические задания

2Павел Браславский ‐ Анализ запросов

Page 3: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

ВВЕДЕНИЕ

Павел Браславский ‐ Анализ запросов 3

Page 4: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Предварительные замечанияПредварительные замечания

Л б МП• Логи запросов – «опыт» и богатство МП• Современный поиск: «меньше информации, больше 

контекста»контекста»• Мало открытых данных ( проблема для 

академических исследований)• Проблемы с персональными данными (приватность)• Очень короткие тексты – сложность анализа

ф б• Недостаток информации компенсируется большими объемами данных (веб)

Павел Браславский ‐ Анализ запросов 4

Page 5: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Статистика запросов к ЯндексуСтатистика запросов к Яндексу

Павел Браславский ‐ Анализ запросов 5

Page 6: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Прямой эфирПрямой эфир

6Павел Браславский ‐ Анализ запросов

Page 7: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Личная история запросовЛичная история запросов

Павел Браславский ‐ Анализ запросов 7

Page 8: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Статистика слов запросовСтатистика слов запросов

Павел Браславский ‐ Анализ запросов 8

Page 9: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Павел Браславский ‐ Анализ запросов 9

Page 10: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Павел Браславский ‐ Анализ запросов 10

Page 11: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Traffic Volume Over a DayTraffic Volume Over a Day

8% 8%Note the drop in query volume during off-

6% 6%

Note the drop in query volume during offpeak time, and its subsequent rise throughout the remainder of the day.

4%% of Daily

Traffic4%

2% 2%

Total QueriesDistinct Queries

0%0 6 12 18 24

Hour of Day

0%Distinct Queries

Павел Браславский ‐ Анализ запросов 11[Beitzel]

Page 12: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Динамика запросовДинамика запросов

htt //i t d /

12Павел Браславский ‐ Анализ запросов

http://interes.yandex.ru/

Page 13: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Несколько цифрНесколько цифр

• Длина запроса 2‐3 слова

• Поисковая сессия в среднем 3 запросаПоисковая сессия в среднем 3 запроса

• 2‐3% сформулированы как вопрос

• 12‐15% запросов содержат опечатки

Павел Браславский ‐ Анализ запросов 13

Page 14: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Запросы вопросыЗапросы – вопросы

http://company.yandex.ru/facts/researches/ya_search_2009.xml

Павел Браславский ‐ Анализ запросов 14

Page 15: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Классификация запросов / информационных потребностей (Broder, 2002)

Павел Браславский ‐ Анализ запросов 15Baeza‐Yates

Page 16: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Category BreakdownCategory Breakdown

• Query lists for each category formed by a team of human dit

Sampled Categorized Query Stream Breakdown

Personal Finance

3%editors

• Query stream classified by exactly matching each query

Computing9%

Research & Learn

Travel5%

Other16%

exactly matching each query to category lists

Learn9%

Entertainment13%

Shopping

Sports3%

5%

Games5%

Holidays1%

Porn10%

pp g13%

Health5%

Home5%

US Sites3%

Павел Браславский ‐‐ Анализ запросов 16[Beitzel]

Page 17: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Category Popularity Over a DayCategory Popularity Over a Day

Categorical Coverage Over TimeP ornEnt ert ainm entGam esHealt hP ersonal FinanceShopping

3%

4%

ge 6%

7%

8%

olum

e

ShoppingM usicUSSit esVol u m e

2%

3%

age

Cove

rag

4%

5%

6%

e of

Tot

al V

o

1%Per

cent

a

1%

2%

3%

Per

cent

age

0%0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hour of Day

0%

17[Beitzel]Павел Браславский ‐ Анализ запросов

Page 18: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Category Popularity Over Six MonthsCategory Popularity Over Six Months

Holidays2%

Sept Oct Nov Dec Jan

Shoppingy

1%

pp g

2%Sports Government

0%

1%% ofTotalQueryStream

0%Sept Oct Nov Dec Jan Feb

Months

18[Beitzel]Павел Браславский ‐ Анализ запросов

Page 19: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Pearson Correlations for Selected Categories Over A Day

0.5

1.00 6 12 18 24

0 5

1.0Personal Finance 0.0

Music

0.0

0.5

Entertainment Movies1.0

1.0 0.0

0.5

ComputingGames

0.0

0.5

0 6 12 18 24

Porn Government

PearsonCorrelation

19

Hour of Day

[Beitzel]Павел Браславский ‐ Анализ запросов

Page 20: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Источники и типы данныхИсточники и типы данных

Ji l 2010

Павел Браславский ‐ Анализ запросов 20

Jiang et al. 2010

Page 21: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Какая информация у нас есть?Какая информация у нас есть?

• текст запроса

• времявремя

• IP география

• Cookie  (уникальный) пользователь

• клики на результатах поискаклики на результатах поиска

• (персональные данные, соцдем)

Павел Браславский ‐ Анализ запросов 21

Page 22: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Данные ( методы)Данные ( методы)

• отдельные запросы

• список запросовсписок запросов

• + время

• + сниппеты/документы

• + клики+ клики

• …Яндекс: ~6 Кбайт/запрос + ~0,5 Кб/клик

Павел Браславский ‐ Анализ запросов 22

Page 23: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Доступные данныеДоступные данные

• Excite 1997, 1999, 2001

• AOL 2006AOL 2006

• ИМАТ 2004

• MSN Search query Log excerpt (RFP 2006 dataset))

• …

23Павел Браславский ‐ Анализ запросов

Page 24: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Excite 1997Excite 1997

З (16 б 1997 )• Запросы за один день (16 сентября 1997 г.)• userId, timeStamp, query• ~1M запросов (много повторов)1M запросов (много повторов)

0C6B5395895CD808 970916125351 henri rousseau0C6B5395895CD808 970916125511 henri rousseau+tigerg949946B881F137F0 970916115517 "pharmacy"949946B881F137F0 970916115550 prescriptions91A98BC9BEDCF053 970916075435 australian+chat+victoria61305D2ADC74BC78 970916095742 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet33D1A0D49E8DB2AB 970916144916 maizehighschool33D1A0D49E8DB2AB 970916144951 maize high schoolFCBB8401805D783F 970916212508 warez strata studio proFCBB8401805D783F 970916212541 warez mac12FE04344578F249 970916202819 "midwife conference"12FE04344578F249 970916202924 midwifery477CC4190EF76EB4 970916165602 nrwmac477CC4190EF76EB4 970916172706 npac477CC4190EF76EB4 970916175242 nrwmac

Павел Браславский ‐ Анализ запросов 24

Page 25: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

ИМАТ 2004ИМАТ 2004

й * %• 7 дней * 10% от 5‐10 миллионов запросов в день  3,5 Гб

<UID1><запрос1> <время> <найдено документов> <номер страницы>

<URL1> <время выбора><URL1> <время выбора><URL2> <время выбора>...

<запрос2> <время> <найдено документов> <номер страницы><запрос2> <время> <найдено документов> <номер страницы><URL1> <время выбора><URL2> <время выбора> ...

...<UID2>

...http://company yandex ru/academic/grant/datasets description xml

Павел Браславский ‐ Анализ запросов 25

http://company.yandex.ru/academic/grant/datasets_description.xml

Page 26: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

AOL 2006AOL 2006

• Большой скандал!!!

• ~20M web queries from ~650k users over20M web queries from  650k users over three months

AnonID Query QueryTime ItemRank ClickURL993 myspace.co 01.03.2006 12:13993 myspace.com 01.03.2006 12:13993 googl 01.03.2006 15:03

h b dk d h // h b dk d993 chasebadkids.net 03.03.2006 16:55 1 http://www.chasebadkids.net

1268 ozark horse blankets 01.03.2006 17:39 8 http://www.blanketsnmore.com1268 www.ghostrockranch.com 04.03.2006 13:581268 openrangeht.zachsairforce.com 09.03.2006 22:381268 sstack.com 11.03.2006 0:171268 b 12 03 2006 18 591268 www.mecab.org 12.03.2006 18:591268 www.raindanceexpress.com 18.03.2006 20:131268 www.victoriacostumiere.com 19.03.2006 0:261268 osteen‐schaztberg.com 21.03.2006 17:55

1268 osteen‐schatzberg.com 21.03.2006 17:55 1 http://www.osteen‐schatzberg.com

Павел Браславский ‐ Анализ запросов 26

1268 osteen‐schatzberg.com 21.03.2006 17:55 2 http://www.osteen‐schatzberg.com

Page 27: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

MSN Search query Log excerptMSN Search query Log excerpt• 15 million queries• 15 million queries • Sampled over one month • Queries from the US site (mostly English) 

Per query attributes included: • Session ID • Time‐stampTime stamp• Query string • Number of results on results page • Results page number p g

Data per query for each result clicked: • URL • Associated query • Position on results page • Time‐stamp 

Павел Браславский ‐ Анализ запросов 27

Page 28: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

СЕГМЕНТАЦИЯ ЗАПРОСОВ

28Павел Браславский ‐ Анализ запросов

Page 29: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Сегментация запросовСегментация запросов

Сегментация: 

1 поиск1. поиск

2. дальнейшая обработка запросов

международный почтамт | москвамолодежный отдых | в турцииофициальный сайт | автоваз

вечерняя москва vs пицца москваофициальный сайт | автовазКупить | кроссовки | Nike Zoom BBмагазин | рыбачьте с намиирина круг | пусть сейчас я плачу| слушать сбербанк россии | в алтайском крае

банк москвы vs банки москвы

сбербанк россии | в алтайском крае знак зодиака | близнецынино катамадзе | билеты Смысл названия | рассказа | матренин двор

| | | б

29

Сергей Тармашев | Корпорация | скачать | бесплатно 

Павел Браславский ‐ Анализ запросов

Page 30: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Сегментация: подходыСегментация: подходы

• похоже на выделение устойчивых словосочетаний• + микросинтаксис• лог vs корпус текстов• ML (больше признаков, более богатое описание)• внешние ресурсы (Wikipedia)р ур ( p )• эвристики ([дима билан] [димабилан])

Павел Браславский ‐ Анализ запросов 30

Page 31: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Сегментация на основе логаСегментация на основе лога

conn(S) = freq(S)*I(w1…wn‐1;w2…wn)

msdn library visual studio

34259: (msdn library)[5110] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]5110: (msdn library)[5110] visual[23873] studio[53622]41: (msdn library visual studio)[41]7: msdn[47658] (library visual studio)[7]0: msdn[47658] library[209682] visual[23873] studio[53622]

Risvik et al. WWW2003

Павел Браславский ‐ Анализ запросов 31

Page 32: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Сегментация на основеMLСегментация на основе ML

нино | катамадзе | билеты  

(0, 1, 0, 1, 1, 0) (1, 1, 0, 1, 0, 1)

Bergsma and Wang, 2007

Павел Браславский ‐ Анализ запросов 32

g g,

Page 33: Анализ поисковых запросов, осень 2010: Характеристики запросов, источники данных, сегментация

Сегментация: «наивный подход»Сегментация: «наивный подход»

На основе веб‐корпуса n‐грамм

Hagen at al SIGIR2010

Павел Браславский ‐ Анализ запросов 33

Hagen at al. SIGIR2010