18
Dump, Екатеринбург, 25 мая 2012 года руководитель группы разработки сниппетов Александр Лившиц Аннотировать за 40мс

DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

Dump, Екатеринбург, 25 мая 2012 года

руководитель группы разработки сниппетовАлександр Лившиц

Аннотировать за 40мс

Page 2: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

2

Часть I: теория

Page 3: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

3

Унылый SERP луны :)

SERP - Search Engine Report Page

Page 4: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

4

Что такое сниппет?

Page 5: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

5

Виды сниппетов

Page 6: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

6

Каким должен быть сниппет?

• Сниппет должен быть ;)

• Содержать слова запроса

• Помогать быстро и легко понять, насколько результат соответствует запросу

• Отвечать на вопрос пользователя

• Выглядеть прилично

Page 7: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

7

Муки выбора• Выбираем текст

• Генерируем кандидаты

• Считаем факторы:

— Слова запроса

— Качество текста

— Положение в документе

— Сегментаторные

Page 8: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

8

Сегментатор

Заголовок

Меню

Контент

Футер

Page 9: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

9

Финишные штрихи

• Выбираем лучший: MatrixNet

• Специальные сниппеты

• Строим заголовок

• Чистим, красим

• УРА!!!

Page 10: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

10

Часть II: скорость

Page 11: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

11

Сниппеты и Яндекс

• 120 млн. поисковых запросов в сутки

• 1.5 млрд. сниппетов в сутки

• 500мс на ответ пользователю

• Q95 50мс - на построение сниппетов по запросу

• Q99,6 40 мс - на сниппет

Page 12: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

12

Архитектура Я.ПоискаВерхний метапоиск

Средний метапоиск

Базовый поиск

Базовый поиск

Базовый поиск

Поиск Сниппеты

Page 13: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

13

В начале был документ

• 10 млрд. документов

• Без HTML

• Подокументное сжатие

• Дополнительные данные

• Разметка

Page 14: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

14

Море кандидатов

• Анализируем не весь текст

• Полный перебор — слишком дорого

• Генерируем не все кандидаты

• С n-фрагментными все еще хуже

Page 15: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

15

Разнообразие

Page 16: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

16

Low-level optimizations

• Строки дорого

• Интегральное представление для факторов

• Расчет формулы на SSE — 15%

• Хороший аллокатор — 30%

Page 17: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

17

Q99 — 40мс, Q50 — 15мс

Page 18: DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)

руководитель группы разработки сниппетов

[email protected]

Александр Лившиц

Вопросы?