16
Машинное обучение в ранжировании поиска

Технологии поиска

Embed Size (px)

Citation preview

Page 1: Технологии поиска

Машинное обучение в ранжировании поиска

Page 2: Технологии поиска

У нас есть свой поиск!

• Веб• Картинки• Видео• Новости• Обсуждения• Ответы• Словари

Page 3: Технологии поиска

Поисковый кластер

Архитектура

Фетчеры

HDFSТаблица документов10 миллиардов документов, один петабайт

ФронтендыМашинное обучение

Оценка качества

Индексаторы

Вычислительныйкластер

Page 4: Технологии поиска

Анализ запроса

Page 5: Технологии поиска

Оценка страницы

Обязательно 4Точный ответ 3Полезно 2Малополезно 1Не по теме 0Нельзя оценить

Page 6: Технологии поиска

Оценка качества поиска

№ Оценка CG DCG1 Точный ответ 3 32 Точный ответ 3 33 Полезно 2 1,264 Точный ответ 3 1,55 Полезно 2 0,866 Малополезно 1 0,387 Полезно 2 0,718 Малополезно 1 0,33

Итого 17 11,04

Page 7: Технологии поиска

Общий набор оценок

Запрос Документ Оценка

специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki-Interesniefakti.html

1

одноклассники http://www.odnoklassniki.ru/ 4

… … …

tf tf*idf иц … … … … Оценка

4 12 8 4 3 7 … 1

… … … … … … … …

Извлечение факторов

Page 8: Технологии поиска

Задача ранжирования

Сотни факторов

Обучение Проверка

500тысяч

300тысяч

Цель – максимум NDCG на проверочной выборке

Page 9: Технологии поиска

Фильтрация оценок

Page 10: Технологии поиска

Как получаем выдачу?

• Релевантность документа. • Сравнение двух

документов. • Всю десятку сразу.

Фактор-1Ф

акто

р-2

Если бы факторов было мало,то можно было бы делать так:

Page 11: Технологии поиска

Многомерность

ε = 0,13

εоб

ъём

Page 12: Технологии поиска

Деревья решений

F7

F3F7 > 2

F3 > 2F3 > 1

2 1 4 3

Есть проблема переобучения.Нужны ограничения на размер и вид деревьев.

Page 13: Технологии поиска

Бустинг

F5 > 7

F3 > 11F7 > 1

3

2

3

Результат: 3

Page 14: Технологии поиска

Бэггинг

1 2 3 4 5 6 7 8 9 10Обучающее множество:

1 3 5 7 9 10Подмножество #1

2 3 6 7 8 9Подмножество #21 2 3 8 9 10Подмножество #3

Создаём случайные подмножества:

Каждый раз обучаемся на одном из подмножеств.

Page 15: Технологии поиска

Что в итоге

Поиск

Асессоры Машинное обучениеИнструкция Алгоритмы

И не только ранжирование:• Разбиение на предложения.• Детектор порнографии. • Антиспам.

Page 16: Технологии поиска

Андрей Калининруководитель разработки поиска

[email protected]

СПАСИБО! ВОПРОСЫ?