Технологии поиска

Preview:

Citation preview

Машинное обучение в ранжировании поиска

У нас есть свой поиск!

• Веб• Картинки• Видео• Новости• Обсуждения• Ответы• Словари

Поисковый кластер

Архитектура

Фетчеры

HDFSТаблица документов10 миллиардов документов, один петабайт

ФронтендыМашинное обучение

Оценка качества

Индексаторы

Вычислительныйкластер

Анализ запроса

Оценка страницы

Обязательно 4Точный ответ 3Полезно 2Малополезно 1Не по теме 0Нельзя оценить

Оценка качества поиска

№ Оценка CG DCG1 Точный ответ 3 32 Точный ответ 3 33 Полезно 2 1,264 Точный ответ 3 1,55 Полезно 2 0,866 Малополезно 1 0,387 Полезно 2 0,718 Малополезно 1 0,33

Итого 17 11,04

Общий набор оценок

Запрос Документ Оценка

специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki-Interesniefakti.html

1

одноклассники http://www.odnoklassniki.ru/ 4

… … …

tf tf*idf иц … … … … Оценка

4 12 8 4 3 7 … 1

… … … … … … … …

Извлечение факторов

Задача ранжирования

Сотни факторов

Обучение Проверка

500тысяч

300тысяч

Цель – максимум NDCG на проверочной выборке

Фильтрация оценок

Как получаем выдачу?

• Релевантность документа. • Сравнение двух

документов. • Всю десятку сразу.

Фактор-1Ф

акто

р-2

Если бы факторов было мало,то можно было бы делать так:

Многомерность

ε = 0,13

εоб

ъём

Деревья решений

F7

F3F7 > 2

F3 > 2F3 > 1

2 1 4 3

Есть проблема переобучения.Нужны ограничения на размер и вид деревьев.

Бустинг

F5 > 7

F3 > 11F7 > 1

3

2

3

Результат: 3

Бэггинг

1 2 3 4 5 6 7 8 9 10Обучающее множество:

1 3 5 7 9 10Подмножество #1

2 3 6 7 8 9Подмножество #21 2 3 8 9 10Подмножество #3

Создаём случайные подмножества:

Каждый раз обучаемся на одном из подмножеств.

Что в итоге

Поиск

Асессоры Машинное обучениеИнструкция Алгоритмы

И не только ранжирование:• Разбиение на предложения.• Детектор порнографии. • Антиспам.

Андрей Калининруководитель разработки поиска

kalinin@corp.mail.ru

СПАСИБО! ВОПРОСЫ?

Recommended