Поисковая технология "Спектр". Андрей Плахов, Яндекс

YaC, Москва, 19 сентября 2011 года

Старший разработчик Андрей Плахов

Поисковая технология «Спектр»

Немного истории




Что такое «хороший поиск»?

Наивный подход



Находить больше правильных ответов



Находить больше правильных ответов

Показывать их выше


Discounted cumulative gain (DCG)

pRelj – вероятность того,

что j-й результат релевантен

poswj – вес j-й позиции


Discounted cumulative gain (DCG)

Проблема: как правильно

выбрать веса poswj?

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue



Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj




Старт:

j=1





pRelj 1-pRelj


Основная метрика Яндекса:

pFound

MatrixNet отлично строит выдачу,

максимизирующую pFound

Основная метрика Яндекса:

pFound

Проблема: максимум достигается,

когда топ однороден

Неоднозначные запросы

[МГУ] Фото главного здания?

Приемная комиссия?

Список факультетов?

История?

Что и в каких пропорциях

показывать?

[Ягуар] – автомобиль? Животное? Напиток?

10 результатов об автомобилях хорошо выглядят на метриках, но устраивают далеко не всех Что бы ещё показать?

Неоднозначные запросы

Что же такое «Спектр» Метод, используемый поиском

Яндекса

на неоднозначных запросах:

[МГУ]

[Иоанн Павел II]

[Черепахи]

[Аспирин]

[Ягуар]

Запущен в конце 2010 года

Работает на 15-20% запросов к Яндексу

Метрика качества: wide

pFound

Wi – процент i-той поисковой потребности

pfoundi – вероятность найти ответ на i-тую потребность

Проблема: максимум, когда топ однороден


pFound



Проблема: максимум, когда топ однороден


pFound



Проблема: откуда мы узнаем потребности?

Поток запросов

Их миллиарды!


Их миллиарды! И вот лишь некоторые примеры:

[как сделать мотоцикл из двух зажигалок]




[ресторан в темноте]





[взрыв в индии сегодня]






[оральный секс у летучих мышей]





[оральный секс у летучих мышей]

[изменения в ст 290 ук рф]


Поток запросов: примеры

…

турбаза старый замок алтай

турбаза старый замок астрахань

турбаза старый замок на телецком

турбаза старый замок святогорск

турбаза старый замок телецкое

турбаза старый замок телецкое озеро

турбаза старый замок телецкое адрес

турбаза старый замок телецкое телефон

…

…

audi a8 4.2 quattro расход топлива

audi a8 4.2 quattro расход

audi a8 4.2 quattro киев

audi a8 4.2 quattro цены

audi a8 4.2 quattro комплектация

audi a8 4.2 quattro комплектация 2003

audi a8 4.2 quattro обзор

audi a8 4.2 quattro отзывы владельцев

audi a8 4.2 quattro характеристики

…

Поток запросов: примеры

Используем лог запросов, и узнаем,

какие потребности есть у пользователей!

Увы, не всѐ так просто…

Итак, что будем делать?




Не все уточнения – «потребности»






Они отличаются не только весами






Они отличаются не только весами

Разные уточнения – но одна и та же

потребность


Зачем нам «семантика»?

Не все расширения полезны

[москва] и [москва тула]

[минута] и [минута славы]

[время] и [время намаза]

[юбки] и [юбки порно]

Зачем нам «семантика»?

Не все расширения полезны

[москва] и [москва тула]

[минута] и [минута славы]

[время] и [время намаза]

[юбки] и [юбки порно]

Нужно отобрать «правильные» расширения

Использование семантики

Сосредоточимся на запросах о том, что нам понятно

Фильмы

Книги

Люди

Гаджеты

Автомобили

Болезни и лекарства

…

Будем распознавать объекты этих категорий.

Для каждой из них - свои поисковые потребности.

Технология «Спектр»


выясняем, в какие категории попадает запрос



объединяем поисковые потребности, имеющие смысл для этих категорий




назначаем им веса




получаем лучшие документы для каждой потребности






получаем лучшие документы для каждой потребности

формируем выдачу, максимизирующую wide pFound

Но всѐ сложнее содержательные сложности

Сложности классификации

Неклассифицированные запросы

Непонятные результаты

Геолокальность

Временная зависимость

Опасные ответы

…и многие, многие другие

Н

Обрабатывать миллиарды запросов, классифицировать, устанавливать взаимосвязи

Получать ответы по всем поисковым потребностям

(не задавая 15 запросов вместо одного)

На каждый запрос решать

по NP-полной задаче

• ѐ

…и многие, многие другие

И ещѐ сложнее технологические сложности

Хорошие новости Меньше популярных запросов без кликов

CTR отдельных результатов растѐт

Хорошие новости: подсветка поисковых потребностей в снипетах

И ещѐ сложнее Простыми методами давно уже не обойтись


Нам нужно:

больше знать об окружающем мире


Нам нужно:


лучше понимать пользовательские сессии


Нам нужно:


лучше понимать пользовательские сессии

лучше понимать естественные языки

И мы с этим

справимся!

Старший разработчик

[email protected]

Андрей Плахов

Technology

Поисковая технология "Спектр". Андрей Плахов, Яндекс