Лекция "Архитектура поиска Яндекса"

Preview:

DESCRIPTION

 

Citation preview

1

Архитектура поиска Яндекса

БГУ, Минск, 16 апреля 2011

Что такое Яндекс?• Крупнейший российский портал. Один из крупнейших порталов Беларуси, Казахстана, Украины.

• ~3000 сотрудников (~1000 разработчиков) в ~10 офисах

• Москва

• Санкт-Петербург

• Екатеринбург

• Киев, Одесса, Симферополь

• Калифорния

• Минск?

• Технологии (поиск, поисковый кластер, новости, пресс-портреты, MapReduce, MatrixNet, пробки, карты)

Что такое Яндекс?

– 40 миллионов пользователей в месяц– Несколько дата-центров с десятками

тысячами серверов– 100 миллионов поисковых запросов в

день, 65% поисков в рунете (третий поисковик в Европе, шестой в мире)

– Оборот компании в 2010 году составил $450 млн, оценочная стоимость компании $6-$9 млдр.

Запросов в Яндекс в день*

•1997г – 10 тысяч•2001г – 1 миллион•2005г – 10 миллионов•2010г – 100 миллионов

(*) по , данным логов всреднем

Пользователей в день*

(*) по внутренним , ; данным в среднем в год включая экстраполяцию

Яндекс.Сервисы

Яндекс.Сервисы

Яндекс.Программы

Продукты внутри веб-поиска

Продукты внутри веб-поиска

Продукты внутри веб-поиска

Один продукт для разных стран

Один продукт для разных стран

Для разных городов

Поисковая доля Яндека в России

Поисковая доля Яндека в Беларуси

Что такое Яндекс?

Яндекс – это продуктовая технологическая компания.

Главная цель Яндекса – предоставлять качественные информационные сервисы пользователям.

Яндекс — это умная библиотека.

Чем занимаются разработчики поиска в Яндексе?

Что там писать-то?

TQueryResult Search(const std::string& query);

– делов-то ;)

Яндекс.ПоискКак устроен поиск Яндекса?

– Индексация– Обработка пользовательских запросов– Формирование выдачи

Поиск• Пользователь задает поисковый запрос (

http://yandex.ru/yandsearch?text=БГУ)

• Он попадает на один из многих поисковых кластеров

• Load balancer выбирает наименее загруженный frontend

• Далее запрос обрабатывается тремя поисковыми уровнями (frontend, метапоиск, поиск)

• Обработка запроса на frontend (морфология, синтаксис, классификаторы, статистика)

• Запрос перезадается нужному метапоиску (метапоиск определяется хэшом от запроса)

• Если запрос еще не в кэше, он перезадается тысячам поисковых машин, на которых хранятся кусочки поискового индекса

Индексация• Формирование очереди обхода (выбрать самое вкусное из миллиардов страниц)

• Скачивание миллионов страниц из Web

• Инкрементальное обновление информации в базе индексатора

• Построение индекса по текстам, “транспонирование” линков, построение линкового индекса, расчет PageRank, HostRank, детектирование порно, спама, коммерческость.

• Определение самых интересных страниц для поиска

• Инкрементальное обновление индекса на поисковых машинах

Яндекс - МинскТо, как быстро развивается Яндекс, определяется тем, сколько

умных и талантливых людей работает над ним каждый день. В Минске много умных и талантливых. Мы умеем строить географически распределенную разработку.

Яндекс планирует открыть офис разработки в Минске.

Уже через несколько месяцев мы планируем сформировать две небольших команды разработки в Минске:

карты поиск

разработка факторов ранжирования разработка алгоритма фильтрации разгруппировка выдачи

Также мы ищем сильных разработчиков в московскую команду. Мы помогаем с переездом.

Спасибо за внимание.

Павел Карпович

руководитель группы подбора формул,

karpik@yandex-team.ru

Ден Расковалов,

руководитель отдела качества поиска,

denplusplus@yandex-team.ru

Recommended