42
1 Архитектура поиска Яндекса БГУ, Минск, 16 апреля 2011

Лекция "Архитектура поиска Яндекса"

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Лекция "Архитектура поиска Яндекса"

1

Архитектура поиска Яндекса

БГУ, Минск, 16 апреля 2011

Page 2: Лекция "Архитектура поиска Яндекса"

Что такое Яндекс?• Крупнейший российский портал. Один из крупнейших порталов Беларуси, Казахстана, Украины.

• ~3000 сотрудников (~1000 разработчиков) в ~10 офисах

• Москва

• Санкт-Петербург

• Екатеринбург

• Киев, Одесса, Симферополь

• Калифорния

• Минск?

• Технологии (поиск, поисковый кластер, новости, пресс-портреты, MapReduce, MatrixNet, пробки, карты)

Page 3: Лекция "Архитектура поиска Яндекса"

Что такое Яндекс?

– 40 миллионов пользователей в месяц– Несколько дата-центров с десятками

тысячами серверов– 100 миллионов поисковых запросов в

день, 65% поисков в рунете (третий поисковик в Европе, шестой в мире)

– Оборот компании в 2010 году составил $450 млн, оценочная стоимость компании $6-$9 млдр.

Page 4: Лекция "Архитектура поиска Яндекса"

Запросов в Яндекс в день*

•1997г – 10 тысяч•2001г – 1 миллион•2005г – 10 миллионов•2010г – 100 миллионов

(*) по , данным логов всреднем

Page 5: Лекция "Архитектура поиска Яндекса"

Пользователей в день*

(*) по внутренним , ; данным в среднем в год включая экстраполяцию

Page 6: Лекция "Архитектура поиска Яндекса"

Яндекс.Сервисы

Page 7: Лекция "Архитектура поиска Яндекса"

Яндекс.Сервисы

Page 8: Лекция "Архитектура поиска Яндекса"

Яндекс.Программы

Page 9: Лекция "Архитектура поиска Яндекса"

Продукты внутри веб-поиска

Page 10: Лекция "Архитектура поиска Яндекса"

Продукты внутри веб-поиска

Page 11: Лекция "Архитектура поиска Яндекса"

Продукты внутри веб-поиска

Page 12: Лекция "Архитектура поиска Яндекса"

Один продукт для разных стран

Page 13: Лекция "Архитектура поиска Яндекса"

Один продукт для разных стран

Page 14: Лекция "Архитектура поиска Яндекса"

Для разных городов

Page 15: Лекция "Архитектура поиска Яндекса"

Поисковая доля Яндека в России

Page 16: Лекция "Архитектура поиска Яндекса"

Поисковая доля Яндека в Беларуси

Page 17: Лекция "Архитектура поиска Яндекса"

Что такое Яндекс?

Яндекс – это продуктовая технологическая компания.

Page 18: Лекция "Архитектура поиска Яндекса"
Page 19: Лекция "Архитектура поиска Яндекса"
Page 20: Лекция "Архитектура поиска Яндекса"
Page 21: Лекция "Архитектура поиска Яндекса"
Page 22: Лекция "Архитектура поиска Яндекса"
Page 23: Лекция "Архитектура поиска Яндекса"
Page 24: Лекция "Архитектура поиска Яндекса"
Page 25: Лекция "Архитектура поиска Яндекса"
Page 26: Лекция "Архитектура поиска Яндекса"
Page 27: Лекция "Архитектура поиска Яндекса"
Page 28: Лекция "Архитектура поиска Яндекса"
Page 29: Лекция "Архитектура поиска Яндекса"
Page 30: Лекция "Архитектура поиска Яндекса"
Page 31: Лекция "Архитектура поиска Яндекса"
Page 32: Лекция "Архитектура поиска Яндекса"

Главная цель Яндекса – предоставлять качественные информационные сервисы пользователям.

Яндекс — это умная библиотека.

Page 33: Лекция "Архитектура поиска Яндекса"

Чем занимаются разработчики поиска в Яндексе?

Что там писать-то?

TQueryResult Search(const std::string& query);

– делов-то ;)

Page 34: Лекция "Архитектура поиска Яндекса"

Яндекс.ПоискКак устроен поиск Яндекса?

– Индексация– Обработка пользовательских запросов– Формирование выдачи

Page 35: Лекция "Архитектура поиска Яндекса"
Page 36: Лекция "Архитектура поиска Яндекса"

Поиск• Пользователь задает поисковый запрос (

http://yandex.ru/yandsearch?text=БГУ)

• Он попадает на один из многих поисковых кластеров

• Load balancer выбирает наименее загруженный frontend

• Далее запрос обрабатывается тремя поисковыми уровнями (frontend, метапоиск, поиск)

• Обработка запроса на frontend (морфология, синтаксис, классификаторы, статистика)

• Запрос перезадается нужному метапоиску (метапоиск определяется хэшом от запроса)

• Если запрос еще не в кэше, он перезадается тысячам поисковых машин, на которых хранятся кусочки поискового индекса

Page 37: Лекция "Архитектура поиска Яндекса"
Page 38: Лекция "Архитектура поиска Яндекса"
Page 39: Лекция "Архитектура поиска Яндекса"

Индексация• Формирование очереди обхода (выбрать самое вкусное из миллиардов страниц)

• Скачивание миллионов страниц из Web

• Инкрементальное обновление информации в базе индексатора

• Построение индекса по текстам, “транспонирование” линков, построение линкового индекса, расчет PageRank, HostRank, детектирование порно, спама, коммерческость.

• Определение самых интересных страниц для поиска

• Инкрементальное обновление индекса на поисковых машинах

Page 40: Лекция "Архитектура поиска Яндекса"
Page 41: Лекция "Архитектура поиска Яндекса"

Яндекс - МинскТо, как быстро развивается Яндекс, определяется тем, сколько

умных и талантливых людей работает над ним каждый день. В Минске много умных и талантливых. Мы умеем строить географически распределенную разработку.

Яндекс планирует открыть офис разработки в Минске.

Уже через несколько месяцев мы планируем сформировать две небольших команды разработки в Минске:

карты поиск

разработка факторов ранжирования разработка алгоритма фильтрации разгруппировка выдачи

Также мы ищем сильных разработчиков в московскую команду. Мы помогаем с переездом.

Page 42: Лекция "Архитектура поиска Яндекса"

Спасибо за внимание.

Павел Карпович

руководитель группы подбора формул,

[email protected]

Ден Расковалов,

руководитель отдела качества поиска,

[email protected]