Upload
polina-fomina
View
3.280
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
1
Архитектура поиска Яндекса
БГУ, Минск, 16 апреля 2011
Что такое Яндекс?• Крупнейший российский портал. Один из крупнейших порталов Беларуси, Казахстана, Украины.
• ~3000 сотрудников (~1000 разработчиков) в ~10 офисах
• Москва
• Санкт-Петербург
• Екатеринбург
• Киев, Одесса, Симферополь
• Калифорния
• Минск?
• Технологии (поиск, поисковый кластер, новости, пресс-портреты, MapReduce, MatrixNet, пробки, карты)
Что такое Яндекс?
– 40 миллионов пользователей в месяц– Несколько дата-центров с десятками
тысячами серверов– 100 миллионов поисковых запросов в
день, 65% поисков в рунете (третий поисковик в Европе, шестой в мире)
– Оборот компании в 2010 году составил $450 млн, оценочная стоимость компании $6-$9 млдр.
Запросов в Яндекс в день*
•1997г – 10 тысяч•2001г – 1 миллион•2005г – 10 миллионов•2010г – 100 миллионов
(*) по , данным логов всреднем
Пользователей в день*
(*) по внутренним , ; данным в среднем в год включая экстраполяцию
Яндекс.Сервисы
Яндекс.Сервисы
Яндекс.Программы
Продукты внутри веб-поиска
Продукты внутри веб-поиска
Продукты внутри веб-поиска
Один продукт для разных стран
Один продукт для разных стран
Для разных городов
Поисковая доля Яндека в России
Поисковая доля Яндека в Беларуси
Что такое Яндекс?
Яндекс – это продуктовая технологическая компания.
Главная цель Яндекса – предоставлять качественные информационные сервисы пользователям.
Яндекс — это умная библиотека.
Чем занимаются разработчики поиска в Яндексе?
Что там писать-то?
TQueryResult Search(const std::string& query);
– делов-то ;)
Яндекс.ПоискКак устроен поиск Яндекса?
– Индексация– Обработка пользовательских запросов– Формирование выдачи
Поиск• Пользователь задает поисковый запрос (
http://yandex.ru/yandsearch?text=БГУ)
• Он попадает на один из многих поисковых кластеров
• Load balancer выбирает наименее загруженный frontend
• Далее запрос обрабатывается тремя поисковыми уровнями (frontend, метапоиск, поиск)
• Обработка запроса на frontend (морфология, синтаксис, классификаторы, статистика)
• Запрос перезадается нужному метапоиску (метапоиск определяется хэшом от запроса)
• Если запрос еще не в кэше, он перезадается тысячам поисковых машин, на которых хранятся кусочки поискового индекса
Индексация• Формирование очереди обхода (выбрать самое вкусное из миллиардов страниц)
• Скачивание миллионов страниц из Web
• Инкрементальное обновление информации в базе индексатора
• Построение индекса по текстам, “транспонирование” линков, построение линкового индекса, расчет PageRank, HostRank, детектирование порно, спама, коммерческость.
• Определение самых интересных страниц для поиска
• Инкрементальное обновление индекса на поисковых машинах
Яндекс - МинскТо, как быстро развивается Яндекс, определяется тем, сколько
умных и талантливых людей работает над ним каждый день. В Минске много умных и талантливых. Мы умеем строить географически распределенную разработку.
Яндекс планирует открыть офис разработки в Минске.
Уже через несколько месяцев мы планируем сформировать две небольших команды разработки в Минске:
карты поиск
разработка факторов ранжирования разработка алгоритма фильтрации разгруппировка выдачи
Также мы ищем сильных разработчиков в московскую команду. Мы помогаем с переездом.
Спасибо за внимание.
Павел Карпович
руководитель группы подбора формул,
Ден Расковалов,
руководитель отдела качества поиска,