Как работают поисковые системы

Preview:

Citation preview

Мухаммад Муратов

Как работают ПС. Что такое SEO

Главная задача ПС

Дать пользователю решение его задачи/проблемы.

!Внимание!Поисковый запрос не равен задача.

Какие еще задачи решает ПС

- Поиск новых и обновление старых документов

- Обработка документов (индексация, кластеризация, фильтрация...)

- Обработка запросов пользователей

- Ранжированный поиск

Как работает современный поиск

Краулинг

Где ПС берет новые документы для сканирования?

- Логи браузеров.- Бары / расширения.- Системы аналитики.- Автоматическое сканирование.- Ручное добавление (addURL).- Соцсети.- Переход по внешней ссылке.

Что такое пауки и как они работают

Поисковый робот - программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика

Названия роботов популярных ПС

Поисковые роботы Google- Робот Googlebot (веб-поиск Google)- Googlebot News- Googlebot Images- Googlebot Video- Google Mobile

Все роботы Google

Поисковые роботы Yandex- Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) -

основной индексирующий робот;- Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) -

индексатор Яндекс.Картинок;- Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) -

индексатор Яндекс.Видео;- Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) -

робот, индексирующий мультимедийные данные;

Бюджет краулинга

У паука есть Краулинговый бюджет - число, которое определяет:

- Какое количество документов с данного хоста может быть в принципе включено в индекс. При достижении данного порога, документы с заданного сайта далее не включаются в индекс.

- Какое количество документов может быть просканировано за один заход паука поисковой системы.

Задачи паука

- Проверка страницы на новый контент (if-modified-since)

- Проверка и выполнение* инструкций● robots.txt● sitemap.xml● http-head● Мета-теги

Краулинг

Индексатор

Фильтрует:⁻ Спам⁻ Вирус на странице⁻ Ошибка⁻ Не важные страницы⁻ Дубли

Определяет дубли:⁻ Аффилиат⁻ Внутренние / внешние⁻ Поиск нечетких дубликатов

Индексация

Обработка и сохранение данных:⁻ Обратный индекс⁻ Текстовый индекс⁻ Кэш страницы

Индексация

Обработка запроса пользователя

Ранжирование

200+ факторов

Машинное обучение

Регулярные изменения алгоритмов

Факторы ранжирования

Пример ФР http://seoprofy.ua/blog/prodvizhenie-sajtov/200-google-factors

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Факторы ранжирования

Главный фактор

Какой самый главный фактор?

Все!Мы должны работать комплексно

Ранжирование

Как работает современный поиск

Краткая схема тут: http://www.google.com/insidesearch/howsearchworks/thestory/How Search Works by Matt Cutts How does Google Search work? Matt Cutts whiteboard

А если совсем интересно:вебинар MrBubu

Оценка качества поиска. Асессоры

Критерии качества Google

Спасибо за внимание

Узнайте больше об интернет-маркетинге

Recommended