56

Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

  • Upload
    yandex

  • View
    634

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса
Page 2: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Основные принципы индексирования сайта

Смирнов Александр

Page 3: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

О чём поговорим:

1.  Как поиск находит страницу, её путь до появления в поиске.

2.  Как управлять роботом.

3.  Особенности индексирования.

4.  Как улучшить индексирование.

5.  Вопросы.

4

Page 4: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Интересные факты

5

В поисковой базе содержится триллионы адресов. Ежедневно робот скачивает миллиарды документов.

Page 5: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Как поиск находит страницу, её путь до появления в поиске

Индексирование сайта

Page 6: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Что такое индексирование?

Индексирование – процесс получения информации о страницах сайта с последующим добавлением данных в поисковую базу и

результаты поиска.

7

Page 7: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Процесс индексирования

8

Создание сайта Робот узнаёт о существовании

сайта Планирование

Запрос контента, добавление в

базу

Добавление информации в

поиск

Page 8: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Откуда робот узнаёт о страницах

-  Ссылки на других страницах в интернете,

-  Я.Вебмастер (webmaster.yandex.ru),

-  Внутренние ссылки,

-  Карта сайта (sitemap),

-  Другие источники, например, Я.Метрика.

9

Page 9: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

От чего зависит скорость индексирования

-  Загруженность сервера, на котором находится сайт,

-  Частота обновления страницы,

-  Интерес посетителей к сайту.

10

Page 10: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Запрос и получение контента 1. Запрос файла robots.txt (1-2 раза в сутки)

2. Запрос урла:

GET /URL HTTP/1.1 Host: HOST Connection: Keep-Alive Accept: */* Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01 Accept-Encoding: gzip,deflate User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) From: [email protected]

11

Page 11: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Запрос и получение контента

Ответ сервера: HTTP/1.1 200 Ok Date: Mon, 12 Oct 2015 14:45:32 GMT Content-Type: text/html; charset=UTF-8 Cache-Control: no-cache,no-store,max-age=0,must-revalidate Expires: Mon, 12 Oct 2015 14:45:31 GMT Last-Modified: Mon, 12 Oct 2015 14:45:31 GMT Set-Cookie: yp=; Expires=Fri, 14-Oct-2005 14:45:32 GMT; Path=/ X-Frame-Options: DENY Content-Encoding: gzip X-XSS-Protection: 1; mode=block X-Content-Type-Options: nosniff Transfer-Encoding: chunked

12

Page 12: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Распространённые HTTP-коды HTTP-200 – страница доступна, её необходимо индексировать HTTP-301 – страница перенесена, необходимо включать цель перенаправления HTTP-302 – страница перенесена, необходимо включать наиболее короткий адрес HTTP-304 – страница не менялась с момента последнего обращения HTTP-404 – страница удалена HTTP-503 – сервер временно недоступен

13

Page 13: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Добавление контента в базу

14

Page 14: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Добавление контента в базу <!DOCTYPE html><html class="i-ua_js_no i-ua_css_standard" lang="ru"><head><meta charset="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><title>Яндекс.Телепрограмма — программа передач всех телеканалов в Калуге</title><script>;(function(d,e,c,r){e=d.documentElement;c="className";r="replace";e[c]=e[c][r]("i-ua_js_no","i-ua_js_yes");if(d.compatMode!="CSS1Compat")e[c]=e[c][r]("i-ua_css_standart","i-ua_css_quirks")})(document);</script><meta name="description" content="Полная ТВ-программа всех телеканалов в Калуге на сегодня, на неделю."/><meta name="keywords" content=""/><link rel="shortcut icon" href="/favicon/favicon-v3.ico"/><link rel="apple-touch-icon" href="/favicon/apple-touch-icon.png"/><link rel="apple-touch-icon" sizes="57x57" href="/favicon/apple-touch-icon-57x57.png"/><link rel="apple-touch-icon" sizes="72x72" href="/favicon/apple-touch-icon-72x72.png"/><link rel="apple-touch-icon" sizes="76x76" href="/favicon/apple-touch-icon-76x76.png"/><link rel="apple-touch-icon" sizes="114x114" href="/favicon/apple-touch-icon-114x114.png"/><link rel="apple-touch-icon" sizes="120x120" href="/favicon/apple-touch-icon-120x120.png"/><link rel="apple-touch-icon" sizes="144x144" href="/favicon/apple-touch-icon-144x144.png"/><link rel="apple-touch-icon" sizes="152x152" href="/favicon/apple-touch-icon-152x152.png"/><link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon-180x180.png"/><link rel="icon" type="image/png" sizes="16x16" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="32x32" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="96x96" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="192x192" href="/favicon/256x256.png"/><meta name="msapplication-TileColor" content="#ffffff"/><meta name="msapplication-TileImage" content="/favicon/256x256.png"/><meta name="theme-color" content="#ffffff"/><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.css"/><!--[if IE 8]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie8.css"/><![endif]--><!--[if IE 9]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie9.css"/><![endif]--></head><body class="b-page b-page__body i-ua i-ua_interaction_yes i-global i-bem" data-bem="{"b-page":{},"i-ua":{},"i-global":{"lang":"ru","tld":"ru","content-region":"ru","click-host":"//clck.yandex.ru","passport-host":"https://passport.yandex.ru","pass-host":"https://pass.yandex.ru","social-host":"https://social.yandex.ru","export-host":"https://export.yandex.ru","login":"","lego-static-host":"//yastatic.net/lego/2.10-142","id":"tv","user-region":"ru","jsParams":{"i-config":{"hosts":{"phone":"https://phone-passport.yandex.ru/","tune":"https://tune.yandex.ru","tune_urls_patterns":{"my_cookie":"{{host}}/api/my/v1.1/my.xml{{query}}","lang":"{{host}}/api/lang/v1.1/save.xml{{query}}","region":"{{host}}/region/{{query}}"}},"metrika":{"debug":false},"adv":{"desktop_default":"D-I-93830-2","desktop_grid_cell":"R-I-93830-4","desktop_grid_wide":"R-I-54061-6","desktop_channel_aside":"R-I-93830-1","desktop_sp_cell":"D-I-136810-1","desktop_sp_wide":"R-I-136810-2","desktop_sp_footer":"D-I-136810-3","touch_default":"R-I-80007-5"},"ua_region_id":187,"user":{"update-menu":true},"project":{"urlSegment":"newseason","searchQuery":"телесезон 2015"}},"i-region":{"id":2},"lang":"ru","i-uatraits":{"isTablet":false,"iOS":false,"Android":false,"BrowserName":"Unknown","BrowserVersion":null,"OSVersion":null},"i-api-request":{"easy-sk":"4896ec5e4947640500b3efcbe3eccabd","sk":"y4d28820bc63b6af39414871fe112dbb3"},"i-tv-region":{"timezoneOffset":-180,"regionNames":{"nominative":"Калуга","genitive":"Калуги","dative":"Калуге","prepositional":"Калуге","preposition":"в","locative":"","directional":"","ablative":"","accusative":"Калугу","instrumental":"Калугой"}},"i-tv-date":{"time":1445925006280},"i-sms-passport":{"phone":null}},"retpath":"https://tv.yandex.ru/6?grid=all&period=now","yandexuid":"54830261445925006","lego-path":"/bower_components/romochka"}}" id="app"><div class="b-content"><div class="progress i-bem" data-bem="{"progress":{}}"></div><div class="tv-header layout layout_type_serp i-bem" data-bem="{"tv-header":{}}"><div class="header2 header2_lang_ru i-bem" data-bem="{"header2":{}}" role="banner"><div class="header2__main"><div class="header2__logo tv-header__logo"><a class="link i-bem" data-bem="{"link":{"origTabindex":"-1"}}" tabindex="-1" href="//www.yandex.ru"><!--[if gt IE 8]page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png);"/><!--<![endif]--><!--[if lte IE 8]><img class="image" src="//yastatic.net/islands-page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png" alt="Яндекс"/><![endif]--></a></div><div class="header2__middle"><div class="header2__middle-wrap"><div class="header2__left"><a class="header2__nameplate" href="/6" tabindex="-1"><div class="arrow2 arrow2_size_m arrow2_theme_nameplate-border"><div class="arrow2 arrow2_size_s

15

Page 15: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Добавление контента в базу

- HTTP-код ответа,

- Текстовое содержимое, мета-теги,

- Исходящие ссылки на другие страницы.

16

Page 16: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

17

Быстрый Основной

Индексирующий робот

Page 17: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Как узнать, что страница в поиске

-  Яндекс.Вебмастер, «Проверить URL»

-  Результаты поиска с оператором url: , например, url:example.ru/contacts

-  Для поиска всех страниц сайта – оператор site: , например, site:example.ru

18

Page 18: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Как управлять роботом

Индексирование сайта

Page 19: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

robots.txt – строгая инструкция для робота

-  User-agent – указываем, для кого предназначаются правила

-  Disallow / Allow – запрещаем или разрешаем индексирование страниц

-  Clean-param – удаляем ненужные параметры в URL-адресах

-  Crawl-delay – задаём интервал между запросами страниц

-  Sitemap – сообщаем адрес карты сайта

-  Host – указываем адрес главного зеркала

20

Page 20: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

robots.txt

User-agent: * Disallow: /admin Disallow: /images Disallow: *?cart=* User-agent: Yandex Disallow: /admin Disallow: *?cart=* Clean-param: sid / Crawl-delay: 0.5 Host: www.site.com Sitemap: http://www.site.com/sitemap.xml

21

Page 21: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Ошибки при работе с robots.txt

-  Ошибки в содержимом файла

-  HTTP-ответ отличный от 200

-  Кириллические символы в файле

-  Размер более 32Кб

22

Пример: Host: лютикицветочки.рф Host: xn--b1aghacidc6a8af9br2g.xn--p1ai

Page 22: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

robots.txt Анализатор в Яндекс.Вебмастере: https://webmaster.yandex.ru/robots.xml

23

Page 23: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

robots.txt

Стандарт robots.txt: http://www.robotstxt.org Помощь вебмастеру: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

24

Page 24: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Sitemap – карта вашего сайта Текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать.

25

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://site.ru/</loc> <lastmod>2015-10-12</lastmod> <changefreq>monthly</changefreq> <priority>0.9</priority> </url> </urlset>

Page 25: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Ошибки при работе с Sitemap

-  Файл на другом сайте

-  Установленный редирект,

-  Отсутствие служебной информации, например, <?xml version="1.0" encoding="UTF-8"?>

26

Page 26: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Sitemap

Валидатор в Яндекс.Вебмастере: https://webmaster.yandex.ru/sitemaptest.xml Стандарт Sitemap: http://www.sitemaps.org/ru/ Помощь вебмастеру: https://yandex.ru/support/webmaster/indexing-options/sitemap.xml

27

Page 27: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

Один сайт по нескольким адресам http://www.site.ru http://site.ru https://site.ru http://сайт.рф

Чтобы объединить сайты в группу и выбрать главный адрес, они должны содержать идентичный контент.

28

Page 28: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

Зачем? -  Перенос сайта на новый адрес с сохранением характеристик старого

адреса -  Наличие дополнительных адресов для пользователей

29

Page 29: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

1.  Директива Host в robots.txt

2.  «Главное зеркало» в Яндекс.Вебмастере

3.  Серверное перенаправление на главное зеркало

30

Page 30: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

31

А В ГЛАВНОЕ ЗЕРКАЛО НЕГЛАВНОЕ ЗЕРКАЛО

перенаправление

Page 31: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

32

Page 32: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Ошибки при работе с зеркалами

-  Разное содержимое на сайтах

-  Переезд сайта в раздел другого

-  Запрет на индексирование одного из зеркал, его недоступность

-  Противоречивые указания 33

Page 33: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Зеркала сайта

Помощь Вебмастеру: https://yandex.ru/support/webmaster/yandex-indexing/site-mirrors.xml Обратная связь: https://feedback2.yandex.ru/webmaster/

34

Page 34: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Особенности индексирования

Индексирование сайта

Page 35: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

AJAX

site.ru/#blog site.ru/#!blog

site.ru/#!blog site.ru/?_escaped_fragment_=blog

site.ru/blog <meta name="fragment" content="!">

site.ru/blog site.ru/blog?_escaped_fragment_=

36

Page 36: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Версии на других языках

37

-  Открыть локализованную версию для робота,

-  Использовать атрибут hreflang:

<link rel="alternate" hreflang=”ru-ru" href="http://site.ru/ru-ru/"> <link rel="alternate" hreflang="tr-tr" href="http://site.ru/tr-tr/"> <link rel="alternate" hreflang=”en-us" href="http://site.ru/en-us/">

<link rel="alternate" hreflang="x-default" href="http://site.ru/" />

Page 37: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Как улучшить индексирование

Индексирование сайта

Page 38: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Дубли страниц

Дубли – несколько страниц одного сайта, содержащие идентичный контент.

-  Один товар в двух категориях: site.ru/tort и site.ru/cat/tort ,

-  Со слэшом и без: site.ru/tort и site.ru/tort/ ,

-  Страницы с произвольными параметрами: site.ru/tort?1234

39

Page 39: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Дубли страниц

К каким проблемам приводят:

- Робот начинает посещать множество ненужных страниц вместо индексирования корректных адресов,

- Робот может включать в выдачу только одну страницу на своё усмотрение.

40

Page 40: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Дубли страниц

Как исправить:

-  Атрибут rel="canonical” тега <link>,

-  301 редирект ,

-  Disallow в robots.txt .

41

Page 41: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Использование HTTP-кодов

-  HTTP-404 на удалённых страницах

-  Заглушка с HTTP-503 при недоступности

-  Использование HTTP-301 редиректа при переезде страниц внутри сайта

42

Page 42: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Проверка и актуализация robots.txt

-  Проверка логов сервера и закрытие служебных страниц

-  Crawl-delay без необходимости

43

Page 43: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Хостинг

44

ОШИБКИ СОЕДИНЕНИЯ

Page 44: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Полезные ссылки

-  Помощь вебмастеру: https://yandex.ru/support/webmaster/for-webmasters/contents.xml -  Блог: http://webmaster.ya.ru -  Блог Платона Щукина: http://platon.ya.ru

-  Яндекс.Вебмастер: https://webmaster.yandex.ru

45

Page 45: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

Page 46: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

Как ускорить процесс склейки доменов при смене доменного имени и настройке редиректа?

Если сайт переходит на новый домен, то как изменится индексирование сайта? И если изменится, то как сделать так, чтобы показатели быстрее стали прежними?

Как грамотно поменять главное зеркало сайта с www.site.ru на site.ru или site2.ru ? Какое зеркало предпочтительнее?

47

Page 47: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Переезд сайта 1.  Сделать сайты полными зеркалами (идентичный контент по всем адресам)

2.  Делаем оба сайта доступными для робота

3.  Убедиться, что сайты известны нашему роботу

4.  Указываем директиву Host в robots.txt всех сайтов

5.  Ждём склейки (от 1-2 месяцев и более)

6.  Установка редиректа 48

Page 48: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

1). Минимальная и максимальная скорость индексирования сайта?

2). Возможно ли как-то повлиять на скорость индексирования?

3). Как кол-во страниц в индексе влияет на ранжирование? К примеру в индексе 20 000, а в поиске 1000, как тут быть и стоит ли удалять не нужные страницы из индекса?

4). Основываясь на случае из пункта 3, будет ли затруднена индексация новых страниц?

49

Page 49: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

Расскажите  пожалуйста,  как  правильно  организовать  пагинация  листинга  каталога,  что  бы  в  поисковой  системе  не  возникло  дублей  страниц,  но  при  этом  поисковая  система  понимала,  что  ассортимент  большой?  

Relcanonical?  Не  заполнять  метатеги?  Закрывать  страницы  noindex?  

50

Page 50: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

В каталоге интернет-магазина есть категория товаров, отличающихся друг от друга несколькими техническими характеристиками и ценой, внешний вид и текст описания - одинаковы. Товары представлены отдельными карточками. Вопрос: Будут ли такие карточки признаны дублями? Если да, то что нужно сделать, чтобы карточки таких товаров расценивались роботом как отдельные страницы?

51

Page 51: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

Как избежать индексирования всех возможных вариантов фильтров и отборов товаров в интернет магазине и попадания в индекс десятков тысяч страниц? И как это влияет на ранжирование, нужно ли с этим бороться?

52

Page 52: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

53

Page 53: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

54

http://site.ru/catalog/acoustic_systems/?sort=name&order=desc http://site.ru/catalog/acoustic_systems/?xar-block=16&secid=37&cost-min=10660&cost-max=16653000&pf%5Bsp_power_min%5D%5BLEFT%5D=&pf%5Bsp_power_min%5D%5BRIGHT%5D=&pf%5Bsp_power_max%5D%5BLEFT%5D=&pf%5Bsp_power_max%5D%5BRIGHT%5D=&cur%5B%5D=RUB&cur%5B%5D=DPJ&cur%5B%5D=DOV&cur%5B%5D=USD&cur%5B%5D=ENT&cur%5B%5D=ENP&cur%5B%5D=DOT&cur%5B%5D=ETA&cur%5B%5D=DAS

Disallow: *sort= Disallow: *cost-* Disallow: *_power_*

Page 54: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

55

Карточка товаров в интернет-магазине имеет несколько табов (Описание, Чертежи, Документация, Каталоги), написанных на Java Script. Будет ли при этом корректно индексироваться содержание табов?

Page 55: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Вопросы

56

- Проверка ответа сервера: https://webmaster.yandex.ru/server-response.xml

- Поиск вида:

Page 56: Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

Александр Смирнов Спасибо!