Upload
yandex
View
634
Download
2
Embed Size (px)
Citation preview
Основные принципы индексирования сайта
Смирнов Александр
О чём поговорим:
1. Как поиск находит страницу, её путь до появления в поиске.
2. Как управлять роботом.
3. Особенности индексирования.
4. Как улучшить индексирование.
5. Вопросы.
4
Интересные факты
5
В поисковой базе содержится триллионы адресов. Ежедневно робот скачивает миллиарды документов.
Как поиск находит страницу, её путь до появления в поиске
Индексирование сайта
Что такое индексирование?
Индексирование – процесс получения информации о страницах сайта с последующим добавлением данных в поисковую базу и
результаты поиска.
7
Процесс индексирования
8
Создание сайта Робот узнаёт о существовании
сайта Планирование
Запрос контента, добавление в
базу
Добавление информации в
поиск
Откуда робот узнаёт о страницах
- Ссылки на других страницах в интернете,
- Я.Вебмастер (webmaster.yandex.ru),
- Внутренние ссылки,
- Карта сайта (sitemap),
- Другие источники, например, Я.Метрика.
9
От чего зависит скорость индексирования
- Загруженность сервера, на котором находится сайт,
- Частота обновления страницы,
- Интерес посетителей к сайту.
10
Запрос и получение контента 1. Запрос файла robots.txt (1-2 раза в сутки)
2. Запрос урла:
GET /URL HTTP/1.1 Host: HOST Connection: Keep-Alive Accept: */* Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01 Accept-Encoding: gzip,deflate User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) From: [email protected]
11
Запрос и получение контента
Ответ сервера: HTTP/1.1 200 Ok Date: Mon, 12 Oct 2015 14:45:32 GMT Content-Type: text/html; charset=UTF-8 Cache-Control: no-cache,no-store,max-age=0,must-revalidate Expires: Mon, 12 Oct 2015 14:45:31 GMT Last-Modified: Mon, 12 Oct 2015 14:45:31 GMT Set-Cookie: yp=; Expires=Fri, 14-Oct-2005 14:45:32 GMT; Path=/ X-Frame-Options: DENY Content-Encoding: gzip X-XSS-Protection: 1; mode=block X-Content-Type-Options: nosniff Transfer-Encoding: chunked
12
Распространённые HTTP-коды HTTP-200 – страница доступна, её необходимо индексировать HTTP-301 – страница перенесена, необходимо включать цель перенаправления HTTP-302 – страница перенесена, необходимо включать наиболее короткий адрес HTTP-304 – страница не менялась с момента последнего обращения HTTP-404 – страница удалена HTTP-503 – сервер временно недоступен
13
Добавление контента в базу
14
Добавление контента в базу <!DOCTYPE html><html class="i-ua_js_no i-ua_css_standard" lang="ru"><head><meta charset="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><title>Яндекс.Телепрограмма — программа передач всех телеканалов в Калуге</title><script>;(function(d,e,c,r){e=d.documentElement;c="className";r="replace";e[c]=e[c][r]("i-ua_js_no","i-ua_js_yes");if(d.compatMode!="CSS1Compat")e[c]=e[c][r]("i-ua_css_standart","i-ua_css_quirks")})(document);</script><meta name="description" content="Полная ТВ-программа всех телеканалов в Калуге на сегодня, на неделю."/><meta name="keywords" content=""/><link rel="shortcut icon" href="/favicon/favicon-v3.ico"/><link rel="apple-touch-icon" href="/favicon/apple-touch-icon.png"/><link rel="apple-touch-icon" sizes="57x57" href="/favicon/apple-touch-icon-57x57.png"/><link rel="apple-touch-icon" sizes="72x72" href="/favicon/apple-touch-icon-72x72.png"/><link rel="apple-touch-icon" sizes="76x76" href="/favicon/apple-touch-icon-76x76.png"/><link rel="apple-touch-icon" sizes="114x114" href="/favicon/apple-touch-icon-114x114.png"/><link rel="apple-touch-icon" sizes="120x120" href="/favicon/apple-touch-icon-120x120.png"/><link rel="apple-touch-icon" sizes="144x144" href="/favicon/apple-touch-icon-144x144.png"/><link rel="apple-touch-icon" sizes="152x152" href="/favicon/apple-touch-icon-152x152.png"/><link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon-180x180.png"/><link rel="icon" type="image/png" sizes="16x16" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="32x32" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="96x96" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="192x192" href="/favicon/256x256.png"/><meta name="msapplication-TileColor" content="#ffffff"/><meta name="msapplication-TileImage" content="/favicon/256x256.png"/><meta name="theme-color" content="#ffffff"/><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.css"/><!--[if IE 8]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie8.css"/><![endif]--><!--[if IE 9]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie9.css"/><![endif]--></head><body class="b-page b-page__body i-ua i-ua_interaction_yes i-global i-bem" data-bem="{"b-page":{},"i-ua":{},"i-global":{"lang":"ru","tld":"ru","content-region":"ru","click-host":"//clck.yandex.ru","passport-host":"https://passport.yandex.ru","pass-host":"https://pass.yandex.ru","social-host":"https://social.yandex.ru","export-host":"https://export.yandex.ru","login":"","lego-static-host":"//yastatic.net/lego/2.10-142","id":"tv","user-region":"ru","jsParams":{"i-config":{"hosts":{"phone":"https://phone-passport.yandex.ru/","tune":"https://tune.yandex.ru","tune_urls_patterns":{"my_cookie":"{{host}}/api/my/v1.1/my.xml{{query}}","lang":"{{host}}/api/lang/v1.1/save.xml{{query}}","region":"{{host}}/region/{{query}}"}},"metrika":{"debug":false},"adv":{"desktop_default":"D-I-93830-2","desktop_grid_cell":"R-I-93830-4","desktop_grid_wide":"R-I-54061-6","desktop_channel_aside":"R-I-93830-1","desktop_sp_cell":"D-I-136810-1","desktop_sp_wide":"R-I-136810-2","desktop_sp_footer":"D-I-136810-3","touch_default":"R-I-80007-5"},"ua_region_id":187,"user":{"update-menu":true},"project":{"urlSegment":"newseason","searchQuery":"телесезон 2015"}},"i-region":{"id":2},"lang":"ru","i-uatraits":{"isTablet":false,"iOS":false,"Android":false,"BrowserName":"Unknown","BrowserVersion":null,"OSVersion":null},"i-api-request":{"easy-sk":"4896ec5e4947640500b3efcbe3eccabd","sk":"y4d28820bc63b6af39414871fe112dbb3"},"i-tv-region":{"timezoneOffset":-180,"regionNames":{"nominative":"Калуга","genitive":"Калуги","dative":"Калуге","prepositional":"Калуге","preposition":"в","locative":"","directional":"","ablative":"","accusative":"Калугу","instrumental":"Калугой"}},"i-tv-date":{"time":1445925006280},"i-sms-passport":{"phone":null}},"retpath":"https://tv.yandex.ru/6?grid=all&period=now","yandexuid":"54830261445925006","lego-path":"/bower_components/romochka"}}" id="app"><div class="b-content"><div class="progress i-bem" data-bem="{"progress":{}}"></div><div class="tv-header layout layout_type_serp i-bem" data-bem="{"tv-header":{}}"><div class="header2 header2_lang_ru i-bem" data-bem="{"header2":{}}" role="banner"><div class="header2__main"><div class="header2__logo tv-header__logo"><a class="link i-bem" data-bem="{"link":{"origTabindex":"-1"}}" tabindex="-1" href="//www.yandex.ru"><!--[if gt IE 8]page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png);"/><!--<![endif]--><!--[if lte IE 8]><img class="image" src="//yastatic.net/islands-page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png" alt="Яндекс"/><![endif]--></a></div><div class="header2__middle"><div class="header2__middle-wrap"><div class="header2__left"><a class="header2__nameplate" href="/6" tabindex="-1"><div class="arrow2 arrow2_size_m arrow2_theme_nameplate-border"><div class="arrow2 arrow2_size_s
15
Добавление контента в базу
- HTTP-код ответа,
- Текстовое содержимое, мета-теги,
- Исходящие ссылки на другие страницы.
16
17
Быстрый Основной
Индексирующий робот
Как узнать, что страница в поиске
- Яндекс.Вебмастер, «Проверить URL»
- Результаты поиска с оператором url: , например, url:example.ru/contacts
- Для поиска всех страниц сайта – оператор site: , например, site:example.ru
18
Как управлять роботом
Индексирование сайта
robots.txt – строгая инструкция для робота
- User-agent – указываем, для кого предназначаются правила
- Disallow / Allow – запрещаем или разрешаем индексирование страниц
- Clean-param – удаляем ненужные параметры в URL-адресах
- Crawl-delay – задаём интервал между запросами страниц
- Sitemap – сообщаем адрес карты сайта
- Host – указываем адрес главного зеркала
20
robots.txt
User-agent: * Disallow: /admin Disallow: /images Disallow: *?cart=* User-agent: Yandex Disallow: /admin Disallow: *?cart=* Clean-param: sid / Crawl-delay: 0.5 Host: www.site.com Sitemap: http://www.site.com/sitemap.xml
21
Ошибки при работе с robots.txt
- Ошибки в содержимом файла
- HTTP-ответ отличный от 200
- Кириллические символы в файле
- Размер более 32Кб
22
Пример: Host: лютикицветочки.рф Host: xn--b1aghacidc6a8af9br2g.xn--p1ai
robots.txt Анализатор в Яндекс.Вебмастере: https://webmaster.yandex.ru/robots.xml
23
robots.txt
Стандарт robots.txt: http://www.robotstxt.org Помощь вебмастеру: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
24
Sitemap – карта вашего сайта Текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать.
25
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://site.ru/</loc> <lastmod>2015-10-12</lastmod> <changefreq>monthly</changefreq> <priority>0.9</priority> </url> </urlset>
Ошибки при работе с Sitemap
- Файл на другом сайте
- Установленный редирект,
- Отсутствие служебной информации, например, <?xml version="1.0" encoding="UTF-8"?>
26
Sitemap
Валидатор в Яндекс.Вебмастере: https://webmaster.yandex.ru/sitemaptest.xml Стандарт Sitemap: http://www.sitemaps.org/ru/ Помощь вебмастеру: https://yandex.ru/support/webmaster/indexing-options/sitemap.xml
27
Зеркала сайта
Один сайт по нескольким адресам http://www.site.ru http://site.ru https://site.ru http://сайт.рф
Чтобы объединить сайты в группу и выбрать главный адрес, они должны содержать идентичный контент.
28
Зеркала сайта
Зачем? - Перенос сайта на новый адрес с сохранением характеристик старого
адреса - Наличие дополнительных адресов для пользователей
29
Зеркала сайта
1. Директива Host в robots.txt
2. «Главное зеркало» в Яндекс.Вебмастере
3. Серверное перенаправление на главное зеркало
30
Зеркала сайта
31
А В ГЛАВНОЕ ЗЕРКАЛО НЕГЛАВНОЕ ЗЕРКАЛО
перенаправление
Зеркала сайта
32
Ошибки при работе с зеркалами
- Разное содержимое на сайтах
- Переезд сайта в раздел другого
- Запрет на индексирование одного из зеркал, его недоступность
- Противоречивые указания 33
Зеркала сайта
Помощь Вебмастеру: https://yandex.ru/support/webmaster/yandex-indexing/site-mirrors.xml Обратная связь: https://feedback2.yandex.ru/webmaster/
34
Особенности индексирования
Индексирование сайта
AJAX
site.ru/#blog site.ru/#!blog
site.ru/#!blog site.ru/?_escaped_fragment_=blog
site.ru/blog <meta name="fragment" content="!">
site.ru/blog site.ru/blog?_escaped_fragment_=
36
Версии на других языках
37
- Открыть локализованную версию для робота,
- Использовать атрибут hreflang:
<link rel="alternate" hreflang=”ru-ru" href="http://site.ru/ru-ru/"> <link rel="alternate" hreflang="tr-tr" href="http://site.ru/tr-tr/"> <link rel="alternate" hreflang=”en-us" href="http://site.ru/en-us/">
<link rel="alternate" hreflang="x-default" href="http://site.ru/" />
Как улучшить индексирование
Индексирование сайта
Дубли страниц
Дубли – несколько страниц одного сайта, содержащие идентичный контент.
- Один товар в двух категориях: site.ru/tort и site.ru/cat/tort ,
- Со слэшом и без: site.ru/tort и site.ru/tort/ ,
- Страницы с произвольными параметрами: site.ru/tort?1234
39
Дубли страниц
К каким проблемам приводят:
- Робот начинает посещать множество ненужных страниц вместо индексирования корректных адресов,
- Робот может включать в выдачу только одну страницу на своё усмотрение.
40
Дубли страниц
Как исправить:
- Атрибут rel="canonical” тега <link>,
- 301 редирект ,
- Disallow в robots.txt .
41
Использование HTTP-кодов
- HTTP-404 на удалённых страницах
- Заглушка с HTTP-503 при недоступности
- Использование HTTP-301 редиректа при переезде страниц внутри сайта
42
Проверка и актуализация robots.txt
- Проверка логов сервера и закрытие служебных страниц
- Crawl-delay без необходимости
43
Хостинг
44
ОШИБКИ СОЕДИНЕНИЯ
Полезные ссылки
- Помощь вебмастеру: https://yandex.ru/support/webmaster/for-webmasters/contents.xml - Блог: http://webmaster.ya.ru - Блог Платона Щукина: http://platon.ya.ru
- Яндекс.Вебмастер: https://webmaster.yandex.ru
45
Вопросы
Вопросы
Как ускорить процесс склейки доменов при смене доменного имени и настройке редиректа?
Если сайт переходит на новый домен, то как изменится индексирование сайта? И если изменится, то как сделать так, чтобы показатели быстрее стали прежними?
Как грамотно поменять главное зеркало сайта с www.site.ru на site.ru или site2.ru ? Какое зеркало предпочтительнее?
47
Переезд сайта 1. Сделать сайты полными зеркалами (идентичный контент по всем адресам)
2. Делаем оба сайта доступными для робота
3. Убедиться, что сайты известны нашему роботу
4. Указываем директиву Host в robots.txt всех сайтов
5. Ждём склейки (от 1-2 месяцев и более)
6. Установка редиректа 48
Вопросы
1). Минимальная и максимальная скорость индексирования сайта?
2). Возможно ли как-то повлиять на скорость индексирования?
3). Как кол-во страниц в индексе влияет на ранжирование? К примеру в индексе 20 000, а в поиске 1000, как тут быть и стоит ли удалять не нужные страницы из индекса?
4). Основываясь на случае из пункта 3, будет ли затруднена индексация новых страниц?
49
Вопросы
Расскажите пожалуйста, как правильно организовать пагинация листинга каталога, что бы в поисковой системе не возникло дублей страниц, но при этом поисковая система понимала, что ассортимент большой?
Relcanonical? Не заполнять метатеги? Закрывать страницы noindex?
50
Вопросы
В каталоге интернет-магазина есть категория товаров, отличающихся друг от друга несколькими техническими характеристиками и ценой, внешний вид и текст описания - одинаковы. Товары представлены отдельными карточками. Вопрос: Будут ли такие карточки признаны дублями? Если да, то что нужно сделать, чтобы карточки таких товаров расценивались роботом как отдельные страницы?
51
Вопросы
Как избежать индексирования всех возможных вариантов фильтров и отборов товаров в интернет магазине и попадания в индекс десятков тысяч страниц? И как это влияет на ранжирование, нужно ли с этим бороться?
52
Вопросы
53
Вопросы
54
http://site.ru/catalog/acoustic_systems/?sort=name&order=desc http://site.ru/catalog/acoustic_systems/?xar-block=16&secid=37&cost-min=10660&cost-max=16653000&pf%5Bsp_power_min%5D%5BLEFT%5D=&pf%5Bsp_power_min%5D%5BRIGHT%5D=&pf%5Bsp_power_max%5D%5BLEFT%5D=&pf%5Bsp_power_max%5D%5BRIGHT%5D=&cur%5B%5D=RUB&cur%5B%5D=DPJ&cur%5B%5D=DOV&cur%5B%5D=USD&cur%5B%5D=ENT&cur%5B%5D=ENP&cur%5B%5D=DOT&cur%5B%5D=ETA&cur%5B%5D=DAS
Disallow: *sort= Disallow: *cost-* Disallow: *_power_*
Вопросы
55
Карточка товаров в интернет-магазине имеет несколько табов (Описание, Чертежи, Документация, Каталоги), написанных на Java Script. Будет ли при этом корректно индексироваться содержание табов?
Вопросы
56
- Проверка ответа сервера: https://webmaster.yandex.ru/server-response.xml
- Поиск вида:
Александр Смирнов Спасибо!