Upload
yandex
View
6.461
Download
0
Embed Size (px)
DESCRIPTION
Обзор основных проблем, которые могут возникнуть при индексировании сайта. Способы их выявления с помощью инструментов Яндекс.Вебмастера. В докладе будет рассказано также, как улучшить представление интернет-магазина в результатах поиска.
Citation preview
Индексирование сайта: используем Яндекс.Вебмастер для устранения проблем
Михаил Сенин Ноябрь 2013
2
3
4
Знай и люби свой сайт!
5
Поисковый индекс
6
Обход роботом и поисковые индексы
Подготовка индекса
t Подготовка индекса
Основной индекс
Выкладывание нового индекса
Выкладывание нового индекса
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Основной индекс
Индекс Быстрого робота
Результаты поиска
Сообщение в Я.Вебмастере
Сообщение в Я.Вебмастере
7
Сообщения о новом индексе
8
Объясняем роботу как индексировать сайт
9
Настройка индексирования
Анализатор robots.txt – куда можно ходить
1 2
3
4
10
Настройка индексирования
Файлы sitemap – что нужно индексировать – Проверьте корректность файла Sitemap в валидаторе – Добавьте в robots.txt или Я.Вебмастер – Получайте информацию об обработке файла роботом Яндекса
11
Этапы обработки страницы
12
не знаю L
Этапы обработки страницы DNS Сайт Робот Яндекса
имя домена
GET /robots.txt
Анализ robots.txt
GET <адрес страницы>
Анализ контента (кодировка, язык и т.п.)
Построение поискового индекса
IP-адрес
Не удалось соединиться L
Запрет L
Не годится L
Не берём L В индекс!
robots.txt
Контент страницы
500, 404, ошибки HTTP L
Не удалось соединиться L
13
Этапы обработки страницы
• Получение ip по имени Возможны ошибки DNS
• Соединение с сайтом Возможен запрет робота Яндекса по ip
• Проверка запрета в robots.txt Возможен запрет страницы в robots.txt
• Загрузка страницы Возможны ошибки HTTP соединения, 5XX и т.п.
• Обработка страницы после загрузки Запрет мета-‐тегом и т.п., неверная кодировка и т.п., ограничения робота Яндекса
• Включение в индекс
14
Предупреждения о недоступности сайта
• Ошибка DNS Проверяем, пробуем настроить, идём к хостеру или провайдеру
• Соединение с сайтом Проверяем ответ сайта роботу Яндекса, идём к разработчикам сайта, хостеру или провайдеру
• Запрет в robots.txt Проверяем в анализаторе robots.txt
За год проблемами подобного рода сталкивались 10% сайтов!
15
Сообщения о недоступности сайта
Скоро всё будет плохо
Подготовка индекса
OK Ошибка
16
Сообщения о недоступности сайта
Всё плохо
Подготовка индекса
Ошибка Ошибка
17
Сообщения о недоступности сайта
Скоро будет хорошо
Подготовка индекса
OK Ошибка
18
Причины, по которым страница не попадает в поиск
19
Некоторые определения
• URL страницы Разные URL могут вести на один и тот же контент
• Страница проиндексирована Контент страницы доступен в поиске
• Канонический URL URL, под которым страница доступна в поиске
20
Страница в поиске под другим именем
• Редирект на более длинный URL Выбираем более короткий URL, т.к. его проще воспринять
• Мета-‐тег refresh на более длинный URL
• Контент дублирует контент другого URL
• Было указание на канонический URL <link rel="canonical" href="http://www.examplesite.ru/blog"/>
21
Обошли, но в поиск не взяли
• Исключено роботом Страницу не удалось получить или обработать
• «Неинтересный» контент Вероятность показа страницы очень мала
• Страница является спамом
22
Исключённые страницы
23
Причины исключения страниц роботом
• Ограничения робота У всех свои ограничения…
• Страница запрещена к индексированию
вебмастером или не существует robots.txt, refresh, noindex, rel=canonical, 4XX кроме 403
• Ошибки на стороне сайта 403, 5XX, обрыв соединения, ошибки протокола HTTP, неверная кодировка, страница без текста, ошибки распаковывания
24
Исключенные страницы: сводка
25
Исключенные страницы: по типам
26
Ограничения робота
• Слишком большой документ – 10 Мб
• Формат документа не поддерживается или указывается сервером неправильно
• Документ является логом сервера
• Неверный формат документа Не соответствует html, pdf, doc, rtf, swf, xls или ppt; чаще всего xml
• Кодировка не распознана http://help.yandex.ru/webmaster/?id=1111516
• Язык не поддерживается http://help.yandex.ru/webmaster/?id=1111517
• Слишком много ссылок – ? 3072
27
Запрет или не существует
• Все 4ХХ коды, кроме 403 Фильтруем по наличию внутренних ссылок
• robots.txt Анализатор robots.txt
• Мета-‐тег noindex Смотрим код страницы
• Мета-‐тег refresh Не индексируется, т.к. пользователь реально не видит этот контент
• rel=“canonical” Индексируется канонический URL
28
Ошибки на стороне сервера или сайта
• Все 5ХХ коды и 403 Чиним сервер, закрываем страницы от индексации или меняем настройки
• Обрыв соединения, неверная длина сообщения
• Неверный URL, длина URL превышает предел
• Неверный HTTP-‐код
• Неверная кодировка (Transfer-‐encoding) • Длина HTTP-‐заголовка превышает предел
• Документ не содержит текста
• Ошибка распаковывания
29
Инструмент для проверки URL
30
Спасибо за внимание! Вопросы?
http://webmaster.yandex.ru http://help.yandex.ru/webmaster [email protected]