View
220
Download
11
Category
Preview:
Citation preview
SEO-инсайды, которые вы можете достать из логов сервераАлексей Рылко, iProspect Paris для 8p 2016: Бизнес в сети
Для SEO-специалистов
Которые слишком дорожат своими клиентами, чтобы делать не очень правильные вещи
Прежде чем начать
6
Все примеры на следующих слайдах
реальны.
Все возможные совпадения, совершенно
случайны.
“ “
Вспомним, как работает поиск
Поисковый робот ищет новые страницы и
пересканирует старые.
РанжированиеИндексацияКраулинг
Разбирает найденные документы,
классифицирует и помещает их в базу
данных.
Расчитывает релевантность и авторитетность и
определяет видимость в поиске.
Что собой представляют логи?
site.com 66.249.64.117 - - [27/Jul/2015:12:45:21 +0300] "GET /your-page.html / HTTP/1.0" 200 77032 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Абсолютно любое обращение к сайту фиксируется на сервере в специальных файлах – логах сервера – в виде таких строк:
IP-адрес Дата и время
Посещенная
страница
Код ответа
сервера
Размер страницы в
байтахUser-agent
Домен
Где искать серверные логи?
/var/log/apache/access.log
/var/log/nginx/access.log
%SystemDrive%\inetpub\logs\LogFiles
Apache
Nginx
IIS
Googlebot и robots.txt
1. Googlebot следует инструкциям в файле robots.txt.
2. Googlebot блокирует доступ, но не управляет индексацией.
3. Иногда Googlebot может показывать в результатах поиска страницы, закрытые в robots.txt, притом, что он никогда их не посещал, ни индексировал.
«Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов.
Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на сайт, могут появиться в результатах поиска Google.
Чтобы полностью исключить появление URL в результатах поиска Google, используйте другие способы: парольную защиту файлов на сервере или метатеги с директивами по индексированию».
https://support.google.com/webmasters/answer/6062608?hl=ru&rd=1
Googlebot и robots.txt
Задача: удалить из индекса много ненужных страниц.Частая ошибка: robots.txt + meta name=“robots” “noindex”.Правильный вариант: robots.txt + meta name=“robots” “noindex”.
4. Ошибки в названии файла, в инструкциях, в хронологии.
Googlebot и адреса с решеткой (#)
84.233.174.130 [10/Jul/2016:19:18:32] GET /wp-content/tests/hashtest.html66.249.93.113 [10/Jul/2016:19:19:01] GET /favicon.ico66.249.64.194 [10/Jul/2016:19:19:15] GET /wp-content/tests/hashtest.html66.249.64.184 [10/Jul/2016:19:19:58] GET /wp-content/tests/hashtest.html66.249.64.184 [10/Jul/2016:19:20:06] GET /hash.html66.249.64.184 [10/Jul/2016:19:20:14] GET /hash/66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/diffi cultpage2.html66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/diffi cultpage2.html
Google против всего интернета
17
60 000 000 000 000СТРАНИЦ В СЕТИ, КОТОРЫЕ НУЖНО НАХОДИТЬ И ПОДДЕРЖИВАТЬ В АКТУАЛЬНОМ СОСТОЯНИИ
77 160 494СТРАНИЦ В СЕКУНДУ НУЖНО СКАНИРОВАТЬ GOOGLE,
ЧТОБЫ ОБХОДИТЬ ВСЕ СТРАНИЦЫ ХОТЯ БЫ 1 РАЗ В 3 МЕСЯЦА.
Краулинговый бюджет
Краулинговый бюджет – процессорное время, выделяемое поисковой системой для сканирования определенного сайта за единицу времени.
Основной фактор влияния: Pagerank.
Где и в каком количестве расходуется бюджет?
На примере: портал по недвижимости.
Полезный и бесполезный краулинг
Сколько страниц у вас на сайте?
Пример: крупный онлайн-ритейлер (~10 млн переходов из поиска в месяц). Сканирование сайта обнаружило 5,3 миллиона страниц.
Страницы-сироты (orphan pages)
Страницы-сироты – страницы, о которых знает поисковая система, но которые не присутствуют в структуре сайта.
Страницы-сироты (orphan pages)
Откуда они берутся?
• Страницы, на которые ведут внешние ссылки, но нет внутренних.
• Страницы с исправленными ошибками, но в базе Googlebot.• Более неактуальные страницы с кодом 200OK.• Оставшиеся после переезда страницы.• Ошибки в rel=«canonical» и sitemap.xml.
Активные страницы (active pages)
Активные страницы – страницы, которые принесли хотя бы 1 визит из органического поиска за заданный период (30-60 дней).
Краулинг и визиты
pagetype/searchpagetype/produits/*
pagetype/vente/*pagetype/edito/*pagetype/menu/*pagetype/autre/*
pagetype/oldpages/*pagetype/technique/*
pagetype/unknownpagetype/univers/*
-600000 -400000 -200000 0 200000 400000 600000 800000
Unique Crawled URLs
На примере: интернет-магазин по продаже игр (1 млн переходов из органического поиска).
Страницы результатов внутреннего поиска были просканированы роботом Google 423 000 раз, принеся только 26 000 SEO-визитов.
Как вложенность влияет на краулинг?
На примере: портал по недвижимости (400 000 переходов из органического поиска).
Как количество слов влияет на краулинг?
> 150 words
150 - 300 words
300 - 500 words
500 - 800 words
800 - 1200 words
> 1200 words
0%10%20%30%40%50%60%70%80%90%
100%
10% 19%
56%72%
81%89%
Pages in the structure not crawled Pages in the structure crawled
Отслеживаем эффект от своих действий
Фиксируем рост и падения.
Сработали ли мои изменения?
Успешно ли прошел переезд?
Повлияла ли перелинковка?
и т.д.
Почему нужно доработать скорость загрузки?
Fast (> 500 ms) Medium (500 ms - 1 s)
Slow (1 s - 2 s) Very slow (> 2 s)0%
10%20%30%40%50%60%70%80%90%
100%
79%67% 65% 62%
Pages in the structure not crawled Pages in the structure crawled
2 подхода в работе с логами сервера
Аудит Мониторинг
1. Логи за 30-60 дней (размер и тематика).
2. Кросс-аналитика: Краулинг + Логи + Google Analytics.
3. Диагностика полезных и бесполезных страниц, зон сайта, о которых Google знает и нет.
Сбор логов в режиме реального времени.
Обязателен при редизайне / переезде сайта.
Оповещения:
• Ошибки• Объем краулинга• Атаки• Новые страницы
Инструменты для работы с логами
Google Search Console
Десктопные программы
Apache log viewerScreaming Frog
SplunkPower BI
SaaS Решения
BotifyOncrawlLogs.ioQbox
Logentries
Ручная обработка
Командная строка
Notepad++Excel
Open Sourceпакеты
ELKLogalizeGraylog
Google Search Console
+ -Простой и быстрый доступОбъем краулинга по днямОбщий тренд
Нет сегментацииНеизвестно качество краулингаЗадержка данных 2 дня
Excel / Notepad++ / Консоль
cat file1.log file2.log > output_file.logсat file1.log | grep 'googlebot' >> file-googlebots.log
Объединить несколько файлов в одинОставить только визиты Googlebot’а
Полезные команды для работы с логами
Max: 1 млн строк. Max: 500 мб. Max: НетExcel Notepad++ Terminal, Cygwin
Глобальные тренды в поведении Googlebot’а
1/1/10
2/1/10
3/1/10
4/1/10
5/1/10
6/1/10
7/1/10
8/1/10
9/1/1010/
1/10
11/1/1
012/
1/101/1
/112/1
/113/1
/114/1
/115/1
/116/1
/117/1
/118/1
/119/1
/1110/
1/11
11/1/1
112/
1/111/1
/122/1
/123/1
/124/1
/125/1
/120
100
200
300
400
500
600
700
800Crawled files in /js/
Crawled files in /js/
Подведем итог
1. Логи сервера – самый надежный и точный источник информации о поведении поисковых роботов.
2. Появилось много инструментов для удобной работы с ними. Можно легко подобрать под свои задачи и бюджет.
3. Изучение логов позволяет проверить многие гипотезы, мифы, особенности работы поиска.
4. Полезный источник информации для поиска точек роста, применения усилий, проверки своей работы.
5. Неограниченные возможности по внутрисайтовой кросс-аналитике, например, можно сопоставить страницы, посещаемые роботом Google со страницами, приносящими доход.
6. Для тех, кто хочет идти дальше:1. Оценка ссылочных кампаний на основе роста краулингового бюджета
и частоты краулинга.2. Определение наложения антиспам фильтров типа « Google Panda ».
Recommended