дублированный контент

Способы обнаружения и устранения дублированного контента

Часть 1

Алгоритмы поисковых систем совершенствуется с каждым днем

Дублированный контент является проблемой SEO уже много лет.

Способы обработки дублированного контента Google совершенствуются и становятся более сложными с каждым новым обновлением алгоритмов.

Последний апдейт Panda 3.7 (Jun 9)

2

Что такое дублированный контент?• Дублированный контент появляется, когда любые две (или

более) страниц имеют одинаковый контент. Например:

• Почему же такая простая концепция создаёт так много проблем? Одна проблема в том, что люди часто делают ошибку, думая, что страница – это файл или документ, лежащий на веб сервере. Для паука (crawler) (или Googlebot`а), страница – это любой уникальный URL, который ему посчастливилось найти. Обычно это происходит с помощью внутренних или внешних ссылок. Особенно на больших, динамических сайтах, создать два URL`а которые нацелены на один и тот же контент удивительно просто (и часто случайно). 3

Почему дублированный контент так важен?

• Примерно в конце 2006 года, Google интегрировал дополнительные результаты обратно в основной индекс, но эти результаты по-прежнему часто фильтровались. Вы можете узнать, что страницы были отфильтрованы, когда видите следующую надпись в нижней части выдачи Google:

4

«Бюджет» паука

• Что же происходит, когда Google проходит по такому большому количеству дублированных адресов и страниц?

Страницы, которые Вы хотели бы проиндексировать могут не быть просканированы. В лучшем случае, они вероятно не будут сканироваться так часто.

5

«Объем» индексации• Подобным образом, нет определенного объема

страниц, которые будут проиндексированы Google`ом.• Судя по всему существует некоторый динамический

лимит, тем не менее, это ограничение соотносится с авторитетностью сайта.

• Если Вы наполните Ваш индекс бесполезными, дублированными страницами, вы можете вытеснить более важные, глубокие страницы. Например, если Вы загружаете 1000чи результатов внутреннего поиска, Google может не проиндексировать все Ваши страницы.

• Многие люди делают ошибку, думая, что чем больше страниц в индексе, тем лучше.

6

Три типа дублей.

• Полные дублиПолные дубли эта любая страница, которая

100% идентична (по контенту) другой странице. Такие страницы отличаются по URL:

7

Частичные дубли

• Частичные дубли отличаются от остальных страниц небольшим объемом – это может быть блок текста, картинка или даже порядок вывода контента.

8

Междоменные дубли

• Междоменные дубликаты появляются, когда два сайта выводят один и тот же контент:

9

Инструменты борьбы с дублями.

10

404 ошибка

• Конечно, самый простой способ работы с дублированными страницами – просто удалить её и отдать 404 ошибку. Если контент действительно не несет пользы для посетителей или поиска, и когда нет сильных входящих ссылок или трафика, тогда полное удаление – идеальное решение.

11

301 редирект• Другой способ удалить страницу через 301

редирект.• В отличии от 404 – 301 редирект говорит

посетителям (людям и ботам), что страница перемещена на другой адрес на постоянной основе. Люди попадут прямо на новую страницу.

• Для SEO, большинство входящего ссылочного авторитета так же передастся новой странице. Если ваш дублированный контент имеет постоянный адрес URL, и дубль приносит трафик и входящие ссылки, тогда 301 редирект – идеальное решение.

12

Robots.txt

• Ещё один способ избавиться от дублей и оставить его для посетителей. Самый старый и самый простой способ избавиться от дублей. Это выглядит вот так:

13

Meta Robots

• Вы так же можете контролировать поведение поискового робота на уровне страниц, с помощью директивы на уровне хедера известной как тег “Meta Robots”. Это выглядит вот так:

14

Syndication-Source• В ноябре 2010 года, Google представил набор тегов для

издателей синдицированного содержания. Мета тег Syndication-Source директива может быть использована для определения оригинального источника на пере публикованной статье, как например:

• Более подробно описано здесь:• http://googlenewsblog.blogspot.com/2010/11/credit-wher

e-credit-is-due.html• http://www.google.com/support/news_pub/bin/answer.py

?answer=191283

15

http://googlenewsblog.blogspot.com/2010/11/credit-where-credit-is-due.html

http://googlenewsblog.blogspot.com/2010/11/credit-where-credit-is-due.html

http://www.google.com/support/news_pub/bin/answer.py?answer=191283

http://www.google.com/support/news_pub/bin/answer.py?answer=191283

Syndication-Source• Update 2/11/11:

We've had a lot of interest in these meta tags, particularly in how the syndication-source tag relates to rel=canonical. After evaluating this feedback, we’ve updated our system to use rel=canonical instead of syndication-source, if both are specified.

If you know the full URL, rel=canonical is preferred, and you need not specify syndication-source.

If you know a partial URL, or just the domain name, continue using syndication-source.

We've also had people ask "why metatag instead of linktag"? We actually support both forms for the tag, and you can use either. However, we believe the linktag form is more in line with the spirit of the standard, and encourage new users to implement the linktag form rather than the metatag form we originally proposed.

16

Rel=Canonical• В 2009 году поисковые системы

объединились, чтобы создать директиву rel=Canonical. Это позволяет вебмастерам указать каноническую версию любой страницы. Тег размещается в хедере страницы (как meta robots), и вот простой пример:

17

Rel=Canonical в биржах ссылок

• Плагин SearchStatus для Firefox

18

Инструмент удаления URL Google

• В Google Webmaster вы можете подать запрос на удаление отдельной страницы (или директории) в ручную из индекса.

Важно знать, что прежде чем подавать заявку на удалению страницы Вам необходимо соблюдать одно из этих требований:- страница должна отдавать 404 ошибку;- быть закрыта в robots.txt;- блокироваться с помощью Meta Noindex.

19

Блокировка параметров URL в Google Webmasters

20

Rel=Prev & Rel=Next

• В 2011 году был введен новый инструмент для борьбы с частично дублированным контентом для борьбы с частичными дублям в случае пагинации вебстраниц (нумерации страниц).

21

Внутренняя перелинковка

• Важно помнить, что лучший способ борьбы с дублями – это не допущение дублирования контента.

• Когда вы скорректируете проблему дублированного контента, с помощью 301-редиректа или тега canonical, например. Так же важно правильно среагировать на эти действия в остальных частях сайта.

22

Часть 2

23

Примеры дублированного контента

24

“www” и без-www

Очень часто встречающаяся ошибка, которая создаёт полное дублирование сайта:www.site.comsite.com•Для решения данной проблемы используйте 301 редирект, т.к. это лучшее решение в данном случае.•Так же Вы можете выставить предпочитаемый домен в Вашей панели Google Webmasters. Для этого необходимо добавить оба домена с www и без www в Вашу панель Google Webmasters.

25

Этап разработки сайта• На этапе разработки сайта часто создаются под домены

для тестирования веб сайта.

site.com

Test.site.com

Не забывайте закрывать такой под домен, используя robots.txt. Если же он уже про индексировался, Вам скорее всего необходимо склеить данные страницы с помощью 301 редиректа или использовать мета тег Noindex.

26

Слеш в конце (“/”)

• Технически, в протоколе HTTP – это разные адреса. Сейчас в большинстве случаев, браузеры автоматически добавляют слеш в конце такого пути. Мэт Каттс в одном из видео сообщил, что Google автоматически распознаёт такие URLы в большинстве случаев.

27

HTTPS

• https://site.com/• http://site.com/

28

Дубли главных страниц

• www.site.com• www.site.com/index.htm

29

И другие:

• ID сессии.• Интернациональные дубли• Сортировка в поиске• Фильтры в поиске• Поисковая нумерация страниц• Варианты товаров• Украденный контент

30

Способы нахождения дублей

• Google Webmaster Tools• Команда site: в Google (по куску текста)• Просматривая сайт (опытным путем)

31

www.turboseo.com.ua

Спасибо за внимание!Александр ТимоховSeo-студия TurboSeoтел. 093.157.50.43 [email protected]

Интернет-агентство:- SEO (поисковая оптимизация)- комплексные кампании в интернет- баннера и контекст- SMM (продвижение в соц. сетях)http://turboseo.com.ua

18

32

mailto:[email protected]

http://uamaster.com/

Documents

дублированный контент