32
Способы обнаружения и устранения дублированного контента Часть 1

дублированный контент

  • Upload
    -

  • View
    1.411

  • Download
    1

Embed Size (px)

Citation preview

Page 1: дублированный контент

Способы обнаружения и устранения дублированного контента

Часть 1

Page 2: дублированный контент

Алгоритмы поисковых систем совершенствуется с каждым днем

Дублированный контент является проблемой SEO уже много лет.

Способы обработки дублированного контента Google совершенствуются и становятся более сложными с каждым новым обновлением алгоритмов.

Последний апдейт Panda 3.7 (Jun 9)

2

Page 3: дублированный контент

Что такое дублированный контент?• Дублированный контент появляется, когда любые две (или

более) страниц имеют одинаковый контент. Например:

• Почему же такая простая концепция создаёт так много проблем? Одна проблема в том, что люди часто делают ошибку, думая, что страница – это файл или документ, лежащий на веб сервере. Для паука (crawler) (или Googlebot`а), страница – это любой уникальный URL, который ему посчастливилось найти. Обычно это происходит с помощью внутренних или внешних ссылок. Особенно на больших, динамических сайтах, создать два URL`а которые нацелены на один и тот же контент удивительно просто (и часто случайно). 3

Page 4: дублированный контент

Почему дублированный контент так важен?

• Примерно в конце 2006 года, Google интегрировал дополнительные результаты обратно в основной индекс, но эти результаты по-прежнему часто фильтровались. Вы можете узнать, что страницы были отфильтрованы, когда видите следующую надпись в нижней части выдачи Google:

4

Page 5: дублированный контент

«Бюджет» паука

• Что же происходит, когда Google проходит по такому большому количеству дублированных адресов и страниц?

Страницы, которые Вы хотели бы проиндексировать могут не быть просканированы. В лучшем случае, они вероятно не будут сканироваться так часто.

5

Page 6: дублированный контент

«Объем» индексации• Подобным образом, нет определенного объема

страниц, которые будут проиндексированы Google`ом.• Судя по всему существует некоторый динамический

лимит, тем не менее, это ограничение соотносится с авторитетностью сайта.

• Если Вы наполните Ваш индекс бесполезными, дублированными страницами, вы можете вытеснить более важные, глубокие страницы. Например, если Вы загружаете 1000чи результатов внутреннего поиска, Google может не проиндексировать все Ваши страницы.

• Многие люди делают ошибку, думая, что чем больше страниц в индексе, тем лучше.

6

Page 7: дублированный контент

Три типа дублей.

• Полные дублиПолные дубли эта любая страница, которая

100% идентична (по контенту) другой странице. Такие страницы отличаются по URL:

7

Page 8: дублированный контент

Частичные дубли

• Частичные дубли отличаются от остальных страниц небольшим объемом – это может быть блок текста, картинка или даже порядок вывода контента.

8

Page 9: дублированный контент

Междоменные дубли

• Междоменные дубликаты появляются, когда два сайта выводят один и тот же контент:

9

Page 10: дублированный контент

Инструменты борьбы с дублями.

10

Page 11: дублированный контент

404 ошибка

• Конечно, самый простой способ работы с дублированными страницами – просто удалить её и отдать 404 ошибку. Если контент действительно не несет пользы для посетителей или поиска, и когда нет сильных входящих ссылок или трафика, тогда полное удаление – идеальное решение.

11

Page 12: дублированный контент

301 редирект• Другой способ удалить страницу через 301

редирект.• В отличии от 404 – 301 редирект говорит

посетителям (людям и ботам), что страница перемещена на другой адрес на постоянной основе. Люди попадут прямо на новую страницу.

• Для SEO, большинство входящего ссылочного авторитета так же передастся новой странице. Если ваш дублированный контент имеет постоянный адрес URL, и дубль приносит трафик и входящие ссылки, тогда 301 редирект – идеальное решение.

12

Page 13: дублированный контент

Robots.txt

• Ещё один способ избавиться от дублей и оставить его для посетителей. Самый старый и самый простой способ избавиться от дублей. Это выглядит вот так:

13

Page 14: дублированный контент

Meta Robots

• Вы так же можете контролировать поведение поискового робота на уровне страниц, с помощью директивы на уровне хедера известной как тег “Meta Robots”. Это выглядит вот так:

14

Page 15: дублированный контент

Syndication-Source• В ноябре 2010 года, Google представил набор тегов для

издателей синдицированного содержания. Мета тег Syndication-Source директива может быть использована для определения оригинального источника на пере публикованной статье, как например:

• Более подробно описано здесь:• http://googlenewsblog.blogspot.com/2010/11/credit-wher

e-credit-is-due.html• http://www.google.com/support/news_pub/bin/answer.py

?answer=191283

15

Page 16: дублированный контент

Syndication-Source• Update 2/11/11:

We've had a lot of interest in these meta tags, particularly in how the syndication-source tag relates to rel=canonical. After evaluating this feedback, we’ve updated our system to use rel=canonical instead of syndication-source, if both are specified.

If you know the full URL, rel=canonical is preferred, and you need not specify syndication-source.

If you know a partial URL, or just the domain name, continue using syndication-source.

We've also had people ask "why metatag instead of linktag"? We actually support both forms for the tag, and you can use either. However, we believe the linktag form is more in line with the spirit of the standard, and encourage new users to implement the linktag form rather than the metatag form we originally proposed.

16

Page 17: дублированный контент

Rel=Canonical• В 2009 году поисковые системы

объединились, чтобы создать директиву rel=Canonical. Это позволяет вебмастерам указать каноническую версию любой страницы. Тег размещается в хедере страницы (как meta robots), и вот простой пример:

17

Page 18: дублированный контент

Rel=Canonical в биржах ссылок

• Плагин SearchStatus для Firefox

18

Page 19: дублированный контент

Инструмент удаления URL Google

• В Google Webmaster вы можете подать запрос на удаление отдельной страницы (или директории) в ручную из индекса.

Важно знать, что прежде чем подавать заявку на удалению страницы Вам необходимо соблюдать одно из этих требований:- страница должна отдавать 404 ошибку;- быть закрыта в robots.txt;- блокироваться с помощью Meta Noindex.

19

Page 20: дублированный контент

Блокировка параметров URL в Google Webmasters

20

Page 21: дублированный контент

Rel=Prev & Rel=Next

• В 2011 году был введен новый инструмент для борьбы с частично дублированным контентом для борьбы с частичными дублям в случае пагинации вебстраниц (нумерации страниц).

21

Page 22: дублированный контент

Внутренняя перелинковка

• Важно помнить, что лучший способ борьбы с дублями – это не допущение дублирования контента.

• Когда вы скорректируете проблему дублированного контента, с помощью 301-редиректа или тега canonical, например. Так же важно правильно среагировать на эти действия в остальных частях сайта.

22

Page 23: дублированный контент

Часть 2

23

Page 24: дублированный контент

Примеры дублированного контента

24

Page 25: дублированный контент

“www” и без-www

Очень часто встречающаяся ошибка, которая создаёт полное дублирование сайта:www.site.comsite.com•Для решения данной проблемы используйте 301 редирект, т.к. это лучшее решение в данном случае.•Так же Вы можете выставить предпочитаемый домен в Вашей панели Google Webmasters. Для этого необходимо добавить оба домена с www и без www в Вашу панель Google Webmasters.

25

Page 26: дублированный контент

Этап разработки сайта• На этапе разработки сайта часто создаются под домены

для тестирования веб сайта.

site.com

Test.site.com

Не забывайте закрывать такой под домен, используя robots.txt. Если же он уже про индексировался, Вам скорее всего необходимо склеить данные страницы с помощью 301 редиректа или использовать мета тег Noindex.

26

Page 27: дублированный контент

Слеш в конце (“/”)

• Технически, в протоколе HTTP – это разные адреса. Сейчас в большинстве случаев, браузеры автоматически добавляют слеш в конце такого пути. Мэт Каттс в одном из видео сообщил, что Google автоматически распознаёт такие URLы в большинстве случаев.

27

Page 28: дублированный контент

HTTPS

• https://site.com/• http://site.com/

28

Page 29: дублированный контент

Дубли главных страниц

• www.site.com• www.site.com/index.htm

29

Page 30: дублированный контент

И другие:

• ID сессии.• Интернациональные дубли• Сортировка в поиске• Фильтры в поиске• Поисковая нумерация страниц• Варианты товаров• Украденный контент

30

Page 31: дублированный контент

Способы нахождения дублей

• Google Webmaster Tools• Команда site: в Google (по куску текста)• Просматривая сайт (опытным путем)

31

Page 32: дублированный контент

www.turboseo.com.ua

Спасибо за внимание!Александр ТимоховSeo-студия TurboSeoтел. 093.157.50.43 [email protected]

Интернет-агентство:- SEO (поисковая оптимизация)- комплексные кампании в интернет- баннера и контекст- SMM (продвижение в соц. сетях)http://turboseo.com.ua

18

32