22
Алгоритм HITS Евгений Федулов, Руководитель отдела интернет маркетинга

Алгоритм HITS - Евгений Федулов

  • Upload
    -

  • View
    703

  • Download
    0

Embed Size (px)

DESCRIPTION

Содержание: - Основа работы поиска - Базовые алгоритмы поиска - Алгоритм HITS - Построение подграфа Веб - Построение RootSet - Построение BaseSet - Недостатки HITS Более подробную информацию Вы можете получить на полном курсе SEO: http://www.topexpert.pro/seo-kurs.html

Citation preview

Page 1: Алгоритм HITS - Евгений Федулов

Алгоритм HITSЕвгений Федулов,

Руководитель отдела интернет маркетинга

Page 2: Алгоритм HITS - Евгений Федулов

Евгений Федулов

Евгений Федулов В SEO с 2008 года

Опыт работы – как на стороне клиента, так и на стороне исполнителя.

Поисковое продвижение сети магазинов спортивного питания POWER-WAY, организация внутреннего отдела продвижения группы компаний RESTEC

Выпускник второго потока курсов ТопЭксперт

Page 3: Алгоритм HITS - Евгений Федулов

ТопЭксперт – это Учебный центр по SEO с

эффективной программой обучения.

Образовательный сайт, содержащий справочную информацию.

Группа экспертов, оказывающих услуги аудита, консультаций и продвижения сайтов.

Евгений Федулов

Page 4: Алгоритм HITS - Евгений Федулов

Миссия

Повышать квалификацию участников отрасли интернет-маркетинга, соединяя специалистов, экспертов и работодателей в образовательную среду и упорядочивая и структурируя информацию в доступные масштабируемые образовательные продукты, адаптированные для дистанционного обучения.

• Для специалистов: предоставить возможность получения доступного дистанционного профессионального образования в сфере IT.

• Для компаний: поставлять квалифицированные кадры, обучать сотрудников.

• Для экспертов: предоставить возможность экспертам быть понятыми и услышанными, способствовать повышению дохода и востребованности.

• Для технологий: создать среду для роста специалистов, способных создавать новые технологии.

Евгений Федулов

Page 5: Алгоритм HITS - Евгений Федулов

Разобрать основы работы алгоритма HITS

Расширить представления слушателей о работе поисковой системы

Цели вебинара

Евгений Федулов

Page 6: Алгоритм HITS - Евгений Федулов

Кому будет полезен этот вебинарНачинающим SEO оптимизаторам

Евгений Федулов

Page 7: Алгоритм HITS - Евгений Федулов

Евгений Федулов

Основные проблемы поиска

• Огромный объем доступной информации• Расплывчатость большинства запросов пользователей• Неготовность пользователей долго анализировать результаты поиска

Page 8: Алгоритм HITS - Евгений Федулов

Основа работы поискаЗадачей ядра поисковых роботов является обход Веб-графа

определенным образом с целью сбора информации, выявление

структуры и вычисление полезности информационных ресурсов в

Веб-пространстве, а также передача собранной информации для

анализа другим приложениям поисковых систем.

Евгений Федулов

То есть можно сказать что информация собирается и анализируется по ряду факторов, которые можно отметить как внешние, то есть зависящие от положения сайта некоем ссылочном графе пространства Веба.Внутренние обусловленные содержанием самих веб ресурсов, а также поведение пользователей на них.

Page 9: Алгоритм HITS - Евгений Федулов

Базовые алгоритмы поискаPage Rank

Евгений Федулов

PageRank — это алгоритм, позволяющий оценить, насколько данная интернет-страница популярна, тоесть это функция от интернет-страницы, которую можно сосчитать заранее.Сергей Брин в 1998 году предложил следующую идею: определять рейтинг страницы через количествоведущих на нее ссылок и рейтинг ссылающихся страниц.Google PageRank учитывает не все ссылки. Поисковая система отфильтровывает ссылки с искусственно созданных сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут нетолько не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта.Основным недостатком PageRank является отсутствие учёта тематичности ссылающихся друг на друга документов.

Page 10: Алгоритм HITS - Евгений Федулов

Алгоритм HITS

Евгений Федулов

В алгоритме HITS появляется возможность анализировать граф ссылок между Web-документами и выделять два типа наиболее значимых документов. Определение значимости документа базируется на следующем предположении о семантике ссылок между документами: когда человек размещает в своем документе p ссылку на другой документ q, то он отмечает значимость документа q в контексте документа p и то, что читателю документа p возможно будет интересен документ q.

Отличие HITS от PageRankPageRank подсчитывает общий "авторитет" документа, в то время как HITS определяет "авторитет" документа для конкретной темы.

Page 11: Алгоритм HITS - Евгений Федулов

Как может выглядеть ссылочный граф связей между документами

Евгений Федулов

Page 12: Алгоритм HITS - Евгений Федулов

Алгоритм HITS

Евгений Федулов

Как уже было отмечено выше, в HITS мы рассматриваем две разные роли страниц Первая это роль первоисточника, характеризующую ценность информации на этой странице, и роль посредника, характеризующую ценность информации на страницах, доступных по ссылкам с этой страницы.

Такой подход мотивирован наличием в Веб большого числа тематических сообществ, т.е. наборов страниц близкой тематики, которыесильно связаны друг с другом ссылками. Типичный вид такого сообщества приведен на следующем слайде.

Page 13: Алгоритм HITS - Евгений Федулов

Алгоритм HITS

Евгений Федулов

Структура тематического сообщества. Слева – ярко выраженные посредники, справа – хорошие первоисточники.

Выделение ролей наиболее осмыслено в рамках некоторого локального тематического контекста (т.е. полезность страницы как первоисточника)

Page 14: Алгоритм HITS - Евгений Федулов

Построение подграфа Веб

Евгений Федулов

Процедура построения подграфа Веб опирается на использованиекакой-нибудь поисковой системы для Веб с относительно хорошим покрытием индекса. По исходному запросу подграф строится следующим образом: Построение Root set и построение base set.

Page 15: Алгоритм HITS - Евгений Федулов

Построение RootSet

Евгений Федулов

Это множество формируется из k (обычно порядка 200) первых результатов, возвращенных используемой поисковой системой для исходного запроса.

Page 16: Алгоритм HITS - Евгений Федулов

Построение Base set

Евгений Федулов

Это множество получается при помощи расширения RootSet за счетокрестностей страниц из RootSet. Таким образом добавляются страницы, которые содержат ссылки на страницы из RootSet или, наоборот, ссылки на которые содержатся в каких-нибудь страницах из RootSet. Для обнаружения страниц первого вида (т.е. страниц с входящими ссылками) также используются возможности поисковой системы общего назначения. При этом из вычислительных соображений обычно ограничивают максимальное число d учитываемых. Искомый подграф Веб, который далее используется для вычислениярангов страниц, получается сужением полного графа Веб на BaseSet, изкоторого удалены все внутридоменные ссылки. Удаление внутридоменных ссылок – это простейшая эвристика для подавления навигационных и протекционных ссылок, которые вызывают искажение результатов ранжирования. Взаимосвязь между множествами BaseSet и RootSet проиллюстрирована на следующем слайде.

Page 17: Алгоритм HITS - Евгений Федулов

Построение Base set

Евгений Федулов

BaseSet. Жирные стрелки – ссылки, которые участвовали в его образовании.

Неформально понятно, что страница является хорошим посредником, еслиона содержит ссылки на ценные первоисточники, и наоборот, страница является хорошим первоисточником, если она упоминается хорошими посредниками.

Page 18: Алгоритм HITS - Евгений Федулов

Вычисление рангов страниц Веб

Евгений Федулов

Нахождение наиболее значимых страниц осуществляется следующим образом. Наиболее значимыми страницами предложено считать те, на которые больше всего ссылаются другие значимые страницы, такие страницы будем называть авторитетными страницамиАвторитетные страницы являются наиболее значимыми в рамках заданной темы запроса, поэтому на них часто ссылаются другие страницы, относящиеся к данной теме. Это свойство позволяет выявить страницы которые ссылаются на несколько авторитетных страниц, относящихся к одной теме. Вместе оба типа значимых страниц образуют взаимно усиливающееся отношение (mutually reinforcing relationship), т.е. хорошая авторитетная страница ссылается на много индексных страниц и хорошая индексная страница ссылается на много авторитетных страниц.

Page 19: Алгоритм HITS - Евгений Федулов

Недостатки Hits

Евгений Федулов

Проблема смещения тематикиАлгоритм Клейнберга он же hits может повысить качество ранжирования нетолько за счет переупорядочивания страниц, которые обнаружила поиско-вая система. При построении BaseSet в него могут попасть (и затем бытьвысоко ранжированными) страницы, которые поисковая система вообщене считает релевантными из-за того, что они по тем или иным причинам несодержат слова из запроса. Однако, именно эта особенность алгоритма обуславливает и отсутствие стабильности качества результатов HITS. В том случае, когда в BaseSet попадает много страниц на другиетемы, и сообщество, соответствующее исходной теме, не является доминирующим, это свойство обуславливает присвоение наивысших рангов страницам на другую тему. Такой эффект получил название смещения тематики (topic drift). Обычно такое смещение происходит в направлении более широкойпредметной области (или лучше представленной в Веб). Например, запрос«WWW conferences» имеет тенденцию смещаться к теме «WWW».

Page 20: Алгоритм HITS - Евгений Федулов

Модификации HITS

Евгений Федулов

На сегодняшний день известно довольно много модификаций HITS, которые условно можно разделить на три группы. К первой относятся над-стройки над HITS, которые, например, предлагают изменить построение связей, но не меняют принцип ранжирования. Ко второй группе относятся попытки изменить сам алгоритм – на-пример, используя вероятностный подход . Последнюю группу составляют методы, которые допускают, чтосамое крупное обнаруженное сообщество не является самым ценным, ипытаются автоматически определить наиболее полезное сообщество средивсех обнаруженных. Так, например, Клейнберг пробовал оценивать ценность сообщества как суммарную близость нескольких наиболее важныхдокументов из сообщества к исходному запросу.

Page 21: Алгоритм HITS - Евгений Федулов

Леонид Гроховский

http://topexpert.pro/seo-kurs.html

Page 22: Алгоритм HITS - Евгений Федулов

Леонид Гроховский

Изучайте, внедряйте, зарабатывайте!»

Леонид Гроховский, руководитель учебного центра ТопЭксперт

[email protected]

• skype:grohovskiy

• http://гроховский.рф/

«