22
Текстовые факторы ранжирования: от анализа до разработки сайта http://promosite.ru/conference/optimization-2006.php Трофименко Евгений Александрович trofimenko . evgeny @ rbscorp.ru (495) 232-05-91 Корпорация РБС/ BDBD.ru http://www.bdbd.ru начальник отдела продвижения

Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Embed Size (px)

DESCRIPTION

http://promosite.ru/conference/optimization-2006.php Доклад на конференции "Поисковая оптимизация и продвижение сайтов в Интернете 2006" (файл, презентация). Текстовые факторы ранжирования. Особенности поисковых систем в ранжировании документов. Переформулирование поисковых запросов и использование этих данных на практике. Анализ статистики запросов для целей разработки сайта.

Citation preview

Page 1: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Текстовые факторы ранжирования: от анализа до

разработки сайтаhttp://promosite.ru/conference/optimization-2006.php

Трофименко Евгений Александрович[email protected]

(495) 232-05-91Корпорация РБС/ BDBD.ru

http://www.bdbd.ruначальник отдела продвижения

Page 2: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Длина запросов

• Много информации в рунете

• Средняя длина запроса – 2.5—3 слова

• Масса длинных запросов велика

• Контекстные ограничения при поиске

• Чувствительность длинных запросов к текстовой (контентной) оптимизации

• …текстовые факторы рулят! (в своей области…)

Page 3: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Банальщина и не только

Неиндексируемые зоны документа

• <head> (кроме <meta>)• <script>• <frames>• <noindex> (Яндекс и

Рамблер)• Поля форм (кроме

<textarea>)

Ограничение индексации документов:

• robots.txt• 4ХХ и 5ХХ HTTP-

заголовки• 304 Not Modified

Page 4: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Бан сайта по текстовым факторам – обычные критерии

• Невидимый или слабовидимый для посетителя текст на странице

• Клоакинг (cloaking) – выдача разного контента для поисковика и посетителя

• Мгновенные перенаправления посетителя на другую страницу (редирект)

• Наличие на сайте входных страниц (дорвеев), не несущих пользователю искомой информации

• Сгенерированный текст на страницах

Page 5: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Бан сайта – нововведения и частые ошибки модераторов

• Размещение текстов в невидимых слоях документа• Излишнее использование тегов выделения (Hx)• Сайт состоит из «плохого, нетематического,

немодерируемого» каталога ссылок• Подмена страницы поисковика после захода на нее

посетителя с помощью javascript• Контент сайта, состоящий на большую долю из

рекламы (Бегун, фиды PPC) или партнерских программ (Мамба, интернет-магазины)

• «отсутствие добавленной ценности или сервиса»

Page 6: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Факторы влияния на ранжирование

• Нахождение слов запроса в особо важных зонах документа:

title, h1-h4, b, strong, I, em…..

• Естественность текста (… варианты)

• Общая релевантность сайта и его структуры

• … и соответствие контекстным ограничениям

Page 7: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Особенности Яндекса

• Небольшие документы

• Быстроробот для обновления информации

• Большее влияние ссылочных факторов

• …ограничения контекста

Page 8: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Особенности Рамблера

• Большие документы

• Большее влияние числа найденных слов

• Общая релевантность сайта (найденные страницы+внутренние ссылки)

• …ограничения контекста

Page 9: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Ограничения контекста при поиске

Переформулирование поискового запроса:

• Яндекс: «колдунщик»

• Рамблер: «клей»

Реально отрабатывается запрос, отличный от введенного, с добавлением расстояний и весов

Page 10: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Примеры контекстных ограничений (Яндекс)

Был запрос:пластиковые окна в москве

Стало:(пластиковые::21485 & окна::5689 &

в::0 &/(-1 3) москве::895)//6

(веса, расстояния, мягкость, изменения)

Page 11: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Примеры контекстных ограничений (Яндекс)

Поиск в пределах документа &&В пределах нескольких предложений &&/(-3 3)В пределах предложения &В пределах нескольких слов &/(-1 3)

Page 12: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Разделители предложений для Яндекса

Если слова запроса «ищутся» в пределах предложения или ближе:

Разделителями являются:• Теги TABLE, TD, BR, P, H1-H6, DIV…• Точка, знаки (!?...) и двоеточие перед Текстом

Как это выяснить?

Найти модельный документ и использовать «подсветку»

Page 13: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Особенности обработки поискового запроса (Яндекс)

1. Переформулирование запроса 2. Выбор пассажей по огр. контекста3. Выбор «найденных» пассажей по сумме весов слов

(вес^0.38)4. Расчет контрастности слов по позициям в

найденных пассажах с перенормировкой по (размеру документа, частотным словам и др.)

5. Позиции взвешиваются по сходству окружения слова с запросом

6. Веса найденных словопозиций суммируются7. Дополнительный учет форматирования

Page 14: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты, слова или все вместе?

1. Исходно – частоты (tf=n/N)2. Перенормировка по размеру

документа (/N), например3. Суммирование по позициям (*n)=>есть зависимость и от tf и от n

Большие документы – ближе к частотеМаленькие – ближе к числу слов

Page 15: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты в Яндексе-1• Поиск по цитате из романа «Война и Мир» - одно вхождение:

размер документа в выдаче

…есть ли нормировка по размеру документа (в словах)?

Размер документа (КБ)

0

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9 10

Место в выдаче

Page 16: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты в Яндексе-2

• Запрос $anchor(сайт) – поиск похож на чисто текстовый (отличается от поиска по запросу сайт) – большие документы и т.п.

Число слов "сайт*" в найденных документах

0

100

200

300

400

500

600

0 50 100 150 200 250 300

Место в выдаче

Page 17: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты Яндекса-2• Число найденных слов vs. число слов в документе

…есть ли зависимость (т.е., «частота»)?

всего слов в документе

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

0 100 200 300 400 500 600

Число найденных слов

Page 18: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты в Яндексе-2• Частоты vs. позиция в выдаче $anchor(сайт)

% в тексте (доля)

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241 253

Место в выдаче

Page 19: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Частоты в Яндексе-2• Первые 300 результатов из 17.000• Частота vs. число найденных слов

% (доля) слова в тексте

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0 100 200 300 400 500 600

Число найденных слов

Page 20: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Практическое применение

• На этапе создания семант-ядра

• На этапе распределения слов по страницам

• Не попасть впросак с точными формулировками

…учет контекстных ограничений при оптимизации и продвижении сайта

Page 21: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Учет контекстных ограничений при

оптимизации и продвижении сайта

Запрос Переколдованный запрос

ноутбук Fujitsu-Siemens Lifebook P1510

(ноутбук::8544 && Fujitsu::60128 &/(1 1) Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6

ноутбук Fujitsu Siemens Lifebook P1510

(ноутбук::8544 && Fujitsu::60128 & Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6

ноутбук Fujitsu-Siemens (ноутбук::8544 &&/(-3 3) Fujitsu::60128 &/(1 1) Siemens::6150)//6

Page 22: Текстовые факторы ранжирования: от анализа до разработки сайта / 16-17 ноября 2006 / Евгений Трофименко

Вот, собственно, и всё.

Текстовые факторы ранжирования: от анализа до разработки сайта

Трофименко Евгений Александрович[email protected]

(495) 232-05-91Корпорация РБС/ BDBD.ru

http://www.bdbd.ruначальник отдела продвижения