20
Инновации в текстовой оптимизации Рассказывает Алексей Чекушин. Kokoc.com / Just-Magic.org

Текстовый анализ - теория и практика

Embed Size (px)

Citation preview

Page 1: Текстовый анализ - теория и практика

Инновациив текстовой

оптимизации

Рассказывает Алексей Чекушин.Kokoc.com / Just-Magic.org

Page 2: Текстовый анализ - теория и практика

Зоны документа

Title

Plain-текст

Текстовые фрагменты

<a> - внутренние Анкор-лист

Анкор-лист – «резиновый»

Page 3: Текстовый анализ - теория и практика

Как строилась оптимизация до 2014?• Внимание на <title> и plain-текст.

• Делаем минимальный набор вхожденийПараметры вхождений ограничены «тошнотой»

• В анкор-файл загоняем все возможные вхождения

Page 4: Текстовый анализ - теория и практика

Отключение ссылочного - 2014

* По большинству коммерческих гео-зависимых запросов в Москве.

Title

Plain-текст

Текстовые фрагменты

<a> - внутренние Анкор-файл200? - 2014

Page 5: Текстовый анализ - теория и практика

Что поменялось на практике?

• Исчезла «резиновая» зона «анкор-лист».

• Вхождения, которые были анкор-листе, теперь нужно компенсировать остальными зонами.

• Структурирование сайта и текстовый анализ стали критически важными для продвижения.

Page 6: Текстовый анализ - теория и практика

Особенности ранжирования Яндекса

Большое количество различных текстовых факторов.

Применение машинного обучения.

Больше – не значит лучше.Мерять нужно все, а не только «тошноту»

Page 7: Текстовый анализ - теория и практика

Особенности ранжирования Яндекса

Большое количество запросных модификаторов формулы.

Свои правила под каждый запрос/групу запросов.

Необходима предварительная группировка.Анализ выполнять не по запросу, а для всей группы.

Page 8: Текстовый анализ - теория и практика

Выводы

• Подсчет отдельных метрик (tf-idf, bm25, и.т.п.) сам по себе смысла не имеет.

• Подсчет единой «формулы релевантности» также лишен смысла.

• Необходимо анализировать все в совокупности.

Page 9: Текстовый анализ - теория и практика

И что делать?

• Машинное обучение на топах по большой совокупности факторов

или

• Поиск закономерностей в топе на основе вхождений

Page 10: Текстовый анализ - теория и практика

Варианты анализа топа.• Ручной разбор топов «на глазок». Most popular!

• Полноценный разбор топов руками, автоматизация в excel.

• Полностью автоматический разбор специальными сервисами.

Page 11: Текстовый анализ - теория и практика

Основные проблемы анализа.• Определение возможных типов вхождений.Прямые, обратные, частичные, с пропусками, …

• Определение «окна допустимых значений».Мало данных, большой шум.

• Совмещение «окон» по нескольким запросам.

Page 12: Текстовый анализ - теория и практика

Недостатки классического разбора• Смотрят на одну зону документа, а не на весь документ в

совокупности. (Как правило – на plain-текст).

• Часто пропускают не находящийся по ctrl+f текст.

• Учитывают минимум вариций вхождений и словоформ.

• Человек не может держать в уме несколько документов.

Page 13: Текстовый анализ - теория и практика

Руками или автоматом?• Руками разбирать очень долго На одну продвигаемую страницу уходит ~2 часа

• Высока вероятность ошибки при ручном разборе.

• При ручном разборе проще отобрать только подходящие документы.

Page 14: Текстовый анализ - теория и практика

Немного математики

Расчет дисперсии и доверительного интервала на основе предположения о нормальном распределении некорректен и дает кривые результаты.

Лучше всего работает– межквантильное расстояние при переменных (зависящих от результата по запросу) значениях квантилей.

Совмещение окон допустимых значений – задача со многими решениями, необходимо использовать метрику оптимальности результирующего окна (например – минимизация интегральной величины конфликтов).

Page 15: Текстовый анализ - теория и практика

Ограничения метода.• Необходима предварительная кластеризация по топам.И только по правильным алгоритмам.

• Структура сайтаСайт под семантику, а не семантика под сайт.

• Ctrl+c – Ctrl+v не пройдетВсе равно придется думать.

Page 16: Текстовый анализ - теория и практика

А что на практике?Запрос «купить ноутбук»

Page 17: Текстовый анализ - теория и практика

«Диван аккордеон» и «купить диван аккордеон»

Page 18: Текстовый анализ - теория и практика

Остекление коттеджей

Page 19: Текстовый анализ - теория и практика

Попробовать самому!Текстовый анализатор на Just-Magic.org

+ Анализ всех зон документа.

+ Одновременно по нескольким запросам.

+ Полная информация для оптимизации.

Платно, с регистрацией, без sms: Just-Magic.org

Page 20: Текстовый анализ - теория и практика

Финальный слайд с котенком

?Ваши вопросы

Алексей Чекушин. Just-Magic.org