Фишки из патентов Google на GuruConf-2017

Preview:

Citation preview

Фишки из патентов GoogleО которых вы могли не знать

Сергей Кокшаров, 2017

Семантическая близость слов важнее визуальной

ln2.in/pat_216

"Масса" и "орбита" семантически одинаково удалены от "сатурна".

Расстояния между словами пересчитываются, в зависимости от семантической разметки, а не удаленности в файле

Google может сам размечать ваши документы

• Списки могут создаваться таблицами <table>, <tr>

• Могут создаваться блоковыми элементами <div>

• Тегами параграфа <p>

• Просто с помощью разделителей строки <br>

• Page analyzer component анализирует структуру документа, и не только списки

Используйте правильную разметку, не спамьте ключами каждый элемент списка, учитывайте пересчет расстояний.

Богатые семантикой страницы имеют дополнительный бонус

ln2.in/pat_409

Узнать количество мест в ТОПе можно, анализируя и сравнивая

частотные словари

ln2.in/pat_225

Вес ссылок зависит от вероятности перехода по ним

Учитываемые характеристики ссылок

• Размер и цвет текста ссылки

• Позиция в документе (списки, текст, до или после первого экрана 800х600, боковая панель, футер...)

• Позиция в списке (если ссылка в списке)

• Количество слов в анкоре, их коммерческость

• Тип ссылки (текст, картинка), соотношение сторон

• Слова, окружающие ссылку

• Внутренняя или внешняя, тематический кластер

Учитываемые характеристики донора

• Количество ссылок

• Присутствие слов в тексте и заголовках

• Тематический кластер документа

• Степень соответствия тематических кластеров донора и ссылки

Учитываемые поведение пользователей

• Клики по ссылкам, вводимые адреса, заполнения форм

• Язык и интересы пользователя

• Используемые ключевые слова

• Частота клика по ссылке

• Как часто ссылки не кликаются при выборе других

• Как часто ни одна ссылка в документе не кликается

• ...

nofollow не учитывается в этой модели

Для попадания в блок ответов используйте natural language answer

ln2.in/pat_354

Особенности блок-ответов• Показываются только по intent- или factual- queries

• Натуральный язык запроса является intent-query

• Имеется ограниченный набор шаблонов, и блек-листы, созданные модераторами

• Основной ключ должен входить в заголовок

• Для тематической классификации используется анализ слов в релевантных пассажах (LSI-фраз)

• Для ряда тематик необходимы списки

• Ответ выбирается только из natural language

Шаблон "Как делать {что-то}"

Блеклист пока работает не для всех языков :)

Сравните, кто из них дает естественный ответ

Можно использовать в свою пользу

Хотите еще в топ по запросу "жидкие обои"? :)

или "венецианская штукатурка"...

Контекст

ИзображенияБлок ответов

Ютуб

ln2.in/pat_722

Рейтинг документа меняется не сразу после внесения изменений

Песочница

Определить старый ранк документа

Определить целевой ранк

Выбрать функцию перехода

Определить ранк документа, исходя из функции перехода

Присвоить ранк

Для чего?• Борьба со спамными техниками

• Дает не тот эффект, который ожидал оптимизатор (вводит в заблуждение)

• Позволяет выявлять документы и сайты, продвигающиеся спамом

Окончательно рейтинг стабализируется через 70 дней после обнаружения изменений

Функция перехода с задержкой по времени

10% изменение рейтинга дает обратный эффект

20 дней отрицательного рейтинга

Особенности• Функция перехода выбирается из множества: с задержкой по времени, отрицательная, случайная.

• Модификация ранка на 10% включит отрицательную функцию перехода.

• Идентификация спама происходит во время действия функции перехода.

• Изменение сигналов выше порогового значения приводят к фильтрации спама (обнулении рейтинга).

• Функция перехода может устанавливаться не только для документа, но и для всего сервера.

Анализируемые спам-техники• Переспам текста ключевыми словами

• Невидимый текст

• Мелкий шрифт

• Редиректы (подмена)

• Переспам мета-тегов

• Манипуляции ссылками

• С 2010 года список пополнился

Как искать патенты• patents.google.com

• www.seobythesea.com

• http://patents.ic.gc.ca/opic-cipo/cpd/eng/search/advanced.html

• другие поисковики патентов

Пример поиска патентов Google через их поисковый сервис

Кокшаров Сергей

https://telegram.me/devakatalk https://fb.com/sevasjack

https://vk.com/devaka