12
Особенности регионального ранжирования Яндекса. Белорусская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики Особенности регионального ранжирования Яндекса. Белорусская формула СЕРГЕЙ ЛЮДКЕВИЧ ЖИВАЯ ЛЕГЕНДА SEO. EX-TECHART, EX-BDBD, EX-WEBEFFECTOR. Supermoderator форума searchengines.ru Образование:Тульский государственный университет, кафедра "Прикладная математика", аспирантура, к.т.н. Опыт поискового продвижения: с 2000 года. Постоянный докладчик и участник круглых столов отраслевых конференций по продвижению сайтов в России, Украине и Белоруссии. Сфера профессиональных интересов – исследование алгоритмов ранжирования поисковых машин, разработка методик поискового продвижения сайтов.

Optimisation by людкевич

Embed Size (px)

Citation preview

Page 1: Optimisation by людкевич

• Особенности регионального ранжирования Яндекса. Белорусская формула

• Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики

Особенности регионального ранжирования Яндекса. Белорусская формула

СЕРГЕЙ ЛЮДКЕВИЧЖИВАЯ ЛЕГЕНДА SEO.EX-TECHART, EX-BDBD, EX-WEBEFFECTOR.Supermoderator форума searchengines.ru

Образование:Тульский государственный университет,кафедра "Прикладная математика", аспирантура, к.т.н.Опыт поискового продвижения: с 2000 года.Постоянный докладчик и участник круглых столов отраслевых конференций по продвижению сайтов в России, Украине и Белоруссии.Сфера профессиональных интересов – исследование алгоритмов ранжированияпоисковых машин, разработка методик поискового продвижения сайтов.

Page 2: Optimisation by людкевич

ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ

Обучающие данныеНабор запросов q(i) Набор документов dj(i) для каждого запроса q(i)

Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу

Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)

Page 3: Optimisation by людкевич

ФАКТОРЫ РАНЖИРОВАНИЯ

Набор факторов ранжированияF = (f1(q,d) , …, fN(q,d))

Конкурс «Интернет-математика – 2009»: N=245

«Яндекс на РОМИП’2009»: N=163 (коллекция BY.WEB);

N=69 (коллекция KM.RU, без ссылочных факторов)Алгоритм «Снежинск»:

N – несколько тысяч

Page 4: Optimisation by людкевич

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Запросныедлина запроса в словах;язык запроса.

Текстовыеналичие точного вхождения запроса в тексте документа; наличие точного вхождения запроса в заголовке документа; tf*idf;различные модификации формулы Okapi_BM25.

Page 5: Optimisation by людкевич

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Ссылочные• PageRank;• логарифм количества ссылок на документ; • процент ссылок на документ, содержащих точное

вхождение запроса.

Географические• регион сайта;• язык документа.

Page 6: Optimisation by людкевич

ФУНКЦИЯ РЕЛЕВАНТНОСТИ

Числовое соответствие документа запросуFr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …, fN(q,d))

Методы построения функции релевантности:

«Яндекс на РОМИП’2009»: генетический алгоритм«Снежинск»: жадный (greedy) алгоритм

Page 7: Optimisation by людкевич

ПОСТРОЕНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ

1. Выбор метрики(«Яндекс на РОМИП’2009»: pfound – максимизация вероятности найти релевантный результат;«Снежинск»: минимизация невязок между измеренными и вычисленными значениями релевантности)3. Подбор вида функции («Яндекс на РОМИП’2009»: полином)4. Подбор коэффициентов

Page 8: Optimisation by людкевич

СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА

Обучающие данные

(q(i), dj(i)),i=1,…,n;j=1,…m(n).

Определение значений факторов

Асессоры

Обучающий алгоритм

Ранжирующий алгоритм

F(q(i), dj(i))

Rel(q(i), dj(i))

Fr(F(q,d))

Тестовые данные(q, dj),j=1,…,m

Fr(F(q, dj))Определение

значений факторов

F(q, dj)

Page 9: Optimisation by людкевич

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ

Отдельные функции релевантности:

• 19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и др.

• Общероссийская• Украина• Белоруссия• Казахстан

Отличаться могут не только коэффициенты, но и сам вид функций!

Page 10: Optimisation by людкевич

ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ

Постановка экспериментаВыбор исследуемого фактораГенерация тестовых коллекцийВарьирование исследуемого фактораФиксация остальных факторовИндексация тестовых коллекцийАнализ результатовПринятие решения о характере влияния исследуемого фактора на функцию релевантности

Page 11: Optimisation by людкевич

БЕЛОРУССКАЯ ФОРМУЛА

Фактор: Количество употреблений термина запроса (tf)Характер зависимости: Прямая

Фактор: Длина документа в словахХарактер зависимости: Однословные запросы – прямая Двухсловные запросы – обратнаяТрехсловные запросы – не установлена

Page 12: Optimisation by людкевич

БЕЛОРУССКАЯ ФОРМУЛА

Фактор: Количество употреблений самого частотного терминаХарактер зависимости: Однословные запросы – обратнаяДвухсловные и трехсловные запросы – прямая