17
докладчик: Дмитрий Майданюк, Project Manager, Databrain [email protected]

AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization системы для увеличения конверсии"

Embed Size (px)

Citation preview

докладчик: Дмитрий Майданюк,

Project Manager, Databrain [email protected]

Уникальные конверсии, случайный эксперимент схема Бернулли

Представление конверсии. Оценка вероятности по частоте Сравнение конверсий, парные и множественные. Критерии

эффективности управления конверсией Синтез модели оптимального управления в одном

измерении Критерии информативности модели управления конверсией Разложение конверсии во множестве измерений. Идеи по синтезу модели управления конверсией во

множестве измерений Выводы

Схема Бернулли описывает случайный эксперимент, где "испытание" имеет результат "успех" либо "неуспех”

Испытание в простейшем случае –показ контента, результат – отклик пользователя (клик)

푃 푋 = 1 = 푝

푃 푋 = 0 = 푞 = 1 − 푝Испытания считаем независимыми и случайными

Моменты распределения:퐸 푋 = 푝D 푋 = 푝푞

Мы получаем биномиальное распределение, если последовательность испытаний величины X имеет одинаковую вероятность успеха p:

푋 + 푋 + 푋 +. . +푋 ~Bin 푛, 푝

Биномиальное распределение показывает вероятность выпадения k успехов в n испытаниях:

푃 푌 = 푘 = 푛푘 푝 푞

Моменты распределения:

퐸 푋 = 푛푝

D 푋 = 푛푝푞Bin 푛, 푝 → 푁표푟푚 푛푝, 푛푝푞

При увеличении количестваиспытаний n:

Запишем наблюдаемую конверсию как: 퐶푅 =∑ 푋푛

Математическое ожидание и дисперсия конверсии:

푀 퐶푅 = 푝 휎 퐶푅 =푝푞푛

Если n –достаточно велико (nq,np>4), то можем считать:

푪푹~푵풐풓풎 풑, 흈

0 0.2 0.4 0.6 0.80

1

2

3

4

5

푁표푟푚 푝 , 휎 푁표푟푚 푝 , 휎

Можно легко сравнивать конверсии между собой, зная параметры нормального распределения их вероятностей:

0 0.2 0.4 0.6 0.80

1

2

3

4

5

0 0.2 0.4 0.6 0.80

1

2

3

4

5

푃 퐶푅 > 퐶푅 = Φ푝 − 푝

휎 + 휎

퐶푅

퐶푅

퐶푅 − 퐶푅

Метрика:퐶ℎ푎푛푐푒푇표퐵푒푎푡(퐶푅 )

0 0.2 0.4 0.6 0.80

1

2

3

4

5

Ситуация заметно усложняется, если вариантов (конверсий) >2

푃 퐶푅 > 퐶푅 ⋁퐶푅 =?

퐶푅

퐶푅

푃 퐶푅 > 퐶푅 ⋁퐶푅 =?

푃 퐶푅 > 퐶푅 ⋁퐶푅 =?

퐶푅

Один из вариантов решения -использование метода Монте-КарлоМетрика:퐶ℎ푎푛푐푒푇표퐵푒푎푡퐴푙푙(퐶푅 )

• Для оптимизации контента необходимо обеспечить его вариабельность

Variant 1 Variant 2 Variant 1 Variant 3

Задачу можно сформулировать следующим образом:

푴풂풙 푬 푪푹ퟏ풏ퟏ + 푪푹ퟐ풏ퟐ +⋯+ 푪푹풌풏풌

푛 +푛 +⋯+ 푛 = 푛

-число показов i-го варианта;퐶푅 푛 -число конверсий после показа i-го варианта;퐸 … -математическое ожидание общего числа конверсий

после показа всех вариантов;можно записать в след. виде:

푴풂풙 푬 푪푹ퟏ풘ퟏ + 푪푹ퟐ풘ퟐ +⋯+ 푪푹풌풘풌

푤 =푛푛

-доля показов i-го варианта

푤 ∈ 0; 1

-вектор управляющих параметров 푪푹풊 -случайная величина

Стратегия итеративного управления: Значение веса на текущем шаге 푤 зависит от

значения на предыдущем:

Значение веса на текущем шаге зависит от скорости изменения веса:

Значение веса варианта на текущем шаге зависит от «шанса выиграть у всех»:

Окончательно:

푤 = 푘 푤

푤 = 푘 푤̇ =푘 Δ푤

푤 = 푘 퐶ℎ푎푛푐푒푇표퐵푒푎푡퐴푙푙 퐶푅

풘풊풍 =

풌ퟏ풘풊풍 ퟏ + 풌ퟐ휟풘풊 + 풌ퟑ푪풉풂풏풄풆푻풐푩풆풂풕푨풍풍 푪푹풊

ퟏ + 풌풏풐풓풎

А B

C Распределение метрики Chance to beat all

A – низкая информативность, сложно сказать о лучшем варианте B – средняя информативность, есть вариант заметно лучше чем остальные

С– высокая информативность, явно выделяется лучший вариант

퐸푛푡푟표푝푦 = 0.7 퐸푛푡푟표푝푦 = 0.62

퐸푛푡푟표푝푦 = 0.33

Управляющие параметрыв A/B и MVT тестировании

Весь трафик

Измерение А Метка 1

Измерение ВМетка 1

Измерение BМетка 2

Измерение А Метка 2

Измерение С. Метка 1

Измерение С.Метка N

Измерение АМетка N

… …

Представление множества атрибутированных наблюдений в виде многомерного куба

Представление множества наблюдений в виде дерева

Весь трафик

Локация 1

Устройство 1

Устройство 2

Локация 2Возраст. Группа 1

Возраст.Группа 2

Локация N

1. Представить наблюдения в виде дерева

2. Разбить дерево по атрибутам в соотв. с информативностью моделей, которые можно построить в узлах дерева

3. Непрерывно обучать модели в узлах

4. Profit…Атрибут «Локация»

Атрибут «Устройство»

Атрибут «Возраст»

Необходимо вероятностное представление о конверсии, для более полного понимания ее природы и снижения степени неопределенности;

Для повышения конверсии продукта необходимо обеспечить вариабельность показываемого контента;

Повышение конверсии – непрерывный (итеративный) процесс, успех которого зависит также и от эвристических факторов;

Для более «качественной» оптимизации необходимо атрибутирование трафика и расщепление конверсии на сегменты