AB-тестирование: на что следует обратить внимание /...

Preview:

Citation preview

АБТ: на что следует обратить внимание?Маликов Артур, руководитель группы, Яндексv7

•Как оценить влияние запуска?

•Как избежать типичных ошибок?

Продажи Amazon Kindle

10/23/2008

10/24/20

08

10/25/2008

10/26/20

08

10/27/2008

10/28/2008

10/29/2008

10/30/2008

10/31/2008

Kindle Is Oprah’s «New Favorite Thing in the World»

10/23/2008

10/24/20

08

10/25/2008

10/26/20

08

10/27/2008

10/28/2008

10/29/2008

10/30/2008

10/31/2008

Проведение AB-экспериментов в вебе

•Контроль и эксперимент идут одновременно •Пользователь не знает, что находится в эксперименте

•Нет непосредственного контакта

Сравнить две версии между собой

Реализация

•Разбиение на группы• Составление и выкладка конфигурации экспериментов

• Логирование факта попадания в эксперимент

•Обработка логов, расчет метрик и значимости изменений

• Анализ результатов и принятие решения.

Разбиение на группы•Случайное разбиение•Варианты разбиения:

• По пользователям (куки)• По запросам

•Минимальный размер выборки (слот)• Репрезентативность

•Как часто перемешивать группы?• Каждые N часов• По окончании эксперимента

Метрики

•Типы метрик•Примеры метрик

• Число запросов• Время до первого клика• Доля запросов без кликов• Число сессий на пользователя

•Границы применимости

Матчасть•A vs B (“контроль” и “эксперимент”)

•M(X) – случайная величина•diff = M(A)-M(B)•diff значима? •diff = эффект воздействия изменения + случайность

•Для измерения эффекта используем статистические тесты

Анализ результатов

Метрики

•Валидация метрик•Регламент приемки

АБТ: Важные моменты

До запуска эксперимента

•Длительность задается заранее

•Выписать ожидания и критерий приемки

Контрольная группа

•Каждому эксперименту свой контроль?

• Для серии экспериментов – нет• Для разных экспериментов – да

•Контроль и эксперимент равных объемов?

Некоторые особенности интерфейсных экспериментов

•Пользователь должен привыкнуть•Расчет результатов по определенным пользователям

•Изменение поведенческих привычек

Поисковая выдача

Сколько экспериментов может видеть пользователь?

Control1 EXP1

EXP2

Control2

salt2

Попадает в EXP2 и Control 1Попадает в EXP2 и EXP 1

salt1

Полезности

•Мониторинги и возможность быстро отключить эксперименты

•Считать метрики только на том потоке, где были изменения

•Обратные эксперименты•Длительность эксперимента (7N)

АБТ: Инструменты и анализ результатов

Анализ результатов

•Сопоставлять план и факт•Неожиданное улучшение – всё равно надо разобраться

•Смотрим на метрики для контроля•Помним о границах применимости метрик

Инструменты

•Хранить историю проведения экспериментов и логи(!)

•Анализ поведения отдельного пользователя•Возможность считать метрики по срезам и быстро переключаться между ними

• Яркий пример среза – браузеры

СтатистикаЯндекс.Поиск @ 2014:• ~1000 экспериментов за год• ~100 экспериментов одновременно• 21% выкатывается в продакшн

Бинг @ 2013:• 1 пользователь видит до 15 экспериментов одновременно

Информация из открытых источников:http://www.exp-platform.com

Email: phtc@ya.ru

Вопросы?

АБТ: Бонус про матчасть

Матчасть•Формулировка основной гипотезы H0 (метрики равны) конкурирующей гипотезы H1 (метрик не равны)

•Задание уровеня значимости α (ошибка первого рода)

•Расчет p-value•Принятие решения

• P-value > α – тогда принимаем основную гипотезу

• P-value <= α – конкурирующую гипотезу

Recommended