25
Применение классических методов математической статистики с примерами на задачах web- аналитики Евгений Завьялов 28 февраля 2014 г.

Классические методы математической статистики в задачах web-аналитики

  • Upload
    -

  • View
    1.014

  • Download
    4

Embed Size (px)

DESCRIPTION

Доклад читался мной на Moscow Data Science Meetup

Citation preview

Page 1: Классические методы математической статистики в задачах web-аналитики

Применение классических методов математической статистики с примерами

на задачах web-аналитики

Евгений Завьялов

28 февраля 2014 г.

Page 2: Классические методы математической статистики в задачах web-аналитики

Многие задачи data sciense и web-аналитики можно решать используя методы математической статистики:

Прогнозирование

Эксперименты(A/B тесты, etc)

Выяснение факторов и их вклада в наблюдаемый эффект

Page 3: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Page 4: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Временной ряд:

, где величина

- значение некой статистики в

момент времени

Известен набор:

Требуется найти:

Page 5: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Временной ряд может быть: Стационарным Нестационарным

Может иметь:СезонностьТрендСлучайную составляющую

Page 6: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Page 7: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Модель ARIMA(p, d, k): Интегрированная модель авторегрессии — скользящего среднего

- кол-во единичных корней

- параметры авторегрессионной части модели

- параметры скользящего среднего

- белый шум

- конечная разность порядка d

Page 8: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Автокорреляция:

, где

Частичная автокорреляция:

, где

-- линейная регрессия на

Page 9: Классические методы математической статистики в задачах web-аналитики

ПрогнозированиеКоррелограмма

В R выводится так: acf(data)

Page 10: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

В R выводится так: pacf(data)

Коррелограмма

Page 11: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

– Для определения d (порядка разности) используем: Kwiatkowski–Phillips–Schmidt–Shin (KPSS)

тест

– Нужно проверить остатки на:Нормальность — критерий Шапиро-УилкаНесмещенность — критерий СтьюдентаНеавтокоррелированность — коррелограммаСтационарность — KPSS - тест

– Не забыть учесть сезонную составляющую: модель SARIMA

Page 12: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

Как оценить правильность выбора параметров модели?

– По информационным критериям:

, где и

и

– По SSE

Page 13: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

В R, испульзуя пакет {forecast}: plot( forecast( auto.arima(d), h=60) )

Page 14: Классические методы математической статистики в задачах web-аналитики

Прогнозирование

plot(forecast(model), h=60))

model = arima(d, order=c(14,1,14), seasonal=list(order=c(1,0,0), period=7);

Page 15: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Как проводить эксперимент, если нужно измерить не CTR?

Page 16: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Как проводить эксперимент, если нужно измерить не CTR?

Будем использовать:

Критерий Стьюдента (t-test)

Критерий Уилкоксона

Статический Бутстреп (bootstrap)

Page 17: Классические методы математической статистики в задачах web-аналитики

ЭкспериментыЧто такое ошибка первого и второго рода?

Пусть - гипотеза о том, что значение некой статистики в выборке полностью соответствует распределению

Тогда, - гипотеза обратная ей.

Page 18: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Page 19: Классические методы математической статистики в задачах web-аналитики

ЭкспериментыОдновыборочный t-тест

- Нуливая гипотеза

- t-статистика

Page 20: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Когда можно использовать?

1) Выборка должна иметь нормальное распределение

Для того, чтобы в этом убедиться нужно выполнить проверку одним из тестов на нормальность распределения:

1. Критерий Шапиро-Уилка2. Критерий Колмогорова-Смирнова3. Хи-квадрат 4. etc

Когда лучше всего использовать?

Когда у нас относительно небольшая выборка. В случае «больших данных»(от 100,000 значений) начинает работать не так, как ожидается.Причина - большая мощность за счет предположения о распределении

Page 21: Классические методы математической статистики в задачах web-аналитики

ЭкспериментыЕще несколько модификаций t-критерия:

Сравнение двух независимых выборок:

- Нуливая гипотеза

- t-статистика

Ограничения:

1. Сравниваемые выборки должны происходить из нормально распределенных совокупностей

2. Дисперсии сравниваемых генеральных совокупностей должны быть равны (проверяется F-тестом)

3. Выборки должны быть независимыми

Page 22: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Пример:

t.test(data, mu = mean_old_value)

t.test(f_sample, s_sample, paired = TRUE)

- Классический одновыборочный t-test

- Парный двухвыборочный t-test

power.t.test(delta = 3.0, sd = 1.8, sig.level = 0.05,power = 0.8)

А вот так можно определить необходимое число наблюдений для требуемоймощности:

Page 23: Классические методы математической статистики в задачах web-аналитики

Эксперименты

Основное отличие статического бутстрепа от «классических методов» состоит в том,что не требуется делать предположения о распределении случайной величины.

По факту, такое предположение заменяется вычислительной мощностью.

Статический Бутстреп (bootstrap)

Основной принцип:

1. Берем нашу выборку

2. Генерируем из нее еще кучу выборок поменьше (например, jackknife)

3. На основе данных выборок считаем интересующую нас статистику

4. Находим ее доверительные интервалы

5. …

6. PROFIT!!!

Page 24: Классические методы математической статистики в задачах web-аналитики

ЭкспериментыОсновные плюсы:

1. Не нужно делать предположений о распределении

2. При больших объемах выборки не становится «сверхчувствительным»

3. «Универсальный», т.е. подходит для вычисления распределения

практически любой статистики

Основные минусы:

1. При малых объемах выборок сильно хуже критериев, основанных на предположениях о распределении случайной величины

Page 25: Классические методы математической статистики в задачах web-аналитики

Спасибо за внимание!

Евгений Завьялов[email protected]