71

Presentation probki-extended-math-ed2

Embed Size (px)

Citation preview

Page 1: Presentation probki-extended-math-ed2
Page 2: Presentation probki-extended-math-ed2

Михаил Хохловразработчик

Яндекс.Пробки:анализ GPS-треков и прогнозирование дорожной ситуации

Page 3: Presentation probki-extended-math-ed2

3

20 км/ч

Способ получения данных

35 км/ч 15 км/ч

Page 4: Presentation probki-extended-math-ed2

4

Треки

Page 5: Presentation probki-extended-math-ed2

5

Привязка треков

Page 6: Presentation probki-extended-math-ed2

6

Привязка треков

Локальные методыБыстрые и эффективные при высоком качестве данных

Глобальные методыДают высокую точность при оффлайновой обработке

Статистические методыПозволяют адекватно учитывать погрешность измерений

Page 7: Presentation probki-extended-math-ed2

7

ST-matching

Вероятностьнаблюдения

Вероятностьперехода

Вероятностьскорости

пространственный (spatial) анализ

временной (temporal) анализ

Page 8: Presentation probki-extended-math-ed2

8

Привязка треков

Page 9: Presentation probki-extended-math-ed2

9

Привязка треков

Page 10: Presentation probki-extended-math-ed2

10

Привязка треков

Page 11: Presentation probki-extended-math-ed2

11

Привязка треков

Page 12: Presentation probki-extended-math-ed2

Усреднение

Page 13: Presentation probki-extended-math-ed2

13

Данные о проездах

0 1 2 3 4 5 60

20

40

60

80

100

120

часы

км/ч

Page 14: Presentation probki-extended-math-ed2

14

Данные о проездах

0 1 2 3 4 5 60

20

40

60

80

100

120

часы

км/ч

Page 15: Presentation probki-extended-math-ed2

15

Итерационное сглаживание

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

Page 16: Presentation probki-extended-math-ed2

16

Чего бы хотелось

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

Page 17: Presentation probki-extended-math-ed2

17

Медианный фильтр

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

Page 18: Presentation probki-extended-math-ed2

18

Медианный фильтр

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

30

40

50

60

часы

км/ч

Page 19: Presentation probki-extended-math-ed2

19

Итерационное сглаживание

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

30

40

50

60

часы

км/ч

Page 20: Presentation probki-extended-math-ed2

Прогнозирование

Page 21: Presentation probki-extended-math-ed2

21

Дорожная ситуация (МКАД)

Page 22: Presentation probki-extended-math-ed2

22

Транспортные модели

Содержательное моделирование

потоковые модели имитационные модели

Машинное обучениепараметрические модели (линейные, нелинейные)

непараметрические модели

нейронные сети...

Page 23: Presentation probki-extended-math-ed2

23

Поток от плотности

Page 24: Presentation probki-extended-math-ed2

24

Поток от плотности

Page 25: Presentation probki-extended-math-ed2

Машинное обучение:

линейные модели

Page 26: Presentation probki-extended-math-ed2

26

Задача регрессии

Регрессия:

Может бытьпараметрической: выбирается из параметризованного семейства

непераметрической: не делается предположений о виде

Авторегрессия:

Y=F (X )

Y t=F (Y t−L ,…,Y t−1)

FF

Page 27: Presentation probki-extended-math-ed2

27

Линейная регрессия

Предполагаем линейный вид: Y t=β0+∑j

X j β j

Page 28: Presentation probki-extended-math-ed2

28

Метод наименьших квадратов

если невырождена

β=argmin∑i

( yi−xiβ)2

β=(XT X )−1 XT y

XT X

Page 29: Presentation probki-extended-math-ed2

29

Переобучение и недообучение

Page 30: Presentation probki-extended-math-ed2

30

Недообучение

Page 31: Presentation probki-extended-math-ed2

31

Переобучение

Page 32: Presentation probki-extended-math-ed2

32

К чему стремимся

Page 33: Presentation probki-extended-math-ed2

Машинное обучение:

k ближайших соседей

Page 34: Presentation probki-extended-math-ed2

3434

Метод k ближайших соседей

34

Картина пробок #1

Page 35: Presentation probki-extended-math-ed2

3535

Метод k ближайших соседей

35

Картина пробок #2

Page 36: Presentation probki-extended-math-ed2

3636

Метод k ближайших соседей

36

Картина пробок #3

Page 37: Presentation probki-extended-math-ed2

3737

Прогноз:

Метод k ближайших соседей

37

Page 38: Presentation probki-extended-math-ed2

38

Сложность модели и ошибка

ошибка на тестовой выборке

ошибка на обучающей выборке

оптимальное число соседей

Page 39: Presentation probki-extended-math-ed2

39

Пусть

а — подобранная регрессия.

Ожидаемая ошибка в точке равна

Декомпозиция ошибки

Y=f (X )+ε , E (ε)=0,Var (ε)=σ2

f (X )

x0

E [(Y− f (x0))2]=

= σ2 +E [( f (x0)−E f (x0))2]+E [(E f (x0)− f (x0))

2]=

=irreducibleerror

+ bias2 + variance

Page 40: Presentation probki-extended-math-ed2

40

Для KNN регрессии

обычно растет с увеличением k

падает с увеличением k

Баланс смещения и дисперсии

bias= [ f (x0)−1k ∑

i=1

k

f (x(i)) ]2

variance=σ2

k

Page 41: Presentation probki-extended-math-ed2

41

Скользящий контроль (cross-validation)

обучение

тест

Page 42: Presentation probki-extended-math-ed2

Критерии минимизации ошибок

Page 43: Presentation probki-extended-math-ed2

43

Робастность (robustness)

outlier

Page 44: Presentation probki-extended-math-ed2

44

Робастность (robustness)

least squares

Page 45: Presentation probki-extended-math-ed2

45

Робастность (robustness)

Least absolute errors

least squares

Page 46: Presentation probki-extended-math-ed2

46

Некоторые варианты критериев

Наименьшие квадраты (Least Squares)вычислительно быстр, но подвержен влиянию выбросов

Наименьшие модули (Least Absolute Errors)робастный, но недифференцируем в нуле, поэтому сложно оптимизировать

Функция Хьюбера (Huber's Loss Function)робастная и гладкая

Page 47: Presentation probki-extended-math-ed2

47

Функция Хьюбера

Lδ(x)=x2

2, если∣x∣≤δ

Lδ(x)=δ(∣x∣−δ2

) , иначе

Page 48: Presentation probki-extended-math-ed2

Выбор предикторов

Page 49: Presentation probki-extended-math-ed2

49

Выбор предикторов

Проблема при увеличении размерности:переобучение => падает точность

много коэффициентов => сложно интерпретировать

Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат.

Page 50: Presentation probki-extended-math-ed2

50

Выбор предикторов: эвристики

• Геометрические соседи могут включать в себя много лишних ребер (например, в центре Москвы).

• Топологические соседи могут упустить что-то важное (например, проспект и дублер).

Page 51: Presentation probki-extended-math-ed2

51

Автоматический выбор предикторов

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

Page 52: Presentation probki-extended-math-ed2

52

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score

Автоматический выбор предикторов

Page 53: Presentation probki-extended-math-ed2

53

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score

Var (β)=(XT X )−1σ2

Z j=β j

σ √v j

, где v j это j -й диагональныйэлемент (XT X )−1

Автоматический выбор предикторов

Page 54: Presentation probki-extended-math-ed2

54

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score

Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком

Автоматический выбор предикторов

Page 55: Presentation probki-extended-math-ed2

55

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score

Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком

LARS

Автоматический выбор предикторов

Page 56: Presentation probki-extended-math-ed2

5656

LARS

56

Процедура регуляризации LARS.

Page 57: Presentation probki-extended-math-ed2

Негауссовы распределения

Page 58: Presentation probki-extended-math-ed2

58

Преобразование переменных

км/ч

сек/км

Page 59: Presentation probki-extended-math-ed2

595959

время скорость

Случай 1 10 сек 36 км/ч

Случай 2 100 сек 3.6 км/ч

Среднее 55 сек ~ 20 км/ч

Случай 1 p=1/2100 метров

36 км/ч

Случай 2 p=1/2100 метров

3,6 км/ч

Page 60: Presentation probki-extended-math-ed2

606060

100 м / 55 сек ≈ 7 км/ч

Случай 1 p=1/2100 метров

36 км/ч

Случай 2 p=1/2100 метров

3,6 км/ч

время скорость

Случай 1 10 сек 36 км/ч

Случай 2 100 сек 3.6 км/ч

Среднее 55 сек ~ 20 км/ч

Page 61: Presentation probki-extended-math-ed2

Оценка качества

Page 62: Presentation probki-extended-math-ed2

626262

Оценка качества

Задача сравнить:

Разные математические модели.

Дороги с разным количеством данных.

Дороги с разной степенью загруженности.

Page 63: Presentation probki-extended-math-ed2

636363

Оценка качества

Page 64: Presentation probki-extended-math-ed2

646464

Оценка качества

Page 65: Presentation probki-extended-math-ed2

656565

Оценка качества

Page 66: Presentation probki-extended-math-ed2

666666

Оценка качества

прогноз константоймодельнедельный профиль

Page 67: Presentation probki-extended-math-ed2

Реализация

Page 68: Presentation probki-extended-math-ed2

68

Граф дорог

Граф дорог —100GbИстория наблюдений — десятки Tb

Page 69: Presentation probki-extended-math-ed2

69

Метод k ближайших соседей

Метод авторегрессии

Page 70: Presentation probki-extended-math-ed2

70

Литература

1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.

2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.

3. http://www.machinelearning.ru

4. Yandex Technologies. http://company.yandex.com/technologies/

Page 71: Presentation probki-extended-math-ed2

Михаил Хохлов

разработчик

[email protected]

Спасибо

к. ф.-м. н.