Presentation probki-extended-math-ed2

Михаил Хохловразработчик

Яндекс.Пробки:анализ GPS-треков и прогнозирование дорожной ситуации

3

20 км/ч

Способ получения данных

35 км/ч 15 км/ч

4

Треки

5

Привязка треков

6


Локальные методыБыстрые и эффективные при высоком качестве данных

Глобальные методыДают высокую точность при оффлайновой обработке

Статистические методыПозволяют адекватно учитывать погрешность измерений

7

ST-matching

Вероятностьнаблюдения

Вероятностьперехода

Вероятностьскорости

пространственный (spatial) анализ

временной (temporal) анализ

8


9


10


11


Усреднение

13

Данные о проездах

0 1 2 3 4 5 60

20

40

60

80

100

120

часы

км/ч

14

Данные о проездах

0 1 2 3 4 5 60

20

40

60

80

100

120

часы

км/ч

15

Итерационное сглаживание

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

16

Чего бы хотелось

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

17

Медианный фильтр

1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30

10

20

30

40

50

60

70

80

90

100

часы

км/ч

18

Медианный фильтр

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

30

40

50

60

часы

км/ч

19

Итерационное сглаживание

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

30

40

50

60

часы

км/ч

Прогнозирование

21

Дорожная ситуация (МКАД)

22

Транспортные модели

Содержательное моделирование

потоковые модели имитационные модели

Машинное обучениепараметрические модели (линейные, нелинейные)

непараметрические модели

нейронные сети...

23

Поток от плотности

24

Поток от плотности

Машинное обучение:

линейные модели

26

Задача регрессии

Регрессия:

Может бытьпараметрической: выбирается из параметризованного семейства

непераметрической: не делается предположений о виде

Авторегрессия:

Y=F (X )

Y t=F (Y t−L ,…,Y t−1)

FF

27

Линейная регрессия

Предполагаем линейный вид: Y t=β0+∑j

X j β j

28

Метод наименьших квадратов

если невырождена

β=argmin∑i

( yi−xiβ)2

β=(XT X )−1 XT y

XT X

29

Переобучение и недообучение

30

Недообучение

31

Переобучение

32

К чему стремимся

Машинное обучение:

k ближайших соседей

3434

Метод k ближайших соседей

34

Картина пробок #1

3535


35


3636


36


3737

Прогноз:


37

38

Сложность модели и ошибка

ошибка на тестовой выборке

ошибка на обучающей выборке

оптимальное число соседей

39

Пусть

а — подобранная регрессия.

Ожидаемая ошибка в точке равна

Декомпозиция ошибки

Y=f (X )+ε , E (ε)=0,Var (ε)=σ2

f (X )

x0

E [(Y− f (x0))2]=

= σ2 +E [( f (x0)−E f (x0))2]+E [(E f (x0)− f (x0))

2]=

=irreducibleerror

+ bias2 + variance

40

Для KNN регрессии

обычно растет с увеличением k

падает с увеличением k

Баланс смещения и дисперсии

bias= [ f (x0)−1k ∑

i=1

k

f (x(i)) ]2

variance=σ2

k

41

Скользящий контроль (cross-validation)

обучение

тест

Критерии минимизации ошибок

43

Робастность (robustness)

outlier

44


least squares

45


Least absolute errors

least squares

46

Некоторые варианты критериев

Наименьшие квадраты (Least Squares)вычислительно быстр, но подвержен влиянию выбросов

Наименьшие модули (Least Absolute Errors)робастный, но недифференцируем в нуле, поэтому сложно оптимизировать

Функция Хьюбера (Huber's Loss Function)робастная и гладкая

47

Функция Хьюбера

Lδ(x)=x2

2, если∣x∣≤δ

Lδ(x)=δ(∣x∣−δ2

) , иначе

Выбор предикторов

49

Выбор предикторов

Проблема при увеличении размерности:переобучение => падает точность

много коэффициентов => сложно интерпретировать

Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат.

50

Выбор предикторов: эвристики

• Геометрические соседи могут включать в себя много лишних ребер (например, в центре Москвы).

• Топологические соседи могут упустить что-то важное (например, проспект и дублер).

51

Автоматический выбор предикторов

Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

52


Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score


53



Var (β)=(XT X )−1σ2

Z j=β j

σ √v j

, где v j это j -й диагональныйэлемент (XT X )−1


54



Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком


55



Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком

LARS


5656

LARS

56

Процедура регуляризации LARS.

Негауссовы распределения

58

Преобразование переменных

км/ч

сек/км

595959

время скорость

Случай 1 10 сек 36 км/ч

Случай 2 100 сек 3.6 км/ч

Среднее 55 сек ～ 20 км/ч

Случай 1 p=1/2100 метров

36 км/ч


3,6 км/ч

606060

100 м / 55 сек ≈ 7 км/ч


36 км/ч


3,6 км/ч

время скорость

Случай 1 10 сек 36 км/ч

Случай 2 100 сек 3.6 км/ч

Среднее 55 сек ～ 20 км/ч

Оценка качества

626262


Задача сравнить:

Разные математические модели.

Дороги с разным количеством данных.

Дороги с разной степенью загруженности.

636363


646464


656565


666666


прогноз константоймодельнедельный профиль

Реализация

68

Граф дорог

Граф дорог —100GbИстория наблюдений — десятки Tb

69


Метод авторегрессии

70

Литература

1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.

2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.

3. http://www.machinelearning.ru

4. Yandex Technologies. http://company.yandex.com/technologies/

Михаил Хохлов

разработчик

[email protected]

Спасибо

к. ф.-м. н.

Documents

Presentation probki-extended-math-ed2