Upload
alexandra-kaminskaya
View
113
Download
0
Embed Size (px)
Citation preview
Михаил Хохловразработчик
Яндекс.Пробки:анализ GPS-треков и прогнозирование дорожной ситуации
3
20 км/ч
Способ получения данных
35 км/ч 15 км/ч
4
Треки
5
Привязка треков
6
Привязка треков
Локальные методыБыстрые и эффективные при высоком качестве данных
Глобальные методыДают высокую точность при оффлайновой обработке
Статистические методыПозволяют адекватно учитывать погрешность измерений
7
ST-matching
Вероятностьнаблюдения
Вероятностьперехода
Вероятностьскорости
пространственный (spatial) анализ
временной (temporal) анализ
8
Привязка треков
9
Привязка треков
10
Привязка треков
11
Привязка треков
Усреднение
13
Данные о проездах
0 1 2 3 4 5 60
20
40
60
80
100
120
часы
км/ч
14
Данные о проездах
0 1 2 3 4 5 60
20
40
60
80
100
120
часы
км/ч
15
Итерационное сглаживание
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30
10
20
30
40
50
60
70
80
90
100
часы
км/ч
16
Чего бы хотелось
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30
10
20
30
40
50
60
70
80
90
100
часы
км/ч
17
Медианный фильтр
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.30
10
20
30
40
50
60
70
80
90
100
часы
км/ч
18
Медианный фильтр
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
10
20
30
40
50
60
часы
км/ч
19
Итерационное сглаживание
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
10
20
30
40
50
60
часы
км/ч
Прогнозирование
21
Дорожная ситуация (МКАД)
22
Транспортные модели
Содержательное моделирование
потоковые модели имитационные модели
Машинное обучениепараметрические модели (линейные, нелинейные)
непараметрические модели
нейронные сети...
23
Поток от плотности
24
Поток от плотности
Машинное обучение:
линейные модели
26
Задача регрессии
Регрессия:
Может бытьпараметрической: выбирается из параметризованного семейства
непераметрической: не делается предположений о виде
Авторегрессия:
Y=F (X )
Y t=F (Y t−L ,…,Y t−1)
FF
27
Линейная регрессия
Предполагаем линейный вид: Y t=β0+∑j
X j β j
28
Метод наименьших квадратов
если невырождена
β=argmin∑i
( yi−xiβ)2
β=(XT X )−1 XT y
XT X
29
Переобучение и недообучение
30
Недообучение
31
Переобучение
32
К чему стремимся
Машинное обучение:
k ближайших соседей
3434
Метод k ближайших соседей
34
Картина пробок #1
3535
Метод k ближайших соседей
35
Картина пробок #2
3636
Метод k ближайших соседей
36
Картина пробок #3
3737
Прогноз:
Метод k ближайших соседей
37
38
Сложность модели и ошибка
ошибка на тестовой выборке
ошибка на обучающей выборке
оптимальное число соседей
39
Пусть
а — подобранная регрессия.
Ожидаемая ошибка в точке равна
Декомпозиция ошибки
Y=f (X )+ε , E (ε)=0,Var (ε)=σ2
f (X )
x0
E [(Y− f (x0))2]=
= σ2 +E [( f (x0)−E f (x0))2]+E [(E f (x0)− f (x0))
2]=
=irreducibleerror
+ bias2 + variance
40
Для KNN регрессии
обычно растет с увеличением k
падает с увеличением k
Баланс смещения и дисперсии
bias= [ f (x0)−1k ∑
i=1
k
f (x(i)) ]2
variance=σ2
k
41
Скользящий контроль (cross-validation)
обучение
тест
Критерии минимизации ошибок
43
Робастность (robustness)
outlier
44
Робастность (robustness)
least squares
45
Робастность (robustness)
Least absolute errors
least squares
46
Некоторые варианты критериев
Наименьшие квадраты (Least Squares)вычислительно быстр, но подвержен влиянию выбросов
Наименьшие модули (Least Absolute Errors)робастный, но недифференцируем в нуле, поэтому сложно оптимизировать
Функция Хьюбера (Huber's Loss Function)робастная и гладкая
47
Функция Хьюбера
Lδ(x)=x2
2, если∣x∣≤δ
Lδ(x)=δ(∣x∣−δ2
) , иначе
Выбор предикторов
49
Выбор предикторов
Проблема при увеличении размерности:переобучение => падает точность
много коэффициентов => сложно интерпретировать
Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат.
50
Выбор предикторов: эвристики
• Геометрические соседи могут включать в себя много лишних ребер (например, в центре Москвы).
• Топологические соседи могут упустить что-то важное (например, проспект и дублер).
51
Автоматический выбор предикторов
Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
52
Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score
Автоматический выбор предикторов
53
Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score
Var (β)=(XT X )−1σ2
Z j=β j
σ √v j
, где v j это j -й диагональныйэлемент (XT X )−1
Автоматический выбор предикторов
54
Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком
Автоматический выбор предикторов
55
Forward step-wiseна каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wiseна каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wiseподправляем коэффициент при переменной, которая больше всего коррелирует с остатком
LARS
Автоматический выбор предикторов
5656
LARS
56
Процедура регуляризации LARS.
Негауссовы распределения
58
Преобразование переменных
км/ч
сек/км
595959
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
Случай 1 p=1/2100 метров
36 км/ч
Случай 2 p=1/2100 метров
3,6 км/ч
606060
100 м / 55 сек ≈ 7 км/ч
Случай 1 p=1/2100 метров
36 км/ч
Случай 2 p=1/2100 метров
3,6 км/ч
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
Оценка качества
626262
Оценка качества
Задача сравнить:
Разные математические модели.
Дороги с разным количеством данных.
Дороги с разной степенью загруженности.
636363
Оценка качества
646464
Оценка качества
656565
Оценка качества
666666
Оценка качества
прогноз константоймодельнедельный профиль
Реализация
68
Граф дорог
Граф дорог —100GbИстория наблюдений — десятки Tb
69
Метод k ближайших соседей
Метод авторегрессии
70
Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.
2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/