Upload
gleb-zakhodiakin
View
1.938
Download
0
Embed Size (px)
DESCRIPTION
Курс "Компьютерная поддержка прогнозирования" Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS
Citation preview
Курс «Компьютерная Курс «Компьютерная поддержка поддержка
прогнозирования»прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем и технологий в логистикеe-mail: [email protected]
2
Инструменты прогнозирования в Инструменты прогнозирования в SPSSSPSS
o Подготовка данных для моделированияo Эксперт построения моделей
– Модели экспоненциального сглаживания– Модели ARIMA и ARIMAX
o Применение моделей к набору данных (скоринг)o Усреднение прогнозовo Меры ошибки прогноза
3
Подготовка данных для моделированияПодготовка данных для моделирования
o Замена пропущенных значенийo Определение дат и сезонной периодичностиo Группировка в периоды прогнозирования
– периоды одинаковой длительности
– нет пропусков
o Добавление факторов– Создание переменной времени
– Создание фиктивных переменных
4
Замена пропущенных значенийЗамена пропущенных значенийo Пропущенные значения не мешают построению регрессионных
моделей, но препятствуют использованию процедур прогнозирования по временным рядам (expert modeler)
o Возможные варианты устранения пропущенных значений:
– замена на среднее/медиану ряда
– замена на среднее/медиану соседних наблюдений
– интерполяция по тренду
o Transform > Replace Missing Values
5
Определение дат и сезонной периодичностиОпределение дат и сезонной периодичности
o Задание переменных даты и периодичности необходимо для правильной работы процедур прогнозирования и расчета сезонных разностей
o Даты можно задать при помощи процедуры Data>Define Dates
o Команда синтаксиса DATE позволяет задавать произвольную периодичность данных и любую структуру:
DATE keyword starting_value periodicity keyword2 starting_value2 periodicity2 BY increment.
6
Агрегирование данныхАгрегирование данныхo Агрегирование производится с использованием группирующих переменных
o Для каждого значения группирующей переменной рассчитывается одна из статистических функций для каждой переменной в наборе
o Агрегированные данные лучше сохранять в новый набор данных
o Data>Aggregate…
7
Добавление факторовДобавление факторовo Переменную времени можно вычислить из номера наблюдения или
взять в качестве фактора времени переменную YEAR_
o Фиктивные переменные для моделирования сезонности при большом числе сезонов можно вычислить через синтаксис
Примечание. Скрипт рассчитан на сезонность в 12 периодов. В наборе должны быть заданы даты и присутствовать переменная month_
8
Ошибка прогнозаОшибка прогнозаo Остаток (ошибка прогноза) – разность
между фактическим значением и прогнозом по модели
Y
X
ˆi i ie Y Y Y f X
Xi
Yi
Период Факт Прогноз Остаток |Остаток|2009-01 60 85 -25 252009-02 85 60 25 252009-03 80 85 -5 52009-04 95 80 15 152009-05 90 95 -5 52009-06 80 90 -10 102009-07 85 80 5 52009-08 90 85 5 52009-09 100 90 10 102009-10 110 100 10 102009-11 130 110 20 202009-12 170 130 40 402010-01 80 170 -90 902010-02 105 80 25 252010-03 120 105 15 152010-04 110 120 -10 102010-05 130 110 20 202010-06 120 130 -10 102010-07 105 120 -15 152010-08 115 105 10 102010-09 130 115 15 15
Сумма: 45 385
ˆi i ie Y Y
9
Меры ошибки прогнозаМеры ошибки прогноза
o Меры ошибки прогноза – различные статистические функции от остатков, их модулей или относительных остатков:– среднее– максимум– дисперсия– стандартное отклонение
Период Факт Прогноз Остаток |Остаток||Остаток/
Факт|2009-01 60 85 -25 25 41.7%2009-02 85 60 25 25 29.4%2009-03 80 85 -5 5 6.3%2009-04 95 80 15 15 15.8%2009-05 90 95 -5 5 5.6%2009-06 80 90 -10 10 12.5%2009-07 85 80 5 5 5.9%2009-08 90 85 5 5 5.6%2009-09 100 90 10 10 10.0%2009-10 110 100 10 10 9.1%2009-11 130 110 20 20 15.4%2009-12 170 130 40 40 23.5%2010-01 80 170 -90 90 112.5%2010-02 105 80 25 25 23.8%2010-03 120 105 15 15 12.5%2010-04 110 120 -10 10 9.1%2010-05 130 110 20 20 15.4%2010-06 120 130 -10 10 8.3%2010-07 105 120 -15 15 14.3%2010-08 115 105 10 10 8.7%2010-09 130 115 15 15 11.5%
Сумма: 45 385
Средняя абсолютная ошибка: 18.3 MAEСредняя ошибка: 2.1 MEМакс. абсолютная ошибка: 90 MaxAEДисперсия ошибки: 665.5 MSEСтандартная ошибка: 25.8 RMSEСр. абс. ошибка в процентах: 18.9% MAPEМакс. абс. ошибка в процентах: 112.5% MaxAPE
10
Формулы для расчета мер ошибки прогнозаФормулы для расчета мер ошибки прогноза
o Меры абсолютной ошибки:
o Меры относительной ошибки:
o Дисперсия и стандартное отклонение ошибки
ˆi i ie Y Y
1iMAE e
n 1
iME en
max iMaxAE e
1100%i
i
eMAPE
n Y max 100%i
i
eMaxAPE
Y
21iMSE e
n 21
iRMSE en
Стандартная ошибкаСредний квадрат ошибки
11
Коэффициент детерминации Коэффициент детерминации RR22
o Коэффициент детерминации R2 характеризует полезность модели для прогнозирования – уменьшение неопределенности прогноза
2 1S
STR
SE
S
2SST Y Y
2ˆSSE Y Y
2
22
ˆ1 1
Y YSSER
SST Y Y
Полная сумма квадратов:
Остаточная (необъясненная) сумма квадратов:
R2 – доля объясненной моделью дисперсии прогнозируемой величины
12
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2, используют исправленный коэффициент детерминации (R-squared adjusted), в котором вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот показатель, поэтому он наиболее полезен на стадии отбора факторов для построения модели
o Если модель строится по генеральной совокупности, то обычный R2 – более предпочтительный показатель
2 1SSE
RSST
2
2
11 1
1
11 1
1
SST
SSE
SSE df SSE nR
SST df SST n k
nR
n k
1313
Методы сглаживания временных рядовМетоды сглаживания временных рядов
o Единственным фактором в модели является время to Будущие значения зависят только от прошлых
значенийo Периоды должны следовать равномерно, без
пропусков: tk+1 - tk = consto Модель часто задается не в явном виде, а в виде
рекуррентной формулыo Цель сглаживания – устранить, по возможности,
случайные колебания
,Y f t
1414
Модель временного рядаМодель временного ряда
d
tтекущий период
доверительный интервал прогноза
тренд
тренд+сезонная волна
наблюденное значение ряда
прогнозируемое значение ряда
Временной ряд (time series) — упорядоченная во времени последовательность наблюдений, производимых строго через определенные интервалы времени, которые называются периодами прогнозирования (периодами временного ряда)
Модель временного ряда включает несколько составляющих:• Тенденция (тренд)• Сезонность• Циклы• Нерегулярные изменения• Случайная составляющая
1515
Аддитивные и мультипликативные Аддитивные и мультипликативные модели временного рядамодели временного ряда
0 10 20 30 40 50
20
40
60
80Аддитивная модель рядаМультипликативная модель рядаТренд
y t T t S t y t T t S t
1616
«Наивный прогноз»«Наивный прогноз»o В качестве прогноза на следующий период
выбирается последнее значение временного ряда:a) Yt = Yt-1
b) Yt = Yt-12
c) Yt = Yt-12* Yt-11 / Yt-13
– …Спрос на будущей неделе будет таким же, как и на прошлой…
– … Спрос в этом октябре будет таким же, как и в прошлом…
– … Взять уровень прошлого года и учесть тенденцию …
Период ФактПрогноз1
Прог-ноз2
Прог-ноз3
2009-01 60
2009-02 85 60
2009-03 80 85
2009-04 95 80
2009-05 90 95
2009-06 80 90
2009-07 85 80
2009-08 90 85
2009-09 100 90
2009-10 110 100
2009-11 130 110
2009-12 170 130
2010-01 80 170 60
2010-02 105 80 85 113
2010-03 120 105 80 99
2010-04 110 120 95 143
2010-05 130 110 90 104
2010-06 120 130 80 116
2010-07 105 120 85 128
2010-08 115 105 90 111
2010-09 130 115 100 128
2010-10 130 110 143
1717
Метод экспоненциального сглаживанияМетод экспоненциального сглаживания
1 1t t ty y y 1 1 1t t ty y y 0;1
Рекуррентные формулы:
(для сглаживания) (для прогнозирования) (параметр)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Пр
од
аж
и
Продажи (Напитки)
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Пр
од
аж
и
Продажи (Напитки)
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
=0.7=0.3
Начальное значение прогноза:
1 1y y
11
1 k
tt
y yk
t k ty y Прогноз:
1818
Весовые коэффициенты значений временного ряда
0.00
0.05
0.10
0.15
0.20
0.25
i
i-1 i-2 i-3 i-4 i-5 i-6 i-7 i-8 i-9 i-10
i-11
i-12
i-13
i-14
i-15
i-16
i-17
i-18
i-19
i-20
i-21
i-22
период (текущий = i)
k
Действие коэффициента затуханияДействие коэффициента затухания
1 1 2
2
1 2
2 3
1 2 3
ˆ ˆ ˆ1 1 1
ˆ1 1
ˆ1 1 1 ...
t t t t t t
t t t
t t t t
y y y y y y
y y y
y y y y
1 , , 1, 2...i t
tk t i i i
1919
Метод скользящего среднегоМетод скользящего среднегоo Прогнозируемое значение определяется путем
усреднения нескольких отсчетов временного ряда (усреднение по «окну»)
o Применяются две модификации: для простого сглаживания ряда и для построения прогноза
Положение окна относительно текущего Положение окна относительно текущегопериода при сглаживании периода при прогнозировании
yi-k yn-w+1
…yi => y`i=СРЗНАЧ(по окну) yn-1
yn => y`n=СРЗНАЧ(по окну)
yi+k Прогноз: y`n+1=yn
k - количество периодов в прошлом (или в будущем), которые учитываются при усреднении вместе с текущим i-м значениемw - общая ширина окна сглаживания
При использовании "центрированного" скользящего среднего w всегда нечетная, в модификации для прогнозирования можно брать любую w
Получение сглаженного значения по исходному ряду в методе скользящего среднего
При сглаживании: При прогнозировании:k = 1 w = 2k+1 = 3 w = 4
Период Исходный Сглаженный Период Исходный Сглаженный1 y1 #Н/Д 1 y1 #Н/Д2 y2 y`2=(y1+y2+y3)/3 2 y2 #Н/Д3 y3 y`3=(y2+y3+y4)/3 3 y3 #Н/Д… … … 4 y4 y`4=(y1+y2+y3+y4)/4n-2 y[n-2] … 5 y5 y`5=(y2+y3+y4+y5)/4n-1 y[n-1] … … … …
Последнее: n y[n] #Н/Д <окно выходит n-3 y[n-3] …за пределы ряда n-2 y[n-2] …
n-1 y[n-1] …Последнее фактическое значение: n y[n] …
Прогноз: n+1 y[n+1] =y[n]
20© Заходякин Г.В., 2008 20
Особенности метода скользящего среднегоОсобенности метода скользящего среднегоo Увеличение ширины окна:
– увеличивает степень сглаживания
– уменьшает длину ряда
– увеличивает запаздывание
o Метод плохо работает при наличии тенденции или резких изменений
o Метод чувствителен к случайным выбросам
Метод скользящего среднего
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Пр
од
аж
и
Продажи (Напитки)
Скользящее среднее (центрированное)
Скользящее среднее (прогноз)
Метод скользящего среднего
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Пр
од
аж
и
Продажи (Напитки)
Скользящее среднее (центрированное)
Скользящее среднее (прогноз)
w=3 w=7
21
МедианаМедианаo Медиана – серединное значение вариационного ряда:
– значение, находящееся в середине упорядоченного по возрастанию ряда
– квантиль уровня 0.5 функции распределения
o В отличие от среднего, не подвержена влиянию выбросов – точек, сильно удаленных от центра ряда
Время в интернет, час/неделя
Среднее 32.2
Стандартная ошибка 4.7
Медиана 25
Мода 50
Стандартное отклонение 26.4
Дисперсия выборки 699.4
Эксцесс 0.3
Асимметричность 1.1
Интервал 98
Минимум 2
Максимум 100
Сумма 998
Счет 31
№Время в интернет
Время, упоряд. F
1 85 2 3.2%2 15 5 6.5%3 25 5 9.7%4 50 7 12.9%5 70 8 16.1%6 30 10 19.4%7 8 10 22.6%8 35 10 25.8%9 5 13 29.0%
10 28 14 32.3%11 10 15 35.5%12 10 15 38.7%13 36 20 41.9%14 20 20 45.2%15 20 20 48.4%16 2 25 51.6%17 100 28 54.8%18 45 30 58.1%19 15 30 61.3%20 75 35 64.5%21 14 35 67.7%22 35 36 71.0%23 7 45 74.2%24 30 50 77.4%25 50 50 80.6%26 50 50 83.9%27 13 70 87.1%28 5 75 90.3%29 10 80 93.5%30 80 85 96.8%31 20 100 100%
Histogram of time
26%
23%
13%
10%
13%
3%
6%
3% 3%
10 20 30 40 50 60 70 80 90
time
0
1
2
3
4
5
6
7
8
9
No
of o
bs
26%
23%
13%
10%
13%
3%
6%
3% 3%
time : N = 31; Mean = 32.1935; StdDv = 26.4467; Max = 100; Min = 2
22© Заходякин Г.В., 2008 22
Метод скользящей медианыМетод скользящей медианыo Вместо среднего по окну этот метод использует
другую статистику – медиануo В Excel можно использовать функцию МЕДИАНА()o Метод менее чувствителен к резким выбросам, чем
среднее
Метод скользящего среднего
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Пр
од
аж
и
Продажи (Напитки)
Скользящее среднее (центрированное)
Скользящее среднее (прогноз)
Метод скользящей медианы
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25
Период
Пр
од
аж
и
Продажи (Напитки)
Скользящая медиана (центрированная)
Скользящая медиана (прогноз)
w=3 w=3
2323
Метод ХолтаМетод Холтаo Применяется для временных рядов с тенденциейo Сглаживание применяется дважды: к исходному ряду и к ряду
из приращений, который отслеживает тенденцию
1 1ˆ ˆ1t t t ty y y T 1 1ˆ ˆ 1t t t tT y y T
- сглаженный ряд
- тенденция
ˆ ˆt k t ty y k T - прогноз для k-го периода в будущем
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Фактический спрос
Метод Холта
Экспоненциальноесглаживание
2 1 3 21 2
y y y yT
2424
Метод ВинтерсаМетод Винтерсаo Применяется для временных рядов с тенденцией и сезонностьюo Сглаживание применяется трижды: к исходному ряду, ряду из
приращений, который отслеживает тенденцию, сезонным поправкам
1 1ˆ ˆ1tt t t
t s
yy y T
S
1 1ˆ ˆ 1t t t tT y y T
- сглаженный ряд без сезонной компоненты
- тенденция
ˆ ˆt k t t t k sy y k T S - прогноз для k-го периода в будущем
1ˆt
t t st
yS S
y
- сезонный коэффициент
s – период сезонных колебаний
Начальные условия: (a)
(б)
1 1y y 1 0T 1 1sS S
11
1ˆ
s
tt
y ys
1
, 1ˆi
i
yS i s
y 250
270
290
310
330
350
370
0 2 4 6 8 10 12 14 16
Продажи Винтер(с поправкой)
25
Оптимальный выбор параметров сглаживанияОптимальный выбор параметров сглаживания
o Использование стандартной ошибки (RMSE) в качестве критерия оптимизации параметров приводит к совпадению исходного и сглаженного ряда (RMSE=0)
o В качестве критерия оптимизации можно использовать величину:
– сумма считается по тем периодам, когда возможно посчитать остаток (есть прогноз и есть факт)
o - прогноз на 1 период вперед, вычисленный на шаге t-1
– для простого экспоненциального сглаживания:
– для метода Холта:
– для метода Винтерса:
2
1 1ˆ 1 mint tSSE y y 2
1 1ˆ 1 mint tSSE y y
1ˆ 1ty
1 1ˆ ˆ1t ty y
1 1 1ˆ ˆ1t t ty y T
1 1 1ˆ ˆ1t t t t sy y T S
2626
Стандартная декомпозиция рядаСтандартная декомпозиция ряда
Аддитивная модель:
Мультипликативная модель:
y t T t S t
y t T t S t
( ) ( )S t y t T t
( ) / ( )S t y t T t
0S t S t s
y = 1.9231x + 306.67
R2 = 0.1739
270
280
290
300
310
320
330
340
350
360
370
0 5 10 15 20
Продажи Прогноз (аддит. модель) Прогноз (мульт. модель) Линейный (Продажи)