26
Курс «Компьютерная Курс «Компьютерная поддержка поддержка прогнозирования» прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: [email protected]

Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Embed Size (px)

DESCRIPTION

Курс "Компьютерная поддержка прогнозирования" Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Citation preview

Page 1: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Курс «Компьютерная Курс «Компьютерная поддержка поддержка

прогнозирования»прогнозирования»

Заходякин Глеб Викторович,

кафедра Информационных систем и технологий в логистикеe-mail: [email protected]

Page 2: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

2

Инструменты прогнозирования в Инструменты прогнозирования в SPSSSPSS

o Подготовка данных для моделированияo Эксперт построения моделей

– Модели экспоненциального сглаживания– Модели ARIMA и ARIMAX

o Применение моделей к набору данных (скоринг)o Усреднение прогнозовo Меры ошибки прогноза

Page 3: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

3

Подготовка данных для моделированияПодготовка данных для моделирования

o Замена пропущенных значенийo Определение дат и сезонной периодичностиo Группировка в периоды прогнозирования

– периоды одинаковой длительности

– нет пропусков

o Добавление факторов– Создание переменной времени

– Создание фиктивных переменных

Page 4: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

4

Замена пропущенных значенийЗамена пропущенных значенийo Пропущенные значения не мешают построению регрессионных

моделей, но препятствуют использованию процедур прогнозирования по временным рядам (expert modeler)

o Возможные варианты устранения пропущенных значений:

– замена на среднее/медиану ряда

– замена на среднее/медиану соседних наблюдений

– интерполяция по тренду

o Transform > Replace Missing Values

Page 5: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

5

Определение дат и сезонной периодичностиОпределение дат и сезонной периодичности

o Задание переменных даты и периодичности необходимо для правильной работы процедур прогнозирования и расчета сезонных разностей

o Даты можно задать при помощи процедуры Data>Define Dates

o Команда синтаксиса DATE позволяет задавать произвольную периодичность данных и любую структуру:

DATE keyword starting_value periodicity keyword2 starting_value2 periodicity2 BY increment.

Page 6: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

6

Агрегирование данныхАгрегирование данныхo Агрегирование производится с использованием группирующих переменных

o Для каждого значения группирующей переменной рассчитывается одна из статистических функций для каждой переменной в наборе

o Агрегированные данные лучше сохранять в новый набор данных

o Data>Aggregate…

Page 7: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

7

Добавление факторовДобавление факторовo Переменную времени можно вычислить из номера наблюдения или

взять в качестве фактора времени переменную YEAR_

o Фиктивные переменные для моделирования сезонности при большом числе сезонов можно вычислить через синтаксис

Примечание. Скрипт рассчитан на сезонность в 12 периодов. В наборе должны быть заданы даты и присутствовать переменная month_

Page 8: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

8

Ошибка прогнозаОшибка прогнозаo Остаток (ошибка прогноза) – разность

между фактическим значением и прогнозом по модели

Y

X

ˆi i ie Y Y Y f X

Xi

Yi

Период Факт Прогноз Остаток |Остаток|2009-01 60 85 -25 252009-02 85 60 25 252009-03 80 85 -5 52009-04 95 80 15 152009-05 90 95 -5 52009-06 80 90 -10 102009-07 85 80 5 52009-08 90 85 5 52009-09 100 90 10 102009-10 110 100 10 102009-11 130 110 20 202009-12 170 130 40 402010-01 80 170 -90 902010-02 105 80 25 252010-03 120 105 15 152010-04 110 120 -10 102010-05 130 110 20 202010-06 120 130 -10 102010-07 105 120 -15 152010-08 115 105 10 102010-09 130 115 15 15

Сумма: 45 385

ˆi i ie Y Y

Page 9: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

9

Меры ошибки прогнозаМеры ошибки прогноза

o Меры ошибки прогноза – различные статистические функции от остатков, их модулей или относительных остатков:– среднее– максимум– дисперсия– стандартное отклонение

Период Факт Прогноз Остаток |Остаток||Остаток/

Факт|2009-01 60 85 -25 25 41.7%2009-02 85 60 25 25 29.4%2009-03 80 85 -5 5 6.3%2009-04 95 80 15 15 15.8%2009-05 90 95 -5 5 5.6%2009-06 80 90 -10 10 12.5%2009-07 85 80 5 5 5.9%2009-08 90 85 5 5 5.6%2009-09 100 90 10 10 10.0%2009-10 110 100 10 10 9.1%2009-11 130 110 20 20 15.4%2009-12 170 130 40 40 23.5%2010-01 80 170 -90 90 112.5%2010-02 105 80 25 25 23.8%2010-03 120 105 15 15 12.5%2010-04 110 120 -10 10 9.1%2010-05 130 110 20 20 15.4%2010-06 120 130 -10 10 8.3%2010-07 105 120 -15 15 14.3%2010-08 115 105 10 10 8.7%2010-09 130 115 15 15 11.5%

Сумма: 45 385

Средняя абсолютная ошибка: 18.3 MAEСредняя ошибка: 2.1 MEМакс. абсолютная ошибка: 90 MaxAEДисперсия ошибки: 665.5 MSEСтандартная ошибка: 25.8 RMSEСр. абс. ошибка в процентах: 18.9% MAPEМакс. абс. ошибка в процентах: 112.5% MaxAPE

Page 10: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

10

Формулы для расчета мер ошибки прогнозаФормулы для расчета мер ошибки прогноза

o Меры абсолютной ошибки:

o Меры относительной ошибки:

o Дисперсия и стандартное отклонение ошибки

ˆi i ie Y Y

1iMAE e

n 1

iME en

max iMaxAE e

1100%i

i

eMAPE

n Y max 100%i

i

eMaxAPE

Y

21iMSE e

n 21

iRMSE en

Стандартная ошибкаСредний квадрат ошибки

Page 11: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

11

Коэффициент детерминации Коэффициент детерминации RR22

o Коэффициент детерминации R2 характеризует полезность модели для прогнозирования – уменьшение неопределенности прогноза

2 1S

STR

SE

S

2SST Y Y

2ˆSSE Y Y

2

22

ˆ1 1

Y YSSER

SST Y Y

Полная сумма квадратов:

Остаточная (необъясненная) сумма квадратов:

R2 – доля объясненной моделью дисперсии прогнозируемой величины

Page 12: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

12

Исправленный коэффициент детерминацииИсправленный коэффициент детерминации

o Коэффициент детерминации R2, рассчитанный по формуле:

возрастает с увеличением числа факторов в модели, при этом не обязательно модель с большим числом факторов будет лучше работать на новых данных

o Чтобы исключить влияние числа факторов на величину R2, используют исправленный коэффициент детерминации (R-squared adjusted), в котором вводится штраф за увеличение числа переменных:

o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот показатель, поэтому он наиболее полезен на стадии отбора факторов для построения модели

o Если модель строится по генеральной совокупности, то обычный R2 – более предпочтительный показатель

2 1SSE

RSST

2

2

11 1

1

11 1

1

SST

SSE

SSE df SSE nR

SST df SST n k

nR

n k

Page 13: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1313

Методы сглаживания временных рядовМетоды сглаживания временных рядов

o Единственным фактором в модели является время to Будущие значения зависят только от прошлых

значенийo Периоды должны следовать равномерно, без

пропусков: tk+1 - tk = consto Модель часто задается не в явном виде, а в виде

рекуррентной формулыo Цель сглаживания – устранить, по возможности,

случайные колебания

,Y f t

Page 14: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1414

Модель временного рядаМодель временного ряда

d

tтекущий период

доверительный интервал прогноза

тренд

тренд+сезонная волна

наблюденное значение ряда

прогнозируемое значение ряда

Временной ряд (time series) — упорядоченная во времени последовательность наблюдений, производимых строго через определенные интервалы времени, которые называются периодами прогнозирования (периодами временного ряда)

Модель временного ряда включает несколько составляющих:• Тенденция (тренд)• Сезонность• Циклы• Нерегулярные изменения• Случайная составляющая

Page 15: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1515

Аддитивные и мультипликативные Аддитивные и мультипликативные модели временного рядамодели временного ряда

0 10 20 30 40 50

20

40

60

80Аддитивная модель рядаМультипликативная модель рядаТренд

y t T t S t y t T t S t

Page 16: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1616

«Наивный прогноз»«Наивный прогноз»o В качестве прогноза на следующий период

выбирается последнее значение временного ряда:a) Yt = Yt-1

b) Yt = Yt-12

c) Yt = Yt-12* Yt-11 / Yt-13

– …Спрос на будущей неделе будет таким же, как и на прошлой…

– … Спрос в этом октябре будет таким же, как и в прошлом…

– … Взять уровень прошлого года и учесть тенденцию …

Период ФактПрогноз1

Прог-ноз2

Прог-ноз3

2009-01 60

2009-02 85 60

2009-03 80 85

2009-04 95 80

2009-05 90 95

2009-06 80 90

2009-07 85 80

2009-08 90 85

2009-09 100 90

2009-10 110 100

2009-11 130 110

2009-12 170 130

2010-01 80 170 60

2010-02 105 80 85 113

2010-03 120 105 80 99

2010-04 110 120 95 143

2010-05 130 110 90 104

2010-06 120 130 80 116

2010-07 105 120 85 128

2010-08 115 105 90 111

2010-09 130 115 100 128

2010-10 130 110 143

Page 17: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1717

Метод экспоненциального сглаживанияМетод экспоненциального сглаживания

1 1t t ty y y 1 1 1t t ty y y 0;1

Рекуррентные формулы:

(для сглаживания) (для прогнозирования) (параметр)

Метод экспоненциального сглаживания

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25 30

Период

Пр

од

аж

и

Продажи (Напитки)

Экспоненциальное сглаживание

Экспоненциальное сглаживание (прогноз)

Метод экспоненциального сглаживания

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25 30

Период

Пр

од

аж

и

Продажи (Напитки)

Экспоненциальное сглаживание

Экспоненциальное сглаживание (прогноз)

=0.7=0.3

Начальное значение прогноза:

1 1y y

11

1 k

tt

y yk

t k ty y Прогноз:

Page 18: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1818

Весовые коэффициенты значений временного ряда

0.00

0.05

0.10

0.15

0.20

0.25

i

i-1 i-2 i-3 i-4 i-5 i-6 i-7 i-8 i-9 i-10

i-11

i-12

i-13

i-14

i-15

i-16

i-17

i-18

i-19

i-20

i-21

i-22

период (текущий = i)

k

Действие коэффициента затуханияДействие коэффициента затухания

1 1 2

2

1 2

2 3

1 2 3

ˆ ˆ ˆ1 1 1

ˆ1 1

ˆ1 1 1 ...

t t t t t t

t t t

t t t t

y y y y y y

y y y

y y y y

1 , , 1, 2...i t

tk t i i i

Page 19: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

1919

Метод скользящего среднегоМетод скользящего среднегоo Прогнозируемое значение определяется путем

усреднения нескольких отсчетов временного ряда (усреднение по «окну»)

o Применяются две модификации: для простого сглаживания ряда и для построения прогноза

Положение окна относительно текущего Положение окна относительно текущегопериода при сглаживании периода при прогнозировании

yi-k yn-w+1

…yi => y`i=СРЗНАЧ(по окну) yn-1

yn => y`n=СРЗНАЧ(по окну)

yi+k Прогноз: y`n+1=yn

k - количество периодов в прошлом (или в будущем), которые учитываются при усреднении вместе с текущим i-м значениемw - общая ширина окна сглаживания

При использовании "центрированного" скользящего среднего w всегда нечетная, в модификации для прогнозирования можно брать любую w

Получение сглаженного значения по исходному ряду в методе скользящего среднего

При сглаживании: При прогнозировании:k = 1 w = 2k+1 = 3 w = 4

Период Исходный Сглаженный Период Исходный Сглаженный1 y1 #Н/Д 1 y1 #Н/Д2 y2 y`2=(y1+y2+y3)/3 2 y2 #Н/Д3 y3 y`3=(y2+y3+y4)/3 3 y3 #Н/Д… … … 4 y4 y`4=(y1+y2+y3+y4)/4n-2 y[n-2] … 5 y5 y`5=(y2+y3+y4+y5)/4n-1 y[n-1] … … … …

Последнее: n y[n] #Н/Д <окно выходит n-3 y[n-3] …за пределы ряда n-2 y[n-2] …

n-1 y[n-1] …Последнее фактическое значение: n y[n] …

Прогноз: n+1 y[n+1] =y[n]

Page 20: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

20© Заходякин Г.В., 2008 20

Особенности метода скользящего среднегоОсобенности метода скользящего среднегоo Увеличение ширины окна:

– увеличивает степень сглаживания

– уменьшает длину ряда

– увеличивает запаздывание

o Метод плохо работает при наличии тенденции или резких изменений

o Метод чувствителен к случайным выбросам

Метод скользящего среднего

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25 30

Период

Пр

од

аж

и

Продажи (Напитки)

Скользящее среднее (центрированное)

Скользящее среднее (прогноз)

Метод скользящего среднего

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25 30

Период

Пр

од

аж

и

Продажи (Напитки)

Скользящее среднее (центрированное)

Скользящее среднее (прогноз)

w=3 w=7

Page 21: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

21

МедианаМедианаo Медиана – серединное значение вариационного ряда:

– значение, находящееся в середине упорядоченного по возрастанию ряда

– квантиль уровня 0.5 функции распределения

o В отличие от среднего, не подвержена влиянию выбросов – точек, сильно удаленных от центра ряда

Время в интернет, час/неделя

Среднее 32.2

Стандартная ошибка 4.7

Медиана 25

Мода 50

Стандартное отклонение 26.4

Дисперсия выборки 699.4

Эксцесс 0.3

Асимметричность 1.1

Интервал 98

Минимум 2

Максимум 100

Сумма 998

Счет 31

№Время в интернет

Время, упоряд. F

1 85 2 3.2%2 15 5 6.5%3 25 5 9.7%4 50 7 12.9%5 70 8 16.1%6 30 10 19.4%7 8 10 22.6%8 35 10 25.8%9 5 13 29.0%

10 28 14 32.3%11 10 15 35.5%12 10 15 38.7%13 36 20 41.9%14 20 20 45.2%15 20 20 48.4%16 2 25 51.6%17 100 28 54.8%18 45 30 58.1%19 15 30 61.3%20 75 35 64.5%21 14 35 67.7%22 35 36 71.0%23 7 45 74.2%24 30 50 77.4%25 50 50 80.6%26 50 50 83.9%27 13 70 87.1%28 5 75 90.3%29 10 80 93.5%30 80 85 96.8%31 20 100 100%

Histogram of time

26%

23%

13%

10%

13%

3%

6%

3% 3%

10 20 30 40 50 60 70 80 90

time

0

1

2

3

4

5

6

7

8

9

No

of o

bs

26%

23%

13%

10%

13%

3%

6%

3% 3%

time : N = 31; Mean = 32.1935; StdDv = 26.4467; Max = 100; Min = 2

Page 22: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

22© Заходякин Г.В., 2008 22

Метод скользящей медианыМетод скользящей медианыo Вместо среднего по окну этот метод использует

другую статистику – медиануo В Excel можно использовать функцию МЕДИАНА()o Метод менее чувствителен к резким выбросам, чем

среднее

Метод скользящего среднего

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25 30

Период

Пр

од

аж

и

Продажи (Напитки)

Скользящее среднее (центрированное)

Скользящее среднее (прогноз)

Метод скользящей медианы

0

50 000

100 000

150 000

200 000

250 000

300 000

350 000

0 5 10 15 20 25

Период

Пр

од

аж

и

Продажи (Напитки)

Скользящая медиана (центрированная)

Скользящая медиана (прогноз)

w=3 w=3

Page 23: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

2323

Метод ХолтаМетод Холтаo Применяется для временных рядов с тенденциейo Сглаживание применяется дважды: к исходному ряду и к ряду

из приращений, который отслеживает тенденцию

1 1ˆ ˆ1t t t ty y y T 1 1ˆ ˆ 1t t t tT y y T

- сглаженный ряд

- тенденция

ˆ ˆt k t ty y k T - прогноз для k-го периода в будущем

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0 1 2 3 4 5 6 7 8 9 10 11 12 13

Фактический спрос

Метод Холта

Экспоненциальноесглаживание

2 1 3 21 2

y y y yT

Page 24: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

2424

Метод ВинтерсаМетод Винтерсаo Применяется для временных рядов с тенденцией и сезонностьюo Сглаживание применяется трижды: к исходному ряду, ряду из

приращений, который отслеживает тенденцию, сезонным поправкам

1 1ˆ ˆ1tt t t

t s

yy y T

S

1 1ˆ ˆ 1t t t tT y y T

- сглаженный ряд без сезонной компоненты

- тенденция

ˆ ˆt k t t t k sy y k T S - прогноз для k-го периода в будущем

1ˆt

t t st

yS S

y

- сезонный коэффициент

s – период сезонных колебаний

Начальные условия: (a)

(б)

1 1y y 1 0T 1 1sS S

11

s

tt

y ys

1

, 1ˆi

i

yS i s

y 250

270

290

310

330

350

370

0 2 4 6 8 10 12 14 16

Продажи Винтер(с поправкой)

Page 25: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

25

Оптимальный выбор параметров сглаживанияОптимальный выбор параметров сглаживания

o Использование стандартной ошибки (RMSE) в качестве критерия оптимизации параметров приводит к совпадению исходного и сглаженного ряда (RMSE=0)

o В качестве критерия оптимизации можно использовать величину:

– сумма считается по тем периодам, когда возможно посчитать остаток (есть прогноз и есть факт)

o - прогноз на 1 период вперед, вычисленный на шаге t-1

– для простого экспоненциального сглаживания:

– для метода Холта:

– для метода Винтерса:

2

1 1ˆ 1 mint tSSE y y 2

1 1ˆ 1 mint tSSE y y

1ˆ 1ty

1 1ˆ ˆ1t ty y

1 1 1ˆ ˆ1t t ty y T

1 1 1ˆ ˆ1t t t t sy y T S

Page 26: Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

2626

Стандартная декомпозиция рядаСтандартная декомпозиция ряда

Аддитивная модель:

Мультипликативная модель:

y t T t S t

y t T t S t

( ) ( )S t y t T t

( ) / ( )S t y t T t

0S t S t s

y = 1.9231x + 306.67

R2 = 0.1739

270

280

290

300

310

320

330

340

350

360

370

0 5 10 15 20

Продажи Прогноз (аддит. модель) Прогноз (мульт. модель) Линейный (Продажи)