57
Курс «Компьютерная Курс «Компьютерная поддержка поддержка прогнозирования» прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: [email protected] В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.

Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

Embed Size (px)

DESCRIPTION

Курс "Компьютерная поддержка прогнозирования" Лекция 2. Корреляционный анализ и простая линейная регрессия

Citation preview

Page 1: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

Курс «Компьютерная Курс «Компьютерная поддержка поддержка

прогнозирования»прогнозирования»

Заходякин Глеб Викторович,

кафедра Информационных систем и технологий в логистикеe-mail: [email protected]

В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.

Page 2: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

2

Построение и анализ моделей Построение и анализ моделей линейной регрессиилинейной регрессии

1. Оценка степени линейной связи между переменными

2. Средства построения регрессионных моделей в SPSS

3. Статистическая модель линейной регрессии, условия ее применения

4. Оценка качества регрессионной модели

Page 3: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

3

Диаграммы рассеянияДиаграммы рассеянияo Диаграммы рассеяния (Scatter Plot) позволяют визуально

оценить наличие связи между двумя переменнымиo Связь между переменными предполагает, что увеличение

одной из них приводит к увеличению/уменьшению второй

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

Совершенная

Несовершенная (стохастическая)

ОтрицательнаяПоложительная

Page 4: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

4

Диаграммы рассеянияДиаграммы рассеяния

o Связь между переменными может быть нелинейнойo Связь может отсутствовать

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

Нелинейная связь Отсутствие связи X-Y

Page 5: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

5

Теснота связи и коэффициент Теснота связи и коэффициент корреляции корреляции rr

o Теснота связи – близость ее к «совершенной» (точки, лежащие на прямой Y= f (X))

o Теснота линейной связи характеризуется коэффициентом корреляции Пирсона:

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

r1 0.788 r2 0.974

2 2

cov( , )

x y

X X Y YX Yr

X X Y Y

Page 6: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

6

Свойства Свойства rro Пределы изменения: -1 ≤ r ≤ 1

o Характеризует наличие корреляции, а не причинной зависимостиo Характеризует линейную зависимость, для сильной нелинейной

зависимости r может быть небольшим

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

r1 0.788 r2 0.8 r3 0.027

Page 7: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

7

ПримерыПримеры

o Сильная положительная корреляция

r = 0.8

Page 8: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

8

ПримерыПримеры

o Слабая корреляция

r = 0.27

Page 9: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

9

ПримерыПримеры

o Отрицательная корреляция

r = -0.553

Page 10: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

10

Исследование корреляций в Исследование корреляций в SPSSSPSSo Для исследования корреляций между переменными в SPSS используются

два метода:– Построение корреляционной матрицы (Analyze>Correlate>Bivariate)– Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter)

Sales of Men's

Clothing

Sales of Women's Clothing

Sales of Jewelry

Number of Catalogs Mailed

Number of Pages in Catalog

Sales of Men's Clothing Pearson Correlation 1 ,802** ,701** ,803** ,259**

Sig. (2-tailed)   .000 .000 .000 .004

N 120 120 120 120 120

Sales of Women's Clothing

Pearson Correlation ,802** 1 ,705** ,681** ,301**

Sig. (2-tailed) .000   .000 .000 .001

N 120 120 120 120 120

Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110

Sig. (2-tailed) .000 .000   .000 .231

N 120 120 120 120 120

Number of Catalogs Mailed

Pearson Correlation ,803** ,681** ,453** 1 .140

Sig. (2-tailed) .000 .000 .000   .127

N 120 120 120 120 120

Number of Pages in Catalog

Pearson Correlation ,259** ,301** .110 .140 1

Sig. (2-tailed) .004 .001 .231 .127  

N 120 120 120 120 120

Page 11: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

11

Прямая регрессииПрямая регрессииo Для определения наилучшего приближения зависимости

используется метод наименьших квадратов

o Коэффициенты r и b1

взаимосвязаны:

r = - 0.863

0 1Y b b X 2 2

0 1ˆSSE Y Y Y b b X

2

1 2

Y Yb r

X X

Y = 32.1 – 9.68X

Page 12: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

12

Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессииo Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Yo Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X,

по уравнению прямой:

o Фактическое значение будет отличаться от ожидаемого на величину ошибки , которая отражает вклад ненаблюдаемых факторов

o Распределение ошибки – нормальное, с мат. ожиданием Y и постоянным СКО для любого значения X

o Уравнение регрессионной прямой совокупности:

0 1Y X

0 1Y X

Допущения модели:• ошибки независимы• ошибки случайны• m=0 • = const

Page 13: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

13

Стандартная ошибка оценкиСтандартная ошибка оценкиo Построенное по выборке уравнение прямой регрессии можно

рассматривать как оценку регрессионной прямой совокупности, а остатки модели – как оценки погрешности :

– Совокупность

– Выборка

o Стандартная ошибка оценки показывает среднее отклонение точек данных от прямой регрессии:

o Для больших выборок (N>30) можно ожидать 67% остатков в пределах +/- syx и 95% остатков в пределах +/- 2syx

0 1Y X

0 1Y b b X e ˆe Y Y - остаток модели

2ˆ2y x

Y Ys

n

YY - ошибка

Page 14: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

14

Выборочные распределенияВыборочные распределенияo Выборочное распределение – множество всех возможных значений выборочной

статистики, полученной для выборки данного объема (N) из генеральной совокупности. Например, можно говорить о распределении выборочного среднего.

o Свойства выборочного распределения описываются центральной предельной теоремой. При N -> +inf справедливо:

– распределение выборочного среднего – нормальное– выборочное среднее -> генеральное:– СКО выборочного среднего:

– Эти свойства проявляются независимо от распределения генеральной совокупности, из которой получена выборка

/X N - стандартная ошибка выборочного среднего

/X N Xm

XE X

Page 15: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

15

Доверительные интервалы Доверительные интервалы для выборочного среднего (для выборочного среднего ( известна)известна)

o При известном (генеральном СКО) можно построить доверительный интервал для выборочного среднего, пользуясь свойствами выборочного распределения

o Ширина интервала выбирается из условия:

o Соответствующие площади можно вычислить при помощи таблиц или функций, в т.ч. Excel

/X N Xm

1P X X P ZN

Page 16: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

16

Определение вероятности попадания случайной Определение вероятности попадания случайной величины в интервалвеличины в интервал

o Вероятность попадания в заданный интервал для непрерывной случайной величины может быть определена при помощи плотности или функции распределения

b

a

P a X b f x dx F b F a

4 2 0 2 40

0.1

0.2

0.3

fd x 2 2( )

f x( )

0

x

4 2 0 2 40

0.5

1

F x( )

0

x

2

2

xf x( )

d 0.954

F 2( ) F 2( ) 0.954

1 1 2 1

2 2 1 / 2

F b F a F b F b F b

F b F b

Для нормального распределения справедливо:

1F x F x

Page 17: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

17

Интервальная оценка среднего при неизвестном Интервальная оценка среднего при неизвестном o Если неизвестно , то в качестве его оценки принимается s

o В случае небольшой (N<30) выборки из нормальной совокупности используется распределение Стьюдента (t-распределение):

o При N > 30 можно использовать нормальное выборочное распределение:

,df

st

N

sZ

N

10 5 0 5 10

0.1

0.2

0.3

0.4

dnorm X 0 1( )

dt X 1( )

dt X 5( )

dt X 30( )

X

N=1 N=5

N=30Нормальная

кривая

Сходимость t-распределения к нормальному при N->inf

Квантили t- и Z-распределения для = 5% (двухсторонний интервал)

Число степеней свободы (t-распределения)

Z или t

Page 18: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

18

Источники неопределенности при прогнозировании Источники неопределенности при прогнозировании по уравнению регрессиипо уравнению регрессии

o Прогноз, полученный по уравнению регрессии, подвержен двум видам неопределенности:

– В статистической модели содержится слагаемое ошибки

– Уравнение регрессии построено по случайной выборке, поэтому расположение регрессионной прямой также случайно и не совпадает с регрессионной прямой генеральной совокупности

0 1Y X

Page 19: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

19

Интервальный прогнозИнтервальный прогноз

o Стандартная ошибка прогноза позволяет оценить меру вариативности предсказанного значения Y, учитывающую оба вида неопределенности

o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно увеличивается при увеличении отклонения от среднего

o Для построения интервального прогноза используется t-распределение Стьюдента с df = N – 2 степенями свободы

o При N >= 30 можно использовать стандартное нормальное распределение

2 2

2 22 2

1 11f y x y x y x

X X X Xs s s s

n nX X X X

вклад ошибки вклад отклонения от прямой генеральной совокупности

1 /2 fZ s

1 /2, 2N ft s

1 5%/2 1.96 2Z

Page 20: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

20

Разложение дисперсииРазложение дисперсииo Из статистической модели регрессии следует:

o Это равенство можно преобразовать:

o И далее:

0 1ˆ ˆ( )Y b b X e Y Y Y

Наблюдаемое значение Y

Объясненное линейной

зависимостью

Остаток

ˆ ˆ( )

ˆ ˆ

Y Y Y Y Y Y

Y Y Y Y Y Y

ˆY YY Y

Y Y

2

2 2ˆ ˆ

Y Y

Y Y Y Y

Page 21: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

21

Формула разложения дисперсииФормула разложения дисперсии

o В статистических пакетах приняты обозначения:

SS = Sum of Squares, T - Total, R – Regression, E – Error (полная, объясненная, остаточная суммы квадратов соответственно)

o С учетом этих обозначений формула разложения дисперсии:

o Равенство справедливо и для числа степеней свободы:

2 22 ˆ ˆY Y Y Y Y Y

2SST Y Y 2ˆSSE Y Y 2ˆSSR Y Y

SST SSR SSE

1 1 2

df SST df SSR df SSE

n n

Page 22: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

22

Таблица дисперсионного анализаТаблица дисперсионного анализаo При выполнении процедуры линейной регрессии можно вывести таблицу

дисперсионного анализа (Analysis of Variance, ANOVA)

o В таблице дисперсионного анализа содержатся суммы квадратов, степени свободы и средние квадраты (Mean Squares), получаемые делением сумм на число степеней свободы

o При этом средний квадрат ошибки связан со стандартной ошибкой оценки:

2 2ˆ

2 y x

Y YMSE s

n

Page 23: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

23

Коэффициент детерминацииКоэффициент детерминацииo Коэффициент детерминации обозначает долю объясненной дисперсии в общей

дисперсии:

o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой:

o Для простой линейной регрессии коэффициент детерминации связан с коэффициентом корреляции:

o Тем не менее, R2 и r необходимо рассматривать отдельно, т.к. они несут разную информацию: r – о направлении и тесноте связи X-Y, а R2 – о том, насколько хорошо модель объясняет изменчивость Y

o Коэффициент детерминации применяется и для многофакторной регрессии, для которой r не определен

2

22

Y YSSRR

SST Y Y

2

22

ˆ1 1

Y YSSER

SST Y Y

2 2R r

2 1S

STR

SE

S

Page 24: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

24

Диапазон значений Диапазон значений RR22

o Если модель полностью объясняет Y, то SSE = 0 => R2 = 1

o Если связи между переменными нет, то SSE = SST => R2 = 0

o Возможна ситуация, когда SSE > SST, поэтому нижней границы у области значений R2 не существует

Нет корреляции Совершенная связь X-Y

Page 25: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

25

Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии

o Коэффициенты уравнения регрессионной прямой:

оцениваются по ограниченной выборке, поэтому они являются случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто случайными причинами

o Значимость коэффициентов регрессии проверяется через проверку гипотезы о равенстве коэффициента 0:

0 1Y X

0 1: 0H

Page 26: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

26

Проверка статистических гипотезПроверка статистических гипотезo Проверка утверждения о выборке или генеральной совокупности

(статистической гипотезы) включает этапы:

1. Формулируется проверяемая гипотеза H0 и альтернативная гипотеза H1, которая принимается если отвергается H0

2. Выполняется случайная выборка из генеральной совокупности, для выборки вычисляются требуемая выборочная статистика

3. Рассматривается распределение выборочной статистики в предположении что H0 верна

4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения

5. Если эта вероятность высока, то H0 принимается, в противном случае – отвергается и принимается H1 При этом предполагается заданная малая вероятность ошибки, называемая уровнем значимости

Page 27: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

27

Ошибки при проверке гипотезОшибки при проверке гипотез

Выбор аналитика

Действительное состояние

H0 принимается H0 отвергается

H0 справедлива Ошибка I рода, вероятность (уровень значимости)

H0 несправедлива

Ошибка II рода, вероятность (мощность критерия)

Page 28: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

28

Пример проверки гипотезы Пример проверки гипотезы (2-сторонний критерий)(2-сторонний критерий)

o Задача: Проверить, верно ли, что средний вес деталей, производимых на оборудовании по-прежнему равен 50 г. СКО веса деталей известно и равно 5 г

o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г

o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г

o Схема проверки:– строим выборочное распределение в предположении истинности H0

– определяем критические значения X из условия P(| - Xcp| > dx) = a

– если | – Xcp | > dx, то H0 отвергается на уровне значимости , иначе - нет оснований ее отвергнуть

– В данном случае:Xcp- = 1.3 г > dx,H0 – отвергаем,принимаем H1

50 N 100 5

Xcp

N0.5 5% dx qnorm 1

2

0 Xcp

dx 0.98

48 49 50 51 520

0.2

0.4

0.6

dcrit x Xcp dnorm x Xcp

dx dx

x

dx 49.02 dx 50.98

2

2.5%2

2.5%dxdx

Page 29: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

29

p-p-значениязначенияo p-значение – это вероятность того, что выборочная статистика, полученная из

распределения, окажется не меньше найденной по выборкеo В предыдущем примере – вероятность того, что отклонение от среднего dx

превысит найденное по выборке значение | 51.3 – 50 | = 1.3

o Малое значение p свидетельствует о низком правдоподобии H0, в примере p = 0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0.

o Равносильное утверждение: p – минимальный уровень значимости, с которым может быть отвергнута гипотеза H0.

o p-значения очень удобны, поскольку не требуют использования таблиц критических значений для проверочных статистик

0 1 2 30

0.2

0.4

0.6

0.8

p dx Xcp

dx

2 1 0 1 2

0.2

0.4

0.6

dcrit x 0 Xcp dnorm x 0 Xcp

dx dx

x

p dx ( ) 2 1 pnorm dx 0 ( )( )

p 1.3 Xcp 0.0093

P 1 F dx( )( ) 2

Page 30: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

30

Пример проверки гипотезы Пример проверки гипотезы (1-сторонний критерий)(1-сторонний критерий)

o Задача: Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по-прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке

o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500

o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35.

o Предполагая распределение совокупности нормальным, для описания выборочного распределения используется t-распределение. Статистика критерия:

o Критическое значение t-критерия определяется для = 5% и df = N-1 = 14,tкрит= -1.761

o p-значение – вероятностьполучить из t-распределенияотклонение от 0 больше полученной по выборке t-статистикиp = 0.008, H0 - отвергаем

475 5002.766

/ / 35 / 15

X Xt

N S N

4 2 0 2 4

0.2

0.4

tcrit t N 1 dt t N 1 dnorm t 0 1

t tcrit

t

t 2.766 tcrit 1.761

p t N( ) pt t N( )

p t N 1( ) 0.008

t-статистика – нормализованное

отклонение от среднего

Page 31: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

31

Проверка гипотез о значимости Проверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии

o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю углового коэффициента регрессионной прямой совокупности:

o Гипотезы:

o Выборочная статистика:

o В примере:

o Критическое значение для = 1%, df = 10-2 = 8: t0.005=3.355

o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим

o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0 отвергается на уровне значимости 0.1%

0 1Y X

0 1: 0H 1 1: 0H 1

b

bts

2

y xb

ss

X X

1 0.9694.842

0.2b

bts

Page 32: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

32

Проверка значимости регрессии Проверка значимости регрессии при помощи таблицы при помощи таблицы ANOVAANOVA

o Гипотезы:

o Выборочная статистика:

o При справедливости H0 имеет F-распределение с числом степеней свободы:

o при 1=0 MSR и MSE оценивают дисперсию ошибки , если 1<>0, то MSR>MSE

o При уровне значимости a гипотеза отклоняется при F > Fи dfMSR, dfMSE

0 1: 0H 1 1: 0H

1 0MSR

FMSE

,df MSR df MSE

F.95=5.3F.99=11.3

Page 33: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

33

Допущения модели линейной регрессииДопущения модели линейной регрессии

o Статистическая модель линейной регрессии основана на следующих допущениях:

– Для заданного X генеральная совокупность значений Y нормально распределена относительно регрессионной прямой совокупности, параметры распределения (Y,)

– СКО генеральной совокупности относительно регрессионной прямой совокупности всюду постоянно (=const), нарушение этого предположения - гетероскедастичность

– Слагаемые ошибок независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция)

– В генеральной совокупности существует линейная зависимость между X и Y

Page 34: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

34

Схема анализа остатков моделиСхема анализа остатков моделиo Для проверки справедливости допущений статистической модели

регрессии выполняется анализ остатков:1. Проверить нормальность (гистограмма, график P-P или Q-Q)

2. Проверить независимость остатков от X (график остатки – X)

3. Проверить независимость остатков от прогнозируемой величины

– Для данных временного ряда требуются дополнительные проверки:– независимость остатков от времени (график остатки – t)– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на

серийную корреляцию)

Y

Дисперсия остатков увеличивается с ростом Y

Page 35: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

35

Построение модели простой линейной Построение модели простой линейной регрессии в регрессии в SPSSSPSS

o Подготовка набора данных, проверка типов и шкал измерения переменных

• Для построения модели данные должны иметь количественный тип (Numeric) и интервальную шкалу (Scale).• Двоичные (1-0) переменные в номинальной шкале также могут использоваться как факторы в регрессионной модели (фиктивные переменные)

Page 36: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

36

Отбор наблюденийОтбор наблюденийo Если переменная содержит данные для нескольких объектов, то данные

можно:

– отобрать (Data>Select Cases>[задать условие отбора]

– расщепить (Data>Split File)>[выбрать переменную или набор переменных, для каждого значения которой будет создана отдельная группа]

Page 37: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

37

Исследование корреляцийИсследование корреляцийo Корреляционная матрица (Analysis>Correlate>Bivariate)

o Данные в таблице– Pearson Correlation – коэффициент корреляции Пирсона r– Sig – p-значение для проверки гипотезы о r = 0– N – число наблюдений, по которым производился расчет– * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%

Page 38: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

38

Исследование корреляцийИсследование корреляцийo Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter)

o Диаграмма рассеяния (Graphs> … > Simple Scatter)

Page 39: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

39

Построение уравнения регрессииПостроение уравнения регрессииo Analyze>Regression>Linear

– Отобрать зависимую (Dependent) и независимые (Independents) переменные– Method – метод включения независимых переменных (Enter = принудительное

включение)– Case Labels – метки

наблюдений: если есть идентификаторы объектов, можно пометить ими наблюдения (в таблицах и на графиках)

Page 40: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

40

Настройка вывода статистикНастройка вывода статистикo [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет

таблиц со статистическими характеристиками модели

o Regression Coefficients– [x] Estimates – выводить оценки коэффициентов уравнения– [x] Confidence intervals / Level – выводить доверительные интервалы для

коэффициентов, доверительная вероятность

o Residuals– [x] Casewise diagnostics –

обнаружение выбросов (за пределами n стандартных отклонений)

Page 41: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

41

Анализ моделиАнализ моделиo Model Summary - Сводка о статистических характеристиках модели

o ANOVA – Таблица дисперсионного анализа

• R – коэфициент корреляции• R Square – коэффициент детерминации R2

Std. Error of the Estimate – стандартная ошибка оценки, syx

• Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная (Residual) и общая (Total) суммы квадратов (разложение дисперсии)• df - Число степеней свободы• Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx

2

• F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df• Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой коэффициент равен нулю => нет связи между переменными). Регрессия в примере значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи

Page 42: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

42

Коэффициенты уравнения регрессииКоэффициенты уравнения регрессииo Coefficients – коэффициенты модели и их статистические характеристики

o Model – константа + список переменных, включенных в модель, коэффициенты в строках таблицы соответствуют этим переменным

o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они включаются в уравнение)

– B – значение коэффициента

– Std. error – стандартная ошибка

o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами (Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных

o t – статистика для проверки значимости коэффициента, t = b/sb

o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном примере b0 незначим, коэффициент b1 значим на уровне 0.06%

o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если интервал включает 0, то коэффициент незначим, в данном случае b0 незначим

Page 43: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

43

Уточнение моделиУточнение моделиo Если константа b0 незначима, можно построить модель без ее учета

– [Options…] в диалоге Linear Regression– [ ] Include constant in equation

o Результаты оценки модели без учета b0

Page 44: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

44

Сохранение результатовСохранение результатовo [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и остатки в

переменныеo Prediction Values - оценки

– Unstandardized – непреобразованные (полученные из уравнения для независимых переменных, для каждого наблюдения)

– Standardized – нормализованные– Adjusted – прогноз для данного наблюдения

по модели, не учитывающей это наблюдение– S.E. of mean predictions – стандартная

ошибка прогноза для данного значения зависимой переменной

o Residuals – Остатки– Unstandardized - непреобразованные

– Standardized – нормализованные с учетом syx

– Studentized – нормализованные с учетом sf

– Deleted – полученные по модели, не учитывающей данное наблюдение

– Studentized deleted – то же, + нормализация o Prediction Intervals – доверительные интервалы

– Mean – полученный на основе стандартной sf

– Confidence Interval – уровень значимости

Page 45: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

45

Вывод графиков для остатков моделиВывод графиков для остатков моделиo [Plots…] Вывести в отчет графики для анализа остатков модели

o Standartized Residual Plot– [x] Histogram – гистограмма остатков– [x] Normal Probability Plot – график P-P для проверки нормальности остатков

o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков– ось X: ZPRED – нормализованное значение оценки– ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный

остаток

Page 46: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

46

Диаграммы рассеяния для моделиДиаграммы рассеяния для моделиo Качество модели можно визуально оценить по диаграмме рассеяния

Модель с константой >

< Модель без константы

Page 47: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

47

Анализ остатковАнализ остатковo Проверка нормальности с помощью гистограммы

Модель без константы Модель с константойМодель без константы

Page 48: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

48

Анализ остатковАнализ остатковo Проверка нормальности с помощью P-P графика

Модель без константы Модель с константойМодель без константы Модель с константой

Page 49: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

49

Анализ остатковАнализ остатковo Проверка равенства дисперсий (отсутствия

гетероскедастичности) с помощью графика Остаток-Оценка

Модель без константы Модель с константой

Page 50: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

50

Анализ остатковАнализ остатковo Проверка равенства дисперсий (отсутствия

гетероскедастичности) с помощью графика Остаток-Независимая переменная

Page 51: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

51

Анализ остатковАнализ остатковo Проверка независимости остатков с помощью графика

Остаток-Номер наблюдения

Page 52: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

52

Преобразование переменныхПреобразование переменныхo Для исключения нелинейной зависимости между переменными можно

строить уравнение регрессии для преобразованных переменных:

– ln Y = b0+b1 X

– X -> 1/X , log(X), sqrt(X), X2

Page 53: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

53

Анализ остатковАнализ остатков

до преобразования

после преобразования

Page 54: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

54

Пример преобразования переменныхПример преобразования переменныхИсходные данные

Page 55: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

55

Пример преобразования переменныхПример преобразования переменныхX -> sqrt(X)

Page 56: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

56

Пример преобразования переменныхПример преобразования переменныхX -> lg(X)

Page 57: Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

57

Пример преобразования переменныхПример преобразования переменныхX -> 1/X

y = 4.3 – 12.7 / X