38
Лекция 8. Множественная линейная регрессия Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 1 / 38

Математическая статистика, весна 2015: Множественная линейная регрессия

Embed Size (px)

Citation preview

Page 1: Математическая статистика, весна 2015: Множественная линейная регрессия

Лекция 8. Множественная линейная регрессия

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2015

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 1 / 38

Page 2: Математическая статистика, весна 2015: Множественная линейная регрессия

Cодержание

Содержание

1 Спецификация модели

2 Метод наименьших квадратов

3 Свойство оценок метода наименьших квадратов

4 Построение доверительных интервалов и проверка статистическихгипотез

5 Нелинейные регрессионные модели, сводяшиеся к ленийным при помощизамены переменных

6 Информационные критерии Акаике и Шварца

7 Мультиколлинеарность

8 Анализ остатков

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 2 / 38

Page 3: Математическая статистика, весна 2015: Множественная линейная регрессия

Спецификация модели

Спецификация модели

Рассмотрим следующую модель наблюдений, связывающую значениянекоторого наблюдаемого показателя y и объясняющих переменныхx = (x1, . . . , xm)

T :

yi = β0 + β1xi1 + β2xi2 + . . .+ βkxik + εi , i = 1, . . . , n, (1)

где βT = (β0, . . . , βk) - неизвестные параметры, xij - значенияобъясняющих факторов, εi — ненаблюдаемая случайная компонента, j— номер переменной, i — номер наблюдения.Будем предполагать, что имеется n наблюдений показателя yi , точноизвестны значения объясняющих переменных xi = (xi1, . . . , xik) вкаждом из наблюдений, причем в модель наблюдений (1) входитзначение ненаблюдаемой случайной компоненты εi .

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 3 / 38

Page 4: Математическая статистика, весна 2015: Множественная линейная регрессия

Спецификация модели

Основные предположения регрессионного анализа, которые относятсяк случайным компонентам εi , i = 1, . . . , n.Первая группа

Случайные величины εi , i = 1, . . . , n, образуют так называемыйслабый белый шум, т. е. последовательность центрированных(Eεi = 0, i = 1, . . . , n) и некоррелированных (E (εlεu) = 0 приl 6= u) случайных величин с одинаковыми дисперсиями σ2

(Eε2i = σ2i , i = 1, . . . n).Вторая группа

Совместное распределение случайных величин εi , i = 1, . . . , nявляется нормальным распределением с нулевым векторомматематических ожиданий и ковариационной матрицей σ2En, т. е.случайный вектор εT = (ε1, . . . , εn) ∼ N(0, σ2En), где En —единичная матрица порядка n × n.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 4 / 38

Page 5: Математическая статистика, весна 2015: Множественная линейная регрессия

Спецификация модели

Модель наблюдений (1) можно записать в матричном виде:

Y = Xβ + ε, (2)

где Y = (y1, . . . , yn)T , β = (β0, β1, . . . , βk)

T , ε = (ε1, . . . , εn)T ,

X =

1 x11 x12 . . . x1k1 x21 x22 . . . x2k. . . . . . . . . . . .1 xn1 xn2 . . . xnk

— матрица порядка n × (k + 1).

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 5 / 38

Page 6: Математическая статистика, весна 2015: Множественная линейная регрессия

Метод наименьших квадратов

Метод наименьших квадратов

В модели наблюдений (1) неизвестными являются параметры

σ, β0, β1, . . . , βk .

Рассмотрим в качестве процедуры оценивания неизвестныхпараметров метод наименьших квадратов.Введем обозначение: Xr = (x1r , x2r , . . . , xnr )

T , r = 1, . . . , k , — столбецматрицы X , тогда

X = (X0,X1, . . . ,XK ),

где X0 = (1, 1, . . . , 1)T .В качестве минимизируемого критерия рассмотрим

(Y − Xβ)T (Y − Xβ) =n∑

i=1

(yi − β0 − β1xi1 − . . .− βkxik)2. (3)

Оценки, получаемые из условия минимума (3), называют оценкамиметода наименьших квадратов.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 6 / 38

Page 7: Математическая статистика, весна 2015: Множественная линейная регрессия

Метод наименьших квадратов

Оценки метода наименьших квадратов β неизвестных параметров βнаходят из системы уравнений:

(XTX )β = XTY . (4)

Будем предполагать, что столбцы матрицы X линейно независимы, тоотсюда следует, что n > k и определитель |XTX | 6= 0. Следовательно,оценки метода наименьших квадратов β имеют вид:

β = (XTX )−1XTY . (5)

После нахождения коэффициентов β можно рассмотреть функцию:

y(x) = β0 + β1x1 + . . .+ βkxk , (6)

которую и называют линейной регрессией.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 7 / 38

Page 8: Математическая статистика, весна 2015: Множественная линейная регрессия

Метод наименьших квадратов

Разностиyi − y(xi ) = ei , i = 1, . . . , n, (7)

которые не объясняются построенной эмпирической моделью (6),называют остатками.Вектор ε = (e1, . . . , en), составленный из разностей ei , можнорассматривать, как оценки ненаблюдаемых величин εi , i = 1, . . . , n.

ε = P⊥Y = P⊥(Xβ + ε) = P⊥ε, (8)

гдеP⊥ = En − P, P = X (XTX )−1XT .

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 8 / 38

Page 9: Математическая статистика, весна 2015: Множественная линейная регрессия

Свойства оценок метода наименьших квадратов

Свойство оценок метода наименьших квадратов

Оценки метода наименьших квадратов обладают свойствомнесмещенности:

E β = (XTX )−1XTEY = (XTX )−1XTXβ = β.

Пусть выполнены все условия из первой группы предположенийрегрессионного анализа

Теорема 1 (Теорема Гаусса-Маркова)

Оценки метода наименьших квадратов β являются наилучшимилинейными несмещенными оценками, т.е.

Dβi > Dβi , i = 0, 1, 2, . . . , k ,

для любых несмещенных оценок β = CY .

Линейность понимается в том смысле, что оценки имеют вид β = AY ,где A = (XTX )−1XT , т.е. речь идет о линейности по наблюдениям.

Dβ = E{(β − β)(β − β)T} = σ2(XTX )−1.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 9 / 38

Page 10: Математическая статистика, весна 2015: Множественная линейная регрессия

Свойства оценок метода наименьших квадратов

Оценим дисперсию одиночного наблюдения σ2.Статистика

S2 =

n∑i=1

(yi − yi )2

n − k − 1=

1

n − k − 1εT ε

является несмещенной оценкой дисперсии σ2.Найденная несмещенная оценка S2 одиночной дисперсии σ2 позволяетпостроить несмещенные оценки всех ковариаций вектора оценок β.Заменяя σ2 на S2 в Dβ = σ2(XTX )−1, получаем несмещенные оценкивсех ковариаций и дисперсий вектора β

σ2(XTX )−1

Статистика RSS =n∑

i=1(yi − yi )

2 называется остаточной суммой

квадратов.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 10 / 38

Page 11: Математическая статистика, весна 2015: Множественная линейная регрессия

Свойства оценок метода наименьших квадратов

Лемма 1

Пусть выполнены все условия из первой и второй групп предположенийрегрессионного анализа, тогда статистика (n − k − 1)S2/σ2

подчиняется распределению χ2 с n − k − 1 степенями свободы.

Лемма 2

Пусть выполнены предположения первой и второй групп, тогдасправедливы утверждения:

1 Вектор оценок β подчиняется многомерному нормальномураспределению, β ∼ N(β, σ2(XTX )−1).

2 Статистика (n − k − 1)S2/σ2 подчиняется распределению χ2 с(n − k − 1) степенями свободы и взаимно независима с векторомоценок β.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 11 / 38

Page 12: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Построение доверительных интервалов и проверкастатистических гипотез

При выполнении всех условий из первой и второй групппредположений регрессионного анализа справедлива лемма 2, изкоторой сразу следует, что статистика

βj − βjS√[(XTX )−1](j+1)(j+1)

∼ Tn−k−1, j = 0, . . . , k , (9)

где [(XTX )−1](j+1)(j+1) — элемент стоящий на главной диагонали встроке j + 1 и столбце j + 1 матрицы (XTX )−1, распределение Tn−k−1— распределение Стьюдента с n − k − 1 степенями свободы.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 12 / 38

Page 13: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Из формулы (9) следует формула для доверительного интервала суровнем доверия 1− α для любого параметра βj , j = 0, 1, . . . , k .Доверительный интервал имеет вид:

P{βj − t1−α

2,n−k−1S

√[(XTX )−1](j+1)(j+1) < βj <

< βj + t1−α2,n−k−1S

√[(XTX )−1](j+1)(j+1)

}= 1− α,

где t1−α2,n−k−1 — квантиль уровня 1− α

2 распределения СтьюдентаTn−k−1.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 13 / 38

Page 14: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Важное значение имеет проверка гипотез статистической значимостинайденных оценок βj , j = 0, 1, . . . , n (βj 6= 0).

Проверим гипотезу H0: βj = 0 против альтернативы H1: βj 6= 0Выберем уровень значимости α и вычислим статистику

tβj =βj

S√[(XTX )−1](j+1)(j+1)

.

Если |tβj | > t1−α2,n−k−1, то гипотеза H0 отклоняется, и оценка βj

признается статистически значимой на уровне значимости α.Если |tβj | 6 t1−α

2,n−k−1, то гипотеза H0 не отклоняется, и оценка βj

признается статистически незначимой на уровне значимости α.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 14 / 38

Page 15: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Аналогичным образом можно проверить более общую гипотезу видаH0: βj = β

(0)j . Рассуждая таким же образом, получаем правило

проверки гипотезы H0 на уровне значимости α:

Если|βj−β

(0)j |

S√

[(XTX )−1](j+1)(j+1)

> t1−α2,n−k−1, то гипотеза H0: βj = β

(0)j

отклоняется на уровне значимости α.

Если|βj−β

(0)j |

S√

[(XTX )−1](j+1)(j+1)

6 t1−α2,n−k−1, то гипотеза H0: βj = β

(0)j

принимается на уровне значимости α.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 15 / 38

Page 16: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

В линейном регрессионном анализе коэффициентом детерминацииR2 называется квадрат коэффициента корреляции междунаблюдаемыми значениями показателя Y T = (y1, . . . , yn) изначениями эмпирической функции Y T = (y1, . . . , yn).

R2 =

(n∑

i=1(yi − y)(yi − y)

)2

n∑i=1

(yi − y)2n∑

i=1(yi − y)2

= 1− εT ε

(Y − yX0)T

Если построенная линейная регрессия идеально точно соответствуетнаблюдениям, то Y = Y и, следовательно, ε = 0, но тогда R2 = 1.Наоборот, если β1 = . . . = βk = 0, т.е. линейная регрессия не зависитот x1, . . . , xk , то R2 = 0.Из определения коэффициента детерминации R2 сразу следует, что0 6 R2 6 1.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 16 / 38

Page 17: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Лемма 3

Пусть выполнены обе группы основных предположений линейногорегрессионного анализа, тогда в предположении справделивостигипотезы H0: β1 = . . . = βk = 0 статистика

F =R2

1− R2

n − k − 1

k∼ Fk,n−k−1

подчиняется распределению Фишера со степенями свободы k иn − k − 1.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 17 / 38

Page 18: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Построенная линейная регрессия статистически значима на уровне αтогда и только тогда, когда гипотеза H0: β1 = . . . = βk = 0отклоняется на уровне значимости α.Поэтому правило проверки статистической значимости линейнойрегрессии в целом сформулируем следующим образом:

Если F = R2

1−R2n−k−1

k > F1−α;k,n−k−1, то гипотеза H0:β1 = . . . = βk = 0 отклоняется на уровне значимости α и,следовательно, построенная линейная регрессия являетсястатистически значимой.Если F 6 F1−α;k,n−k−1, то гипотеза H0 принимается, и,следовательно, построенная линейная регрессия являетсястатистически незначимой, здесь F1−α;k,n−k−1 — квантиль уровня1− α распределения Фишера с k и n − k − 1 степенями свободы.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 18 / 38

Page 19: Математическая статистика, весна 2015: Множественная линейная регрессия

Доверительные интервалы

Гипотеза H0: β1 = . . . = βk = 0 является частным случаем общейлинейной гипотезы:

H0 : βk1 = . . . = βkq = 0, ki 6= 0.

Статистический критерий основывается на F -статистике

F =(RSSH0 − RSS)/q

RSS/(n − k − 1),

где RSS = (y − X θ)T (y − X θ) — остаточная сумма квадратов,получаемая при оценивании полной модели (с k объясняющимимпеременными)RSSH0 — остаточная сумма квадратов, получаемая при оцениваниимодели c наложенными гипотезой H0 ограничениями на параметры.

Гипотеза H0 отвергается на уровне значимости α, еслиF > F1−α;q,n−k−1

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 19 / 38

Page 20: Математическая статистика, весна 2015: Множественная линейная регрессия

Нелинейные модели, сводяшиеся к ленийным

Нелинейные регрессионные модели, сводяшиеся кленийным при помощи замены переменных

Регрессионная модель от k факторов и l параметров может бытьзаписана в виде y = f (x1, . . . , xk , β1, . . . , βl). Среди них естьнелинейные как по факторам, так и по параметрам. Существуютнелинейные модели, которые путем преобразований могут бытьприведены к линейным. Преобрзования применяются как к отклику,так и к факторам.

Обратное преобразование: Y = β0 + β1(1/X ) + ε.Замена Z = 1/X .Логарифмическое преобразование: Y = β0 + β1 lnX + ε.Замена Z = lnX .Преобразование типа квадратного корня: Y = β0 + β1

√X + ε.

Замена Z =√X .

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 20 / 38

Page 21: Математическая статистика, весна 2015: Множественная линейная регрессия

Нелинейные модели, сводяшиеся к ленийным

Мультипликативная модель: Y = αX βε.α, β — неизвестные параметры, ε — мультипликативнаяслучайная ошибка, которая имеет непрерывное распределение сматематическим ожиданием, равным 1, и конечной дисперсией.

lnY = lnα+ β lnX + ln ε.

Следует помнить, что оценки границ доверительных интравловбудут обоснованными, только если логарифм ошибок имеетнормально распределение: ln ε ∈ N(0, σ2).Экспоненциальная модель: Y = αeβ1X ε.

lnY = lnα+ β1X + ln ε.

Обратная модель: Y =1

β0 + β1X + ε.

1/Y = β0 + β1X + ε.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 21 / 38

Page 22: Математическая статистика, весна 2015: Множественная линейная регрессия

Нелинейные модели, сводяшиеся к ленийным

Обратная экспоненциальная модель: Y =1

1 + αeβ1X+ε.

ln(1/Y − 1) = lnα+ β1X + ε.

При использовании преобразований, особенно отклика, следуетпроверять предпосылки регрессионного анализа: независимостьошибок, нормальность их распределений.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 22 / 38

Page 23: Математическая статистика, весна 2015: Множественная линейная регрессия

Информационные критерии Акаике и Шварца

Информационные критерии Акаике и Шварца

Критерии применяются для выбора из нескольких статистических моделейв случае одинаковых зависимых переменных.Пусть выполняется первая группа условий.Статистикой критерия Акаике является

AIC = 2k + n

[ln

RSS

n+ 1

]Статистика критерия Шварца

BIC = 2k ln n + n

[ln

RSS

n+ 1

]Из двух моделей предпочтительно выбрать модель с меньшим значениемАкаике критерия или Шварца критерия.Информационные критерии не являются статистическими критериями проверкистатистических гипотез. К ним не применимы понятие "статистически значимо".

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 23 / 38

Page 24: Математическая статистика, весна 2015: Множественная линейная регрессия

Информационные критерии Акаике и Шварца

y = 6 + 0.5x

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 24 / 38

Page 25: Математическая статистика, весна 2015: Множественная линейная регрессия

Информационные критерии Акаике и Шварца

Последствия отклонений от стандартных предположений

оценки β0, . . . , βk коэффициентов линейной модели оказываютсясмещенными;оценки дисперсий оценок β0, . . . , βk оказываются смещеннымидоверительные интервалы для β0, . . . , βk не соотвествуютзаявленным уровням значимостиможно прийти к ошибочным статистическим выводам о значенияхкоэффициентов линейной модели, опираясь на статистики t и F ,прогнозы, построенные по подобранной модели, оказываютсясмещенными.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 25 / 38

Page 26: Математическая статистика, весна 2015: Множественная линейная регрессия

Мультиколлинеарность

Мультиколлинеарность

Рассмотрим следующую модель наблюдений, связывающую значениянекоторого наблюдаемого показателя y и объясняющих переменныхx = (x1, . . . , xk)

T :Y = Xβ + ε, (10)

где Y = (y1, . . . , yn)T — наблюдения, β = (β0, β1, . . . , βk)

T — векторнеизвестных параметров, ε = (ε1, . . . , εn)

T — вектор ненаблюдаемыхслучайных компонент,

X =

1 x11 x12 . . . x1k1 x21 x22 . . . x2k. . . . . . . . . . . .1 xn1 xn2 . . . xnk

— матрица порядка n× (k + 1), xij - значения объясняющих факторов,n — объем наблюдений.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 26 / 38

Page 27: Математическая статистика, весна 2015: Множественная линейная регрессия

Мультиколлинеарность

Предположим наблюдается мультиколлинеарность столбцов матрицыX и как следствие плохая обусловленность матрицы XTX инеустойчивость оценок коэффициентов регрессии. Оценки могутиметь, например, неправильный знак или иметь значения, которыенамного превосходят те, которые приемлемы из физических илипрактических соображений.

Критерием плохой обсуловленности является высокая величинаотношения λmax/λmin максимального и минимального собственныхчисел матрицы XTX , — называемого показателем обусловленности.Это соотношение также позволяет судить о степени серьезностипроблем мультиколлинеарности: показатель обусловленности впределах от 10 до 100 свидетельствует об умеренной коллинеарности,свыше 1000 — об очень серьезной коллинеарности.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 27 / 38

Page 28: Математическая статистика, весна 2015: Множественная линейная регрессия

Мультиколлинеарность

Наиболее детальным показателем наличия проблем, связанных смультиколлинеарностью, является коэффициент увеличениядисперсии, определяемый для каждой переменной как

VIF (βj) =1

1− R2j

,

где R2j — коэффициент множественной детерминации в регрессии Xj

на прочие X , т.е. уравнения регрессии

xj = c0 + c1x1 + . . .+ cj−1xj−1 + cj+1xj+1 + . . .+ ckxk , j = 1, . . . , k

О мультиколлинеарности будет свидетельствовать VIF от 4 и вышехотя бы для одного j .

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 28 / 38

Page 29: Математическая статистика, весна 2015: Множественная линейная регрессия

Мультиколлинеарность

Если фактор xj имеет небольшой разброс значений, то вектор Xj будеткоррелировать с вектором X0. Для того, чтобы обойти даннуюпроблему стандартизируем факторы и отклик. А именно факторыцентрируем и нормируем, а отклик центрируем:

zij =xij − x√

1n

∑nm=1(xmj − x)2

, x =1

n

n∑m=1

xmj

Y ′ = Y − yX0, X0 = (1, 1, . . . , 1)T .

В результате стандартизации перейдем от модели (10) к модели

Y ′ = Zβ′ + ε, (11)

где Y ′ = (y ′1, . . . , y′n)

T — вектор центрированных наблюдений,β′ = (β′1, . . . , β

′k)

T — вектор неизвестных параметров,

Z =

z11 z12 . . . z1kz21 z22 . . . z2k. . . . . . . . .zn1 zn2 . . . znk

— матрица порядка n × k , zij - значения нормированныхцентрированных факторов.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 29 / 38

Page 30: Математическая статистика, весна 2015: Множественная линейная регрессия

Мультиколлинеарность

Параметры модели (11) связаны с параметрами исходной модели (10)следующими соотношениями

βj =β′j

1n

∑nm=1(xmj − x)2

, j = 1, . . . , k .

Сдедовательно, оценки β неизвестных параметров β исходной модели(10) могут быть выражены через оценки β′ модели (11)

βj =β′j

1n

∑nm=1(xmj − x)2

, j = 1, . . . , k .

β0 = y −n∑

j=1

βjx j .

Оценки метода наименьших квадратов β′ неизвестных параметров β′

модели (11) могут быть получены по формуле

β′ = (ZTZ )−1ZTY ′. (12)

в случае обратимости матрицы ZTZ .Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 30 / 38

Page 31: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Анализ остатков

Проверим выполнение стандартных предположений о моделинаблюдений. Рассмотрим специальные процедуры, направленные навыявление cледующих типов нарушений стандартных предположений:

отличие распределения ошибок от нормальногонеодинаковые дисперсии ошибокстатистическая зависимость ошибок в наблюдениях,производимых в последовательные моменты временинеправильный выбор функциональной формы моделинепостоянство коэффициентов модели на периоде наблюдений

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 31 / 38

Page 32: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Рассмотрим остатки построенной регрессионной модели

ei = yi − yi

Причем D(ei ) = σ2(1− hii ), i = 1, . . . , n, где hii — iй диагональныйэлемент матрицы H = X (XTX )−1XT

Для выравнивания дисперсий можно рассмотреть нормированныеостатки

ei√D(ei )

=ei

σ√1− hii

, i = 1, . . . , n.

Так как σ неизвестно, вместо нормированных остатков используютстьюдентизированные остатки:

di =ei

S√1− hii

, i = 1, . . . , n, S2 =RSS

n − k − 1.

стандартизованные остатки:

ci =eiS, i = 1, . . . , n.

Так как∑n

i=1 hii = k + 1, если k << n, то в среднем значения hiiдостаточно малы.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 32 / 38

Page 33: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Графический анализ адекватности

График зависимости отстатков ci от оцененных значений yi = X βпозволяет выявить:

наличие выбросов неоднородность дисперсий, неправильнаягетероскадастичность спецификация

модели

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 33 / 38

Page 34: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

График зависимости ci от значений объясняющих переменных xij

График зависимости остатков от номера наблюдений полезен вслучае, когда наблюдения появляются последовательно вовремени

Графические методы проверки предположения о нормальностираспределения случайных составляющих (диаграмма"кантиль-квантиль")

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 34 / 38

Page 35: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Критерии проверки гетероскедастичности

Нулевая гипотеза

H0 : D(εi ) = . . . = D(εi ) = σ2, i = 1, . . . , n

Критерий Голдфелда-КвандтаТест применяется, когда есть предположение о прямой зависимостидисперсии ошибки от величины некоторой независимой переменной.

Упорядочим данные по предполагаемому возрастанию дисперсийошибок.Исключим r средних (в этом упорядочении) наблюдений (примерночетверть общего количества наблюдений).Построим две регрессионных модели: по первым (n − r)/2наблюдениям и по последним (n − r)/2 наблюдениям. Вычислимсоответствующие остаточные суммы квадратов RSS1 и RSS2.

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 35 / 38

Page 36: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Составим статистику

F =RSS2RSS1

Если верна нулевая гипотеза и выполняются предположения онормальности ошибок, то стаитсика F имеет распределение Фишера с(n − r)/2− k − 1 и (n − r)/2− k − 1 степенями свободы.

Гипотеза H0 отклоняется, если значение статистикиF > F1−α((n − r)/2− k − 1, (n − r)/2− k − 1).

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 36 / 38

Page 37: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Критерий ВайтаРассмотрим вспомогательную модель

e2i = α0 +k∑

j=1

αjxij +k∑

j=1

βjx2ij + νi , i = 1, . . . , n, (13)

где ei — остатки, полученные при оценивании основной моделинаблюдений.Проверяется гипотеза H0 : αj = βj = 0, j = 1, . . . , k .Статистика критерия равно nR2, где R2 — коэффициентдетерминации, получаемый при оценивании модели (13).При нулевая гипотеза верна, то статистика nR имеет асимптотическоераспределение хи-квадрат с (2k − 2) степенями свободы.Гипотеза H0 при уровне значимости α отклоняется, если

nR2 > χ21−α(2k − 2).

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 37 / 38

Page 38: Математическая статистика, весна 2015: Множественная линейная регрессия

Анализ остатков

Критерий Рэмси, RESET

Используется для проверки функциональной формы модели.

Рассмотрим вспомогательную модель

yi = β0 + β1xi1 + . . .+ βkxik + α2y2i + . . .+ αmy

mi + ηi ,

где yi — предсказанные значения в соответствии с исходной моделью.

Проверяется гипотеза H0 : α2 = . . . = αm = 0.

Если нулевая гипотеза верна, то статистика nR2 имеетасимптотическое распределение хи-квадрат с m степенями свободы.Нулевую гипотезу отклоняют на уровне значимости α, еслиnR2 > χ2

1−α(m)

Грауэр Л.В., Архипова О.А. (CSC) Множественная регрессия... Санкт-Петербург, 2015 38 / 38