40
Лекция 9. Робастные регрессионные модели. Логит-регрессия Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 1 / 40

Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Embed Size (px)

Citation preview

Page 1: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Лекция 9. Робастные регрессионные модели.Логит-регрессия

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2015

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 1 / 40

Page 2: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Cодержание

Содержание

1 Ридж-регрсессия

2 Робастные регрессионные модели

3 Бинарная регрессия

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 2 / 40

Page 3: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Ридж-регрессия

Рассмотрим следующую модель наблюдений, связывающую значениянекоторого наблюдаемого показателя y и объясняющих переменныхx = (x1, . . . , xk)T :

Y = Xβ + ε, (1)

где Y = (y1, . . . , yn)T — наблюдения, β = (β0, β1, . . . , βk)T — векторнеизвестных параметров, ε = (ε1, . . . , εn)T — вектор ненаблюдаемыхслучайных компонент,

X =

1 x11 x12 . . . x1k1 x21 x22 . . . x2k. . . . . . . . . . . .1 xn1 xn2 . . . xnk

— матрица порядка n× (k + 1), xij - значения объясняющих факторов,n — объем наблюдений.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 3 / 40

Page 4: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Центрируем и нормируем факторы, а отклик центрируем:

zij =xij − x√

1n

∑nm=1(xmj − x)2

, x =1

n

n∑m=1

xmj

Y ′ = Y − yX0, X0 = (1, 1, . . . , 1)T .

В результате стандартизации перейдем от модели (1) к модели

Y ′ = Zβ′ + ε, (2)

где Y ′ = (y ′1, . . . , y′n)T — вектор центрированных наблюдений,

β′ = (β′1, . . . , β′k)T — вектор неизвестных параметров,

Z =

z11 z12 . . . z1kz21 z22 . . . z2k. . . . . . . . .zn1 zn2 . . . znk

— матрица порядка n × k , zij - значения нормированныхцентрированных факторов.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 4 / 40

Page 5: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Оценки метода наименьших квадратов β′ неизвестных параметров β′

модели (2) могут быть получены по формуле

β′ = (ZTZ )−1ZTY ′. (3)

в случае обратимости матрицы ZTZ .

Предположим наблюдается мультиколлинеарность матрицы ZTZ .

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 5 / 40

Page 6: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Одним из методов, позволяющих решить проблемумультиколлинеарности, является ридж-регрессия (гребневаярегрессия). Идея подхода состоит в том, чтобы попытаться найтиоценку, минимизирующую среднквадратическое отклонение оценки

β′ = arg minβ′∈B

E (β′ − β′)2,

где B — более широкий класс, чем класс несмещенных линейныхоценок.В рамках такого подхода матрицу ZTZ можно регуляризовать, илисделать "более обратимой"путем добавления заведомо регулярнойматрицы Γ размерности k × k . Тогда в качестве минимизируемогокритерия имеем

(Y ′ − Zβ′)T (Y ′ − Zβ′) + (Γβ′)T (Γβ′), (4)

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 6 / 40

Page 7: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Оценки метода ридж-регрессии β′ridge неизвестных параметров β′

будут иметь вид:

β′ridge = (ZTZ + ΓTΓ)−1ZTY ′. (5)

Часто матрицу Γ берут равной√λEk , λ > 0. В этом случае оценки

β′ridge неизвестных параметров β′ принимают вид:

β′ridge = (ZTZ + λEk)−1ZTY . (6)

Замечание 11 Если λ→ 0, β′ridge → β′mnk .

2 Если λ→∞, β′ridge → 0.

Для любой матрицы Z матрица ZTZ + λEk , λ > 0, обращаема,следовательно, всегда существует единственное решение β′ridge .

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 7 / 40

Page 8: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Можно выразить ридж-оценки через МНК-оценки

β′ridge = (Ek + λ(ZTZ )−1)−1β′mnk = Qβ′mnk ,

так что ридж-оценки оказываются линейными комбинациямиМНК-оценок.Математическое ожидание оценок метода ридж-регресии

E β′ridge = (Ek − λW )β′,

где W = (ZTZ + λEk)−1.Таким образом, оценки метода ридж-регрессии являются смещеннымиоценками параметров β со смещением

Bias(β′ridge) = −λWβ′.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 8 / 40

Page 9: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Ридж-регрсессия

Ковариационная матрица оценок ридж-регрессии

Dβ′ridge = σ2WZTZW .

С ростом λ дисперсия оценок уменьшается, однако их смещениеувеличивается.Можно показать, что средний квадрат ошибки для ридж-оценок равен

MSE = E (β′ridge − β′)T (β′ridge − β′) =

= σ2tr{Q(ZTZ )−1QT}+ β′T

(Q − Ek)T (Q − Ek)β′. (7)

Теорема 1Существует λ∗ > 0 такое, что

E (β′ridge − β′)T (β′ridge − β′) < E (β′mnk − β′)T (β′mnk − β′)

Хотя величина λ∗ > 0 существует, нет способа, позволяющего прирешении конкретной практической задачи убедиться, что перед намизначение, которому отвечает величина среднего кварата ошибки,меньшая, чем средний квадрат ошибки МНК-оценок.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 9 / 40

Page 10: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

Робастные регресионные модели

Помимо проблемы мультиколлинеарности можно столкнуться спроблемой наличия выбросов в наблюдениях, т.е. редких но большихпо величине значений факторов или отклика. Выбросы могут оказатьсильное влияние на оценки параметров регрессионной модели,полученных методом наименьших квадратов.Робастность оценок параметров линейной регрессионной моделиможет быть обеспечена различными способами, рассмотримнекоторые из них.

Рассмотрим множественную линейную регрессионную модель

Y = Xβ + ε, (8)

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 10 / 40

Page 11: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

M-оценки

Метод заключается в выборе функции ρ такой, чтоρ обладает свойством симметрии;ρ неотрицательна;ρ монотонно неубывающая.

М-оценки неизвестных параметров β находят из условия

β = arg minβ

n∑i=1

ρ(yi − XTi β).

Если ρ дифференцируема ψ = ρ′, то

n∑i=1

ψ(yi − XTi β)Xi = 0.

Функцию ψ называют функцией влияния.Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 11 / 40

Page 12: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

Примеры функций ρ

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 12 / 40

Page 13: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

Устойчивые М-оценки должны иметь:ограниченную функцию влияния,единственную точку минимума,

L2 оценки не устойчивы, так как функция влияния не ограничена.L1 — оценки неизвестных параметров необязательно будутединственными.Для функции Хубера рекомендуется выбирать k = 1.345. В этомслучае имеем 95% асимпотическую эффективность оценок длянормального стандартного распределения.Функция Коши не гарантирует единственного решения. Можнополучить неверные решения. При c = 2.3849 имеем 95%асимпотическую эффективность оценок для нормальногостандартного распределения.Функции МкКлуре и Велча имеют такие же недостатки, что ифункция Коши.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 13 / 40

Page 14: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

LMS и LTS

Метод наименьшей медианы квадратов (LMS)

β = arg minβ

med{(y1 − XT1 β)2, . . . , (yn − XT

n β)2}.

Метод наименьших усеченных квадратов (LTS)

β = arg minβ

m∑i=1

(r2)i :n,

где (r2)i :n — i-ый наименьший квадрат остатка в сортированной повозрастанию последовательности квадратов остатков

(r2)1:n ≤ (r2)2:n ≤ . . . ≤ (r2)n:n,

m < n — заданный порог усечения.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 14 / 40

Page 15: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

Оценки LMS и LTS будут устойчивы к выбросам, но не стабильны.Кроме того, они не эффективны, если данные нормальнораспределены.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 15 / 40

Page 16: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Робастные регрессионные модели

Сглаживание данных при помощи метода скользящеймедианы

Другой способ построения робастных оценок регресии основан напредварительном сглаживании данных при помощи метода скользящеймедианы [7] и последующем использовании МНК-оценок,рассчитанных по сглаженным данным.Исходные наблюдения (xi , yi ), i = 1, . . . , n, преобразуют в следующие(xi , yi ), i = m + 1, . . . , n −m, где

yi = med{yi−m, yi−m+1, . . . , yi+m}, i = m + 1, . . . , n −m,

представляет собой выборочную медиану, построенную по 2m + 1последовательным значениям отклика {yi−m, yi−m+1, . . . , yi+m}, m ≥ 1.Выбор m равным ожидаемому числу выбросов в данных гарантируетробастность процедуры сглаживания.Если исходные данные монотонны, то и сглаженные данные совпадаютс исходными yi = yi , i = m + 1, . . . , n −m.Метод скользящей медианы, как правило, применяется при анализевременных рядов.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 16 / 40

Page 17: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Бинарная регрессияДискретные данные

Пусть зависимые переменные принимают дискретные значения,выражающие какие-либо качественные признаки. Объясняющиепеременные могут быть как дискретными, так и непрерывными.Выделим несколько классов задач, в которых зависимые переменныепринимают дискретные значения:

1 Переменные — это решения «да» (1) или «нет» (0), т. е. выбородной из двух альтернатив.Если имеется только две альтернативы, то результат наблюденияобычно описывается переменной, называемой бинарной. В общемслучае при наличии k альтернатив результат выбора можнопредставить переменной, принимающей значения 1, . . . , k . В этихслучаях соответствующую переменную называют номинальной.

2 Переменные — ранги. Соответствующая переменная называетсяпорядковой, ординальной или ранговой.

3 Переменная — количественная целочисленная характеристика.Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 17 / 40

Page 18: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Модель линейной вероятности

Пусть имеется выборка объема n наблюдений (xi , yi ), i = 1, . . . , n, гдеxTi = (1, xi1, . . . , xik)T , yi — зависимая переменная, которая можетпринимать только два значения: ноль и единица. Рассмотримстандартную модель линейной регрессии:

yi = βT xi + εi , (9)

где βT = (β0, β1, . . . , βk) — вектор неизвестных параметров, β ∈ Rk , εi— случайная компонента. В предположениях регрессионного анализасчитается, что случайная компонента подчиняется нормальномузакону распределения с нулевым математическим ожиданием.Учитывая это, получаем, что

Eyi = βT xi .

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 18 / 40

Page 19: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Так как yi принимает значения 0 или 1, то для математическогоожидания yi имеем равенство:

Eyi = 1 · P{yi = 1}+ 0 · P{yi = 0} = P{yi = 1}. (10)

Таким образом, получаем равенство:

P{yi = 1} = βTXi . (11)

которое дало название модели линейной вероятности (linear probabilitymodel).Следует отметить некоторые недостатки этой модели, которые непозволяют успешно применять метод наименьших квадратов дляоценивания параметров β и построения прогнозов. Из (9) следует, чтокомпонента εi в каждом наблюдении может принимать только двазначения: (1− βT xi ) с вероятностью P{yi = 1} и (−βT xi ) свероятностью 1− P{yi = 1}. Это, в частности, не позволяет считатьслучайную компоненту нормально распределенной случайнойвеличиной или, подчиняющейся распределению, близкому кнормальному.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 19 / 40

Page 20: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Проверим выполнение условия из первой группы предположенийрегрессионного анализа о равенстве дисперсий различныхнаблюдений. Вычислим дисперсию компоненты:

Dεi = βT xi (1− βT xi ).

Получается, что дисперсия компоненты εi зависит от xi . Известно, чтооценка параметров β, полученная обычным методом наименьшихквадратов, в этом случае не является эффективной.Еще одним серьезным недостатком модели линейной вероятностиявляется тот факт, что прогнозные значения yi = βT xi , т. е.прогнозные значения вероятности P{yi = 1}, могут лежать внеотрезка [0, 1] (здесь β — оценка параметра β, полученная методомнаименьших квадратов).

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 20 / 40

Page 21: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Логит и пробит модели бинарного выбораОткажемся от предположения о линейной зависимости вероятностиP{yi = 1} от β. Предположим, что

P{yi = 1} = F (βT xi ), (12)

где F (x) — некоторая функция, область значений которой лежит вотрезке [0, 1].Наиболее часто в качестве функции F (x) используют:

1 Функцию стандартного нормального распределения

Φ(u) =1√2π

u∫−∞

e−z2

2 dz ,

в этом случае модель принято называть пробит моделью.2 Функцию логистического распределения

Λ(u) =eu

1 + eu=

1

1 + e−u, (13)

тогда модель принято называть логит моделью.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 21 / 40

Page 22: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Оценивание параметров в логит и пробит моделях

Для нахождения оценок параметров β обычно используют методмаксимального правдоподобия, предполагая, что наблюденияy1, . . . , yn независимы. Так как yi может принимать значения 0 или 1,то функция правдоподобия примет следующий вид:

L(y1, . . . , yn) =∏

i :yi=0

(1− F (βT xi ))∏

i :yi=1

F (βT xi ). (14)

Нетрудно заметить, что

L(y1, . . . , yn) =n∏

i=1

F yi (βT xi )(1− F (βT xi ))1−yi .

Рассмотрим логарифмическую функцию правдоподобия:

ln L(y1, . . . , yn) =n∑

i=1

(yi lnF (βT xi ) + (1− yi ) ln(1− F (βT xi ))

). (15)

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 22 / 40

Page 23: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Дифференцируя равенство (15) по вектору β, получаем уравнениеправдоподобия, записанное в векторной форме:

∂ ln L

∂β=

n∑i=1

(yi f (βT xi )

F (βT xi )− (1− yi )f (βT xi )

1− F (βT xi )

)xi = 0, (16)

где f (x) — плотность распределения, соответствующая функции F (x).

Можно показать, что для пробит и логит моделей логарифмическаяфункция правдоподобия (15) является вогнутой по β функцией и,значит, решение уравнения (16) дает оценку максимальногоправдоподобия параметра β [3].

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 23 / 40

Page 24: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Для логит модели уравнение (16) можно существенно упростить, есливоспользоваться тождеством Λ′(u) = Λ(u)(1− Λ(u)):

n∑i=1

(yi − Λ(βT xi ))xi = 0. (17)

Гессиан для логит модели имеет следующий вид:

H =∂2 ln L

∂β∂βT= −

n∑i=1

Λ(βT xi )(1− Λ(βT xi ))xixTi . (18)

Заметим также, что гессиан в этом случае отрицательно определен[3], т. е. логарифмическая функция правдоподобия вогнута.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 24 / 40

Page 25: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Для пробит модели логарифмическую функцию правдоподобия (15)можно записать в следующем виде:

ln L =∑i :yi=0

ln(1− Φ(βT xi )) +∑i :yi=1

ln(Φ(βT xi )). (19)

Тогда условие (16) будет следующим:

∂ ln L

∂β=∑i :yi=0

−ϕ(βT xi )

1− Φ(βT xi )xi +

∑i :yi=1

ϕ(βT xi )

Φ(βT xi )xi ,

где ϕ(x) = Φ′(x). Учитывая, что нормальное распределение, как илогистическое, симметрично, 1− Φ(βT x) = Φ(−βT x), получаем:

∂ ln L

∂β=

n∑i=1

qiϕ(βT xi )

Φ(qiβT xi )xi =

n∑i=0

λixi = 0, (20)

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 25 / 40

Page 26: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

где qi = 2yi − 1, λi = qiϕ(βT xi )/Φ(qiβT xi ).

Для вычисления гессиана в модели пробит анализа будемиспользовать свойство стандартного нормального распределения:dϕ(u)/du = −uϕ(u). Тогда для пробит модели получим следующеевыражение для гессиана:

H =∂2 ln L

∂βT∂β= −

n∑i=1

λi (λi + βT xi )xixTi . (21)

Эта матрица также отрицательно определена [2].

Уравнения правдоподобия (17) и (20) являются системой нелинейных(относительно β) уравнений, аналитическое решение которойневозможно найти в явном виде в общем случае, поэтому при еерешении приходится прибегать к численным методам.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 26 / 40

Page 27: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Проверка гипотез о значимости параметров логит ипробит моделей бинарного выбора

Для логит и пробит моделей проверка гипотез о наличии ограниченийна коэффициенты, в частности, гипотез о значимости одного илигруппы коэффициентов, может проводиться с помощью любого изкритериев — Вальда, отношения правдоподобия [1], [2].Рассмотрим нулевую гипотезу в виде системы уравнений:

H0 : Qβ = r , (22)

где βT = (β0, β1, . . . , βk), Q — матрица констант, q — число строкматрицы Q, r — вектор констант, которые формируются определеннымобразом в зависимости от того, какую гипотезу необходимо проверить.Альтернативная гипотеза H1 : Qβ 6= r .

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 27 / 40

Page 28: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Например, рассмотрим пробит модельP{y = 1} = Φ(β0 + β1x1 + β2x2). Для проверки нулевой гипотезыH0 : β1 = 0 система уравнений (22) примет следующий вид:

(0 1 0

)β0β1β2

=(0).

Для проверки гипотезы β1 = β2 = 0 система уравнений (22) приметследующий вид: (

0 1 00 0 1

)β0β1β2

=

(00

).

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 28 / 40

Page 29: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Критерий Вальда

Пусть мы нашли оценку максимального правдоподобия β длянеизвестного параметра β, и V (β) — состоятельная оценка дляасимптотической ковариационной матрицы V (β). Статистика критерияВальда выглядит следующим образом:

W = (Qβ − r)T (QV (β)QT )−1(Qβ − r). (23)

При справедливости нулевой гипотезы статистика (23) асимптотическиподчиняется распределению χ2 с числом степеней свободы, равным q[1].Если численное значение статистики W попадет в критическуюобласть (χ2

1−α,q;∞), где χ21−α,q — квантиль уровня 1− α

распределения χ2 с q степенями свободы, то нулевая гипотеза H0

отвергается, в противном случае нет оснований ее отвергнуть приуровне значимости приближенно равном α.Критерий Вальда носит асимптотический характер, и, поэтому,уровень значимости критерия должен быть близок к α при большихобъемах наблюдений.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 29 / 40

Page 30: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Критерий отношения правдоподобия

Для проверки адекватности пробит и логит моделей бинарныхрегрессий рассмотрим критерий, основанный на сравнении значенийфункции правдоподобия в случае, когда максимизация проводится повсем неизвестным параметрам, и при условии, что Qβ = r .Пустьln L1 — максимальное значение логарифмической функцииправдоподобия (15) при условии, что максимизация производится повсем параметрам β без ограничений на параметры;ln L0 — максимальное значение логарифмической функцииправдоподобия (15) при условии, что Qβ = r .Очевидно, что ln L1 > ln L0.Чем больше разность между значениями функций, тем болееоправдано использование регрессионной пробит или логит модели.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 30 / 40

Page 31: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Статистика отношения правдоподобия выглядит следующим образом:

LR = 2(ln L1 − ln L0), (24)

которая при справедливости нулевой гипотезы асимптотическиподчиняется распределению χ2 с числом степеней свободы, равным q[1], [2].Для принятия статистического решения находим значение функцииправдоподобия ln L1 в точке β, которая является оценкоймаксимального правдоподобия для неизвестного параметра β в задачебез ограничений, и ln L0.Если численное значение статистики (24) попадет в критическуюобласть (χ2

1−α,q;∞), где χ21−α,q — квантиль уровня 1− α

распределения χ2 с q степенями свободы, то нулевая гипотеза H0

отвергается, в противном случае нет оснований ее отвергнуть приуровне значимости приближенно равном α.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 31 / 40

Page 32: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Меры адекватности моделей бинарной регрессии

В настоящее время предложено большое количество мер адекватностидля моделей бинарной регрессии [2], [4], [6], приведем некоторые изних.Сумма квадратов остатков SSR вычисляется по формуле:

SSR =n∑

i=1

(yi − Fi )2, (25)

где Fi = F (βT xi ). Использование этой меры не может бытьматематически строго обосновано, поскольку модели бинарнойрегрессии не удовлетворяют условию равенства дисперсий [2].Взвешенная сумма квадратов WSSR для моделей бинарной регрессииможет быть вычислена по формуле:

WSSR =n∑

i=1

(yi − Fi )2

Fi (1− Fi ). (26)

Как утверждается в работе [2], критерий (26) более предпочтителен,чем критерий (25).

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 32 / 40

Page 33: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

B. Efron предложил аналог R2 следующего вида [6]:

R2Ef = 1−

n∑i=1

(yi − Fi )2

n∑i=1

(yi − y)2, (27)

где y = 1n

n∑i=1

yi .

Квадратичный коэффициент корреляции SCC вычисляется поформуле:

SCC =

[n∑

i=1(yi − y)Fi

]2n∑

i=1(yi − y)2

n∑i=1

(Fi − F )2, (28)

где F =∑n

i=1 Fi/n.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 33 / 40

Page 34: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Существует еще одна мера адекватности моделей бинарной регрессии[4], [3]:

R2BL =

1

n

n∑i=1

(yi Fi + (1− yi )(1− Fi )

), (29)

которая представляет собой среднюю вероятность правильногопредсказания в соответствии с полученным правилом.Существуют меры адекватности моделей бинарной регрессии,основанные на сравнении значений функции правдоподобия приразличных ограничениях. Например, D. MacFadden предложил индексотношения правдоподобия следующего вида [5]:

LRI = 1− ln L(β)

ln L0, (30)

где ln L0 — максимальное значение логарифмической функцииправдоподобия при β1 = · · · = βk = 0.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 34 / 40

Page 35: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Замечание 2Различные скалярные меры адекватности моделей бинарной регрессиидают различные результаты [2]. Оценка максимальногоправдоподобия, на которой основаны все выше перечисленныескалярные меры адекватности для моделей бинарной регрессии, невыбирается из условия максимизации критерия адекватности, вотличие от классической модели линейной регрессии (коэффициентырегрессии, найденные методом наименьших квадратов, максимизируюткоэффициент детерминации R2). В случае бинарной регрессии оценкамаксимального правдоподобия β максимизирует совместнуюплотность распределения наблюдаемых случайных величин. Возникаетвопрос для исследователя: выбрать лучшую оценку параметров привозможно низком уровне достоверного прогноза или получитьнаилучшую оценку параметров, максимизирующую выбраннуюскалярную меру адекватности модели, которая чаще всего не будетявляться оценкой максимального правдоподобия?

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 35 / 40

Page 36: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

ROC-кривая и AUC

Рассмотрим таблицу сопряженности

ФактическиМодель положительно отрицательноположительно TP FPотрицательно FN TN

TP (True Positives) — верно классифицированные положительныепримеры;TN (True Negatives) — верно классифицированные отрицательныепримеры;FN (False Negatives) — положительные примеры, классифицированныекак отрицательные (ошибка I рода);FP (False Positives) — отрицательные примеры, классифицированныекак положительные (ошибка II рода).Что является положительным событием, а что – отрицательным,зависит от конкретной задачи.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 36 / 40

Page 37: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

При анализе чаще оперируют не абсолютными показателями, аотносительными – долями, выраженными в процентах:Доля истинно положительных примеров (True Positives Rate):

TPR =TP

TP + FN

Доля ложно положительных примеров (False Positives Rate):

FPR =FP

TN + FP

Чувствительность (Sensitivity) – это и есть доля истинноположительных случаев:

Se = TPR =TP

TP + FN

Специфичность (Specificity) – доля истинно отрицательных случаев,которые были правильно идентифицированы моделью:

Sp = 1− FPR =TN

TN + FP

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 37 / 40

Page 38: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

ROC-кривая — кривая зависимости количества верноклассифицированных положительных примеров от количества неверноклассифицированных отрицательных примеров для каждого значенияпорога отсечения, которое меняется от 0 до 1.

AUC — площадь под графиком ROC-кривой. AUC ∈ (0.5; 1). AUCможно интерпретировать как вероятность того, что случайно взятыйобъект "1"и случайно взятый объект "0"будут отранжированы вправильном порядке.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 38 / 40

Page 39: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Литература

Дрейпер Н., Смит Г.Прикладной регрессионный анализ

Amemiya T.Qualitive Response Models: A Survey, Journal of EconomicLiterature, 1981, Vol. XIX, pp. 1483-1536.

Amemiya T.Advanced Econometrics, Cambridge: Harvard University Press,1985.

Ben-Akiva M., Lerman S.Discrete choice analysis, The MIT Press,Cambridge Massachusetts, 1985.

Berndt E., Hall B., Hall R., Hausman J.Estimation and Inference inNonlinear Structural Models, // Annals of Economic and SocialMeasurement, 1974, Vol. 3, 653–665.

Efron B.Regression and ANOVA with Zero-One Data: Measures of ResidualVariation, Journal of American Statistical Association, 1978, Vol. 73, pp.113-121.

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 39 / 40

Page 40: Математическая статистика, весна 2015: Робастные регрессионные модели. Логит-регрессия

Бинарная регрессия

Engle R. F.Wald, Likelihood Ratio, and Lagrange Multiplier Tests inEconometrics. In Intriligator, M. D.; and Griliches, Z. Handbook ofEconometrics. II. Elsevier, 1983, pp. 796–801

Greene W. H.Econometric Analysis, 5th edition, New Jearsey: PearsonEducation, 2003

Kay R., Little S.Assessing the Fit of the Logistic Model: A Case Study ofChildren with Haemolytic Uraemic Syndrome, Applied Statistics, 35, 1986,pp. 16–30.

Long J. S.Regression models for categorial and limited dependent variables,Thousand Oaks: Sage Publ., 1997.

MacFadden D.The Measurement of Urban Travel Demand // Journal ofPublic Economics, 3, 1978, pp. 303-328.

Maddala G. S.Introduction to Econometrics, 2nd ed., Macmillan, 1992.

Тьюки Д.Анализ результатов наблюдений. Разведочный анализ.М.:Мир, 1981

Грауэр Л.В., Архипова О.А. (SCS) Логит-регрессия... Санкт-Петербург, 2015 40 / 40