Upload
cs-center
View
326
Download
9
Embed Size (px)
Citation preview
Линейные модели: введениепо материалам "The Elements of Statistical Learning"
И. Куралёнок, Н. Поваров
Яндекс
СПб, 2015
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 23
План
1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций
2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия
3 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 2 из 23
Формальная постановка
Ищем решающую функцию в виде:
y = F (β, x) = βTx
В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!
До того как мы расскажем что такое x.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 3 из 23
Формальная постановка
Ищем решающую функцию в виде:
y = F (β, x) = βTx
В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!До того как мы расскажем что такое x.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 3 из 23
План
1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций
2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия
3 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 3 из 23
Простое решение
arg minβ‖F (X , β)− y‖ = arg min
β‖Xβ − y‖
Если норма l2, то:
∂T
∂X= 2XT (Xβ − y) = 0
β = (XTX )−1XTy
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 4 из 23
Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:
Об этом говорит (если нам все удалось):
XT (y − y) = XT (y − X β) = 0
В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 5 из 23
Вероятностная интерпретация линейнойрегрессииПредположим, что y нам дан со случайной ошибкойε ∼ N(0, σ2), тогда регрессию можно свести кправдоподобию:
p(y |x , β) =1√2πσ2
e−(y−βT x)2
σ2
Тогда правдоподобие всей выборки выглядит так:
arg maxβ
log p(y|X , β) = arg minβ
∑i
(yi − βTxi
)2значит можно по этой модели использовать ТВиМСдля анализа β.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 6 из 23
Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:
Var(β) =(XTX
)−1 1m − n − 1
‖y − y ∗‖2
А если еще и предположить, что y = β∗Tx + ε иε ∼ N(0, σ):
β ∼ N(β∗,(XTX
)−1σ2)
а наблюдаемая σ для y распределена по χ2:
(n −m − 1)σ = ‖y − y ∗‖2 ∼ σχ2m−n−1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 7 из 23
А точно βi 6= 0?
Введем такую штуку (Z -score):
zi =βi
σ√vi
где vi — диагональный элемент(XTX
)−1. Еслиподумать что βi = 0, то:
zi ∼ Tm−n−1
Чем больше Z -score, тем более мы уверены, что βi 6= 0
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 8 из 23
Теорема Гаусса-Маркова
TheoremЛинейное приближение по MSE обладает наименьшимразбросом из всех несмещенных линейных решений
⇒ для того, чтобы сделать решение болеестабильным надо вводить bias
⇒ простым MSE нам не отделаться, надо будетменять T
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 9 из 23
Расширение на несколько целей
y ∈ Rk
В этом случае задача превращается в такую:
arg minB
tr((Y − XB)T (Y − XB)
)B0 =
(XTX
)−1XTY
Если же y = xTB + ε, ε ∼ N(0,Σ):
arg minB
((Y − XB)TΣ−1(Y − XB)
)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 10 из 23
План
1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций
2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия
3 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 10 из 23
Классификация
x ∈ Rn, y ∈ {1, . . . , c}
Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 11 из 23
Линейное решение задачиклассификации
Можем пойти по-простому и решить регрессией:
γij =
{1, j = yj0
В терминах предсказания γ решаем:
arg minB
tr((Γ− XB)T (Γ− XB)
)Среди предсказанных xB выбираем максимум.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 12 из 23
Сложности с простым решением
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 13 из 23
Линейный дискриминантный анализ(LDA)Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:
p(j |x) =1√
(2π)n|Σj |e−
12 (x−µj)
TΣ−1j (x−µj)
p(j)
p(x)
Если зафиксировать Σ, то границы между классами(djk : p(j |x)
p(k|x) = 1) — прямые!
djk(x) = xTΣ−1(µj − µk)− 12
(µj + µk)TΣ−1(µj − µk) + logp(j)
p(x)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 14 из 23
LDA в пространсве x
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 15 из 23
Аналитическое решение LDA
Можно решать напрямую:
p(j) =mj
m ,µj = 1
mj
∑xu:yu=j xu,
Σ = 1m−k
∑kj=1∑
xu:yu=j(xu − µj)(xu − µj)T
Можно EM даже не заморачиваясь одинаковыми Σj
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 16 из 23
Свойства LDA
Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 17 из 23
Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:
0 = log
(p(j |x)
p(k |x)
)= xTβu
Преобразование справа — logit. Тогда вероятностиможно найти так:
p(j |x) =ex
Tβj
1 +∑
v<c exTβv
, j < c
p(c |x) =1
1 +∑
v<c exTβv
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 18 из 23
Оптимизация логистическая регрессия
Вероятности у нас есть, давайте максимизироватьправдоподобие!
arg maxB
∏i
p(yi |xi ,B)
= arg maxB
∑i
logex
Tβyi
1 +∑
v<c exTβv
Как будем искать?
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 19 из 23
Оптимизация логистической регрессии
Сумма выпуклых — выпукла, будем смотреть накаждую точку в отдельности.
logex
Tβy
1 +∑
v exTβv
xTβy − log
(1 +
∑v
exTβv
)Левая часть – выпукла, правая часть — комбинациявыпуклой и линейной, выпукла. Градиентный спускспасет отцов!
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 20 из 23
Когда что?
Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 21 из 23
Какое x бывает
Просто фичи:x ∈ Rn
Мономы:u ∈ Rn
x =∏
uj
Произвольные функции:
u ∈ Rn
x : Rn → R
В любом случае мы всегда можем посчитать значениеx по входным параметрам (например u).
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 22 из 23
План
1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций
2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия
3 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 22 из 23
Домашнее задание
SVN, howto.txtДедлайн 31 октябряМы надолго с этим датасетом
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 23 из 23