Машинное обучение 1, осень 2015: Линейные модели: введение

Линейные модели: введениепо материалам "The Elements of Statistical Learning"

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2015

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 23

План

1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций

2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия

3 Домашнее задание


Формальная постановка

Ищем решающую функцию в виде:

y = F (β, x) = βTx

В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!

До того как мы расскажем что такое x.


Формальная постановка

Ищем решающую функцию в виде:

y = F (β, x) = βTx

В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!До того как мы расскажем что такое x.


План





Простое решение

arg minβ‖F (X , β)− y‖ = arg min

β‖Xβ − y‖

Если норма l2, то:

∂T

∂X= 2XT (Xβ − y) = 0

β = (XTX )−1XTy


Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:

Об этом говорит (если нам все удалось):

XT (y − y) = XT (y − X β) = 0

В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 5 из 23

Вероятностная интерпретация линейнойрегрессииПредположим, что y нам дан со случайной ошибкойε ∼ N(0, σ2), тогда регрессию можно свести кправдоподобию:

p(y |x , β) =1√2πσ2

e−(y−βT x)2

σ2

Тогда правдоподобие всей выборки выглядит так:

arg maxβ

log p(y|X , β) = arg minβ

∑i

(yi − βTxi

)2значит можно по этой модели использовать ТВиМСдля анализа β.


Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:

Var(β) =(XTX

)−1 1m − n − 1

‖y − y ∗‖2

А если еще и предположить, что y = β∗Tx + ε иε ∼ N(0, σ):

β ∼ N(β∗,(XTX

)−1σ2)

а наблюдаемая σ для y распределена по χ2:

(n −m − 1)σ = ‖y − y ∗‖2 ∼ σχ2m−n−1


А точно βi 6= 0?

Введем такую штуку (Z -score):

zi =βi

σ√vi

где vi — диагональный элемент(XTX

)−1. Еслиподумать что βi = 0, то:

zi ∼ Tm−n−1

Чем больше Z -score, тем более мы уверены, что βi 6= 0


Теорема Гаусса-Маркова

TheoremЛинейное приближение по MSE обладает наименьшимразбросом из всех несмещенных линейных решений

⇒ для того, чтобы сделать решение болеестабильным надо вводить bias

⇒ простым MSE нам не отделаться, надо будетменять T


Расширение на несколько целей

y ∈ Rk

В этом случае задача превращается в такую:

arg minB

tr((Y − XB)T (Y − XB)

)B0 =

(XTX

)−1XTY

Если же y = xTB + ε, ε ∼ N(0,Σ):

arg minB

((Y − XB)TΣ−1(Y − XB)

)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 10 из 23

План





Классификация

x ∈ Rn, y ∈ {1, . . . , c}

Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны


Линейное решение задачиклассификации

Можем пойти по-простому и решить регрессией:

γij =

{1, j = yj0

В терминах предсказания γ решаем:

arg minB

tr((Γ− XB)T (Γ− XB)

)Среди предсказанных xB выбираем максимум.


Сложности с простым решением


Линейный дискриминантный анализ(LDA)Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:

p(j |x) =1√

(2π)n|Σj |e−

12 (x−µj)

TΣ−1j (x−µj)

p(j)

p(x)

Если зафиксировать Σ, то границы между классами(djk : p(j |x)

p(k|x) = 1) — прямые!

djk(x) = xTΣ−1(µj − µk)− 12

(µj + µk)TΣ−1(µj − µk) + logp(j)

p(x)


LDA в пространсве x


Аналитическое решение LDA

Можно решать напрямую:

p(j) =mj

m ,µj = 1

mj

∑xu:yu=j xu,

Σ = 1m−k

∑kj=1∑

xu:yu=j(xu − µj)(xu − µj)T

Можно EM даже не заморачиваясь одинаковыми Σj


Свойства LDA

Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk


Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:

0 = log

(p(j |x)

p(k |x)

)= xTβu

Преобразование справа — logit. Тогда вероятностиможно найти так:

p(j |x) =ex

Tβj

1 +∑

v<c exTβv

, j < c

p(c |x) =1

1 +∑

v<c exTβv


Оптимизация логистическая регрессия

Вероятности у нас есть, давайте максимизироватьправдоподобие!

arg maxB

∏i

p(yi |xi ,B)

= arg maxB

∑i

logex

Tβyi

1 +∑

v<c exTβv

Как будем искать?


Оптимизация логистической регрессии

Сумма выпуклых — выпукла, будем смотреть накаждую точку в отдельности.

logex

Tβy

1 +∑

v exTβv

xTβy − log

(1 +

∑v

exTβv

)Левая часть – выпукла, правая часть — комбинациявыпуклой и линейной, выпукла. Градиентный спускспасет отцов!


Когда что?

Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов


Какое x бывает

Просто фичи:x ∈ Rn

Мономы:u ∈ Rn

x =∏

uj

Произвольные функции:

u ∈ Rn

x : Rn → R

В любом случае мы всегда можем посчитать значениеx по входным параметрам (например u).


План





Домашнее задание

SVN, howto.txtДедлайн 31 октябряМы надолго с этим датасетом


Documents

Машинное обучение 1, осень 2015: Линейные модели: введение