27
Линейные модели: введение по материалам "The Elements of Statistical Learning" И. Куралёнок, Н. Поваров Яндекс СПб, 2014 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 1 из 23

Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Линейные модели: введениепо материалам "The Elements of Statistical Learning"

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2014

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 1 из 23

Page 2: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

План

1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций

2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия

3 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 2 из 23

Page 3: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Формальная постановка

Ищем решающую функцию в виде:

y = F (β, x) = βTx

В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!

До того как мы расскажем что такое x.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 3 из 23

Page 4: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Формальная постановка

Ищем решающую функцию в виде:

y = F (β, x) = βTx

В x можно добавить нулевым элементом 1, тогда ненадо таскать свободный член.Такое решение кажется примитивным!До того как мы расскажем что такое x.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 3 из 23

Page 5: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

План

1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций

2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия

3 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 3 из 23

Page 6: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Простое решение

arg minβ‖F (X , β)− y‖ = arg min

β‖Xβ − y‖

Если норма l2, то:

∂T∂X

= 2XT (Xβ − y) = 0

β = (XTX )−1XTy

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 4 из 23

Page 7: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:

Об этом говорит (если нам все удалось):

XT (y − y) = XT (y − X β) = 0

В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 5 из 23

Page 8: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Вероятностная интерпретация линейнойрегрессииПредположим, что y нам дан со случайной ошибкойε ∼ N(0, σ2), тогда регрессию можно свести кправдоподобию:

p(y |x , β) =1√2πσ2

e−(y−βT x)2

σ2

Тогда правдоподобие всей выборки выглядит так:

arg maxβ

log p(y|X , β) = arg minβ

∑i

(yi − βTxi

)2значит можно по этой модели использовать ТВиМСдля анализа β.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 6 из 23

Page 9: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:

Var(β) =(XTX

)−1 1m − n − 1

‖y − y‖2

А если еще и предположить, что y = β∗Tx + ε иε ∼ N(0, σ):

β ∼ N(β∗,(XTX

)−1σ2)

а наблюдаемая σ для y распределена по χ2:

(n −m − 1)σ = ‖y − y‖2 ∼ σχ2m−n−1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 7 из 23

Page 10: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

А точно βi 6= 0?

Введем такую штуку (Z -score):

zi =βi

σ√

vi

где vi — диагональный элемент(XTX

)−1. Еслиподумать что βi = 0, то:

zi ∼ Tm−n−1

Чем больше Z -score, тем более мы уверены, что βi 6= 0

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 8 из 23

Page 11: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Теорема Гаусса-Маркова

TheoremЛинейное приближение по MSE обладает наименьшимразбросом из всех несмещенных линейных решений

⇒ для того, чтобы сделать решение болеестабильным надо вводить bias

⇒ простым MSE нам не отделаться, надо будетменять T

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 9 из 23

Page 12: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Расширение на несколько целей

y ∈ Rk

В этом случае задача превращается в такую:

arg minB

tr((Y − XB)T (Y − XB)

)B0 =

(XTX

)−1XTY

Если же y = xTB + ε, ε ∼ N(0,Σ):

arg minB

((Y − XB)T Σ−1(Y − XB)

)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 10 из 23

Page 13: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

План

1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций

2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия

3 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 10 из 23

Page 14: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Классификация

x ∈ Rn, y ∈ {1, . . . , c}

Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 11 из 23

Page 15: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Линейное решение задачиклассификации

Можем пойти по-простому и решить регрессией:

γij =

{1, j = yj0

В терминах предсказания γ решаем:

arg minB

tr((Γ− XB)T (Γ− XB)

)Среди предсказанных xB выбираем максимум.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 12 из 23

Page 16: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Сложности с простым решением

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 13 из 23

Page 17: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Линейный дискриминантный анализ(LDA)Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:

p(j |x) =1√

(2π)n|Σj |e−

12 (x−µj)

T Σ−1j (x−µj)

p(j)p(x)

Если зафиксировать Σ, то границы между классами(djk : p(j |x)

p(k|x) = 1) — прямые!

djk(x) = xT Σ−1(µj − µk)− 12

(µj + µk)T Σ−1(µj − µk) + logp(j)p(x)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 14 из 23

Page 18: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

LDA в пространсве x

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 15 из 23

Page 19: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Аналитическое решение LDA

Можно решать напрямую:

p(j) =mjm ,

µj = 1mj

∑xu:yu=j xu,

Σ = 1m−k

∑kj=1∑

xu:yu=j(xu − µj)(xu − µj)T

Можно EM даже не заморачиваясь одинаковыми Σj

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 16 из 23

Page 20: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Свойства LDA

Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 17 из 23

Page 21: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:

0 = log(

p(j |x)

p(k|x)

)= xTβu

Преобразование справа — logit. Тогда вероятностиможно найти так:

p(j |x) =exTβj

1 +∑

v<c exTβv, j < c

p(c|x) =1

1 +∑

v<c exTβv

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 18 из 23

Page 22: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Оптимизация логистическая регрессия

Вероятности у нас есть, давайте максимизироватьправдоподобие!

arg maxB

∏i

p(yi |xi ,B)

= arg maxB

∑i

logexTβyi

1 +∑

v<c exTβv

Как будем искать?

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 19 из 23

Page 23: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Оптимизация логистической регрессии

Сумма выпуклых — выпукла, будем смотреть накаждую точку в отдельности.

logexTβy

1 +∑

v exTβv

xTβy − log

(1 +

∑v

exTβv

)Левая часть – выпукла, правая часть — комбинациявыпуклой и линейной, выпукла. Градиентный спускспасет отцов!

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 20 из 23

Page 24: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Когда что?

Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 21 из 23

Page 25: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Какое x бывает

Просто фичи:x ∈ Rn

Мономы:u ∈ Rn

x =∏

uj

Произвольные функции:

u ∈ Rn

x : Rn → R

В любом случае мы всегда можем посчитать значениеx по входным параметрам (например u).

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 22 из 23

Page 26: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

План

1 Линейная регрессияСтатистические свойства решенияТеорема Гаусса-МарковаРасширение на несколько целевых функций

2 Линейная классификацияПростая линейная модель и ее вариацииЛинейный дискриминантный анализ (LDA)Логистическая регрессия

3 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 22 из 23

Page 27: Машинное обучение 1, осень 2014: Линейная регрессия. Логистическая регрессия. Линейный дискриминантный

Домашнее задание

SVN, howto.txtДедлайн 31 октябряМы надолго с этим датасетом

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2014 Стр. 23 из 23