69
«Введение в компьютерное «Введение в компьютерное зрение» зрение» Владимир Вежневец, Антон Конушин Александр Вежневец МГУ ВМК, Graphics & Media Lab, Осень 2006

«Введение в компьютерное зрение»

Embed Size (px)

DESCRIPTION

«Введение в компьютерное зрение». Владимир Вежневец, Антон Конушин Александр Вежневец. МГУ ВМК, Graphics & Media Lab, Осень 200 6. План лекции. Деревья классификации Байесовский подход к классификации «Наивный» Байесовский классификатор ( Idiot Bayes ) Нормальный дискриминантный анализ - PowerPoint PPT Presentation

Citation preview

«Введение в компьютерное «Введение в компьютерное зрение» зрение»

Владимир Вежневец, Антон КонушинАлександр Вежневец

МГУ ВМК, Graphics & Media Lab, Осень 2006

План лекцииПлан лекции

Деревья классификацииДеревья классификации

Байесовский подход к классификацииБайесовский подход к классификации «Наивный» Байесовский классификатор («Наивный» Байесовский классификатор (Idiot BayesIdiot Bayes))

Нормальный дискриминантный анализНормальный дискриминантный анализ

Нейронные сетиНейронные сети

Метод опорных векторовМетод опорных векторов

Комитетные методыКомитетные методы BaggingBagging BoostingBoosting

Вопросы с предыдущей Вопросы с предыдущей лекциилекции

Почему не рассказываем про обучение «на лету»?Почему не рассказываем про обучение «на лету»?

Почему же скользящий контроль лучше повторного Почему же скользящий контроль лучше повторного удерживания?удерживания?

Обучение на летуОбучение на лету

Модель:Модель: Множество состояний Множество состояний SS Множество действийМножество действий AA Скалярный «выигрыш»Скалярный «выигрыш» rr

В каждый момент времени В каждый момент времени tt : : Агент получает свое состояние Агент получает свое состояние и набор возможных действий и набор возможных действий Агент выбирает действие Агент выбирает действие и получает «выигрыш»и получает «выигрыш»

Требуется максимизировать выигрышТребуется максимизировать выигрыш Ясно, что выигрыш можно оптимизировать «жадно» и «дальне-Ясно, что выигрыш можно оптимизировать «жадно» и «дальне-

срочно» - определяется задачейсрочно» - определяется задачей

)( tsASst

)( tsAa tr

ОсобенностиОсобенности

Нет готовых ответов, есть «запоздалый выигрышНет готовых ответов, есть «запоздалый выигрыш»» Требует от системы возможности постоянно получать отклик о Требует от системы возможности постоянно получать отклик о

качестве работы (выигрыш);качестве работы (выигрыш); Зачастую, невозможное требование для коммерческих систем Зачастую, невозможное требование для коммерческих систем

компьютерного зрения;компьютерного зрения;

ПрименениеПрименение Игры;Игры; Робот в лабиринте;Робот в лабиринте; Частичная видимость среды;Частичная видимость среды;

Для задач допускающих формулировку в виде задач Для задач допускающих формулировку в виде задач обучения с учителем применение обучения «на лету» обучения с учителем применение обучения «на лету» дает заведомо худший результат!дает заведомо худший результат!

Почему же скользящий контроль лучше Почему же скользящий контроль лучше повторного удерживания?повторного удерживания?

Основной довод скользящего контроля:Основной довод скользящего контроля: Каждый элемент гарантированно попадет в контрольную Каждый элемент гарантированно попадет в контрольную

выборку хотя бы один развыборку хотя бы один раз

Довод 5-2 контроля:Довод 5-2 контроля: Тренировочные выборки абсолютно декоррелированы (не Тренировочные выборки абсолютно декоррелированы (не

пересекаются)пересекаются) КаждыйКаждый прецедент учувствует в тренировке и контроля прецедент учувствует в тренировке и контроля ровноровно по 5 раз по 5 раз

Почему же скользящий контроль лучше Почему же скользящий контроль лучше повторного удерживания?повторного удерживания?

Вероятность пропустить хотя бы один прецедент при Вероятность пропустить хотя бы один прецедент при повторном удерживании:повторном удерживании: - доля прецедентов в контрольной выборке- доля прецедентов в контрольной выборке - количество прецедентов всего- количество прецедентов всего - количество итераций- количество итераций

ПриПри

Вероятность, что прецеденты будут выбраны в Вероятность, что прецеденты будут выбраны в равных долях еще меньше!!!равных долях еще меньше!!!

kP n )1( kn

10;1000;5.0 nk 9766.010005.0 10

)1log(

log

k

Pn

Деревья классификацииДеревья классификации

Classification treesClassification trees

Деревья классификацииДеревья классификацииМодель алгоритмаМодель алгоритма

Двоичное деревоДвоичное дерево Узлы:Узлы:

Помечены некоторым Помечены некоторым предикатом предикатом

Связи:Связи: ПомеченыПомечены

Листья:Листья: Помечены ответами из Помечены ответами из YY

x0

x1 1y

1y 1y

boolX :

false

true

true

false

false

true

*Вопрос: кто помнит, что такое предикат?

Деревья классификацииДеревья классификацииМодель алгоритмаМодель алгоритма

Выходом классификатора Выходом классификатора является значение листа, является значение листа, полученного при обходе:полученного при обходе:

Начинаем от корняНачинаем от корня Переходим в тот узел, в Переходим в тот узел, в

который ведет связь который ведет связь помеченная значением помеченная значением предиката в текущем узлепредиката в текущем узле

Заканчиваем, попав в листЗаканчиваем, попав в лист

x0

x1 1y

1y 1y

true

false

false

true

xay

ПримерПример

ВАЖНО: каждый лист определяет собой область пространства Х

Деревья классификацииДеревья классификацииПример работыПример работы

?6x

?3x 1y

1y 1y

true

false

false

true

5x

1)( xa

Деревья классификацииДеревья классификацииМодель алгоритма: пространство поискаМодель алгоритма: пространство поиска

Количество ветвлений - сильно влияет на сложность алгоритма Количество ветвлений - сильно влияет на сложность алгоритма и соответственно на размерность Вапника-Червоненкиса и и соответственно на размерность Вапника-Червоненкиса и склонность к переобучениюсклонность к переобучению

Предикаты – обычно, используются пороги по проекциям на оси Предикаты – обычно, используются пороги по проекциям на оси координат (на элементы вектора признаков)координат (на элементы вектора признаков)

j

jm

xfalse

xtruexxx

,

,),...( 0

Деревья классификацииДеревья классификацииМетод обученияМетод обучения

Введем меру «неоднородности» для листа дереваВведем меру «неоднородности» для листа дерева Пусть, при обходе дерева до вершины Пусть, при обходе дерева до вершины m m из тренировочной из тренировочной

выборке «доходят» выборке «доходят» NNmm прецедентов;прецедентов;

Из них Из них NNmmyy прецедентов принадлежат классу прецедентов принадлежат классу yy

Пусть, Пусть,

Тогда «неоднородность» листа Тогда «неоднородность» листа mm - -

y

ym

ymm pp 2logI

m

ymy

m N

NpmyP ,| x

Деревья классификацииДеревья классификацииМетод обученияМетод обучения

Пусть, дана обучающая выборка Пусть, дана обучающая выборка

Строим от корня:Строим от корня: Если текущая вершина однородная, то она лист; алгоритм Если текущая вершина однородная, то она лист; алгоритм

останавливаетсяостанавливается Если же нет, делаем разбиение, минимизирующие Если же нет, делаем разбиение, минимизирующие

«неоднородность»«неоднородность» Для каждой из получившихся вершин повторяем процедуруДля каждой из получившихся вершин повторяем процедуру

N

iii yxT 1),(

ОсобенностиОсобенности

ПлюсыПлюсы Просто и наглядноПросто и наглядно

Легко анализируемоЛегко анализируемо

Быстро работаетБыстро работает

Легко применяется для Легко применяется для задач со множеством задач со множеством классов и к регрессииклассов и к регрессии

МинусыМинусы Плохо аппроксимирует Плохо аппроксимирует

сложные поверхностисложные поверхности

В общем случае, требует В общем случае, требует сложных алгоритмов сложных алгоритмов «обрезания» для контроля «обрезания» для контроля сложностисложности

ИллюстрацияИллюстрация

Верный источник как Недо- так пере-обучения!

Байесовская стратегия Байесовская стратегия классификацииклассификации

Bayesian classificationBayesian classification

Статистическая формулировкаСтатистическая формулировка

Пусть – вероятностное пространствоПусть – вероятностное пространство Пусть мера пространства Пусть мера пространства PP

Множество прецедентов выбрано случайно и Множество прецедентов выбрано случайно и независимо согласно распределению независимо согласно распределению PP (случайная (случайная выборка); для них известны ответывыборка); для них известны ответы

Требуется построить отображениеТребуется построить отображение

X

lX

YXa :

Статистическая формулировкаСтатистическая формулировкаБинарная классификацияБинарная классификация

Эмпирический риск:Эмпирический риск:

Общий риск:Общий риск:

рассчитать невозможнорассчитать невозможно требуется минимизироватьтребуется минимизировать

l

i

llEmp yxa

lXyxaPXaR

1

])([1

|)(),(

X

dxyxaxPXyxaPXaR )()(|)(),(

Байесовский Байесовский классификаторклассификатор Предположения:Предположения:

Известна функция правдоподобия:Известна функция правдоподобия: Известны априорные вероятности:Известны априорные вероятности:

Принцип максимума апостериорной вероятности:Принцип максимума апостериорной вероятности:

yxP |)(),( xPyP

)(

)()|(|maxarg)(

xP

yPyxPxyPxa

Yy

Вероятность класса

Вероятность наблюдения

Правдоподобие – условная вероятность

наблюдения

Формула Байеса

Пример:Пример:Какова вероятность увидеть на Какова вероятность увидеть на улице динозавра?улице динозавра?

Идя по улице вы видите такую сцену:Идя по улице вы видите такую сцену:

)(

)()|(|

xP

yPyxPxyP

Правдоподобие – Правдоподобие – вероятность того, что будь вероятность того, что будь это действительно это действительно динозавр наблюдение динозавр наблюдение было бы такимбыло бы таким

Априорная Априорная вероятность встретить вероятность встретить динозаврадинозавра

Априорная Априорная вероятность увидеть вероятность увидеть такую сценутакую сцену

(это и есть наблюдение х)(это и есть наблюдение х)

Вычислим вероятность того, Вычислим вероятность того, что наблюдая такую сцены что наблюдая такую сцены мы действительно видим мы действительно видим динозаврадинозавра

Пример:Пример:Какова вероятность увидеть на Какова вероятность увидеть на улице динозавра?улице динозавра?

)(

)()|(|

xP

yPyxPxyP

Правдоподобие – Правдоподобие – вероятность того, что будь вероятность того, что будь это действительно это действительно динозавр наблюдение динозавр наблюдение было бы такимбыло бы таким

Априорная Априорная вероятность встретить вероятность встретить динозаврадинозавра

Априорная Априорная вероятность увидеть вероятность увидеть такую сценутакую сцену

Пусть : 1.0xP 000001.0yP 7.0| yxP

%10000

7000007.0

1.0

0000001.07.0|

xyP

Свойства классификатораСвойства классификатора

Модель алгоритма и метод обучение строго не Модель алгоритма и метод обучение строго не определены (не нужны даже обучающая выборка) – определены (не нужны даже обучающая выборка) – классификатор строится непосредственно по классификатор строится непосредственно по функциям априорных вероятностей и правдоподобия функциям априорных вероятностей и правдоподобия данным «свыше»данным «свыше»

Дает Дает наименьший наименьший общий риск (состоятелен)общий риск (состоятелен) при при выполнении предположенийвыполнении предположений

Практическое применениеПрактическое применение

На практике, функция правдоподобия и априорные На практике, функция правдоподобия и априорные вероятности обычно не известны;вероятности обычно не известны;

Для применения Байесвокого подхода на практике Для применения Байесвокого подхода на практике требуется каким либо образом их оценитьтребуется каким либо образом их оценить Зачастую, предполагается что объекты принадлежат какому-Зачастую, предполагается что объекты принадлежат какому-

то статистическому распределению, параметры которого то статистическому распределению, параметры которого оцениваются на обучающей выборке;оцениваются на обучающей выборке;

Априорные оценки так же вычисляются на обучающей Априорные оценки так же вычисляются на обучающей выборкевыборке

«Наивный» Байесовский «Наивный» Байесовский классификаторклассификатор

Пусть, множество Пусть, множество X X является конечнымявляется конечным Множество цветов в системе Множество цветов в системе RGBRGB Набор логических атрибутов (наличие в письме того или Набор логических атрибутов (наличие в письме того или

иного слова)иного слова)

Для каждого значения из Для каждого значения из XX по обучающей выборке по обучающей выборке оценим функцию правдоподобияоценим функцию правдоподобия

Так же, оценим априорную вероятности Так же, оценим априорную вероятности

yxP |

)(yP

1)1()1|(

)1()1|(,1

1)1()1|(

)1()1|(,1

)(

PxP

PxPPxP

PxP

xa

«Наивный» Байесовский «Наивный» Байесовский классификаторклассификаторСегментация кожиСегментация кожи

Для всех возможных Для всех возможных цветов по обучающей цветов по обучающей выборке строится выборке строится таблица правдоподобия таблица правдоподобия и рассчитывается и рассчитывается априорная вероятностьаприорная вероятность

Нормальный Нормальный дискриминантный анализдискриминантный анализ

Normal discriminant analyzesNormal discriminant analyzes

Нормальный Нормальный дискриминантный анализдискриминантный анализ Предположения:Предположения:

Функции правдоподобия имеют нормальное распределение:Функции правдоподобия имеют нормальное распределение:

Дана обучающая выборка прецедентов (случайных и Дана обучающая выборка прецедентов (случайных и независимых)независимых)

yy

Ty

y

n

yy

xx

NyxP

1

21

2 2

1exp

2

1

),()|(

lX

Нормальное распределениеНормальное распределение

Поверхность, на которой Поверхность, на которой точки имеют равную точки имеют равную вероятность представляет вероятность представляет собой эллипсоидсобой эллипсоид

Мат. ожидание – центр Мат. ожидание – центр эллипса, ковариационная эллипса, ковариационная матрица – матрица матрица – матрица поворота и растяжения поворота и растяжения (задает оси эллипса)(задает оси эллипса)

Расчет разделяющей Расчет разделяющей поверхностиповерхности Обозначим:Обозначим:

Запишем уравнение разделяющей поверхности (на Запишем уравнение разделяющей поверхности (на этой поверхности вероятности равны):этой поверхности вероятности равны):

Распишем:Распишем:

yxPxpyPP yy |)();(

0)/ln()(ln)(ln

);()(

1111

1111

PPxpxp

xpPxpP

С=const(x)

yyT

yyy xxn

xp 1ln2

12ln

2)(ln

Расчет разделяющей Расчет разделяющей поверхностиповерхности

yyT

yyy xxn

xp 1ln2

12ln

2)(ln

1

1

11

11 PP 11 PP)(2

,)()ˆ(

11

111

Cx yT

Расчет разделяющей Расчет разделяющей поверхностиповерхности

yyT

yyy xxn

xp 1ln2

12ln

2)(ln

11

Поверхность становится квадратичной!

Модель алгоритмаМодель алгоритма

Классификатор строится в виде некоторой Классификатор строится в виде некоторой поверхности, отвечающей принципу максимума поверхности, отвечающей принципу максимума апостериорной вероятностиапостериорной вероятности

Поверхность зависит только от параметров Поверхность зависит только от параметров распределений – пространство поиска распределений – пространство поиска

)(

)()|(|maxarg)(

xP

yPyxPxyPxa

Yy

xN yyy

),(maxarg}1,1{

1111 ,,,

Метод обученияМетод обучения

Для построения классификатора требуется по Для построения классификатора требуется по обучающей выборке оценить параметры обучающей выборке оценить параметры распределенийраспределений

С учётом их случайности и независимости, можно С учётом их случайности и независимости, можно применять стандартный механизм оценки применять стандартный механизм оценки параметров из математической статистикипараметров из математической статистики Например, метод максимального правдоподобияНапример, метод максимального правдоподобия

Свойства классификатораСвойства классификатора

В случае точной оценки параметров распределений В случае точной оценки параметров распределений и априорных вероятностей является Байесовским и априорных вероятностей является Байесовским (дает минимум общего риска);(дает минимум общего риска);

Строит простую для вычисления поверхность Строит простую для вычисления поверхность (линейную или квадратичную);(линейную или квадратичную);

Делает сильное предположение о нормальности Делает сильное предположение о нормальности распределенийраспределений В случае невыполнения предположений даёт В случае невыполнения предположений даёт

непредсказуемый результатнепредсказуемый результат

Советы по практическому Советы по практическому применениюприменению Проверить классы на нормальность!Проверить классы на нормальность!

Хи-квадрат статистикаХи-квадрат статистика

В случае наличия выбросов использовать робастные В случае наличия выбросов использовать робастные оценкиоценки MLESAC MLESAC

Аккуратно оценить априорные вероятностиАккуратно оценить априорные вероятности

Развитие методаРазвитие метода

Обобщение на множество классовОбобщение на множество классов

Введение рискаВведение риска

Нейронные сетиНейронные сети

Neural NetworksNeural Networks

Нейоронные сетиНейоронные сети

Предпосылка:Предпосылка: Известно, что биологические системы (люди, животные) Известно, что биологические системы (люди, животные)

прекрасно справляются со сложными задачами прекрасно справляются со сложными задачами распознавания образов;распознавания образов;

Основная идея:Основная идея: Применить знания о работе мозга (людей, животных) для Применить знания о работе мозга (людей, животных) для

решения задач распознавания образов;решения задач распознавания образов;

Биологические нейронные Биологические нейронные сетисети 1872-1895 гг.1872-1895 гг.

Понятие нейрона и Понятие нейрона и нейронной сети;нейронной сети;

Первые предположения о Первые предположения о принципе работы;принципе работы;

Биологический нейронБиологический нейрон

Биологический нейронБиологический нейрон

Биологический нейронБиологический нейронПередача импульсаПередача импульса

ДендритыНапример, могут

быть присоединены к рецепторам Аксон

Может быть присоединен к

мышцам

Нейронная сетьНейронная сеть

Совокупность соединенных Совокупность соединенных между собой нейронов;между собой нейронов;

Сеть осуществляет Сеть осуществляет преобразование входного преобразование входного сигнала с рецепторов в сигнала с рецепторов в выходной, являющейся выходной, являющейся реакцией организма на реакцией организма на внешнюю средувнешнюю среду

Модель кибернетического Модель кибернетического нейронанейрона

McCulloch, W. and Pitts, W. (1943)

1x2x

...

dx

1w

2w

...

dw

fy

Вхо

дно

й с

игн

ал

Синаптическиевеса

Блок суммирования

Блокпреобразования

Выходнойсигнал

d

i

ii xwfy

1

Персептрон РозенблатаПерсептрон РозенблатаМодель алгоритмаМодель алгоритма

...

Вхо

дно

й с

игн

ал

Слой нейронов

1y

y

3y

4y

10 x

1x

dx

Функция преобразования - линейная

Порог

Выходной сигнал

2y

Кибернетический нейрон

Rosenblatt (1962) *Вопрос: зачем x0 ?

Персептрон РозенблатаПерсептрон РозенблатаМодель алгоритмаМодель алгоритма

СвойстваСвойства Линейная классификацияЛинейная классификация

Легко обобщается на Легко обобщается на множество классовмножество классов

?

d

i

ii xwwy

10

Персептрон РозенблатаПерсептрон РозенблатаМетодМетод обученияобучения

Пусть дана обучающая выборка Пусть дана обучающая выборка Пусть, матрица есть матрица весов, где элемент есть вес Пусть, матрица есть матрица весов, где элемент есть вес

связи нейрона связи нейрона jj и входа и входа ii Проинициализируем, случайными малыми значениямиПроинициализируем, случайными малыми значениями

Для Для Пусть, на входной образ сеть дает ответ Пусть, на входной образ сеть дает ответ Вычисляем ошибкуВычисляем ошибку Правим весаПравим веса Повторяем, пока ошибка не будет меньше некоторого Повторяем, пока ошибка не будет меньше некоторого

малого числамалого числа

W ijW

)0( tW

,...2,1t

N

iii yxT 1),(

Txi iyy ~

yyi~

ixtWtW )()1(

Персептрон РозенблатаПерсептрон РозенблатаМетодМетод обученияобучения

Особенности обученияОсобенности обучения Прецеденты выучиваются по очередиПрецеденты выучиваются по очереди Оптимизируется эмпирический рискОптимизируется эмпирический риск Процесс сходится к некоторому локальному минимумуПроцесс сходится к некоторому локальному минимуму Зависит от начальной точкиЗависит от начальной точки

Многослойный персептронМногослойный персептрон

10 x jx dx

10 z

hz

ihv

iy

hjw

d

j hj

hj

Thh

H

hi

hih

Tii

wxw

z

vzvy

1 0

10

exp1

1

sigmoid xw

zv

Rumelhart et al. (1986)

Настройка методом обратного Настройка методом обратного распространения ошибкираспространения ошибкиОсновная идеяОсновная идея

Ошибку на последнем слое можно рассчитать явноОшибку на последнем слое можно рассчитать явно

Ошибку на промежуточном слое, распространим с Ошибку на промежуточном слое, распространим с последнего с текущими весамипоследнего с текущими весами

Фактически, сеть запускается «наоборот» и вместо сигнала Фактически, сеть запускается «наоборот» и вместо сигнала распространяется ошибкараспространяется ошибка

Для её минимизации применяется градиентный спускДля её минимизации применяется градиентный спуск

Подробнее http://cgm.graphicon.ru/content/view/57/66/Подробнее http://cgm.graphicon.ru/content/view/57/66/

Многослойный персептронМногослойный персептрон

10 x jx dx

10 z

hz

ihv

iy

hjw

d

j hj

hj

Thh

H

hi

hih

Tii

wxw

z

vzvy

1 0

10

exp1

1

sigmoid xw

zv

Rumelhart et al. (1986)

hj

h

h

i

ihj w

z

z

y

y

E

w

E

Производная ошибки по весу

Проблема локальных Проблема локальных минимумовминимумов

Идеальный классификатор(глобальный минимум)

Локально оптимальны классификатор(локальный минимум)

ОсобенностиОсобенности

ПлюсыПлюсы УниверсальностьУниверсальность

Возможность решать Возможность решать задачи со множеством задачи со множеством классов, регрессии и т.д.классов, регрессии и т.д.

Высокая степень Высокая степень параллельностипараллельности

Почти неограниченный Почти неограниченный простор для модификацийпростор для модификаций

МинусыМинусы Грубая минимизация Грубая минимизация

эмпирического рискаэмпирического риска

Проблема локальных Проблема локальных минимумовминимумов

Очень большая Очень большая склонность к склонность к переобучениюпереобучению

Где почитать подробней:Где почитать подробней:

Вежневец А. «Популярные нейросетевые архитектуры» сетевой Вежневец А. «Популярные нейросетевые архитектуры» сетевой журнал «Графика и Мультимедиа»журнал «Графика и Мультимедиа» http://cgm.graphicon.ru/content/view/57/66/http://cgm.graphicon.ru/content/view/57/66/

Вежневец А. «Нестандартные нейросетевые архитектуры» Вежневец А. «Нестандартные нейросетевые архитектуры» сетевой журнал «Графика и Мультимедиа»сетевой журнал «Графика и Мультимедиа» http://cgm.graphicon.ru/content/view/62/66/http://cgm.graphicon.ru/content/view/62/66/

Ресурс Сергея Терехова посвященный нейронным сетям Ресурс Сергея Терехова посвященный нейронным сетям http://alife.narod.ru/lectures/index.htmlhttp://alife.narod.ru/lectures/index.html

Нейронные сетиНейронные сетиПрактическое применениеПрактическое применение

В свое время, пользовались большой популярностью за счет В свое время, пользовались большой популярностью за счет универсальности и простоты примененияуниверсальности и простоты применения ( (фактически, первое фактически, первое семейство универсальных методовсемейство универсальных методов)) Фактически, нейронной сети можно было скормить все что угодно и Фактически, нейронной сети можно было скормить все что угодно и

она что-то выдавалаона что-то выдавала

Однако, нейронные сети во многом являются «дилетантским» Однако, нейронные сети во многом являются «дилетантским» подходом к машинному обучению и с точки зрения теории (и подходом к машинному обучению и с точки зрения теории (и экспериментальных замеров) представляют собой очень экспериментальных замеров) представляют собой очень ненадежный и неточный механизмненадежный и неточный механизм

Метод опорных векторовМетод опорных векторов

Support Vector MachineSupport Vector Machine

SVMSVM1. Максимизация отступа1. Максимизация отступа

Прямых, разделяющих точки,может быть множество

А почему бы не брать ту, которая равно и максимально удалена от обоих классов?

SVMSVM2. Опорные вектора2. Опорные вектора

Измениться ли разделяющаяповерхность?

Прецеденты, которые нельзя убратьбез изменения поверхности

SVMSVMСлучай линейной разделимостиСлучай линейной разделимости

Задача формулируется как поиск Задача формулируется как поиск гиперплоскости максимально от гиперплоскости максимально от выпуклой оболочки классоввыпуклой оболочки классов

Как выяснилось, такую Как выяснилось, такую гиперплоскость всегда можно гиперплоскость всегда можно записать в виде линейной записать в виде линейной комбинации «опорных векторов» комбинации «опорных векторов» - прецедентов, принадлежащих - прецедентов, принадлежащих выпуклой оболочкевыпуклой оболочке

SVMSVMСлучай линейной разделимостиСлучай линейной разделимости

Задачу поиска такой Задачу поиска такой гиперплоскости можно гиперплоскости можно записать как задачу записать как задачу оптимизации:оптимизации:

2

2

1minarg ww

1 bxwy ii

Чисто геометрическая задача

Глобальный минимумнаходится методом

квадратичного программирования

SVMSVMСлучай линейной разделимостиСлучай линейной разделимости

ПлюсыПлюсы Глобальный минимумГлобальный минимум

Теоретически доказана Теоретически доказана минимальность оценки минимальность оценки общего риска (Вапник)общего риска (Вапник)

Требует знания только Требует знания только скалярных произведенийскалярных произведений

МинусыМинусы Работает только для Работает только для

линейно разделимых линейно разделимых классовклассов

SVMSVMСлучай шумаСлучай шума

Просто переформулируем Просто переформулируем оптимизационную задачу, оптимизационную задачу, допустив ошибку, но штрафуя допустив ошибку, но штрафуя за неё:за неё:

i

iCww 2

21minarg

iii bxwy 1

Регулирует баланс точности и толерантности

SVMSVMСлучай нелинейной разделимостиСлучай нелинейной разделимости

0x

1x

20x

1x

SVMSVMСлучай нелинейной разделимостиСлучай нелинейной разделимости

Идея «ядровых» Идея «ядровых» преобразований:преобразований: Отобразить данные в Отобразить данные в

пространство, в котором пространство, в котором разделяющая поверхность разделяющая поверхность будет линейной (или близкой будет линейной (или близкой к линейной)к линейной)

Ядровые преобразования Ядровые преобразования можно быстро вычислять для можно быстро вычислять для скалярных произведений, скалярных произведений, даже при бесконечной даже при бесконечной размерности целевого размерности целевого пространствапространства

0),'exp()',(

)'()',(2

xxxxK

xxxxK d

SVMSVM

ПлюсыПлюсы Однозначность решения Однозначность решения

(глобальный минимум)(глобальный минимум)

Теоретически доказана Теоретически доказана минимальность оценки минимальность оценки общего риска (Вапник)общего риска (Вапник)

При помощи ядровых При помощи ядровых преобразований преобразований обобщается на случай обобщается на случай сложных поверхностейсложных поверхностей

МинусыМинусы Требует подбора Требует подбора

множества параметров множества параметров (ядро, параметры ядра, (ядро, параметры ядра, штраф за ошибки)штраф за ошибки)

Теор. оценки верны Теор. оценки верны только для случая только для случая разделимости (схема со разделимости (схема со штрафами - эвристика)штрафами - эвристика)

Очень чувствителен к Очень чувствителен к нормализации данных!нормализации данных!

SVMSVMПрактическое применениеПрактическое применение

Метод являлся наилучшим методом классификации до, Метод являлся наилучшим методом классификации до, примерно, 2000 года наголову обгоняя нейронные сети и т.п.примерно, 2000 года наголову обгоняя нейронные сети и т.п.

Фактически, метод опорных векторов – практический выход Фактически, метод опорных векторов – практический выход теории Вапника-Червоненкисатеории Вапника-Червоненкиса

Однако, необходимость подбора большого числа не Однако, необходимость подбора большого числа не интуитивных параметров сильно снижала его применение в интуитивных параметров сильно снижала его применение в простых разработках (требовала наличия эксперта)простых разработках (требовала наличия эксперта)

Коммитетные методыКоммитетные методы

Classifier ensemblesClassifier ensembles