32
Статистическое сравнение классификаторов Влад Шахуро Факультет ВМК МГУ им. М.В.Ломоносова Лаборатория КГиМ Семинар Компьютерное зрение 18 февраля 2013 г.

Статистическое сравнение классификаторов

Embed Size (px)

Citation preview

Page 1: Статистическое сравнение классификаторов

Статистическое сравнение классификаторов

Влад Шахуро

Факультет ВМК МГУ им. М.В.ЛомоносоваЛаборатория КГиМ

Семинар «Компьютерное зрение»

18 февраля 2013 г.

Page 2: Статистическое сравнение классификаторов

Постановка задачи

Дано k обученных классификаторов, протестированных на Nнаборов данных. Пусть cj

i — оценка качества j-гоклассификатора на i-м наборе данных. Предполагается, чтооценки качества классификаторов достаточно надежны.

Требуется определить по значениям cji, являются ли результаты

классификаторов статистически различными и, в случае k> 2,определить, какие именно классификаторы отличаются покачеству.

Page 3: Статистическое сравнение классификаторов

Проверка гипотез

X= (X1, . . . , Xn) - данные (выборка)F — совокупность априори допустимых распределений XFX — неизвестное истинное распределение данных, FX ∈ FF0 ⊂F — выделенное множество функций распределения

Задача проверки гипотез: необходимо по данным X проверитьсправедливость утверждения H0 : FX ∈ F0. H0 называетсянулевой гипотезой. Утверждение H1 : FX ∈ F \F0 называетсяальтернативной гипотезой.

Правило, согласно которому мы, наблюдая X, принимаемрешение принять гипотезу H0 как истинную либо принятьальтернативную гипотезу H1, называется статистическимкритерием.

Page 4: Статистическое сравнение классификаторов

Проверка гипотез (продолжение)

P(H1|H0) = α — вероятность ошибки I рода или уровеньзначимости (significance level) критерия

P(H0|H1) = β — вероятность ошибки II рода, 1− β —мощность критерия

На практике обычно стараются выбрать наиболее мощныйкритерий при заданном значении ошибки первого рода.

Page 5: Статистическое сравнение классификаторов

Проверка гипотез (продолжение)

В случае сравнения классификаторов в качестве нулевойгипотезы выступает предположение о том, что всеклассификаторы в некотором роде эквивалентны, в качествеальтернативной гипотезы — предположение о том, что хотя быдва некоторых классификатора неэквивалентны.

Критерии, включающие в себя расчет параметроввероятностного распределения признака, называютсяпараметрическими.

Критерии, основанные на оперировании частотами и рангами,называются непараметрическими.

Page 6: Статистическое сравнение классификаторов

Сравнение двух классификаторов

Простейший способ сравнения множества классификаторов —выделить все возможные пары классификаторов и сравниватькаждую пару классификаторов выбранным критерием.

Page 7: Статистическое сравнение классификаторов

Парный критерий Стьюдента

Пусть c1i , c2

i — результаты двух классификаторов на i-м из Nнаборов данных и di = c2

i − c1i — их разница.

Статистика t= d/σd распределена по закону Стьюдентас N− 1 степенью свободы. Здесь d — среднее арифметическоеразниц результатов, а σd — стандартная ошибка.

t∼ t(N− 1)

Page 8: Статистическое сравнение классификаторов

Парный критерий Стьюдента (продолжение)

Недостатки критерия:É Не работает на несоизмеримых наборах данных,

отвечающих различным проблемам. Можно решить,

поделив разницу на среднее значение качества di =c2i −c1

i

(c1i +c2

i )/2

É Требует, чтобы k был достаточно большим (¾ 30).В противном случае выборка должна быть взята изнормального распределения. Любопытно, что все тесты нанормальное распределение недостаточно мощны при такихразмерах выборки

É Чувствителен к выбросам

Page 9: Статистическое сравнение классификаторов

Критерий Уилкинсона

Проранжируем di по возрастанию модулей. Посчитаем суммырангов результатов на наборах данных, на которых одинклассификатор показал результат лучше другого.

R+ =∑

di>0

rank(di) +1

2

di=0

rank(di)

R− =∑

di<0

rank(di) +1

2

di=0

rank(di)

Введем статистику T =min(R+, R−). Для T при N < 25 естьтаблицы точных критических значений, при больших Nстатистика

z=T− 1

4N(N+ 1)

Æ

124

N(N+ 1)(2N+ 1)

имеет примерно нормальное распределение.

Page 10: Статистическое сравнение классификаторов

Критерий Уилкинсона (продолжение)

Особенности критерия:É Работает на несоизмеримых наборах данныхÉ Устойчив к выбросамÉ Не требует предположений о характере распределения

результатов классификаторовÉ Если выполняются условия для критерия Стьюдента, то

критерий Уилкинсона менее мощен

Page 11: Статистическое сравнение классификаторов

Критерий знаков

Посчитаем количество наборов данных, на которых одинклассификатор превосходит второй. Если гипотезаэквивалентности классификаторов верна, то каждыйклассификатор должен выиграть примерно N/2 раз на Nнаборах данных. Количество побед является случайнойвеличиной, распределенной по биномиальному закону.

При больших N количество побед при условии верностигипотезы распределено по нормальному закону N (N/2,

pN/2).

Тогда для проверки гипотезы эквивалентности можноиспользовать z-тест: если количество побед по меньшей мереравно N/2+

pN, то алгоритм значительно превосходит другой

алгоритм с ошибкой предсказания 5%.

Page 12: Статистическое сравнение классификаторов

Критерий знаков (продолжение)

Особенности критерия:É Применим к любым наборам данных, не требует ни

соизмеримости сложности данных, ни нормальностирезультатов

É Намного слабее критерия Уилкинсона, не отвергаетнулевую гипотезу до тех пор, пока исследуемый алгоритмне превосходит значительно второй алгоритм

Page 13: Статистическое сравнение классификаторов

Биномиальный тест ПуассонаДля алгоритмов A и B на j-м наборе данных посчитаемстатистики kj

10 и kj01:

kj10 =

i

I(A (xi) = yi,B(xi) 6= yi)

kj01 =

i

I(A (xi) 6= yi,B(xi) = yi)

Здесь xi — i-ый объект набора данных, yi — соответствующийему ответ. Определим вектор p= (p1, . . . , pN), где pj —вероятность того, что алгоритм A лучше алгоритма B на j-мнаборе данных:

pj = Bc

1

2, kj

10+ 1, kj01+ 1

Bc(x;α,β) =

∫ x

0

B(t;α,β)dt

Page 14: Статистическое сравнение классификаторов

Биномиальный тест Пуассона (продолжение)

Вероятность того, что алгоритм A лучше алгоритма B насовокупности наборов данных:

P(A �B) =N∑

k=0

qN(k)Bc

1

2, N− k+ 1, k+ 1

qi(k) =

1 при i= 0 и k= 0

0 при k< 0 или k> i

piqi−1(k− 1) + (1− pi)qi−1(k)

qN(k) можно вычислить напрямую за O(N2) времени. Крометого, есть алгоритм, требующий всего O(N log2 N) времени.

Page 15: Статистическое сравнение классификаторов

Сравнение множества классификаторов

Приведенные ранее критерии не были созданы специально дляисследования множества случайный величин. В силу того, чтодля проверки нулевой гипотезы нужно сделать k(k−1)

2сравнений, определенная доля нулевых гипотез отвергаетсяиз-за погрешностей и случайностей.

В статистике существуют методы, специально предназначенныедля тестирования эквивалентности многих случайных величин.

Page 16: Статистическое сравнение классификаторов

ANOVA

В случае множественного сравнения классификаторов выборкаподелена на k групп с N наблюдений в каждой группе.

σ2bg =

N

k− 1

k∑

j=1

(cj− c)2

σ2wg =

1

k(N− 1)

k∑

j=1

N∑

i=1

(cji− cj)2

σbg — межгрупповая дисперсия, σwg —внутригрупповаядисперсия

F =σ2

bg

σ2wg∼F (k− 1, k(N− 1))

Page 17: Статистическое сравнение классификаторов

ANOVA (продолжение)

Для попарного сравнения классификаторов используетсястатистика

T =

pN(ci− cj)Æ

2σ2wg

∼ t(k(N− 1))

Необходимые условия для теста:É Выборки должны быть взяты из нормального

распределенияÉ Равенство дисперсий результатов каждого классификатора

Page 18: Статистическое сравнение классификаторов

Тест Фридмана

Тест Фридмана является непараметрическим аналогом ANOVAПусть rj

i — ранг j-го алгоритма на i-м наборе данных,Rj =

1N

irji — средний ранг j-го алгоритма. Если верна гипотеза

об эквивалентности алгоритмов, их средние ранги такжедолжны быть равны.

Page 19: Статистическое сравнение классификаторов

Тест Фридмана (продолжение)

Введем статистику Фридмана

χ2F =

12N

k(k+ 1)

j

R2j −

k(k+ 1)2

4

χ2F ∼ χ

2(k− 1), k> 5, N > 10

Статистика Фридмана консервативна (т.е. стремится кнедооценке). Можно ввести более надежную статистику

FF =(N− 1)χ2

F

N(k− 1)−χ2F

FF ∼F (k− 1, (k− 1)(N− 1))

Page 20: Статистическое сравнение классификаторов

Тест Фридмана (продолжение)

Если тест Фридмана отвергает нулевую гипотезу, можно ввестинормально распределенную статистику для сравнения i-го иj-го классификаторов:

z=Ri− Rjq

k(k+1)6N

Page 21: Статистическое сравнение классификаторов

Корректировки вероятностей ошибок

В самом простом случае каждая гипотеза, соответствующаяпаре классификаторов, тестируется независимо от всехостальных гипотез. Более хорошие результаты даеттестирование гипотез в совокупности.

Будем контролировать ошибку на семействе гипотез(family-wise error) — вероятность совершить хотя бы однуошибку I рода при сравнении множества пар.

Page 22: Статистическое сравнение классификаторов

Процедуры Nemenyi и Хольма

Nemenyi: значение ошибки α делится на количествопроизведенных сравнений классификаторов m= k(k−1)

2.

Хольм-Бонферрони: пусть p1, . . . , pm — упорядоченныевероятности (p-values) и H1, . . . Hm — соответствующие имгипотезы. Процедура Хольма отвергает гипотезы H1, . . . , Hi−1,если i — минимальное целое число, для которого выполненонеравенство pi > α/(m− i+ 1).

Page 23: Статистическое сравнение классификаторов

Процедура Бергманна и Хоммеля

Множество индексов I ⊆ {1, . . . , m} называется исчерпывающим(exhaustive), если в точности все гипотезы Hj, j ∈ I, могут бытьверными.

Рассмотрим это определение для трех классификаторов.H1 : C1 ∼ C2, H2 : C2 ∼ C3, H3 : C3 ∼ C1

Из 23 возможных сочетаний гипотез исчерпывающимиявляются следующие:É Все гипотезы верныÉ H1 верна, H2 и H3 неверныÉ H2 верна, H1 и H3 неверныÉ H3 верна, H1 и H2 неверныÉ Все гипотезы неверны

Page 24: Статистическое сравнение классификаторов

Процедура Бергманна и Хоммеля (продолжение)

Существует рекурсивный алгоритм перечисления всехисчерпывающих множеств, его сложность — O(2n).

Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj, еслиj 6∈ A

A=⋃

I : I− exhaustive, min�

pi : i ∈ I

> α/|I|

Page 25: Статистическое сравнение классификаторов

Статическая процедура Шеффера

Пусть p1, . . . , pm — упорядоченные вероятности (p-values) иH1, . . . , Hm — соответствующие им гипотезы. Процедураотвергает гипотезы H1, . . . , Hi−1, если i — минимальное целоечисло, для которого выполнено неравенство pi > α/ti, где ti —максимальное число гипотез, которые могут быть верны, приусловии, что какая-то i− 1 гипотеза неверна.

ti ∈ S(k), где S(k) — набор чисел возможных верных гипотезпри k сравниваемых классификаторов.

S(k) =k⋃

j=1

n

C2j + x : x ∈ S(k− j)

o

Page 26: Статистическое сравнение классификаторов

Сравнение критериев

Будем сравнивать мощности критериев косвенно черезследующие параметры:É Количество отвергнутых нулевых гипотезÉ Среднее значение статистики критерия (average p-value,

APV) Чем меньше значение APV, тем больше вероятностьотвергнуть нулевую гипотезу на заданном уровне доверия

É Воспроизводимость результатов — вероятность того, чтодва эксперимента на одной и той же паре алгоритмовдадут одинаковый результат (отвергнут или примутнулевую гипотезу):

R(p) = 1− 2 · var(p) = 1− 2 ·

i(pi− p)2

n− 1

Здесь pi — значение статистики (p-value) на i-миз n экспериментов.

Page 27: Статистическое сравнение классификаторов

Сравнение критериев (продолжение)

При сравнении двух классификаторов сэмплированиепроизводится из нескольких наборов данных так, чтовероятность выбрать i-й набор данных пропорциональна1/(1+ e−kdi), где di — разница точности классификаторов наэтом наборе данных, а k — коэффициент смещенности.

Page 28: Статистическое сравнение классификаторов

Сравнение парных критериев

Слева: k и APV, справа: k и количество отвергнутых нулевыхгипотез

Page 29: Статистическое сравнение классификаторов

Сравнение множественных критериев

Слева: k, APV и R(p), справа: k и количество отвергнутыхнулевых гипотез

Page 30: Статистическое сравнение классификаторов

Сравнение процедур корректировки

Page 31: Статистическое сравнение классификаторов

Резюме

При сравнении классификаторов на реальных данныхнепараметрические критерии более предпочтительны, т.к. онинакладывают меньшие ограничения на выборку результатов.

Для сравнения большого количества классификаторов стоитпользоваться специализированными критериями, например,тестом Фридмана.

Для попарного сравнения классификаторов после того, какотвергнута нулевая гипотеза, стоит пользоватьсякорректировками (post hoc tests), учитывающими зависимостьгипотез друг от друга.

Page 32: Статистическое сравнение классификаторов

Список литературы

Demsar. Statistical Comparison of Classifiers over Multiple DataSets. JMLR 6 (2006).

Garcıa, Herrera. An Extension on «Statistical Comparison ofClassifiers over Multiple Data Sets» for all Pairwise Comparisons.JMLR 9 (2008).

Lacoste, Laviolette, Marchand. Bayesian Comparison of MachineLearning Algorithms on Single and Multiple Datasets. JMLRW&CP 22 (2012).

Ивченко, Медведев. Введение в математическую статистику.

http://statmaster.sdu.dk/courses/st111/module11/index.html

http://en.wikipedia.org/wiki/F-test