26
Лекция 6. Критерии согласия. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 1 / 26

Математическая статистика: Критерии согласия для простых и сложных гипотез

Embed Size (px)

DESCRIPTION

Критерии согласия для простых и сложных гипотез. Критерий Пирсона, критерий Колмогорова, критерий омега квадрат. Критерии нормальности

Citation preview

Page 1: Математическая статистика: Критерии согласия для простых и сложных гипотез

Лекция 6. Критерии согласия.

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2014

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 1 / 26

Page 2: Математическая статистика: Критерии согласия для простых и сложных гипотез

Cодержание

Содержание

1 Критерии согласия для простых гипотезКритерий согласия ПирсонаКритерий согласия КолмогороваКритерий Крамера-Мизеса-СмирноваКритерий Андерсона-Дарлинга

2 Критерий согласия хи-квадрат для сложных гипотез

3 Критерии нормальностиГрафические методыКритерий Жарка-БераКритерий ЛиллиефорсаКритерий Шапиро-Уилка

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 2 / 26

Page 3: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Пирсона

Критерий согласия Пирсона (критерий χ2) для простойгипотезы

Один из типов гипотез — гипотезы согласия. Методы проверки этихгипотез — критерии согласия.

Пусть задана генеральная совокупность ξ, функция распределения Fξ,которой взаимно однозначно соответствует распределениюгенеральной совокупности Pξ, и выборка X[n] = (X1, . . . ,Xn).Пусть проверяется гипотеза согласия H0 : Fξ = F0, при этомпредполагается, что F0(x) известна.Сформулируем альтернативную гипотезу: H1 : Fξ 6= F0.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 3 / 26

Page 4: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Пирсона

Числовую ось разбиваем на r промежутков−∞ = a0 < a1 < . . . < ar =∞, ∆i = (ai−1, ai ], r = 1,∞, r , и построимстатистику χ2:

χ2(X[n]) =r∑

i=1

(ni − np(0)i )2

np(0)i

.

где p(0)i = F0(ai )− F0(ai−1).

Если H0 верна, тогдаχ2(X[n])

d−−−→n→∞

ζ,

где ζ подчиняется распределению хи-квадрат с r − 1 степенямисвободы.Если верна гипотеза H1, то

χ2 п.н.−−−−→n−→∞

∞.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 4 / 26

Page 5: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Пирсона

Выберем вероятность α ∈ (0, 1).

Область (C (r − 1, 1− α),∞), где C (r − 1, 1− α) — квантиль порядка1− α распределения χ2 с r − 1 степенями свободы, являетсякритической для гипотезы H0.

Если χ2(X[n]) > C (r − 1, 1− α), то H0 отклоняется, аесли χ2(X[n]) ≤ C (r − 1, 1− α), то для отклонения нет оснований.

p − value = PH0{η > χ2(X[n])} = 1− Fχ2r−1

(χ2(X[n])

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 5 / 26

Page 6: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Колмогорова

Критерий согласия Колмогорова

Пусть задана генеральная совокупность ξ, функция распределения Fξ,которой взаимно однозначно соответствует распределение Pξ, ивыборка X[n] = (X1, . . . ,Xn).Выдвинем нулевую гипотезу H0 : Fξ = F0, H1 : Fξ 6= F0.Дополнительно наложим ограничение: функция F (x) непрерывна на R.

Рассмотрим статистику Колмогорова:

Dn(X[n]) = supx∈R|F ∗n (x)− F0(x)| . (1)

Если верна гипотеза H0, то Dn(X[n])п.н.−−−→

n→∞0.

Если верна гипотеза H1, т. е. Fξ ≡ G 6= F0, тогда

Dn(X[n])п.н.−−−→

n→∞supx∈R|G (x)− F0(x)| > 0.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 6 / 26

Page 7: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Колмогорова

При условии справедливости гипотезы H0 распределение статистикиDn(X[n]) не зависит от конкретного вида F0.

Лемма 1

Если гипотеза H0 верна, и F0(x) — непрерывная функция на R, тогдараспределение статистики

Dn = supx∈R

∣∣F ∗n (x ; x[n])− F0(x)∣∣

не зависит от закона распределения генеральной совокупности.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 7 / 26

Page 8: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Колмогорова

Можно доказать равенство:

P{supx∈R

∣∣F ∗n (x ,X[n])− F0(x)∣∣ ≤ z} = P{ sup

y∈[0,1]

∣∣F ∗n (y ,Y[n])− y∣∣ ≤ z}.

Последнюю вероятность можно вычислять для различных значений z .Таким образом, для рассматриваемого случая можно построитьточные критические области с заданным уровнем значимостинезависимо от конкретного вида F0(x).Можно найти z1−α для некоторого α. Рассмотрим критическуюобласть (z1−α, 1].

Если статистика (1) попадает в данную область, тогда отвергаем H0 ипринимаем H1.Если Dn ∈ [0, z1−α), тогда принимаем гипотезу H0.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 8 / 26

Page 9: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Колмогорова

При больших n применяется важный асимптотический результат.

Теорема 1 (А.Н. Колмогорова)

Если гипотеза H0 верна, и F0(x) — непрерывная функция на R, тогдаимеет место сходимость:

P{√nDn(X[n]) 6 z} −−−→

n→∞K (z) = 1 + 2

∞∑m=1

(−1)me−2m2z2.

Находим константу d1−α как решение следующего уравнения:

K (d1−α) = 1− α.

Правило проверки гипотез будет следующим.

Если√nDn(X[n]) ∈ (d1−α,∞), тогда гипотеза H0 отвергается,

если√nDn(X[n]) /∈ (d1−α,∞), тогда гипотеза H0 принимается.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 9 / 26

Page 10: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий согласия Колмогорова

Статистику Dn(X[n]) можно вычислить с помощью простоговычислительного алгоритма:

Dn(X[n]) = max16i6n

[i

n− F0(X(i)),F0(X(i))− i − 1

n

],

где X(1) < . . . < X(n) — вариационный ряд, построенный по выборкеX[n].

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 10 / 26

Page 11: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий Крамера-Мизеса-Смирнова

Критерий ω2 (критерий Крамера-Мизеса-Смирнова)

Пусть задана генеральная совокупность ξ с функцией распределенияFξ и выборка X[n] = (X1, . . . ,Xn) из этой генеральной совокупности.Выдвинем нулевую гипотезу H0 : Fξ = F0, при конкурирующейгипотезе H1 : Fξ 6= F0.Статистика критерия имеет вид:

ω2n =

1

12n+

n∑i=1

{F0(X(i))− 2i − 1

2n

}2

,

где X(1) < . . . < X(n) — вариационный ряд, построенный по выборкеX[n].При справедливости гипотезы H0 и непрерывности функции F0

распределение статистики омега-квадрат зависит только от n и независит от F0.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 11 / 26

Page 12: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий Крамера-Мизеса-Смирнова

При малых n имеются таблицы критических точек, а для большихзначений n следует использовать предельное (при n→∞)распределение статистики ω2

n.

Важное с теоретической точки зрения свойство критериев, основанныхна Dn и ω2

n: они состоятельны против любой альтернативной гипотезыFξ 6= F0.Статистический критерий для проверки гипотезы H0 называютсостоятельным против альтернативной гипотезы H1, если вероятностьотвергнуть H0, когда на самом деле верна H1, стремится к 1 принеограниченном увеличении объема наблюдений.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 12 / 26

Page 13: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии согласия для простых гипотез Критерий Андерсона-Дарлинга

Критерий Андерсона-Дарлинга

Пусть задана генеральная совокупность ξ с функцией распределенияFξ и выборка X[n] = (X1, . . . ,Xn) из этой генеральной совокупности.Выдвинем нулевую гипотезу H0 : Fξ = F0, при конкурирующейгипотезе H1 : Fξ 6= F0.Статистика критерия имеет вид

S = −n − 2n∑

i=1

[2i − 1

2nln(F0(x(i))) +

(1− 2i − 1

2n

)ln(1− F0(x(i)))

]Нулевая гипотеза отклоняется на уровне значимости α, если S > Sα,где Sα — критическое значение распределения a2.

Для проверки нормальности распределения существует модификациядля проверки сложной гипотезы.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 13 / 26

Page 14: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерий согласия хи-квадрат для сложных гипотез

Критерий согласия хи-квадрат для сложных гипотез

В критерии согласия хи-квадрат реализуется следующая схема.Выдвигаются гипотезы:

H0: Fξ(x) ≡ F (x) — нулевая гипотеза.H1: Fξ(x) 6= F (x) — альтернативная гипотеза.

В прикладных задачах, как правило, известна не сама функцияраспределения, а параметрическое семейство, которому онапринадлежит: {

F (·/θ) : θ = (θ1, . . . , θl) ∈ Θ ⊂ Rl}.

Таким образом, проверяемая гипотеза принимает вид:

H0 : Fξ ∈{F (·/θ) : θ ∈ Θ ⊂ Rl

}.

Альтернативная гипотеза H1 примет вид: гипотеза H0 не верна.Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 14 / 26

Page 15: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерий согласия хи-квадрат для сложных гипотез

Разобьем числовую ось на k промежутков: ∆1, . . ., ∆k таким образом,что

⋃i ∆i = R, ∆i ∩∆j = ∅, i 6= j .

Получаем набор частот: n1, . . ., nk ,∑k

i=1 ni = n.Каждому промежутку ∆1, . . ., ∆k сопоставим вероятности: p1(θ), . . .,pk(θ).

Теорема 2 (Теорема Фишера)

Пусть Θ – открытое множество в Rl . Пусть выполнены условия:1 Для любого θ ∈ Θ:

∑ki=1 pi (θ) = 1.

2 Для любого θ ∈ Θ: pi (θ) > c > 0 для любого i = 1, k .3 Для любого θ ∈ Θ существуют и непрерывны производные:∂pi (θ)/∂θj , ∂2pi (θ)/(∂θu∂θv ) для любого i = 1, . . . , k ,u, v , j = 1, . . . , l .

4 Для любого θ ∈ Θ матрица(∂pi (θ)∂θj

)i ,j=1,k

имеет ранг l .

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 15 / 26

Page 16: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерий согласия хи-квадрат для сложных гипотез

Пусть θ̂ — оценка, найденная методом максимального правдоподобияпо выборке n1, . . . , nk , т. е. θ̂ = arg max

θ∈ΘL({ni}, θ), где

L({ni}, θ) =n!

n1! · . . . · nk !

k∏i=1

pnii (θ),

или θ̂ — оценка по методу минимума хи-квадрат:

θ̂ = arg minθ∈Θ

k∑i=1

(ni − npi (θ))2

npi (θ).

Тогда, если гипотеза H0 верна, то

χ2(θ̂) =k∑

i=1

(ni − npi (θ̂))2

npi (θ̂)

d−−−→n→∞

ζ ∼ χ2k−l−1.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 16 / 26

Page 17: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерий согласия хи-квадрат для сложных гипотез

Критическая область для гипотезы H0 при использовании статистикиχ2(θ̂) имеет вид: S = (u1−α,k−l−1,∞), где u1−α,k−l−1 — квантильуровня 1− α распределения хи-квадрат с k − l − 1 степенями свободы.Вероятность ошибки первого рода приближенно равна α.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 17 / 26

Page 18: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности

Критерии нормальности

Пусть задана генеральная совокупность ξ, функция распределения Fξи выборка X[n] = (X1, . . . ,Xn).Выдвигаются гипотезы:

нулевая гипотеза H0: ξ ∼ N(a, σ2)

альтернативная гипотеза H1: ξ имеет иное распределение.

Если нулевая гипотеза принимается, то при дальнейшем анализеданных можно использовать более можные параметрические методы,в противном случае стоит воспользоваться непараметрическимиметодами.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 18 / 26

Page 19: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Графические методы

Графические методы

Гистограммы

Стоит обратить внимание на симметричность и куполообразностьграфикаГистограммы информативны при больших объемах выборок

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 19 / 26

Page 20: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Графические методы

QQ-графикиКвантиль-Квантиль график (QQ-plot) показывает взаимосвязь междузначениями наблюдаемых и теоретических квантилей.

Если данные нормальны, то точки графика располагаются вдольпрямой

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 20 / 26

Page 21: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Жарка-Бера

Критерий Жарка-Бера

Проверяемая нулевая гипотеза является сложной. Статистикакритерия Жарка-Бера имеет вид

JB =n

6

(Sk2 +

1

4K 2

),

где

Sk =µ̂3

s3, s2 =

1

n

n∑i=1

(xi − x̄)2, µ̂3 =1

n

∑i = 1n(xi − x̄)3

K =µ̂4

s4− 3, µ̂4 =

1

n

n∑i=1

(xi − x̄)4

При уровне значимости α критическая область S = (C1−α,+∞).

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 21 / 26

Page 22: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Жарка-Бера

Если верна нулевая гипотеза, то статистика JB имеет асимптотическоераспределение χ2 с 2 степенями свободы

JBd−−−→

n→∞ζ ∼ χ2(2)

Следуя данному асимптотическому свойству статистики JB , в качествеC1−α можно взять квантиль распределения χ2 с 2 степенями свободыпорядка 1− α.

Однако при малых n использование квантилей хи-квадрат приведет кбольшой ошибке 1го рода. Асимптотическим свойствам статистикирекомендуется пользоваться при n > 2000.

При малых n рекомендуется моделировать квантили C1−α методомМонте-Карло.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 22 / 26

Page 23: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Лиллиефорса

Критерий Лиллиефорса

Критерий Лиллиефорса - модификация критерия Колмогорова дляпроверки нормальности распределения. При этом проверяемая нулеваягипотеза является сложной.Статистика критерия

D(X[n]) = supx∈R

∣∣F ∗n (x ,X[n])− Φ(x)∣∣ ,

где Φ(x) — функция нормального распределения с параметрами x̄ и s̃2

Распределение статистики критерия при условии выполненеия нулевойгипотезы называется "распределением Лиллиефорса". Оно смещено всторону меньших значений по сравнению с распределениемКолмогорова в силу построения оценок неизвестных парметров по тойже выборке, что сипользуется при проверке нормальности.

Критическая область критерия S = (C1−α,+∞), значения C1−αрассчитываются методом Монте-Карло (либо используютсяспециальные таблицы)

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 23 / 26

Page 24: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Шапиро-Уилка

Критерий Шапиро-Уилка

Проверяемая нулевая гипотеза является сложной. Статистикакритерия Шапиро-Уилка имеет вид

W =1

S2

[t∑

i=1

ai (x(n−i+1) − x(i))

]2

,

где S2 =∑n

i=1(xi − x̄)2,∑ti=1 ai (x(n−i+1) − x(i)) - оценка среднеквадратического отклонения

Ллойда, коэффициенты ai берутся из таблиц, t = n/2 при четном n,t = (n − 1)/2 при нечетном n.

Статистика W при выполнении нулевой гипотезы имеет табличноераспределение.Критические значения статистики Wα также находятся из таблиц.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 24 / 26

Page 25: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Шапиро-Уилка

Если W <Wα, то нулевая гипотеза о нормальности распределенияотклоняется при уровне значимости α.

Приближённая вероятность получения эмпирического значения W приH0 вычисляется по формуле

z = γ + η ln

(W − ε1−W

),

где γ, η, ε — табличные коэффициенты.

Критерий Шапиро-Уилка является наиболее мощным критерием дляпроверки нормальности, но имеет ограниченную применимость.

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 25 / 26

Page 26: Математическая статистика: Критерии согласия для простых и сложных гипотез

Критерии нормальности Критерий Шапиро-Уилка

Большев Л. Н., Смирнов Н. В.Таблицы математической статистики. —М.: Изд. Наука, 1983.

Тюрин Ю. Н., Макаров А. А.Статистический анализ опытных данныхна компьютере. — Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 1998.

Холлендер М., Вулф Д.Непраметрические методы статистики. — М.:Финансы и статистика, 1983. — 518 с.

Greenwood P. E., Nikulin M. S.A Guide to Chi-Squared Testing. New York,John Wiley & Sons, Inc., 1996.

Кобзарь А.И.Прикладная математическая статистика

Грауэр Л.В., Архипова О.А. (CS Center) Критерии согласия... Санкт-Петербург, 2014 26 / 26