30
Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 1 / 30

Математическая статистика: Критерии о независимости

Embed Size (px)

DESCRIPTION

Критерии о независимости, коэффициенты корреляции Пирсона, Кендала, Спирмана, ранговый коэффициент корреляции, каппа Коэна. Проверка независимости двух номинальных признаков, таблицы сопряженности, критерий хи-квадрат, критерий Фишера.

Citation preview

Page 1: Математическая статистика: Критерии о независимости

Лекция 8. Непараметрические критериинезависимости. Корреляционный анализ

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2014

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 1 / 30

Page 2: Математическая статистика: Критерии о независимости

Cодержание

Содержание

1 Таблицы сопряженностиКритерий χ2

Точный критерий Фишера

2 Корреляционный анализКоэффициент корреляции ПирсонаКоэффициенты ранговой корреляции Спирмена и КенделлаКаппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 2 / 30

Page 3: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Таблицы сопряженности

Определение 1В номинальных шкалах измерения представляют собой метки,обозначающие принадлежность измерения определенной градацииизмеряемого признака. Никаких содержательных соотношений кромеx = y или x 6= y между значениями в этих шкалах нет.

Для проверки независимости качественных признаков A и B , то есть,признаков, измеряемых в номинальных шкалах, применяются таблицысопряженности.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 3 / 30

Page 4: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Пусть имеется два качественных признака A и B . Признак A имеет rградаций: A1, . . . ,Ar , признак B имеет s градаций B1, . . . ,Bs . Повыборке из n случайно выбранных объектов можно составить таблицусопряженности:

B1 B2 . . . Bs

A1 n11 n12 . . . n1s m1

A2 n21 n22 . . . n2s m2

. . . . . . . . . . . . . . .

Ar nr1 nr2 . . . nrs mr

n1 n2 . . . ns n

где nij — количество элементов в выборке, обладающих одновременносвойствами Ai и Bj . Приведенная таблица называется таблицейсопряженности.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 4 / 30

Page 5: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Справедливы равенства:

r∑i=1

nij = nj ,s∑

j=1

nij = mi ,

s∑j=1

nj =r∑

i=1

mi = n.

Пусть pi = P(Ai ), i = 1, . . . , r и qj = P(Bj), j = 1, . . . , s.При этом,

∑ri=1 pi = 1,

∑sj=1 qj = 1.

Признаки A и B называются независимыми, если при любых i и jвыполняется равенство:

pij = P(Ai ∩ Bj) = piqj .

Очевидно, что∑r

i=1 pij = qj ,∑s

j=1 pij = pi .

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 5 / 30

Page 6: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Сформулируем гипотезу независимости и альтернативную ей гипотезу:

H0: P(Ai ∩ Bj) = piqj для любых i , j .H1: существует пара (i , j) такая, что P(Ai ∩ Bj) 6= piqj .

Гипотеза H0 представляет собой гипотезу независимости двухпризнаков.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 6 / 30

Page 7: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Построим статистику хи-квадрат.

χ2 =r∑

i=1

s∑j=1

(nij − npiqj)2

npiqj.

Для этого найдем оценки максимального правдоподобия по выборкечастотМаксимизируя ln L по p1, . . . , pr , q1, . . . , qs , где

L =n!∏

i=1,rj=1,s

nij !

∏i=1,rj=1,s

(piqj)nij ,

при ограничениях∑r

i=1 pi = 1 и∑s

j=1 qj = 1 получим следующиеоценки:

pi =mi

n, i = 1, . . . , r , qj =

njn, j = 1, . . . , s.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 7 / 30

Page 8: Математическая статистика: Критерии о независимости

Таблицы сопряженности Критерий χ2

Статистика χ2 для данной задачи после подстановки оценок методамаксимального правдоподобия имеет вид:

χ2 =r∑

i=1

s∑j=1

(nij −minjn )2

minjn

d−→ ζ ∼ χ2(s−1)(r−1).

Число степеней свободы в предельном распределении хи-квадрат всоответствии с теоремой Фишера вычисляется какrs − (r − 1)− (l − 1)− 1 = (r − 1)(s − 1).

Большие значения статистики хи-квадрат свидетельствуют противнулевой гипотезы H0.Получаем критерий для проверки гипотезы H0:

Если χ2 > χ2кр, то отвергаем гипотезу H0 в пользу альтернативной

гипотезы H1, где χ2кр представляет собой квантиль уровня 1− α

распределения хи-квадрат с (s − 1)(r − 1) степенями свободы.Если χ2 6 χ2

кр, то принимаем гипотезу H0.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 8 / 30

Page 9: Математическая статистика: Критерии о независимости

Таблицы сопряженности Точный критерий Фишера

Точный критерий Фишера

Пусть имеется два качественных признака A и B . Признаки A и Bимеют по 2 градации: A1,A2 и B1,B2, соответственно. По выборке из nслучайно выбранных объектов можно составить таблицусопряженности 2x2 T0:

B1 B2 суммаA1 n011 n012 m1

A2 n021 n022 m2

сумма n1 n2 n

Требуется проверить нулевую гипотезу о независимости признаков A иB .Критерий χ2 применим, если ожидаемые значения в любой из клетоктаблицы сопряженности не меньше 5. Когда это условие невыполняется, например, число наблюдений невелико, применяютточный критерий Фишера.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 9 / 30

Page 10: Математическая статистика: Критерии о независимости

Таблицы сопряженности Точный критерий Фишера

Точный критерий Фишера основан на переборе всех возможныхвариантов заполнения таблицы сопряжженности Ti призафикисрованных значениях m1, m2, n1, n2.

B1 B2 суммаA1 ni11 ni12 m1

A2 ni21 ni22 m2

сумма n1 n2 n

Вероятность получить некоторую таблицу Ti равна

Pi =C

ni11m1 C

ni21m2

Cn1n

=m1!m2!n1!n2!

n!ni11!ni12!ni21!ni22!(1)

Двусторонний вариант точного критерия Фишера основан на расчетевероятности

P =∑

Ti :Pi≤P0,i 6=0

Pi + P0.

где P0 — вероятность получить исходную таблицу T0, Pi — таблицу Ti

при зафикисрованных значениях m1, m2, n1, n2.Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 10 / 30

Page 11: Математическая статистика: Критерии о независимости

Таблицы сопряженности Точный критерий Фишера

Если вероятность P не превосходит уровень значимости α, тогданулевую гипотезу о независмости признаков отклоняют. В противномслучае нет оснований отклонять нулевую гипотезу.

Правила использования точного критерия Фишера:1 Вычислите вероятность получить исходную таблицу2 Постройте все возможные варианта заполнения таблицы при

неизменных суммах по строкам и столбцам. (Для этого в однойиз клеток проставляют все целые числа от 0 до максимальновозможного, пересчитывая числа в остальных клетках так, чтобысуммы по столбцам и строкам оставались неизменными)

3 Вычислите вероятности для полученных таблиц4 Просуммируйте вероятность получить исходную таблицу и все

вероятности, которые не превышают ее.5 Примите статистическое решение

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 11 / 30

Page 12: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона применяется к данным,измеренным в шкале отношений.

Определение 2Шкалой отношений называют такую шкалу с непрерывныммножеством числовых значений, в которой о двух сопоставляемыхобъектах можно сказать не только, одинаковы они или различны, нетолько, в каком из них признак выражен сильнее, но и во сколько разсильнее этот признак выражен.

Предположим, что есть генеральная совокупность, каждый элементкоторой обладает двумя количественными признаками. Еслислучайным образом извлекать объекты, то пусть ξ — значение,которое принимает первый признак, η — значение, которое принимаетвторой признак. Величины ξ и η — случайные.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 12 / 30

Page 13: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициент корреляции Пирсона

Корреляция случайных величин ξ и η выражается следующейформулой:

ρ(ξ, η) =cov(ξ, η)√Dξ√Dη

.

Если случайные величины ξ и η независимы, то корреляция равнанулю. Обратное утверждение, вообще говоря, неверно.Если |ρ| = 1, то существует линейная связь между величинами ξ и ηтакая, что η = a + bξ.

Получим оценку коэффициента корреляции — выборочныйкоэффициент корреляции Пирсона, который определяетсявыражением:

rX ,Y =

1n

n∑i=1

(Xi − X )(Yi − Y )

sX sY,

где s2X = 1n

∑ni=1(Xi − X )2, s2Y = 1

n

∑ni=1(Yi − Y )2.

Здесь предполагается, что задана двумерная выборка: (X1,Y1), . . .,(Xn,Yn).

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 13 / 30

Page 14: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициент корреляции Пирсона

Случай совместного нормального распределения

Если вектор (ξ, η)T подчиняется совместному нормальномураспределению с вектором математических ожиданий a = (a1, a2)T иковариационной матрицей (

σ21 σ1σ2ρσ1σ2ρ σ22

)то корреляция случайных величин ξ и η равна нулю тогда и толькотогда, когда эти случайные величины взаимно независимы, σ21 = Dξ,σ22 = Dη.Сформулируем гипотезы:

H0: ρ = 0 — гипотеза о независимости.H1: ρ > 0.H ′1: ρ < 0.H ′′1 : ρ 6= 0 — двусторонняя альтернатива.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 14 / 30

Page 15: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициент корреляции Пирсона

Справедливо утверждение. При сделанных предположениях ораспределении случайного вектора (ξ, η)T , статистика

t = rX ,Y√n − 2/

√1− r2X ,Y (2)

при выполнении гипотезы H0 подчиняется распределению Стьюдента сn − 2 степенями свободы.При использовании статистики (2) для альтернативы H1 критическаяобласть для гипотезы H0 имеет вид: S = (t1−α,n−2,∞),для альтернативы H ′1 критическая область для гипотезы H0 имеет вид:S = (−∞, tα,n−2).Критическая область для нулевой гипотезы H0 при альтернативе H ′′1будет иметь вид:

S =(−∞, tα

2,n−2

)∪(t1−α

2,n−2,+∞

),

где tβ,n−2 — квантиль уровня β распределения Стьюдента с n − 2степенями свободы. Если значение статистики t ∈ S , то гипотеза H0

отклоняется, если t /∈ S , то гипотеза H0 принимается. Величинавероятности ошибки первого рода равна α.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 15 / 30

Page 16: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициенты ранговой корреляции Спирмена иКенделла

Рассматриваемые в этой части коэффициенты вычисляются толькодля порядковых шкал.

Определение 3Шкалы, в которых существенен лишь взаимный порядок, в которомследуют результаты измерений, а не их количественные значения,называют порядковыми или ординальными шкалами.

Пусть имеется два признака A и B , между которыми мы хотимустановить наличие зависимости или независимости. Пусть(X1, . . . ,Xn) — измерение степени выраженности признака A,(Y1, . . . ,Yn) — измерение степени выраженности признака B . Каждыйобъект характеризует пара (Xi ,Yj), 1 6 i 6 n, 1 6 j 6 n.Для обоих коэффициентов корреляции характерно то обстоятельство,что они обнаруживают лишь монотонную зависимость признаков.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 16 / 30

Page 17: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициент ранговой корреляции Спирмена

Проранжируем наблюдения X1, . . . ,Xn и Y1, . . . ,Yn, ранги которыхбудут соответственно обозначаться r1, . . . , rn и s1, . . . , sn, то есть, ri —номер наблюдения Xi в вариационном ряду, построенном понаблюдениям X1, . . . ,Xn. Аналогично, si — номер наблюдения Yi ввариационном ряду, построенном по наблюдениям Y1, . . . ,Yn. Будемпредполагать, что в выборках нет повторяющихся элементов.Коэффициент ранговой корреляции Спирмена:

% = 1− 6S

n3 − n= 1−

6∑n

i=1(si − ri )2

n3 − n.

Нетрудно показать, что |%| 6 1.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 17 / 30

Page 18: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Если |%| = 1, то это означает полную зависимость одного признака отдругого, либо, иначе говоря, полную предсказуемость одной выборкипо другой.Если ранги признаков совпадают, то % = 1.Если последовательности рангов полностью противоположны, то% = −1.

Сформулируем гипотезы:H0: признаки A и B взаимно независимы.H1: имеется монотонная положительная связь признаков.H ′1: имеется монотонная отрицательная связь признаков.H

′′1 : имеется монотонная связь признаков.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 18 / 30

Page 19: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Если гипотеза H0 справедлива, то распределение статистики %симметрично и концентрируется около нуля.

При наличии зависимости распределение окажется другим.Для монотонной положительной зависимости распределение %сдвинуто вправо, для монотонной отрицательной — влево.

Для проверки гипотезы H0 необходимо обратиться к таблицамраспределения коэффициента Спирмена [1], вычисленным впредположении истинности гипотезы H0.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 19 / 30

Page 20: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

По заданной вероятности ошибки первого рода α необходимо найтисоответствующие пороговые значения статистики.

При выборе в качестве альтернативы гипотезы H1

(положительная монотонная связь) критическую область следуетвыбрать в виде: (c1, 1].При выборе альтернативы гипотезы H ′1 (отрицательнаямонотонная связь) критическую область следует выбрать в виде:[−1, c2].При выборе альтернативной гипотезы H

′′1 критическая область

для гипотезы H0 имеет вид: [−1, c3) ∪ (c4, 1].Пороговые значения c1, c2, c3, c4 определяются из статистическихтаблиц так, чтобы вероятность попадания в критическую область привыполнении гипотезы H0 была равна α.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 20 / 30

Page 21: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициент ранговой корреляции Кенделла

Для вычисления статистики Кенделла достаточно посчитатьколичество инверсий (число несогласованных пар), которое надосделать для того, чтобы одно упорядочение объектов превратилось вдругое.

Пусть есть пары наблюдений каждого из признаков (X1,Y1), . . .,(Xn,Yn). Упорядочим наблюдения первого признака и проранжируемих рангами от 1 до n. Затем ранжируем последовательностьнаблюдений второго признака, при этом объекты перенумерованы всоответствии с рангами первой совокупности. Пусть во втором набореприписаны каждому наблюдению ранги z1, . . . , zn, то есть, теперь всеобъекты характеризуются парами рангов: (1, z1), . . ., (n, zn). Послеперенумерования ранги измерений признаков A представляют собойновые номера самих объектов.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 21 / 30

Page 22: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Пусть R — число инверсий (число несогласованных пар) в выборке{z1, . . . , zn}.Рассмотрим коэффициент ранговой корреляции Кенделла:

τ = 1− 4R

n(n − 1)или

τ =

∑nj=1

∑i<j sign(Xi − Xj)sign(Yi − Yj)

n(n − 1)

Нетрудно доказать, что |τ | 6 1. При этом, |τ | = 1 означает полнуюпредсказуемость (зависимость) признаков.Проверяемые гипотезы

H0: признаки A и B взаимно независимы.H1: имеется монотонная положительная связь признаков.H ′1: имеется монотонная отрицательная связь признаков.H

′′1 : имеется монотонная связь признаков.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 22 / 30

Page 23: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

По заданной вероятности ошибки первого рода α необходимо найтисоответствующие пороговые значения, после чего, при попаданиивычисленного по наблюдениям коэффициента τ в критическуюобласть следует отклонить гипотезу H0 в пользу альтернативнойгипотезы.

При выборе в качестве альтернативы гипотезы H1

(положительная монотонная связь) критическую область следуетвыбрать в виде: (c1, 1].При выборе альтернативы гипотезы H ′1 (отрицательнаямонотонная связь) критическую область следует выбрать в виде:[−1, c2].При выборе альтернативной гипотезы H

′′1 критическая область

для гипотезы H0 имеет вид: [−1, c3) ∪ (c4, 1].

Пороговые значения c1, c2, c3, c4 определяются из статистическихтаблиц для коэффициента ранговой корреляции Кэндалла [1] так,чтобы вероятность попадания в критическую область при выполнениигипотезы H0 была равна α.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 23 / 30

Page 24: Математическая статистика: Критерии о независимости

Корреляционный анализ Коэффициенты Спирмена и Кенделла

При больших n при справедливости гипотезы H0 случайные величины√n − 1% и τ

√9n(n + 1)/(2(2n + 5)) приближенно распределены по

стандартному нормальному закону N(0, 1), что позволяет проверятьгипотезу H0, пользуясь указанной асимптотикой.При альтернативе H ′′′1 приближенные критические области будут иметьвид

S ={|√n − 1%| > u1−α/2

},

S ={|τ√

9n(n + 1)/(2(2n + 5))| > u1−α/2

},

где u1−α/2 — квантиль стандартного нормального распределения.

Коэффицент корреляции Спирмена сильнее, чем коэффициенткорреляции Кенделла, реагирует на несогласие ранжировок. Во многихслучаях |%| > |τ |

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 24 / 30

Page 25: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

Каппа Коэна

Каппа Коэна — мера согласованности между двумя категориальнымипеременными X и Y . Каппа Коэна может быть использована дляоценки согласованности между двумя оценщиками,классифицирующими n объектов по s категориям.

B1 B2 . . . Bs

A1 n11 n12 . . . n1s m1

A2 n21 n22 . . . n2s m2

. . . . . . . . . . . . . . .

As ns1 ns2 . . . nss ms

n1 n2 . . . ns n

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 25 / 30

Page 26: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

Наблюдаемая согласованность между X и Y :

P0 =

∑si=1 niin

,

ожидаемая вероятность случайной согласованности

Pe =

∑ni=1 nimi

n2

Каппа Коэна задается как

κ =P0 − Pe

1− Pe,

Если оценщики полностью согласованны, тогда κ = 1.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 26 / 30

Page 27: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

I IIB1 B2

A1 55 15A2 15 15

B1 B2

A1 35 25A2 5 35

κI = 0.7−0.581−0.58 = 0.286 κII = 0.7−0.48

1−0.48 = 0.423

Рекомендуется брать Pe = 1/s.

Если κ > 0.75, согласованность считается высокой,если 0.4 < κ ≤ 0.75 - хорошой,иначе плохой.

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 27 / 30

Page 28: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 28 / 30

Page 29: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 29 / 30

Page 30: Математическая статистика: Критерии о независимости

Корреляционный анализ Каппа Коэна

Литература

Большев Л. Н., Смирнов Н. В.Таблицы математической статистики. —М.: Изд. Наука, 1983.

Тюрин Ю. Н., Макаров А. А.Статистический анализ опытных данныхна компьютере. — Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 1998.

Холлендер М., Вулф Д.Непраметрические методы статистики. — М.:Финансы и статистика, 1983. — 518 с.

Greenwood P. E., Nikulin M. S.A Guide to Chi-Squared Testing. New York,John Wiley & Sons, Inc., 1996.

Крамер Г.Математические методы статистики. М.: Мир, 1975

Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург, 2014 30 / 30