31
Лекция 7. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31

Математическая статистика, весна 2015: Корреляционный анализ

Embed Size (px)

Citation preview

Лекция 7. Непараметрические критериинезависимости. Корреляционный анализ

Грауэр Л.В., Архипова О.А.

CS Center

Санкт-Петербург, 2015

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31

Cодержание

Содержание

1 Таблицы сопряженностиКритерий χ2

Точный критерий Фишера

2 Корреляционный анализКоэффициент корреляции ПирсонаКоэффициенты ранговой корреляции Спирмена и КенделлаКаппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 2 / 31

Таблицы сопряженности Критерий χ2

Таблицы сопряженности

Определение 1В номинальных шкалах измерения представляют собой метки,обозначающие принадлежность измерения определенной градацииизмеряемого признака. Никаких содержательных соотношений кромеx = y или x 6= y между значениями в этих шкалах нет.

Для проверки независимости качественных признаков A и B , то есть,признаков, измеряемых в номинальных шкалах, применяются таблицысопряженности.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 3 / 31

Таблицы сопряженности Критерий χ2

Пусть имеется два качественных признака A и B . Признак A имеет rградаций: A1, . . . ,Ar , признак B имеет s градаций B1, . . . ,Bs . Повыборке из n случайно выбранных объектов можно составить таблицусопряженности:

B1 B2 . . . Bs

A1 n11 n12 . . . n1s m1

A2 n21 n22 . . . n2s m2

. . . . . . . . . . . . . . .

Ar nr1 nr2 . . . nrs mr

n1 n2 . . . ns n

где nij — количество элементов в выборке, обладающих одновременносвойствами Ai и Bj . Приведенная таблица называется таблицейсопряженности.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 4 / 31

Таблицы сопряженности Критерий χ2

Справедливы равенства:

r∑i=1

nij = nj ,s∑

j=1

nij = mi ,

s∑j=1

nj =r∑

i=1

mi = n.

Пусть pi = P(Ai ), i = 1, . . . , r и qj = P(Bj), j = 1, . . . , s.При этом,

∑ri=1 pi = 1,

∑sj=1 qj = 1.

Признаки A и B называются независимыми, если при любых i и jвыполняется равенство:

pij = P(Ai ∩ Bj) = piqj .

Очевидно, что∑r

i=1 pij = qj ,∑s

j=1 pij = pi .

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 5 / 31

Таблицы сопряженности Критерий χ2

Сформулируем гипотезу независимости и альтернативную ей гипотезу:

H0: P(Ai ∩ Bj) = piqj для любых i , j .H1: существует пара (i , j) такая, что P(Ai ∩ Bj) 6= piqj .

Гипотеза H0 представляет собой гипотезу независимости двухпризнаков.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 6 / 31

Таблицы сопряженности Критерий χ2

Построим статистику хи-квадрат.

χ2 =r∑

i=1

s∑j=1

(nij − npiqj)2

npiqj.

Для этого найдем оценки максимального правдоподобия по выборкечастотМаксимизируя ln L по p1, . . . , pr , q1, . . . , qs , где

L =n!∏

i=1,rj=1,s

nij !

∏i=1,rj=1,s

(piqj)nij ,

при ограничениях∑r

i=1 pi = 1 и∑s

j=1 qj = 1 получим следующиеоценки:

pi =mi

n, i = 1, . . . , r , qj =

njn, j = 1, . . . , s.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 7 / 31

Таблицы сопряженности Критерий χ2

Статистика χ2 для данной задачи после подстановки оценок методамаксимального правдоподобия имеет вид:

χ2 =r∑

i=1

s∑j=1

(nij −minjn )2

minjn

d−→ ζ ∼ χ2(s−1)(r−1).

Число степеней свободы в предельном распределении хи-квадрат всоответствии с теоремой Фишера вычисляется какrs − (r − 1)− (l − 1)− 1 = (r − 1)(s − 1).

Большие значения статистики хи-квадрат свидетельствуют противнулевой гипотезы H0.Получаем критерий для проверки гипотезы H0:

Если χ2 > χ2кр, то отвергаем гипотезу H0 в пользу альтернативной

гипотезы H1, где χ2кр представляет собой квантиль уровня 1− α

распределения хи-квадрат с (s − 1)(r − 1) степенями свободы.Если χ2 6 χ2

кр, то принимаем гипотезу H0.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 8 / 31

Таблицы сопряженности Критерий χ2

В случае таблицы 2х2 статистика χ2 дает несколько завышенныерезультаты, что приведет к тому, что нулевая гипотеза будетотвергаться слишком часто. Для компенсации этого эффектаиспользуется поправка Йейтса:

χ2 =r∑

i=1

s∑j=1

(|nij −minjn | − 0.5)2

minjn

.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 9 / 31

Таблицы сопряженности Точный критерий Фишера

Точный критерий Фишера

Пусть имеется два качественных признака A и B . Признаки A и Bимеют по 2 градации: A1,A2 и B1,B2, соответственно. По выборке из nслучайно выбранных объектов можно составить таблицусопряженности 2x2 T0:

B1 B2 суммаA1 n011 n012 m1

A2 n021 n022 m2

сумма n1 n2 n

Требуется проверить нулевую гипотезу о независимости признаков A иB .Критерий χ2 применим, если ожидаемые значения в любой из клетоктаблицы сопряженности не меньше 5. Когда это условие невыполняется, например, число наблюдений невелико, применяютточный критерий Фишера.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 10 / 31

Таблицы сопряженности Точный критерий Фишера

Точный критерий Фишера основан на переборе всех возможныхвариантов заполнения таблицы сопряжженности Ti призафикисрованных значениях m1, m2, n1, n2.

B1 B2 суммаA1 ni11 ni12 m1

A2 ni21 ni22 m2

сумма n1 n2 n

Вероятность получить некоторую таблицу Ti равна

Pi =C

ni11m1 C

ni21m2

Cn1n

=m1!m2!n1!n2!

n!ni11!ni12!ni21!ni22!(1)

Двусторонний вариант точного критерия Фишера основан на расчетевероятности

P =∑

Ti :Pi≤P0,i 6=0

Pi + P0.

где P0 — вероятность получить исходную таблицу T0, Pi — таблицу Ti

при зафикисрованных значениях m1, m2, n1, n2.Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 11 / 31

Таблицы сопряженности Точный критерий Фишера

Если вероятность P не превосходит уровень значимости α, тогданулевую гипотезу о независмости признаков отклоняют. В противномслучае нет оснований отклонять нулевую гипотезу.

Правила использования точного критерия Фишера:1 Вычислите вероятность получить исходную таблицу2 Постройте все возможные варианта заполнения таблицы при

неизменных суммах по строкам и столбцам. (Для этого в однойиз клеток проставляют все целые числа от 0 до максимальновозможного, пересчитывая числа в остальных клетках так, чтобысуммы по столбцам и строкам оставались неизменными)

3 Вычислите вероятности для полученных таблиц4 Просуммируйте вероятность получить исходную таблицу и все

вероятности, которые не превышают ее.5 Примите статистическое решение

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 12 / 31

Корреляционный анализ Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона применяется к данным,измеренным в шкале отношений.

Определение 2Шкалой отношений называют такую шкалу с непрерывныммножеством числовых значений, в которой о двух сопоставляемыхобъектах можно сказать не только, одинаковы они или различны, нетолько, в каком из них признак выражен сильнее, но и во сколько разсильнее этот признак выражен.

Предположим, что есть генеральная совокупность, каждый элементкоторой обладает двумя количественными признаками. Еслислучайным образом извлекать объекты, то пусть ξ — значение,которое принимает первый признак, η — значение, которое принимаетвторой признак. Величины ξ и η — случайные.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 13 / 31

Корреляционный анализ Коэффициент корреляции Пирсона

Корреляция случайных величин ξ и η выражается следующейформулой:

ρ(ξ, η) =cov(ξ, η)√Dξ√Dη

.

Если случайные величины ξ и η независимы, то корреляция равнанулю. Обратное утверждение, вообще говоря, неверно.Если |ρ| = 1, то существует линейная связь между величинами ξ и ηтакая, что η = a + bξ.

Получим оценку коэффициента корреляции — выборочныйкоэффициент корреляции Пирсона, который определяетсявыражением:

rX ,Y =

1n

n∑i=1

(Xi − X )(Yi − Y )

sX sY,

где s2X = 1n

∑ni=1(Xi − X )2, s2Y = 1

n

∑ni=1(Yi − Y )2.

Здесь предполагается, что задана двумерная выборка: (X1,Y1), . . .,(Xn,Yn).

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 14 / 31

Корреляционный анализ Коэффициент корреляции Пирсона

Случай совместного нормального распределения

Если вектор (ξ, η)T подчиняется совместному нормальномураспределению с вектором математических ожиданий a = (a1, a2)T иковариационной матрицей (

σ21 σ1σ2ρσ1σ2ρ σ22

)то корреляция случайных величин ξ и η равна нулю тогда и толькотогда, когда эти случайные величины взаимно независимы, σ21 = Dξ,σ22 = Dη.Сформулируем гипотезы:

H0: ρ = 0 — гипотеза о независимости.H1: ρ > 0.H ′1: ρ < 0.H ′′1 : ρ 6= 0 — двусторонняя альтернатива.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 15 / 31

Корреляционный анализ Коэффициент корреляции Пирсона

Справедливо утверждение. При сделанных предположениях ораспределении случайного вектора (ξ, η)T , статистика

t = rX ,Y√n − 2/

√1− r2X ,Y (2)

при выполнении гипотезы H0 подчиняется распределению Стьюдента сn − 2 степенями свободы.При использовании статистики (2) для альтернативы H1 критическаяобласть для гипотезы H0 имеет вид: S = (t1−α,n−2,∞),для альтернативы H ′1 критическая область для гипотезы H0 имеет вид:S = (−∞, tα,n−2).Критическая область для нулевой гипотезы H0 при альтернативе H ′′1будет иметь вид:

S =(−∞, tα

2,n−2

)∪(t1−α

2,n−2,+∞

),

где tβ,n−2 — квантиль уровня β распределения Стьюдента с n − 2степенями свободы. Если значение статистики t ∈ S , то гипотеза H0

отклоняется, если t /∈ S , то гипотеза H0 принимается. Величинавероятности ошибки первого рода равна α.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 16 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициенты ранговой корреляции Спирмена иКенделла

Рассматриваемые в этой части коэффициенты вычисляются толькодля порядковых шкал.

Определение 3Шкалы, в которых существенен лишь взаимный порядок, в которомследуют результаты измерений, а не их количественные значения,называют порядковыми или ординальными шкалами.

Пусть имеется два признака A и B , между которыми мы хотимустановить наличие зависимости или независимости. Пусть(X1, . . . ,Xn) — измерение степени выраженности признака A,(Y1, . . . ,Yn) — измерение степени выраженности признака B . Каждыйобъект характеризует пара (Xi ,Yj), 1 6 i 6 n, 1 6 j 6 n.Для обоих коэффициентов корреляции характерно то обстоятельство,что они обнаруживают лишь монотонную зависимость признаков.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 17 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициент ранговой корреляции Спирмена

Проранжируем наблюдения X1, . . . ,Xn и Y1, . . . ,Yn, ранги которыхбудут соответственно обозначаться r1, . . . , rn и s1, . . . , sn, то есть, ri —номер наблюдения Xi в вариационном ряду, построенном понаблюдениям X1, . . . ,Xn. Аналогично, si — номер наблюдения Yi ввариационном ряду, построенном по наблюдениям Y1, . . . ,Yn. Будемпредполагать, что в выборках нет повторяющихся элементов.Коэффициент ранговой корреляции Спирмена:

% = 1− 6S

n3 − n= 1−

6∑n

i=1(si − ri )2

n3 − n.

Нетрудно показать, что |%| 6 1.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 18 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Если |%| = 1, то это означает полную зависимость одного признака отдругого, либо, иначе говоря, полную предсказуемость одной выборкипо другой.Если ранги признаков совпадают, то % = 1.Если последовательности рангов полностью противоположны, то% = −1.

Сформулируем гипотезы:H0: признаки A и B взаимно независимы.H1: имеется монотонная положительная связь признаков.H ′1: имеется монотонная отрицательная связь признаков.H

′′1 : имеется монотонная связь признаков.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 19 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Если гипотеза H0 справедлива, то распределение статистики %симметрично и концентрируется около нуля.

При наличии зависимости распределение окажется другим.Для монотонной положительной зависимости распределение %сдвинуто вправо, для монотонной отрицательной — влево.

Для проверки гипотезы H0 необходимо обратиться к таблицамраспределения коэффициента Спирмена [1], вычисленным впредположении истинности гипотезы H0.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 20 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

По заданной вероятности ошибки первого рода α необходимо найтисоответствующие пороговые значения статистики.

При выборе в качестве альтернативы гипотезы H1

(положительная монотонная связь) критическую область следуетвыбрать в виде: (c1, 1].При выборе альтернативы гипотезы H ′1 (отрицательнаямонотонная связь) критическую область следует выбрать в виде:[−1, c2].При выборе альтернативной гипотезы H

′′1 критическая область

для гипотезы H0 имеет вид: [−1, c3) ∪ (c4, 1].Пороговые значения c1, c2, c3, c4 определяются из статистическихтаблиц так, чтобы вероятность попадания в критическую область привыполнении гипотезы H0 была равна α.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 21 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Коэффициент ранговой корреляции Кенделла

Для вычисления статистики Кенделла достаточно посчитатьколичество инверсий (число несогласованных пар), которое надосделать для того, чтобы одно упорядочение объектов превратилось вдругое.

Пусть есть пары наблюдений каждого из признаков (X1,Y1), . . .,(Xn,Yn). Упорядочим наблюдения первого признака и проранжируемих рангами от 1 до n. Затем ранжируем последовательностьнаблюдений второго признака, при этом объекты перенумерованы всоответствии с рангами первой совокупности. Пусть во втором набореприписаны каждому наблюдению ранги z1, . . . , zn, то есть, теперь всеобъекты характеризуются парами рангов: (1, z1), . . ., (n, zn). Послеперенумерования ранги измерений признаков A представляют собойновые номера самих объектов.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 22 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

Рассмотрим коэффициент ранговой корреляции Кенделла:

τ =C − D

C + D=

2(C − D)

n(n − 1),

где C — число пар, имеющих согласованный порядок, D — число пар,имеющих несогласованный порядок.Нетрудно доказать, что |τ | 6 1. При этом, |τ | = 1 означает полнуюпредсказуемость (зависимость) признаков.Проверяемые гипотезы

H0: признаки A и B взаимно независимы.H1: имеется монотонная положительная связь признаков.H ′1: имеется монотонная отрицательная связь признаков.H

′′1 : имеется монотонная связь признаков.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 23 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

По заданной вероятности ошибки первого рода α необходимо найтисоответствующие пороговые значения, после чего, при попаданиивычисленного по наблюдениям коэффициента τ в критическуюобласть следует отклонить гипотезу H0 в пользу альтернативнойгипотезы.

При выборе в качестве альтернативы гипотезы H1

(положительная монотонная связь) критическую область следуетвыбрать в виде: (c1, 1].При выборе альтернативы гипотезы H ′1 (отрицательнаямонотонная связь) критическую область следует выбрать в виде:[−1, c2].При выборе альтернативной гипотезы H

′′1 критическая область

для гипотезы H0 имеет вид: [−1, c3) ∪ (c4, 1].

Пороговые значения c1, c2, c3, c4 определяются из статистическихтаблиц для коэффициента ранговой корреляции Кэндалла [1] так,чтобы вероятность попадания в критическую область при выполнениигипотезы H0 была равна α.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 24 / 31

Корреляционный анализ Коэффициенты Спирмена и Кенделла

При больших n при справедливости гипотезы H0 случайные величины√n − 1% и τ

√9n(n + 1)/(2(2n + 5)) приближенно распределены по

стандартному нормальному закону N(0, 1), что позволяет проверятьгипотезу H0, пользуясь указанной асимптотикой.При альтернативе H ′′′1 приближенные критические области будут иметьвид

S ={|√n − 1%| > u1−α/2

},

S ={|τ√

9n(n + 1)/(2(2n + 5))| > u1−α/2

},

где u1−α/2 — квантиль стандартного нормального распределения.

Коэффицент корреляции Спирмена сильнее, чем коэффициенткорреляции Кенделла, реагирует на несогласие ранжировок. Во многихслучаях |%| > |τ |

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 25 / 31

Корреляционный анализ Каппа Коэна

Каппа Коэна

Каппа Коэна — мера согласованности между двумя категориальнымипеременными X и Y . Каппа Коэна может быть использована дляоценки согласованности между двумя оценщиками,классифицирующими n объектов по s категориям.

B1 B2 . . . Bs

A1 n11 n12 . . . n1s m1

A2 n21 n22 . . . n2s m2

. . . . . . . . . . . . . . .

As ns1 ns2 . . . nss ms

n1 n2 . . . ns n

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 26 / 31

Корреляционный анализ Каппа Коэна

Наблюдаемая согласованность между X и Y :

P0 =

∑si=1 niin

,

ожидаемая вероятность случайной согласованности

Pe =

∑ni=1 nimi

n2

Каппа Коэна задается как

κ =P0 − Pe

1− Pe,

Если оценщики полностью согласованны, тогда κ = 1.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 27 / 31

Корреляционный анализ Каппа Коэна

I IIB1 B2

A1 55 15A2 15 15

B1 B2

A1 35 25A2 5 35

κI = 0.7−0.581−0.58 = 0.286 κII = 0.7−0.48

1−0.48 = 0.423

Рекомендуется брать Pe = 1/s.

Если κ > 0.75, согласованность считается высокой,если 0.4 < κ ≤ 0.75 - хорошей,иначе плохой.

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 28 / 31

Корреляционный анализ Каппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 29 / 31

Корреляционный анализ Каппа Коэна

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 30 / 31

Корреляционный анализ Каппа Коэна

Литература

Большев Л. Н., Смирнов Н. В.Таблицы математической статистики. —М.: Изд. Наука, 1983.

Тюрин Ю. Н., Макаров А. А.Статистический анализ опытных данныхна компьютере. — Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 1998.

Холлендер М., Вулф Д.Непраметрические методы статистики. — М.:Финансы и статистика, 1983. — 518 с.

Greenwood P. E., Nikulin M. S.A Guide to Chi-Squared Testing. New York,John Wiley & Sons, Inc., 1996.

Крамер Г.Математические методы статистики. М.: Мир, 1975

Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 31 / 31