Моделирование Гуманитарных процессов. Лекция 5

Preview:

Citation preview

Познание начинается с удивления. Аристотель

Моделирование гуманитарных процессов

Лекция 5

Корреляционный анализ

Корреля́� ция́ — статистическая взаимосвязь двух или нескольких случайных величин. При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или

других величин.

Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Линейная регрессияПусть изучается система количественных признаков (X, Y). В результате n независимых опытов получены n пар чисел (x1,y1), (x2 ,y2), ..., (хn, уn).

Найдем уравнению прямой y=kx+b описывающие этот набор данных.

Линейная регрессия

Угловой коэффициент прямой линии k регрессии Y на X называют выборочным коэффициентом регрессии Y на X и обозначают через ρxy

Линейная регрессияБудем искать уравнения прямой в виде

Подберем параметры ρxy и b таким образом чтобы отклонение (Yi – yi) для каждой точки (i=1..n) было минимальным. Yi – вычисленное значение, ayi - измеренное значение соответствующее xi.

Подберем параметры таким образом чтобы сумма квадратов отклонений была минимальна (метод наименьших квадратов).

или

Линейная регрессия Частные производные

Получаем систему относительно ρ и b

Вычисление параметров линейной регрессии по сгруппированным данным

В предыдущем примеры мы рассматривали ситуацию когда все значения пар(xi,yi) уникальные.

Предположим что часть значений совпадают. Тогда система коэффициентов будет иметь вид:

(простая замена на основе равенств )

Решение будет иметь вид

Выборочный коэффициент корреляции

Из исходного уравнения для случая сгруппированных данных:

При этом:Подставить значение b из второго уравнения в решение

Отсюда:Правая часть выражения обозначается как выборочный коэффициент корреляции rв

Отсюда

Выборочный коэффициент корреляции является оценкой коэффициента корреляции

Коэффициенты корреляцииДля графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона. Если по меньшей мере одна из двух переменных имеет порядковую (ранговую) шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала.

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона (обычный коэффициент корреляции)

Для случая σx=σy=1

Коэффициент корреляции Пирсона

В зависимости от распределения пар значений

Коэффициенты корреляции Спирмена и Кенделла

Коэффициенты корреляции Спирмена и Кенделла являются непараметрическими статистикам, которые характеризуют взаимосвязь случайных величин имеющих конечные по объему дискретные вероятностные распределения. В статистике такие величины принято называть ранговыми.

Так как величины измеряются по ранговой шкале, то для вычисления коэффициентов Спирмена и Кенделла следует на предварительном этапе получить ранговые оценки измененных признаков. Для этого все значения нумеруются в порядке ухудшения признаков. Т.о. вместо различных по величине значений качества признаков получают оценки этого качества, которые являются их номерами отстоящими друг от друга на 1. Пример

Выборочные значения́

23 43 54 21 73 45 68 12 32 50

ранги 3 5 8 2 10 6 9 1 4 7

Коэффициент корреляции Спирмена

Пусть имеются два качественных признака A и B, выборочные значения которых обозначим с помощью x и y:x1,…,xn - для признака A и y1,…,yn - для признака BРанговые значения: X1,…,Xn , Y1,…,Yn

Коэффициент Спирмена вычисляется по формуле:

)1)(1(

61 1

2

nnn

dS

n

ii

Здесь di=Xi-Yi

Коэффициент корреляции Кенделла

Коэффициент корреляции Кенделла вычисляется по следующему правилу. На предварительном этапе, кроме присвоения последовательных целочисленных оценок значениям качественного признака производят такую перестановку пар чисел (Xi,Yi) , при которой ряд чисел Xi расположен в порядке увеличения своих значений. В результате получим в общем случае следующий набор пар чисел

X 1 2 3 … n

Y Y’1 Y’2 Y’3 … Y’n

Тогда коэффициент Кендалла рассчитывается по формуле

1)1(

4

nn

RK

где величина R вычисляется по следующему правилу. Обозначим через R1 число чисел в ряде чисел Y, больших числа Y’1 через R2 - число чисел , больших Y’2 и т.д. Тогда R=R1+R2+R3+…+Rn.

Проверка гипотезы о значимости коэффициентов

В математической статистике при проверке бинарных гипотез требуется выбрать один из двух вариантов (гипотез): H0 – нулевая гипотеза и H1 – альтернативная гипотеза. При этом говорят о возможных ошибках первого и второго родов.

Для проверки гипотез выбирается уровень значимости α. Чаще всего он выбирается равным 0.95

Значимость коэффициента Пирсона

)()(1

1

1 y

kN

k x

k yyxx

N

Проверка значимости коэффициента корреляции обычного или коэффициента корреляции Пирсона:

21

2)(

ntкр )(крt Критерий Пирсона

Для уровня значимости 95.0 и большой длине ряда (число N) 2)( крt .

Поэтому, для 2)( крt , получаем, что условие, когда коэффициент корреляции может считаться

значимым при заданной длине ряда N, определяется из неравенства:

21

22

n

Отсюда минимальное значение значимого коэффициента корреляции в зависимости от длины ряда определяется из соотношения :

2min

min

1

22

n

Значимость коэффициента Спирмена

При проверке гипотезы о значимости производится подтверждение или опровержение одной из двух гипотез, нулевой гипотезы H0: S=0 и конкурирующей гипотезы H1: S≠0 .Правило, по которому вычисляется критическое значение для подтверждения нулевой гипотезы о значимости коэффициента корреляции Спирмена, состоит в вычислении величины

Здесь n – объем выборки, t(α,k)- критическая точка распределения Стьюдента для уровня значимости α и числа степеней свободы k. Нулевая гипотеза принимается, если |S|<Tкр и отвергается, если |S|>Tкр .

2

1),(

2

n

SktT кркр

Значимость коэффициентов Пирсона и Спирмена в зависимости о длины рядя

Значимость коэффициента Кендалла

Для проверки гипотезы о значимости коэффициента корреляции Кендалла состоит в вычислении следующего критического значения по формуле

где n – объем выборки, zкр - критическая точка двусторонней критической области, которую находят по нормальному распределению, исходя из равенства Φ(zкр)=(1-α)/2 при уровне значимости α . Если |K|<Tкр , то нулевая гипотеза принимается, если |K|>Tкр - отвергается.

)1(9

)52(2

nn

nzT кркр

Значимость коэффициента Кенделла в зависимости о длины рядя

Значимость коэффициента Кенделла в зависимости о длины рядя

Коэффициенты корреляции Спирмера и Кеделла

В зависимости от распределения пар значений

Коэффициенты корреляции Спирмера и Кеделла

Литература

В.Е. Гмурман. Теория Вероятностей и математическая статистика

http://www.machinelearning.ru/wiki/index.php?title=Категория:Корреляционный_анализ

Recommended