24
Познание начинается с удивления. Аристотель Моделирование гуманитарных процессов Лекция 5

Моделирование Гуманитарных процессов. Лекция 5

Embed Size (px)

Citation preview

Page 1: Моделирование Гуманитарных процессов. Лекция 5

Познание начинается с удивления. Аристотель

Моделирование гуманитарных процессов

Лекция 5

Page 2: Моделирование Гуманитарных процессов. Лекция 5

Корреляционный анализ

Корреля́� ция́ — статистическая взаимосвязь двух или нескольких случайных величин. При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или

других величин.

Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Page 3: Моделирование Гуманитарных процессов. Лекция 5

Линейная регрессияПусть изучается система количественных признаков (X, Y). В результате n независимых опытов получены n пар чисел (x1,y1), (x2 ,y2), ..., (хn, уn).

Найдем уравнению прямой y=kx+b описывающие этот набор данных.

Page 4: Моделирование Гуманитарных процессов. Лекция 5

Линейная регрессия

Угловой коэффициент прямой линии k регрессии Y на X называют выборочным коэффициентом регрессии Y на X и обозначают через ρxy

Page 5: Моделирование Гуманитарных процессов. Лекция 5

Линейная регрессияБудем искать уравнения прямой в виде

Подберем параметры ρxy и b таким образом чтобы отклонение (Yi – yi) для каждой точки (i=1..n) было минимальным. Yi – вычисленное значение, ayi - измеренное значение соответствующее xi.

Подберем параметры таким образом чтобы сумма квадратов отклонений была минимальна (метод наименьших квадратов).

или

Page 6: Моделирование Гуманитарных процессов. Лекция 5

Линейная регрессия Частные производные

Получаем систему относительно ρ и b

Page 7: Моделирование Гуманитарных процессов. Лекция 5

Вычисление параметров линейной регрессии по сгруппированным данным

В предыдущем примеры мы рассматривали ситуацию когда все значения пар(xi,yi) уникальные.

Предположим что часть значений совпадают. Тогда система коэффициентов будет иметь вид:

(простая замена на основе равенств )

Решение будет иметь вид

Page 8: Моделирование Гуманитарных процессов. Лекция 5

Выборочный коэффициент корреляции

Из исходного уравнения для случая сгруппированных данных:

При этом:Подставить значение b из второго уравнения в решение

Отсюда:Правая часть выражения обозначается как выборочный коэффициент корреляции rв

Отсюда

Выборочный коэффициент корреляции является оценкой коэффициента корреляции

Page 9: Моделирование Гуманитарных процессов. Лекция 5

Коэффициенты корреляцииДля графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона. Если по меньшей мере одна из двух переменных имеет порядковую (ранговую) шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала.

Page 10: Моделирование Гуманитарных процессов. Лекция 5

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона (обычный коэффициент корреляции)

Для случая σx=σy=1

Page 11: Моделирование Гуманитарных процессов. Лекция 5

Коэффициент корреляции Пирсона

В зависимости от распределения пар значений

Page 12: Моделирование Гуманитарных процессов. Лекция 5

Коэффициенты корреляции Спирмена и Кенделла

Коэффициенты корреляции Спирмена и Кенделла являются непараметрическими статистикам, которые характеризуют взаимосвязь случайных величин имеющих конечные по объему дискретные вероятностные распределения. В статистике такие величины принято называть ранговыми.

Так как величины измеряются по ранговой шкале, то для вычисления коэффициентов Спирмена и Кенделла следует на предварительном этапе получить ранговые оценки измененных признаков. Для этого все значения нумеруются в порядке ухудшения признаков. Т.о. вместо различных по величине значений качества признаков получают оценки этого качества, которые являются их номерами отстоящими друг от друга на 1. Пример

Выборочные значения́

23 43 54 21 73 45 68 12 32 50

ранги 3 5 8 2 10 6 9 1 4 7

Page 13: Моделирование Гуманитарных процессов. Лекция 5

Коэффициент корреляции Спирмена

Пусть имеются два качественных признака A и B, выборочные значения которых обозначим с помощью x и y:x1,…,xn - для признака A и y1,…,yn - для признака BРанговые значения: X1,…,Xn , Y1,…,Yn

Коэффициент Спирмена вычисляется по формуле:

)1)(1(

61 1

2

nnn

dS

n

ii

Здесь di=Xi-Yi

Page 14: Моделирование Гуманитарных процессов. Лекция 5

Коэффициент корреляции Кенделла

Коэффициент корреляции Кенделла вычисляется по следующему правилу. На предварительном этапе, кроме присвоения последовательных целочисленных оценок значениям качественного признака производят такую перестановку пар чисел (Xi,Yi) , при которой ряд чисел Xi расположен в порядке увеличения своих значений. В результате получим в общем случае следующий набор пар чисел

X 1 2 3 … n

Y Y’1 Y’2 Y’3 … Y’n

Тогда коэффициент Кендалла рассчитывается по формуле

1)1(

4

nn

RK

где величина R вычисляется по следующему правилу. Обозначим через R1 число чисел в ряде чисел Y, больших числа Y’1 через R2 - число чисел , больших Y’2 и т.д. Тогда R=R1+R2+R3+…+Rn.

Page 15: Моделирование Гуманитарных процессов. Лекция 5

Проверка гипотезы о значимости коэффициентов

В математической статистике при проверке бинарных гипотез требуется выбрать один из двух вариантов (гипотез): H0 – нулевая гипотеза и H1 – альтернативная гипотеза. При этом говорят о возможных ошибках первого и второго родов.

Для проверки гипотез выбирается уровень значимости α. Чаще всего он выбирается равным 0.95

Page 16: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициента Пирсона

)()(1

1

1 y

kN

k x

k yyxx

N

Проверка значимости коэффициента корреляции обычного или коэффициента корреляции Пирсона:

21

2)(

ntкр )(крt Критерий Пирсона

Для уровня значимости 95.0 и большой длине ряда (число N) 2)( крt .

Поэтому, для 2)( крt , получаем, что условие, когда коэффициент корреляции может считаться

значимым при заданной длине ряда N, определяется из неравенства:

21

22

n

Отсюда минимальное значение значимого коэффициента корреляции в зависимости от длины ряда определяется из соотношения :

2min

min

1

22

n

Page 17: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициента Спирмена

При проверке гипотезы о значимости производится подтверждение или опровержение одной из двух гипотез, нулевой гипотезы H0: S=0 и конкурирующей гипотезы H1: S≠0 .Правило, по которому вычисляется критическое значение для подтверждения нулевой гипотезы о значимости коэффициента корреляции Спирмена, состоит в вычислении величины

Здесь n – объем выборки, t(α,k)- критическая точка распределения Стьюдента для уровня значимости α и числа степеней свободы k. Нулевая гипотеза принимается, если |S|<Tкр и отвергается, если |S|>Tкр .

2

1),(

2

n

SktT кркр

Page 18: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициентов Пирсона и Спирмена в зависимости о длины рядя

Page 19: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициента Кендалла

Для проверки гипотезы о значимости коэффициента корреляции Кендалла состоит в вычислении следующего критического значения по формуле

где n – объем выборки, zкр - критическая точка двусторонней критической области, которую находят по нормальному распределению, исходя из равенства Φ(zкр)=(1-α)/2 при уровне значимости α . Если |K|<Tкр , то нулевая гипотеза принимается, если |K|>Tкр - отвергается.

)1(9

)52(2

nn

nzT кркр

Page 20: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициента Кенделла в зависимости о длины рядя

Page 21: Моделирование Гуманитарных процессов. Лекция 5

Значимость коэффициента Кенделла в зависимости о длины рядя

Page 22: Моделирование Гуманитарных процессов. Лекция 5

Коэффициенты корреляции Спирмера и Кеделла

В зависимости от распределения пар значений

Page 23: Моделирование Гуманитарных процессов. Лекция 5

Коэффициенты корреляции Спирмера и Кеделла

Page 24: Моделирование Гуманитарных процессов. Лекция 5

Литература

В.Е. Гмурман. Теория Вероятностей и математическая статистика

http://www.machinelearning.ru/wiki/index.php?title=Категория:Корреляционный_анализ