119
Zależności w danych. Korelacja i regresja Agnieszka Nowak Brzezińska SMAD w2

Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Embed Size (px)

Citation preview

Page 1: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Zależności w danych. Korelacja i regresja

Agnieszka Nowak – Brzezińska

SMAD – w2

Page 2: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja Zależność korelacyjna pomiędzy cechami X i Y

charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy.

Page 3: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 4: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Ogólna postać miary korelacji:

• > cor( var1, var2, method = "method")

• Opcja domyślna to miara korelacji Pearsona

• cor(var1, var2)

• Gdy chcemy miary Rang Spearmana:

• cor(var1, var2, method = "spearman")

• gdy chcemy użyć zbioru danych zamiast osobnych zmiennych:

• cor(dataset, method = "pearson")

Page 5: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Istotność korelacji

• Jeśli chcemy poznać stopień istotności korelacji między badanymi zmiennymi musimy użyć dodatkowo funkcji do testowania korelacji: cor.test()

• > cor.test(var1, var2, method = "method")

Domyślnie stosowana jest tu także miara pearsona. >cor.p = cor.test(var1, var2)

Jeśli chcemy użyć innej musimy ją określić: >cor.s = cor.test(var1, var2, method = "spearman")

Page 6: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wynik

• > cor.s

• Spearman's rank correlation rho

• data: y and x1

S = 147.713, p-value = 0.00175

alternative hypothesis: true rho is not equal to 0

sample estimates:

rho

0.7362267

• >

Page 7: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Reprezentacja graficzna korelacji. Funkcja plot()

> plot(x.var, y.var)

• Gdy chcemy nadać tytuły osiom x i y

> plot(x.var, y.var, xlab="X-axis", ylab="Y-

axis")

• Gdy chcemy ingerować w symbol punktu na wykresie

> plot(x.var, y.var, pch=16)

• Chcąc dodać linię najlepszego dopasowania do rozrzutu punktów:

> abline(lm(y.var ~ x.var)

Page 8: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja w R krok po kroku

znaczenie Komenda w środowisku R

Odczyt danych z wskazanej lokalizacji your.data = read.csv(file.choose())

Podłączenie do danych spoza R attach(your.data)

Wybór miary korelacji. Domyślna jest „pearson„.Inne możliwe to "kendal" oraz "spearman„

your.cor = cor(var1, var2, method = "pearson")

Wyświetlenie wartości korelacji your.cor

Korelacja parami cor.mat = cor(your.data, method = "pearson“)

Określenie istotności korelacji cor.test(var1, var2, method="spearman")

Wyświetlenie wykresu rozrzutu. Punkt jako otwarte kółko

plot(x.var, y.var, xlab="x-label", ylab="y-label", pch=21))

Dopasowanie linii regresji abline(lm(y.var ~ x.var)

Page 9: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 10: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 11: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 12: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 13: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

korelogram

• Pakiet corrgram – install.package(corrgram) – on potrzebuje pakietów: seriation, TSP

Page 14: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

> corrgram(mtcars, order=TRUE, lower.panel=panel.shade,upper.panel=panel.pie,

text.panel=panel.txt,main="Car Milage Data in PC2/PC1 Order")

>

http://www.statmethods.net/advgraphs/correlograms.html

Page 15: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

corrgram(x, order = , panel=, lower.panel=, upper.panel=,

text.panel=, diag.panel=)

• x is a data frame with one observation per row. • order=TRUE will cause the variables to be ordered using principal component

analysis of the correlation matrix. • panel= refers to the off-diagonal panels. You can use lower.panel= and

upper.panel= to choose different options below and above the main diagonal respectively. text.panel= and diag.panel= refer to the main diagnonal. Allowable parameters are given below.

• off diagonal panels panel.pie (the filled portion of the pie indicates the magnitude of the correlation) panel.shade (the depth of the shading indicates the magnitude of the correlation) panel.ellipse (confidence ellipse and smoothed line) panel.pts (scatterplot)

• main diagonal panels panel.minmax (min and max values of the variable) panel.txt (variable name).

Page 16: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 17: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 18: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 19: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 20: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja w zbiorze faithful

> duration = faithful$eruptions

# the eruption durations > waiting = faithful$waiting

# the waiting period > cor(duration, waiting)

# apply the cor function [1] 0.90081

Page 21: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Jeżeli obie cechy X i Y są mierzalne, to analizę zależności rozpoczynamy od sporządzenia korelogramu.

• Korelogram jest to wykres punktowy par {(xi , yi)}.

• W kartezjańskim układzie współrzędnych O(x,y) pary te odpowiadają punktom o współrzędnych (x,y).

Jeżeli otrzymamy bezładny zbiór punktów, który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy że pomiędzy cechami X i Y nie ma zależności.

Page 22: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Na rysunkach smuga punktów układa się wzdłuż linii prostej.

• Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek liniowy; zależność liniowa.

Zależność liniowa

Page 23: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Rysunek (z lewej) – za mało danych. Zebrano dane (punkty obwiedzione kwadratem) i z korelogramu wynika brak zależności. W rzeczywistości jest zależność liniowa. Rysunek (z prawej) – nietypowe dane. Trzy ostatnie punkty (odseparowane) to dane nietypowe. Sugerują zależność nieliniową (parabola). Po odrzuceniu tych nietypowych informacji widać, że jest wyraźna zależność liniowa.

Błędy we wnioskowaniu o zależności cech X i Y

Page 24: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Zależność nieliniowa

Na rysunku widać, że smuga punktów układa sie w kształt paraboli. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek nieliniowy; zależność nieliniowa.

Page 25: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Różnie możemy wyrażać współczynnik korelacji Pearsona…

r = n xy - ( x)( y)

sqrt[n( x2) - ( x)2] · sqrt[n( y

2) - ( y)2]

r = xy

sqrt( x2 y

2)

r = sxy sxsy

Page 26: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Korelacja dwóch zmiennych w zbiorze danych to ich kowariancja podzielona przez iloczyn odchyleń standardowych. Jest to znormalizowana miara tego jak dane są liniowo zależne.

• Formalnie, Dla sx i sy będących odchyleniami standardowymi zmiennych x i y w próbie oraz ich kowariancją sxy :

• Podobnie korelację populacji wyrazimy mając jako σx oraz σy odchylenia standardowe w populacji, zaś σxy to kowariancja populacji”

• Im bardziej wartość współczynnika korelacji jest bliska wartości 1, tym większa (dodatnia) zależność liniowa między zmiennymi x i y.

• Gdy współczynnik korelacji jest blisko wartości -1, oznacza to tzw. ujemną korelację liniową. Wartość bliska 0 oznacza brak zależności między badanymi zmiennymi.

Page 27: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Niech x i y będą zmiennymi losowymi o ciągłych rozkładach.

• xi oraz yi oznaczają wartości prób losowych tych zmiennych (i=1,2,..,n),

• natomiast

• - wartości średnie z tych prób.

• Wówczas estymator współczynnika korelacji liniowej definiuje się następująco:

• Ogólnie współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych:

.

Page 28: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

INTERPRETACJA współczynnika korelacji rxy

Znak współczynnika rxy mówi nam o kierunku zależności. I tak: • znak plus – zależność liniowa dodatnia, tzn. wraz ze wzrostem

wartości jednej cechy rosną średnie wartości drugiej z cech, • znak minus – zależność liniowa ujemna, tzn. wraz ze wzrostem

wartości jednej cechy maleją średnie wartości drugiej z cech. Wartosc bezwzględna współczynnika korelacji, czyli |rxy|, mówi nam o

sile zależności. Jeżeli wartość bezwzględna |rxy|: • jest mniejsza od 0,2, to praktycznie brak związku liniowego pomiędzy

badanymi cechami, • 0,2 – 0,4 - zależność liniowa wyraźna, lecz niska, • 0,4 – 0,7 - zależność liniowa umiarkowana, • 0,7 – 0,9 - zależność liniowa znacząca, • powyżej 0,9 - zależność liniowa bardzo silna.

Page 29: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

przykład

• W grupie 7 studentów badano zależność pomiędzy oceną z egzaminu z programowania (Y), a liczbą dni poświęconych na naukę (X).

Page 30: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelogram

• Wykres rozproszenia – graficzne przedstawienie próbki w postaci punktów na płaszczyźnie O(x,y).

Page 31: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Widać tutaj wyraźną zależność liniową (dodatnią).

• Obliczamy współczynnik korelacji (Pearsona).

• UWAGA ! Liczebność populacji jest mała (n=7). Użyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia.

• Obliczanie średnich, wariancji oraz kowariancji.

Page 32: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

INTERPRETACJA W badanej grupie studentów wystąpiła bardzo silna dodatnia (znak plus) zależność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, że wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.

Page 33: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik korelacji liniowej Pearsona

• Współczynnik ten (rxy) jest miernikiem siły związku prostoliniowego między dwoma cechami mierzalnymi.

• Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost drugiej zmiennej (skutku).

• Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczany poprzez standaryzację kowariancji.

Page 34: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

ego)korelacyjnszeregu postaci (wnych indywidualdanych dla

yxxyyyxxn

xyyxn

i

)()(1

),cov(),cov( 1

1

1

ejkorelacyjn tablicy formie ujęjętychdanych dla

yxxynyyxxn

xyyx ij

k

i

r

j

)()(1

),cov(),cov( 1

1

1

1

n

i

ii yxn

xy1

nychindywidualdanych dla 1

k

i

r

j

ijji nyxn

xy1 1

ejkorelacyjn tablicy dla 1

Kowariancja jest średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych:

Page 35: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Kowariancja przekazuje następujące informacje o związku korelacyjnym:

• cov(x,y) = 0 – brak zależności korelacyjnej;

• cov(x,y) < 0 – ujemna zależność korelacyjna;

• cov(x,y) > 0 – dodatnia zależność korelacyjna.

• Kowariancja przyjmuje wartości liczbowe z przedziału: [-s(x)s(y), +s s(x)s(y)], gdzie s(x) i s(y) są odchyleniami standardowymi odpowiednich zmiennych.

• Jeżeli cov(x,y) = -s(x)s(y), to między zmiennymi istnieje ujemny związek funkcyjny. Przy dodatnim związku funkcyjnym cov(x,y) = +s(x)s(y).

• Kowariancja charakteryzuje współzmienność badanych zmiennych, ale jej wartość zależy od rzędu wielkości, w jakich wyrażone są obydwie cechy, co powoduje, że nie można jej wykorzystać w sposób bezpośredni do porównań.

Page 36: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

współczynnik korelacji linowej Pearsona, wyznaczony przez standaryzację kowariancji:

• To unormowany miernik natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y :

• Współczynnik korelacji liniowej Pearsona jest miarą unormowaną, przyjmującą wartości z przedziału: -1 < rxy <+1.

• Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny zaś oznacza współzależność negatywną (ujemną).

)()(

),cov(

ysxs

yxrr yxxy

Page 37: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• W pewnym Urzędzie Stanu Cywilnego pewnego dnia przeprowadzono badanie nowo zawartych małżeństw wg wieku żony i męża. Wyniki badania losowo pobranych par przedstawiono niżej.

• Określić siłę i kierunek zależności między badanymi zmiennymi. [Sobczyk str. 209-210, wyd.1991]

Page 38: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Na podstawie analizy diagramu punktowego (korelacyjnego) można stwierdzić, że zależność między badanymi zmiennymi ma charakter prostoliniowy. Dlatego też siłę i kierunek zależności można ocenić przy użyciu współczynnika korelacji liniowej Pearsona.

• Aby go obliczyć należy wykonać obliczenia pomocnicze:

Page 39: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Średni wiek kobiet zawierających w badanym dniu związek małżeński wynosi:

• lat. Średni wiek mężczyzny wynosi: lat. • • W celu obliczenia współczynnika korelacji liniowej Pearsona

niezbędna jest znajomość odchyleń standardowych obydwu cech: • • Odchylenie standardowe wieku kobiet jest równe: • • Odchylenie standardowe wieku mężczyzn jest równe: • • Dysponując powyższymi informacjami możemy obliczyć

współczynnik korelacji liniowej Pearsona: •

5,2310:235 x

8,2310:238 y

lat 3,810

5,142)(

s(x)

n

1i

2

n

xxi

lat 1,410

6,169)(

s(y)

n

1i

2

n

yyi

7396,0

86,01,48,310

134

2

xy

xy

r

r

Page 40: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Zatem współczynnik korelacji liniowej Pearsona jest równy:

Na tej podstawie można stwierdzić, że między liczbą izb a liczbą uczniów w szkole zachodzi dosyć silna dodatnia zależność korelacyjna.

Zmienność jednej cechy jest w 46,42% wyjaśniona zmiennością drugiej

4642,0

68,07,27,65

120

2

xy

xy

r

r

.

Page 41: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Dane jakościowe

• Często jest tak, że dane dla których chcemy mierzyć korelację, nie są danymi ilościowymi. Wtedy nie możemy użyć współczynnika korelacji liniowej Pearsona.

• Współczynnik korelacji rang Spearmana został opracowany właśnie dla takich przypadków.

Page 42: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

WSPÓŁCZYNNIK KORELACJI RANG (Spearmana)

Współczynnik korelacji rang (Spearmana) rS używamy w przypadku gdy:

1. choć jedna z badanych cech jest cecha jakościowa (niemierzalna), ale istnieje możliwość uporządkowania (ponumerowania) wariantów każdej z cech;

2. cechy maja charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30).

Numery jakie nadajemy wariantom cech noszą nazwę rang.

UWAGA ! W procesie nadawania rang stymulanty porządkujemy malejąco, a destymulanty rosnąco.

UWAGA ! W procesie nadawania rang może zdarzyć sie więcej niż 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas należy na chwile nadać tym jednostkom kolejne rangi.

Następnie należy zsumować takie rangi i podzielić przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych k jednostek otrzyma identyczną rangę (średnia dla danej grupy k jednostek).

Page 43: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wartość współczynnika korelacji rang (Spearmana) potwierdza bardzo silną, dodatnią (znak plus) zależność pomiędzy czasem nauki (X), a uzyskaną oceną (Y).

Page 44: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik korelacji kolejnościowej (rang) Spearmana

Współczynnik ten służy do opisu siły korelacji dwóch cech, szczególnie wtedy, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji w określonej kolejności.

Miarę tę można stosować również do badania

zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji.

Współczynnik rang Spearmana obliczamy ze wzoru:

)1(

6

12

1

2

nn

d

r

n

i

i

s

Page 45: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Gdzie: di – różnice między rangami odpowiadających sobie wartości cechy xi i cechy y­i (i=1, 2, ..., n). Obliczenia rozpoczynamy zazwyczaj od uporządkowania wyjściowych informacji według rosnących

(malejących) wariantów jednej z cech. Uporządkowanym wartościom nadajemy następnie numery kolejnych liczb naturalnych. Czynność ta

nosi nazwę rangowania. Rangowanie może odbywać się od najmniejszej do wartości największej do najmniejszej i odwrotnie, przy czym sposób rangowania musi być jednakowy dla obydwu zmiennych.

W przypadku, gdy występują jednakowe wartości realizacji zmiennych, przyporządkowujemy im średnią

arytmetyczną obliczoną z ich kolejnych numerów. Mówi się wówczas o występowaniu węzłów. Jednakowe rangi wartości badanych zmiennych (lub na ogół jednakowe) świadczą o istnieniu dodatniej

korelacji między zmiennymi. Natomiast przeciwstawna numeracja sugeruje istnienie korelacji ujemnej.

Współczynnik rang przyjmuje wartości z przedziału –1 < rs < +1, a jego interpretacja jest identyczna jak

współczynnika korelacji Pearsona.

)1(

6

12

1

2

nn

d

r

n

i

i

s

Page 46: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Transformacja cech przedziałowych na porządkowe

Page 47: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja rang Spearman’a r

Osoba X Y Xrank Yrank

A 0 4 1 2

B 2 1 2 1

C 8 10 5 5

D 6 9 4 4

E 4 6 3 3

Page 48: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Krok 2 – Obliczenie wartości SP…

• SP = ∑XY - ∑X∑Y/n

Korelacja rang Spearman’a r

Page 49: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Osoba Xrank Yrank XYrank

A 1 2 2

B 2 1 2

C 5 5 25

D 4 4 16

E 3 3 9

15 15 54

Korelacja rang Spearman’a r

Page 50: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Krok 2 – Określenie wartości SP ∑XY = 54 ∑X = 15 ∑Y = 15 n = 5

• SP = ∑XY - ∑X∑Y/n

= 54 - 15(15)/5

= 54 - 225/5

= 54 - 45

= 9

Korelacja rang Spearman’a r

Page 51: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Krok 3 – Określenie SS (dla każdej zmiennej).

∑X = 15 ∑Y = 15 n = 5

• SSX = ∑ X2 – (∑ X)2/n

• SSY = ∑ Y2 – (∑ Y)2/n

Korelacja rang Spearman’a r

Page 52: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Osoba X X2 Y Y2

A 1 1 2 4

B 2 4 1 2

C 5 25 5 25

D 4 16 4 16

E 3 9 3 9

∑X2 = 55 ∑Y2 = 55

Korelacja rang Spearman’a r

Page 53: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Krok 3 – Obliczenie SS

∑X = 15 ∑X2 = 55 ∑Y = 15 ∑Y2= 55 n = 5

• SSX = ∑ X2 – (∑ X)2/n

• SSY = ∑ Y2 – (∑ Y)2/n

= 55 - (15)2 /5

= 55 - 225/5 = 55 - 45 = 10

**Zauważ, że rangi dla X i Y są identyczne. Przez to SSX = SSY

Korelacja rang Spearman’a r

Page 54: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Krok 4

SP = 9 SSX = 10 SSY = 10

Spearman rs = SP

√(SSX)(SSY)

= 9

√(10)(10)

= 9/10

= +0.9

Korelacja rang Spearman’a r

Page 55: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Porównanie korelacji Pearson’a i rang Spearman’a

Osoba X Y Xrank Yrank

A 0 4 1 2

B 2 1 2 1

C 8 10 5 5

D 6 9 4 4

E 4 6 3 3

Pearson r = .86 Spearman r = .90

Page 56: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

przykład

• Na podstawie kontroli całokształtu pracy zawodowej i kwalifikacji nauczycieli dyrektor szkoły i wizytator wydali opinię o każdym z nauczycieli. Wyniki ujęto w punktach.

• Ustalić natężenie współzależności między opiniami o nauczycielach dyrektora i wizytatora [Sobczyk str. 214, wyd. z 1991]

Page 57: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Punktowym wynikom oceny nauczycieli nadajemy rangi, największej ilości punktów przypisujemy rangę 1.

Wykorzystują wzór na współczynnik rang Spearmana otrzymujemy:

92,0)1121(11

1761

sr

Otrzymany wynik wskazuje, że współzależność opinii dyrektora i wizytatora jest bardzo silna. Oceniający kierowali się

podobnymi kryteriami. Współczynnik determinacji liniowej obydwu zmiennych wynosi 84,64% (wszak 8464,02 sr )

Page 58: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik determinacji

r = 0 r2 = 0

r = .80 r2 = .64

r = 1 r2 = 1

Współczynnik korelacji r dostarcza miar stopnia zależności między danych

Współczynnik determinacji r2 dostarcza miary siły tej zależności.

Page 59: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik determinacji R2

• r2 jest często używany i nosi nazwę współczynnika determinacji. Jest to frakcja zmienności wartości Y, które można wytłumaczyć najmniejszych kwadratów regresji y na xi.

• Współczynniki korelacji, których wielkość wynosi od 0,9 i 1,0 wskazują zmienne, które można uznać za bardzo silnie skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,7 i 0,9 wskazują zmienne, które można uznać za wysoce skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,5 do 0,7 wskazać zmienne, które można uznać za umiarkowanie skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,3 do 0,5 wskazać zmienne, które mają niską korelację. Współczynniki korelacji, których wielkość jest mniejsza niż 0,3 mają niewielkie lub wręcz żadne (liniowy).

• Możemy łatwo zauważyć, że 0,9 <| r | <1,0 odpowiada 0,81 <r2 <1,00; 0,7 <| r | <0,9 odpowiada 0,49 <r2 <0,81; 0,5 <| r | <0,7 odpowiada 0,25 <r2 <0,49; 0.3 <| r | <0,5 wiąże się z 0,09 <r2 <0,25 oraz 0,0 <| r | <0,3 odpowiada z 0,0 <r2 <0.09.

Page 60: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

r = .93

r2 = (.93)2

r2 = .86

Współczynnik determinacji

Page 61: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Person X Y

A 0 4

B 2 1

C 8 10

D 6 9

E 4 6

r = .86

r2 = .74

Współczynnik determinacji

Page 62: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Typ danych a miara korelacji…

Page 63: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Point-Biserial

• Współczynnik korelacji (RPB) jest szczególnym przypadkiem miary Pearsona, gdzie jedna zmienna jest ilościowa, a druga zmienna jest nominalna (dychotomiczna bądź posiadająca więcej niż 2 wartości wykluczające się, jak to jest w przypadku cech dychotomicznych).

• RPB = (Y1 - Y0) * sqrt (pq) / (Y) • gdzie Y0 i Y1 są wartościami średnimi dla danych, które

dla zmiennej X mają wartości nominalne. • q = 1 - p oraz p są proporcjami par danych dla zmiennej

X, • (Y) to odchylenie standardowe Y w populacji.

Page 64: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik Phi

• Jeśli obie analizowane zmienne są nominalne (bądź nawet dychotomiczne) można stosować uproszczoną miarę korelacji Pearsona. Użyjemy tzw. tablic kontyngencji. Jest to dwuwymiarowa tablica określająca częstość każdej kategorii. Jeśli dla obu analizowanych zmiennych mamy po 2 możliwe wartości tablica ta będzie miała wymiar: 2 x 2.

phi = (25-100)/sqrt(15•15•15•15) = -75/225 = -0.33

Page 65: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Miary asocjacji: C, V, Lambda

• Są także miary specjalnie dla danych nominalnych ale takich które wcale nie muszą być dychotomiczne. Jedną z nich jest współczynnik kontyngencji Pearsona (nazywany C), jest także współczynnik V Cramer’a. Obie miary stosują statystykę chi-kwadrat.

• Jest i trzecia miara Goodmana i Kruskala nazywana współczynnkiem lambda.

Page 66: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Biserial Correlation Coefficient

• Inna miara asocjacji (rb) podobna do miary point biserial, z tym że dane ilościowe są traktowane jak dane porządkowe i np. dalej traktowane jak nominalne. Np. zamiast wynik jakiegoś pomiaru będzie określany tylko w kategoriach „wysoki” lub „niski.”

Y1 i Y0 są tak traktowane jak w poprzednich miarach. Zaś Y to wysokość rozkładu normalnego w punkcie z gdzie P(z'<z)=q i P(z'>z)=p.

Page 67: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Tetrachoric Correlation Coefficient

• Rtet miara ta dobrze pracuje dla obu zmiennych dychotomicznych ale musimy również założyć że obie zmienne są tak naprawdę ciągłymi zmiennymi i że mają rozkład normalny. Z tego względu miara jest użyta do danych porządkowych.

• rtet = cos (180/(1 + sqrt(BC/AD)).

Page 68: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Rank-Biserial Correlation Coefficient

• rrb stosowany dla nominalnych danych dychotomicznych oraz danych porządkowych.

• rrb = 2 •(Y1 - Y0)/n,

• Gdzie n to liczba par danych, Y0 oraz Y1, są wartościami średnimi dla zmiennej Y dla różnych klas zmiennej X.

Page 69: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Coefficient of Nonlinear Relationship (eta)

• Często stosowana miara dla pomiaru zależności między danymi (by stwierdzić czy to zależność liniowa, czy nie).

Wskaźnik korelacji eta jest traktowana jak miara Pearsona, ale nigdy nie może być ujemna.

Page 70: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik korelacji próbkowej

• Niech będzie próbką cechy dwuwymiarowej.

• Będziemy badać zależność Y od X.

• X = zmienna niezależna (zmienna objaśniająca),

• Y = zmienna zależna ( zmienna objaśniana ),

),(),...,,(),,( 2211 nn yxyxyx

Page 71: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Własności współczynnika korelacji próbkowej :

• 1.

• 2. Jeśli r =1, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki.

• 3. Jeśli r=-1, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki.

• 4. Wartości r bliskie –1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.

11 r

Page 72: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja: założenia

• Współczynnik korelacji Pearsona jest miarą liniowego związku pomiędzy dwiema zmiennymi.

• Założenia: obie zmienne (często oznaczane jako X i Y) powinny być zmiennymi ciągłymi z normalnym rozkładem.

• Charakterystyka: współczynnik korelacji Pearsona zazwyczaj jest oznaczany jako r albo (ro), i może przyjmować wartości od -1 do 1.

• Znak współczynnika korelacji wskazuje na kierunek zależności (wraz ze wzrostem wartości na jednej zmiennej odpowiednio wzrastają bądź maleją wartości na drugiej).

• Wartość bezwzględna współczynnika korelacji wskazuje na siłę istniejącej korelacji. Im ta wartość wyższa tym korelacja jest silniejsza.

• -1 wskazuje na idealną ujemną korelację, 0 oznacza brak (liniowego) związku, a 1 jest idealną korelacją dodatnią.

Page 73: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 74: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Oto prosty przykład korelacji dodatniej: »im dłuższy czas uczenia się, tym wyższe oceny«.

• Przykładem korelacji ujemnej jest związek między tremą a oceną (»im większa trema, tym niższa ocena« i odwrotnie). Obydwa przykłady są uproszczone i służą tylko do łatwiejszego rozumienia kierunku oddziaływania.

• Niektóre wskaźniki korelacji informują o kierunku badanej zależności. Znak plus lub minus wskazuje, czy korelacja jest dodatnia, czy też ujemna. Inne wskaźniki korelacji natomiast nie mają znaku plus lub minus, więc nie informują o kierunku zależności. Wówczas konieczny jest przegląd wszystkich rezultatów, aby poprawnie interpretować kierunek korelacji.

Page 75: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 76: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Związek może być silny a mimo to nieistotny I odwrotnie, związek może być słaby albo istotny.

• Kluczowa jest wielkość próby. • Dla małych zbiorów jest stosunkowo łatwo uzyskać silną

korelację przez przypadek i trzeba zwrócić uwagę na poziom istotności zanim wyciągnie się ostateczne wnioski, by nie odrzucić prawdziwej hipotezy zerowej, czyli nie popełnić błędu I rodzaju.

• Dla większych zbiorów, jest bardzo łatwo osiągnąć istotność, ale trzeba zwrócić uwagę na siłę korelacji (wartość bezwzględna współczynnika), żeby mieć pewność, że mamy do czynienia z rzeczywistym związkiem.

Page 77: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Interpretacja wartości r

Współczynnik korelacji ma wartości z przedziału [ -1,1]. Im korelacja jest bliższa +/-1, tym bliższa jest idealnemu

liniowemu związkowi. Przykładowa interpretacja korelacji: -1 to -0,7 silny negatywny związek. -0,7 to -0,3 słaby negatywny związek. -0,3 to +0,3 bardzo słaby związek lub jego brak. +0,3 to +0,7 słaby pozytywny związek. +0,7 to +1 silny pozytywny związek. Oczywiście nie są to sztywne kryteria klasyfikacji podziałów. W niektórych sytuacjach możemy obniżyć poziom słabej

wartej rozpatrywanej korelacji np. do 0,2 do 0,6 a w innych przesunąć z kolei przedział w gorę (od 0,4 do 0,8).

Page 78: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja nieliniowa

• jest trudniejsza do interpretacji.

• Czym charakteryzuje się nieliniowość lub liniowość korelacji (oprócz linii w diagramie)?

• W przypadku, gdy korelacja jest liniowa można stwierdzić, iż wartości y wzrastają lub opadają proporcjonalnie (współmiernie) do wzrostu lub spadku wartości x. Kierunek korelacji jest tylko jeden i nie zmienia się.

Page 79: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Przy korelacji nieliniowej…

• istnieją przynajmniej dwie trudności w interpretacji. • Pierwsza polega na nieproporcjonalnej przemianie y, podczas gdy x

zmienia się równomiernie. Dlatego jest wyraźnie trudniej wyjaśnić zmiany y.

• Drugi problemem jest fakt, iż nieliniowa korelacja może być w jednej części dodatnia, a w drugiej ujemna.

• Proste do zrozumienia jest stwierdzenie: im więcej uczeń się uczy, tym wyższe są jego wyniki. Każdy rozumie też kolejną prawidłowość: im więcej sportowiec trenuje, tym lepsze są jego osiągnięcia.

• Ale wszystko nie jest tak proste: ostatni przykład może w sposób przejrzysty pokazać trudności w interpretacji korelacji nieliniowej.

• Osiągnięcia sportowca wzrastają tylko do pewnej granicy. Za tą granicą przedłużanie czasu treningu może spowodować zmniejszanie osiągnięć.

• Jest to znane zjawisko przetrenowania (sportowiec zbyt dużo trenował).

Page 80: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Do punktu A korelacja jest dodatnia, od tego punktu dalej ujemna (więcej treningu przynosi niższe wyniki). Przykład jest wprawdzie nieco uproszczony, bo celowo zaniedbane zostało doświadczenie, iż wzrost wyników ma swoje granice bez względu na trening (czyli: zarówno w przypadku liniowej, jak i dodatniej korelacji, wyniki nie wzrastałyby w nieskończoność). Jednak uproszczenie to nie zmienia istoty spostrzeżenia, iż nieliniową korelację interpretuję się o wiele trudniej niż liniową.

Page 81: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Siła zależności dwóch zmiennych

• Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników.

• Ich wybór jest uzależniony m.in. od rodzaju cech, między którymi badana jest zależność (mierzalne, niemierzalne, mieszane); liczby obserwacji (tablica korelacyjna, szeregi korelacyjne), kształtu zależności (regresja, prostoliniowa, krzywoliniowa).

• Zakładając, że współzależność badanych zmiennych losowych X i Y jest statystycznie istotna, możemy wyróżnić cztery rodzaje podstawowych miar sił korelacji tych zmiennych:

• współczynnik zbieżności Czuprowa; • wskaźniki (stosunki) korelacyjne Pearsona; • współczynnik korelacji liniowej Pearsona; • współczynnik rang (korelacji kolejnościowej) Spearmana.

Page 82: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik zbieżności Czuprowa • Miernik ten oparty jest na teście chi – kwadrat (2). Wielkość 2 jest podstawą do

określenia unormowanej funkcji zależności cech zwanej współczynnikiem zbieżności Czuprowa. Określa go wzór:

• Współczynnik ten przyjmuje wartość z przedziału [0,1], gdy badane zmienne są stochastycznie niezależne. Przy zależności funkcyjnej zmiennych, T = 0.

• Im bardziej współczynnik zbieżności jest bliższy zeru, tym słabsza jest zależność między zmiennymi.

• Przy wyznaczaniu współczynnika zbieżności nie jest ważne, którą z cech traktuje się jako zależną a którą jako niezależną – co jest istotne przy badaniu zależności w sensie korelacyjnym. Własność tę określa się mianem symetryczności:

• Zaletą współczynnika zbieżności jest to, że może być stosowany do mierzenia współzależności zarówno cech mierzalnych jak i niemierzalnych. Jego wadą jest natomiast to, że nie wskazuje kierunku korelacji (jest zawsze dodatni).

)1)(1(

2

krnTT yxxy

yxxy TT

Page 83: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

współczynnik determinacji

• Do oceny natężenia korelacji między zmiennymi X i Y wykorzystuje się również współczynnik determinacji.

• Miara ta wskazuje, w ilu procentach zmienność zmiennej zależnej jest określona zmiennością zmiennej niezależnej. Tak więc o ile z rachunkowego punktu widzenia T ocenia zarówno zależność cechy X od cechy Y jak i cechy Y od X , o tyle interpretacja współczynnika zbieżności musi jednoznacznie określać charakter zmiennych, tzn. która z nich jest zmienną zależną, a która niezależną.

• Z uwagi na to, że przy obliczaniu współczynnika zbieżności brane są pod uwagę jedynie liczebności odpowiednich rozkładów, a nie ich parametry, współczynnik zależności jest przede wszystkim miarą zależności stochastycznej dwóch zmiennych. Ponieważ zależność korelacyjna jest pojęciem węższym od zależności stochastycznej można go wykorzystać jako miarę siły związku korelacyjnego.

2100 xyT

Page 84: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wariancje międzygrupowe zmiennych X i Y są obliczane ze wzorów:

• Gdzie są odpowiednio średnimi warunkowymi zmiennych X i Y

• a

są średnimi ogólnymi obliczonymi z rozkładów brzegowych.

k

i

iii

k

j

jij

nyyn

ys

nxxn

xs

1

.

22

1

.

22

)(1

)(

)(1

)(

ij yx oraz

yx oraz

Page 85: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wariancje wewnątrzgrupowe zmiennych X i Y

są obliczane ze wzoru:

k

i

iii

k

j

jjj

nysn

ys

nxsn

xs

1

.

22

1

.

22

)(1

)(

)(1

)(

Wskaźnik korelacyjny zmiennej X względem zmiennej Y określa zatem wzór:

Z czego wynika, że wskaźnik korelacyjny zmiennej Y względem zmiennej X określa wzór:

)(

)(

xs

xse

j

xy

)(

)(

ys

yse i

yx 10 e

Są one równe 0, gdy cechy są nieskorelowane, 1 – gdy między badanymi zmiennymi zachodzi zależność funkcyjna.

Page 86: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Interpretacja

Im wartość wskaźnika korelacyjnego jest bliższa 1, tym zależność korelacyjna jest silniejsza.

Stosunki korelacyjne są niesymetryczne , z wyjątkiem dwóch przypadków: 1. gdy zmienne X i Y są niezależne stochastycznie; 2. gdy między zmiennymi X i Y zachodzi związek funkcyjny Z powyższego wynika, że przy obliczaniu wskaźników korelacyjnych ważne jest

ustalenie, która z cech jest zależna, a która niezależna. Wskaźniki korelacyjne nie wskazują kierunku korelacji badanych zmiennych, zawsze są

dodatnie. Ich zaletą jest fakt, że nie zależą od kształtu regresji. Dzięki temu mogą być stosowane

zarówno w przypadku zależności prostoliniowych, jak i krzywoliniowych. Dodatkowo wskaźniki korelacyjne mogą być wykorzystywane dwóch cech, z których jedna jest niemierzalna.

yxxy ee

1 yxxy ee

Page 87: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Współczynnik determinacji Równolegle do wskaźników korelacyjnych

korzysta się ze współczynników determinacji:

, wyrażonych w procentach.

Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.

yxxy ee i

22 100 i 100 yxxy ee

Page 88: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

przykład

• Wylosowano 100 rodzin i zbadano je pod względem liczby dzieci pozostających na całkowitym utrzymaniu i standardu ekonomicznego rodziny, określonego przez średni miesięczny dochód przypadający na członka rodziny.

• Za pomocą stosunku korelacyjnego określić siłę związku korelacyjnego standardu ekonomicznego względem liczny dzieci w rodzinie. [Sobczyk str. 205-207 wyd. z 1991 r.]

Page 89: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• W pierwszej kolejności obliczamy średnią ogólną i wariancję ogólną cechy Y:

79,0100

25)9,24(50)9,23(15)9,22(10)9,21()(

9,2100

254503152101

2222

ys

y

2,15

1241

5,110

133261

56,225

143112

25,340

104303

75,320

15453

4/5

3/4

2/3

1/2

0/1

x

x

x

x

x

y

y

y

y

y

Następnie obliczamy wartości średnich warunkowych rozkładów cechy Y:

Page 90: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

• Po zakończeniu kalkulacji obliczamy wariancję średnich warunkowych:

56,0

100

5)9,22,1(10)9,25,1(25)9,256,2(40)9,225,3(20)9,275,3()(

222222

iys

Podstawiając obliczone wartości do wzoru na wskaźnik korelacyjny otrzymujemy:

709,0

842,079,0

56,0

2

yx

yx

e

e

Uzyskany wynik świadczy o silnej zależności standardu ekonomicznego rodziny od liczby dzieci. W niemal 71% przypadków

zmiany standardu ekonomicznego rodziny mogą być wyjaśnione zmianami liczby posiadanych dzieci.

Jest to zależność jednostronna – liczba dzieci nie zależy od standardu ekonomicznego.

Page 91: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wpływ zmiennej objaśniającej jest wpływem, który znajduje się w centrum uwagi. Rozproszenie z nim związane jest więc wyjaśnione.

Wpływem pozostałych czynników badacz jest zainteresowany jedynie ubocznie.

Dlatego też rozproszenie powiązane z nimi nazywa się rozproszeniem niewyjaśnionym. Poniższy rysunek ilustruje korelację między zmienną objaśniającą x i objaśnianą y.

Page 92: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wariancja wyjaśniona i niewyjaśniona

• Podział wariancji na wyjaśnioną i niewyjaśnioną jest wyidealizowany. Przesłanką tego podziału jest niezależność x od pozostałych czynników. W praktyce zdarza się to jedynie incydentalnie. Takie uproszczenie bardzo ułatwia zrozumienie zasady pomiaru korelacji.

• Należy jednak pamiętać, iż procedura ta jest trochę nieścisła. W interpretacji należy uwzględniać różnicę między ideałem i realnością.

• Stosunek pomiędzy wariancją wyjaśnioną a wariancją całkowitą wskazuje z jaką silą x oddziałuje na y. Stosunek ten nazywa się indeksem korelacji. Oto wzór do obliczania indeksu korelacji:

Page 93: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Interpretacja

• Wartości indeksu wahają się od 0 do 1. Wartość zero oznacza brak korelacji między x i y (wyjaśniona wariancja równa się zeru, co oznacza, iż x nie oddziałuje na y).

• Wartość 1 oznacza, że korelacja jest najsilniejsza (niewyjaśniona wariancja równa się zeru, co oznacza, iż tylko x oddziałuje na y). Taka korelacja jest już funkcją.

• Należy jeszcze raz podkreślić, iż indeks korelacji nie może przekraczać wartości 1,00! Ta zasada odnosi się do wszystkich miar współzależności. Oznacza to, że jeżeli w trakcie obliczeń miar współzależności (indeksu korelacji, współczynników korelacji, współczynników zbieżności, itd.) otrzyma się wartość większą niż 1, jest to niewątpliwy znak, iż obliczenia są błędne!

Page 94: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Poniższe wykresy pokazują kilka możliwych przypadków korelacji…

Page 95: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

przykład

Page 96: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 97: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 98: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 99: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 100: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 101: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 102: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Interpretacja wartości korelacji

Page 103: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Wybór miary korelacji

Page 104: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

Page 105: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja Pearsona w excelu

Page 106: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

0

20

40

60

80

100

-5 0 5 10 15 20

rati

ng

sugars

sugars

Korelacja Pearsona w excelu

Page 107: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Korelacja Spearmana w excelu

Page 108: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

The Spearman correlation,

called Spearman’s rho, is a

special case of the Pearson

correlation computed on ranked

data.

Page 109: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 110: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 111: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 112: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

Page 113: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 114: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 115: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)
Page 116: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Porównanie miar korelacji Pearsona i Spearmana

Page 117: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Porównanie miar korelacji Pearsona i Spearmana

Page 118: Zależności w danych. Korelacja. Regresja.zsi.ii.us.edu.pl/~nowak/smad/SMAD_w2.pdf · [Sobczyk str. 209-210, wyd.1991] • Na podstawie analizy diagramu punktowego (korelacyjnego)

Laboratorium (zadanie domowe)

Zadanie nr 1.

Wykonaj operacje przedstawione w trakcie prezentacji.

Zadanie nr 2.

Spróbuj wczytać wybrany przez siebie zbiór danych z repozytorium http://archive.ics.uci.edu/ml/datasets.html

I następnie spróbuj odnaleźć w danych zależności.

Zadanie nr 3.

Wykonaj zadania związane z analizą korelacji znajdujące się w dokumencie: http://zsi.tech.us.edu.pl/~nowak/smad/KorReg_zadania.pdf