Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11...

Preview:

Citation preview

Analiza współzależności dwóch cech II

Dopasowanie funkcji regresji do danych empirycznych

Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych.

Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej:

ei = yi − yi .

Dopasowanie funkcji regresji do danych empirycznych

Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.

W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:

• Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):

Se =

N∑i=1

(yi − yi)2

N − 2=

N∑i=1

e2i

N − 2.

Średni błąd szacunkuOkreśla on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).

Współczynnik determinacji

• Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej

R2 = 1 −

N∑i=1

(yi − yi)2

N∑i=1

(yi − y)2.

R2 = (rxy)2 .

Przykład

Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.

Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)

1 1 10

2 2 11

3 3 12

4 4 14

5 5 15

6 5 15

7 6 16

8 7 18

9 8 19

10 9 20

y = 8,5 + 1,3 ⋅ x .

PrzykładStaż pracy (w latach)

Wydajność pracy (w szt./h)

1 10 9,8 0,2 0,042 11 11,1 -0,1 0,013 12 12,4 -0,4 0,164 14 13,7 0,3 0,095 15 15 0,0 0,005 15 15 0,0 0,006 16 16,3 -0,3 0,097 18 17,6 0,4 0,168 19 18,9 0,1 0,019 20 20,2 -0,2 0,04

Razem — — 0,60

xi yi

yi = 8,5 + 1,3 ⋅ xi ei = yi − yi e2i = (yi − yi)2

N = 10, Se =

N∑i=1

e2i

N − 2=

0,610 − 2

= 0,27.

Przykład

Se =

N∑i=1

e2i

N − 2=

0,610 − 2

= 0,27.

Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.

Przykład

1 10 9,8 0,2 0,04 252 11 11,1 -0,1 0,01 163 12 12,4 -0,4 0,16 94 14 13,7 0,3 0,09 15 15 15 0,0 0,00 05 15 15 0,0 0,00 06 16 16,3 -0,3 0,09 17 18 17,6 0,4 0,16 98 19 18,9 0,1 0,01 169 20 20,2 -0,2 0,04 25

Razem 150 — — 0,60 102

xi yi yi = 8,5 + 1,3 ⋅ xi e2i = (yi − yi)2

N = 10, y =15010

= 15, R2 = 1 −

N∑i=1

(yi − yi)2

N∑i=1

(yi − y)2= 1 −

0,6102

= 0,9941.

ei = yi − yi (yi − y)2

PrzykładR2 = 0,9941.

Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%.

Wyd

ajno

ść p

racy

7

10

13

16

19

22

Staż pracy0 1 2 3 4 5 6 7 8 9

y = 1,3x + 8,5R² = 0,9941

Wykorzystanie funkcji regresjiWłaściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.

PrzykładNa podstawie oszacowanej funkcji regresji z poprzedniego przykładu:

y = 8,5 + 1,3 ⋅ x

przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem

xP = 12

Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.

PrzykładOtrzymujemy:

y = 8,5 + 1,3 ⋅ xP = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .

Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.

Współczynnik korelacji rang Spearmana

Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).

Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang — rangowaniem.

RangowaniePoszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.

Nr jednostki Wariant cechy Ranga1 podstawowe 12 zawodowe 23 średnie 4

Średnia z 3, 4, 54 średnie 45 średnie 46 wyższe 6,5 Średnia z 6, 77 wyższe 6,5

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru

gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla poszczególnych jednostek badania.

rs = 1 −6

N∑i=1

d2i

N(N2 − 1),

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei — im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.

Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.

Przykład IZa pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Kraj Liczba ludności (w tys.)

Emisja zanieczyszczeń powietrza CO2(w mln ton)

Austra 8 105 79,5Belgia 10 416 123,5Dania 5 401 50,5Finlandia 5 226 56,7Francja 60 044 415,7Grecja 11 015 110,5Hiszpania 43 768 368,3Irlandia 4 024 47,7Luksemburg 454 12,1Holandia 16 275 175,9Niemcy 82 561 876,8Portugalia 10 524 68,7Szwecja 8 991 51,5Wielka Brytania 59 561 555,6Włochy 57 537 488Polska 38 180 317,7

Przykład IRangowanie ze względu na pierwszą cechę - Liczbę ludności.

Kraj Liczba ludności (w tys.)

Ranga

Luksemburg 454 1Irlandia 4 024 2Finlandia 5 226 3Dania 5 401 4Austra 8 105 5Szwecja 8 991 6Belgia 10 416 7Portugalia 10 524 8Grecja 11 015 9Holandia 16 275 10Polska 38 180 11Hiszpania 43 768 12Włochy 57 537 13Wielka Brytania 59 561 14Francja 60 044 15Niemcy 82 561 16

Przykład IRangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.

Kraj Emisja zanieczyszczeń powietrza CO2(w mln ton)

Ranga

Luksemburg 12,1 1Irlandia 47,7 2Dania 50,5 3Szwecja 51,5 4Finlandia 56,7 5Portugalia 68,7 6Austra 79,5 7Grecja 110,5 8Belgia 123,5 9Holandia 175,9 10Polska 317,7 11Hiszpania 368,3 12Francja 415,7 13Włochy 488 14Wielka Brytania 555,6 15Niemcy 876,8 16

Przykład IObliczenie różnic między rangami

Kraj

Liczba ludności (w tys.)

Emisja zanieczyszczeń powietrza CO2(w mln ton)

Rangi X Rangi Y Różnice rang Kwadraty różnic rang

Luksemburg 454 12,1 1 1 0 0Irlandia 4 024 47,7 2 2 0 0Finlandia 5 226 56,7 3 5 -2 4Dania 5 401 50,5 4 3 1 1Austra 8 105 79,5 5 7 -2 4Szwecja 8 991 51,5 6 4 2 4Belgia 10 416 123,5 7 9 -2 4Portugalia 10 524 68,7 8 6 2 4Grecja 11 015 110,5 9 8 1 1Holandia 16 275 175,9 10 10 0 0Polska 38 180 317,7 11 11 0 0Hiszpania 43 768 368,3 12 12 0 0Włochy 57 537 488 13 14 -1 1Wielka Brytania 59 561 555,6 14 15 -1 1Francja 60 044 415,7 15 13 2 4Niemcy 82 561 876,8 16 16 0 0Razem — — — — — 28

xi yi di d2i

Przykład I

xi yi di d2i

Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.

N = 16,N

∑i=1

d2i = 28,

rs = 1 −6 ⋅

N∑i=1

d2i

N(N2 − 1)= 1 −

6 ⋅ 2816 ⋅ (162 − 1)

= 1 − 0,041 = 0,959.

Przykład I

xi

Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Emis

ja C

O2

(w m

ln to

n)

7

185,6

364,2

542,8

721,4

900

Liczba ludności (w tys.)0 20000 40000 60000 80000

Przykład IIZa pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka

UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego

Katarzyna Beksa 5 biegły

Przemysław Bełkot 4 dobry

Paweł Dentka 3 dobry

Michalina Drzwi-Okno 3 przeciętny

Franciszek Głąb 2 przeciętny

Jacek Kolosalny 1 słaby

Leokadia Masełko 4 biegły

Rafał Nieuważny 4 biegły

Józef Piszpan 1 przeciętny

Zyglinda Żyłka 2 przeciętny

Przykład IIRangowanie dla cechy pierwszej — czas poświęcony nauce.

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X

1 Jacek Kolosalny 1 słaby 1,5

2 Józef Piszpan 1 przeciętny 1,5

3 Franciszek Głąb 2 przeciętny 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5

5 Paweł Dentka 3 dobry 5,5

6 Michalina Drzwi-Okno 3 przeciętny 5,5

7 Przemysław Bełkot 4 dobry 8

8 Leokadia Masełko 4 biegły 8

9 Rafał Nieuważny 4 biegły 8

10 Katarzyna Beksa 5 biegły 10

Przykład IIRangowanie dla cechy drugiej — poziom znajomości języka.

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1

2 Józef Piszpan 1 przeciętny 1,5 3,5

3 Franciszek Głąb 2 przeciętny 3,5 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5

5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5

6 Paweł Dentka 3 dobry 5,5 6,5

7 Przemysław Bełkot 4 dobry 8 6,5

8 Leokadia Masełko 4 biegły 8 9

9 Rafał Nieuważny 4 biegły 8 9

10 Katarzyna Beksa 5 biegły 10 9

Przykład IIObliczanie różnic rang i ich kwadratów:

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25

2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4

3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0

5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 2 4

6 Paweł Dentka 3 dobry 5,5 6,5 -1 17 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25

8 Leokadia Masełko 4 biegły 8 9 -1 19 Rafał Nieuważny 4 biegły 8 9 -1 1

10 Katarzyna Beksa 5 biegły 10 9 1 1

Razem — — — — — 14,5

di d2i

rs = 1 −6 ⋅

N∑i=1

d2i

N(N2 − 1)= 1 −

6 ⋅ 14,510 ⋅ (102 − 1)

= 1 − 0,09 = 0,91.

Przykład IIWartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.

Rang

i dla

cec

hy Y

0

2

4

6

8

10

Rangi dla cechy X1 2 3 4 5 6 7 8 9 10

Miary korelacji dla danych pogrupowanych w tablicy

Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.

Schemat tablicy korelacyjnejWarianty zmiennej

niezależnej

Warianty zmiennej zależnej

. . . . .

. . . . .

. . . . .

xi

x1

x2

xl

y1 y2 yk

yj

n11

n21

n12 n1k

n2kn22

nl1 nl2 nlk

n∙j =l

∑i=1

nij n∙1 n∙2 n∙k

ni∙ =k

∑j=1

nij

n1∙

n2∙

nl∙

N

N - ogólna liczba jednostek,ni∙ - liczebności brzegowe cechy X,n∙j - liczebności brzegowe cechy Y .

nij - liczebności warunkowe odpowiadające:i-temu wariantowi cechy Xj-temu wariantowi cechy Y

Miary korelacji dla danych pogrupowanych w tablicy

Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):

Miary korelacji dla danych pogrupowanych w tablicy

i z k rozkładów cechy X (dla każdego yi):

Miary korelacji dla danych pogrupowanych w tablicy

oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:

Miary korelacji dla danych pogrupowanych w tablicy

Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.

y(x1) |  pod warunkiem, że X = x1

y(x2) |  pod warunkiem, że X = x2

y(xl) |  pod warunkiem, że X = xl

średnie grupowe:

Miary korelacji dla danych pogrupowanych w tablicy

Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna.

Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.

Analiza wykresu rozrzutu punktów empirycznych

Cen

a di

amen

tu (w

dol

arac

h)

-1000

1000

3000

5000

7000

9000

11000

13000

15000

17000

19000

Waga diamentu (w caratach)0,1 0,4 0,7 1 1,3 1,6

Analiza liczebności w tablicy korelacyjnej

Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.

Analiza liczebności w tablicy korelacyjnej

Im mniej pasażerów zabieramy tym szybciej jedziemy?

Liczba pasazerów

Prędkość samochodu

45 — 55 55 — 65 65 — 75 75 — 85 85 — 95

0 0 1 1 1 01 1 3 3 0 12 1 2 3 1 03 2 3 0 0 04 0 2 0 0 0

xi

yj

Miary korelacji dla pogrupowanych danych

Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary:

• Stosunek korelacji, eyx,

• Współczynnik C-Pearsona, C,

• Współczynnik Q-Yule’a, Q.

Stosunek korelacjiOparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.

eyx =Sy(x)

Sy,

y - średnia ogólna cechy Y,

Sy - odchylenie standardowe cechy Y,

Sy(x) - odchylenie standardowe średnich grupowych: y(x1), …, y(xl) .

Stosunek korelacjiZ powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.

y =1N

k

∑j=1

yjn∙j =1N

l

∑i=1

k

∑j=1

yjnij, Sy =1N

k

∑j=1

(yj − y)2n∙j ,

y(xi) =1ni∙

k

∑j=1

yjnij, Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ .

Stosunek korelacjiStosunek korelacji zawiera się w przedziale od 0 do 1:

0 ⩽ eyx ⩽ 1.

Przy braku korelacji

eyx = 0.

Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.

Własności stosunku korelacji

• Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.

• Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to

|rxy | ⩽ eyx,

A równość występuje tylko w przypadku zależności liniowej.

Własności stosunku korelacji

• Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np.

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44

Duże miasto 3 6 14 23

Ogółem 33 50 17 100

Przykład I — Obie cechy mierzalne

Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem.

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

Ogółem 22 58 20 100

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

y =1N

k

∑j=1

∘yjn∙j =3296100

= 32,96 %

n∙j∘yj

n∙j∘yj

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

3,8416 0,0016 4,1616 —

84,52 0,09 83,23 167,84

n∙j∘yj

n∙j∘yj

( ∘yj − y)2

n∙j(∘yj − y)2

Przykład I — Obie cechy mierzalne

Sy =1N

k

∑j=1

( ∘yj − y)2n∙j =167,84

100= 1,3

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Proc. udz. wyd. na ż., Y

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19 663 34,89 71,1209

1200 — 1600 3 55 2 60 1978 32,97 0,0027

1600 — 2000 19 2 — 21 655 31,19 65,7555

Ogółem 22 58 20 100 3296 — 136,8791

ni∙

3

∑j=1

nij∘yj y(xi) (y(xi) − y)2 ⋅ ni∙

Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ =136,88

100= 1,17

Przykład I — Obie cechy mierzalne

Sy(x) = 1,17,

eyx =Sy(x)

Sy=

1,171,3

= 0,9.

Sy = 1,3,

Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engela.

Przykład I — Obie cechy mierzalne

Śred

nie

grup

owe

cech

y Y

30

31

32

33

34

35

Środki klas dla cechy X1000 1160 1320 1480 1640 1800

Przykład II — Cecha X niemierzalna

W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze.

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44

Duże miasto 3 6 14 23

Ogółem 33 50 17 100

Przykład II — Cecha X niemierzalna

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44Duże miasto 3 6 14 23

33 50 17 100

99 200 85 384

0,7056 0,0256 1,3456 —23,2848 1,28 22,8752 47,44

n∙j

n∙jyj

(yj − y)2

n∙j(yj − y)2

y =1N

k

∑j=1

yjn∙j =384100

= 3,84 Sy =1N

k

∑j=1

(yj − y)2n∙j =47,44100

= 0,69

Przykład II — Cecha X niemierzalna

Miejsce zamieszkania

X

Ocena z matematyki na maturze Y

3 4 5

Wieś 25 6 2 33 109 3,30 9,52

Małe miasto 5 38 1 44 172 3,91 0,21

Duże miasto 3 6 14 23 103 4,48 9,37

Ogółem 33 50 17 100 384 — 19,09

ni∙

3

∑j=1

nijyj y(xi) (y(xi) − y)2 ⋅ ni∙

Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ =19,09100

= 0,44

Przykład II — Cecha X niemierzalna

Sy(x) = 0,44,

eyx =Sy(x)

Sy=

0,440,69

= 0,64.

Sy = 0,69,

Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.

Tablica kontyngencjiW przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.

Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:

C =χ2

χ2 + N,

gdzie χ2 to wartość statystyki χ2 (chi-kwadrat).

Tablica kontyngencjiWartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru

χ2 =l

∑i=1

k

∑j=1

(nij − nij)2

nij,

nij - liczebności warunkowe (empiryczne),gdzie

gdyby cechy były niezależne:nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,

nij =ni∙ ⋅ n∙j

N.

Współczynnik C-PearsonaWspółczynnik C-Pearsona

C =χ2

χ2 + N

oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.

Skorygowany współczynnikC-Pearsona

Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona:

Cskor = C ⋅C*

C* − 1,

gdzieC* = min(l, k),

l - liczba wierszy tablicy kontyngencji,k - liczba kolumn tablicy kontyngencji.

PrzykładW pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:

WynikiX

Metoda nauczania, YRazem

A B C

Pozytywne 30 80 50 160

Negatywne 10 60 20 90

Razem 40 140 70 250

Ustalimy siłę zależności między tymi cechami niemierzalnymi.

PrzykładWyniki

X

Metoda nauczania, YRazem

A B C

Pozytywne

Negatywne

Razem

n11 = 30

n21 = 10

n∙1 = 40

n12 = 80

n22 = 60

n∙2 = 140

n13 = 50

n23 = 20

n∙3 = 70 N = 250

n1∙ = 160

n2∙ = 90

Liczebności teoretyczne:

n11 =n1∙ ⋅ n∙1

N=

160 ⋅ 40250

= 25,6 n12 =n1∙ ⋅ n∙2

N=

160 ⋅ 140250

= 89,6 n13 =n1∙ ⋅ n∙3

N=

160 ⋅ 70250

= 44,8

n21 =n2∙ ⋅ n∙1

N=

90 ⋅ 40250

= 14,4 n22 =n2∙ ⋅ n∙2

N=

90 ⋅ 140250

= 50,4 n23 =n2∙ ⋅ n∙3

N=

90 ⋅ 70250

= 25,3

Przykład

30 25,6 4,4 19,36 0,76

80 89,6 -9,6 92,16 1,03

50 44,8 5,2 27,04 0,60

10 14,4 -4,4 19,36 1,34

60 50,4 9,6 92,16 1,83

20 25,3 -5,3 28,09 1,11

Razem — — — 6,67

nij nij nij − nij (nij − nij)2 (nij − nij)2

nij

χ2 =(nij − nij)2

nij= 6,67 C =

χ2

χ2 + N=

6,676,67 + 250

= 0,16

PrzykładC =

χ2

χ2 + N=

6,676,67 + 250

= 0,16

Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.

Współczynnik współzależności Q-Yule’a

Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych:

Q =ad − bcad + bc

.

Warianty cechyniemierzalnej X

Warianty cechy niemierzalnej Y

y1 y2

x1 a b

x2 c d

Współczynnik współzależności Q-Yule’a

Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.

PrzykładUważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki

EgzaminPłeć

RazemMężczyzna Kobieta

Zdany 70 125 195

Niezdany 20 85 105

Razem 90 210 300

PrzykładEgzamin

PłećRazem

Mężczyzna Kobieta

Zdany 70 125 195

Niezdany 20 85 105

Razem 90 210 300

Q =ad − bcad + bc

=70 ⋅ 85 − 125 ⋅ 2070 ⋅ 85 + 125 ⋅ 20

= 0,41.

Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.

Recommended