36
Metody analizy Metody analizy współzależności cech współzależności cech (zmiennych) (zmiennych) Wykład 6 Wykład 6 dr Małgorzata Radziukiewicz dr Małgorzata Radziukiewicz

Metody analizy współzależności cech (zmiennych)

  • Upload
    scout

  • View
    101

  • Download
    0

Embed Size (px)

DESCRIPTION

Metody analizy współzależności cech (zmiennych). Wykład 6 dr Małgorzata Radziukiewicz. Poszczególne jednostki populacji mogą być badane: ze względu na jedną cechę ; jednocześnie ze względu na dwie lub więcej cech . Przykład 1. - PowerPoint PPT Presentation

Citation preview

Page 1: Metody analizy współzależności cech (zmiennych)

Metody analizy współzależności Metody analizy współzależności cech (zmiennych)cech (zmiennych)

Wykład 6Wykład 6

dr Małgorzata Radziukiewiczdr Małgorzata Radziukiewicz

Page 2: Metody analizy współzależności cech (zmiennych)

Poszczególne jednostki populacji mogą być badane:Poszczególne jednostki populacji mogą być badane:• ze względu na ze względu na jedną cechęjedną cechę;;• jednocześnie ze względu na jednocześnie ze względu na dwie dwie lub lub więcej cechwięcej cech..

Przykład 1.Przykład 1.

Gospodarstwa domowe mogą być badane nie tylko ze Gospodarstwa domowe mogą być badane nie tylko ze względu na wysokość miesięcznych dochodów, lecz względu na wysokość miesięcznych dochodów, lecz również ze względu na liczbę osób w gospodarstwie, wiek również ze względu na liczbę osób w gospodarstwie, wiek głowy gospodarstwa, wysokość miesięcznych wydatków, głowy gospodarstwa, wysokość miesięcznych wydatków, liczbę osób pracujących, czy stosowany lek (wielkość liczbę osób pracujących, czy stosowany lek (wielkość dawki) ma wpływ na stan zdrowia itp.dawki) ma wpływ na stan zdrowia itp.

Page 3: Metody analizy współzależności cech (zmiennych)

Inaczej mówiąc możemy badać populację ze względu Inaczej mówiąc możemy badać populację ze względu na na mm cech. Wektor cech zapisujemy: cech. Wektor cech zapisujemy:

xx = [x = [x11, x, x22,…, x,…, xmm]]

Przykład 2.Przykład 2. Studenci statystyki WSMiZ w Sochaczewie byli badani ze Studenci statystyki WSMiZ w Sochaczewie byli badani ze

względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (xwzględu na wagę (x11), lecz również według wzrostu (x), lecz również według wzrostu (x22), ), wieku (xwieku (x33), płci (x), płci (x44), charakteru studiów (dzienne, zaoczne) ), charakteru studiów (dzienne, zaoczne) (x(x55) itp.) itp.

Page 4: Metody analizy współzależności cech (zmiennych)

Poszczególne cechy mogą być:Poszczególne cechy mogą być:• od siebie odizolowane;od siebie odizolowane;• wzajemnie ze sobą powiązane.wzajemnie ze sobą powiązane.

Dział statystyki zajmujący się badaniem Dział statystyki zajmujący się badaniem związków między kilkoma cechami (zmiennymi) związków między kilkoma cechami (zmiennymi) nosi nazwę nosi nazwę teorii współzależnościteorii współzależności..

Page 5: Metody analizy współzależności cech (zmiennych)

Wykrycie zależności między cechami nie jest łatwe, nawet Wykrycie zależności między cechami nie jest łatwe, nawet jeśli ich występowanie wydaje się oczywiste.jeśli ich występowanie wydaje się oczywiste.Przykład 3.Przykład 3.

- chociaż dany lek jest bardzo dobry, to jednak nie dla każdej osoby będzie skuteczny;- chociaż dany lek jest bardzo dobry, to jednak nie dla każdej osoby będzie skuteczny;- chociaż dane gospodarstwo ma wysoki dochód, to nie koniecznie musi dużo wydawać na - chociaż dane gospodarstwo ma wysoki dochód, to nie koniecznie musi dużo wydawać na

dobra luksusowe, itp..dobra luksusowe, itp.. Występowanie zależności można wykryć tylko przez Występowanie zależności można wykryć tylko przez

obserwację większej liczby przypadków.obserwację większej liczby przypadków.Przykład 4.Przykład 4.- chorzy, którzy zażywają skuteczny lek są częściej wyleczeni, niż ci, którzy go nie - chorzy, którzy zażywają skuteczny lek są częściej wyleczeni, niż ci, którzy go nie przyjmują;przyjmują;- gospodarstwa z wysokimi dochodami wydają przeciętnie więcej na dobra - gospodarstwa z wysokimi dochodami wydają przeciętnie więcej na dobra luksusowe niż ubogie gospodarstwa;luksusowe niż ubogie gospodarstwa;- określona liczba studentów poświęca tę samą ilość czasu na przygotowanie się do - określona liczba studentów poświęca tę samą ilość czasu na przygotowanie się do egzaminu, ale uzyskane wyniki są różne;egzaminu, ale uzyskane wyniki są różne;- działki zasilamy tą samą dawka nawozu, ale w efekcie możemy mieć różne plony - działki zasilamy tą samą dawka nawozu, ale w efekcie możemy mieć różne plony itp.. itp..

■■ Zaprezentowane w przykładzie 3 związki cech (zmiennych) są Zaprezentowane w przykładzie 3 związki cech (zmiennych) są stochastyczne.stochastyczne.

Page 6: Metody analizy współzależności cech (zmiennych)

Współzależność zjawiskWspółzależność zjawisk

współzależność funkcyjnawspółzależność funkcyjna – zmiana wartości – zmiana wartości jednej zmiennej (X) powoduje ściśle określoną jednej zmiennej (X) powoduje ściśle określoną zmianę drugiej zmiennej (Y). Oznacza to, że zmianę drugiej zmiennej (Y). Oznacza to, że zmiennej X odpowiada tylko jedna wartość zmiennej X odpowiada tylko jedna wartość zmiennej Y np. pole kwadratu jest funkcją jego zmiennej Y np. pole kwadratu jest funkcją jego boku, czyli P = aboku, czyli P = a22 (wszystkie kwadraty o boku a (wszystkie kwadraty o boku a maja takie samo pole);maja takie samo pole);

współzależność stochastycznawspółzależność stochastyczna – wraz ze zmianą – wraz ze zmianą jednej zmiennej zmienia się rozkład jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem jest Szczególnym przypadkiem jest zależność zależność korelacyjna.korelacyjna.

Page 7: Metody analizy współzależności cech (zmiennych)

● ● Stochastyczny związek cech można prezentować tabelarycznie.Stochastyczny związek cech można prezentować tabelarycznie.● ● Tablicę ujmującą ten związek nazywa się Tablicę ujmującą ten związek nazywa się tablicą korelacyjnątablicą korelacyjną ( (łac. łac. corelatiocorelatio: współzależność, wzajemny stosunek).: współzależność, wzajemny stosunek).● przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub ● przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub odwrotnie), a więc mówiąc o związku cech, rozumiemy odwrotnie), a więc mówiąc o związku cech, rozumiemy związek 2-óch cechzwiązek 2-óch cech..● W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych ● W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych oraz 2 szeregi rozdzielcze główne (brzegowe).oraz 2 szeregi rozdzielcze główne (brzegowe).● Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio ● Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio poznane statystyczne miary opisu dotyczące jednej cechy)poznane statystyczne miary opisu dotyczące jednej cechy)

j

xi yi y1 y2 … ys

x1

x2

…xr

n11

n21

…nr1

n12

n22

…nr2

…………

n1s

n2s

…nrs

n1●

n2●

…nr●

n●1 n●2 … n●s n

x przyjmuje r wariantów - i = 1,2,3,4…r (odmiany cechy niezależnej)y przyjmuje s wariantów - j = 1,2,3,4,…s (odmiany cechy zależnej)

i

Page 8: Metody analizy współzależności cech (zmiennych)

Przykład 5. Przykład 5. Wydajność pracy Y (w tys. sztuk wyrobów na osobę) oraz staż pracy X (w Wydajność pracy Y (w tys. sztuk wyrobów na osobę) oraz staż pracy X (w latach) pracowników w zakładzie A przedstawia tablica 1.latach) pracowników w zakładzie A przedstawia tablica 1.Tablica 1.Tablica 1.

nnijij – liczba jednostek, które posiadają jednocześnie wariant x – liczba jednostek, które posiadają jednocześnie wariant x ii cechy X oraz cechy X oraz

wariant ywariant yjj cechy Y cechy Y

I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk wyrobów i o stażu pracy od 6 do 8 lat.wyrobów i o stażu pracy od 6 do 8 lat.

xi yi 1 - 3 3 - 5 5 - 7 7 - 9 Razem

0 - 22 - 44 - 66 - 8

62--

41084

--

1618

--

1220

10123642

Razem 8 26 34 32 100

Page 9: Metody analizy współzależności cech (zmiennych)

Tablica korelacyjna, którą budujemy zazwyczaj Tablica korelacyjna, którą budujemy zazwyczaj według uporządkowania cechy niezależnej (X), może według uporządkowania cechy niezależnej (X), może być także czytana „odwrotnie”, jeśli zamiana cech ma być także czytana „odwrotnie”, jeśli zamiana cech ma sens z merytorycznego punktu widzenia.sens z merytorycznego punktu widzenia.

Przykład 6.Przykład 6.

Interesuje nas związek między liczbą osób w gospodarstwie domowym a Interesuje nas związek między liczbą osób w gospodarstwie domowym a spożyciem mleka.spożyciem mleka.

W tym przypadku liczba osób wpływa na spożycie mleka, ale nie na W tym przypadku liczba osób wpływa na spożycie mleka, ale nie na odwrót. Zatem spożycie mleka będzie zmienną zależną (Y) a liczba osób odwrót. Zatem spożycie mleka będzie zmienną zależną (Y) a liczba osób w gospodarstwie zmienną niezależną (X).w gospodarstwie zmienną niezależną (X).

Page 10: Metody analizy współzależności cech (zmiennych)

Poza tabelaryczną prezentacją związków Poza tabelaryczną prezentacją związków stochastycznych (w postaci tablicy stochastycznych (w postaci tablicy korelacyjnej) istnieją graficzne sposoby ich korelacyjnej) istnieją graficzne sposoby ich obrazowania.obrazowania.

Page 11: Metody analizy współzależności cech (zmiennych)

Badanie populacji na 2 cechyBadanie populacji na 2 cechy

Przykład 7.Przykład 7. Załóżmy, że populacja studentów (n = 15) jest opisywana za Załóżmy, że populacja studentów (n = 15) jest opisywana za

pomocą dwóch cech pomocą dwóch cech ((xx11)) i i ((xx22)), tzn. , tzn. m = 2, n = 36.m = 2, n = 36. Wtedy macierz obserwacji ma wymiary Wtedy macierz obserwacji ma wymiary nn x x mm (36 x 2), a (36 x 2), a i - tai - ta

obserwacja opisywana jest parą liczb obserwacja opisywana jest parą liczb xxi1i1 oraz oraz xxi2i2.. W układzie współrzędnych odpowiada to punktowi W układzie współrzędnych odpowiada to punktowi ppii = [x = [xi1i1, , xxi2i2]]. .

Mamy więc 15 punktów.Mamy więc 15 punktów.

Page 12: Metody analizy współzależności cech (zmiennych)

Tablica 2. Wartości cech odpowiadające poszczególnym obserwacjom (i)Tablica 2. Wartości cech odpowiadające poszczególnym obserwacjom (i)

Źródło: dane fikcyjneŹródło: dane fikcyjne

Numer Numer obserwacji obserwacji

ii11 22 33 44 55 66 77 88 99 1010 1111 1212 1313 1414 1515

Wartość Wartość cechy xcechy x11

22 22 33 44 44 44 44 55 77 77 88 99 1010 1111 1212Wartość Wartość cechy xcechy x22

11 33 22 44 55 66 77 55 88 99 77 99 99 1010 1010

Page 13: Metody analizy współzależności cech (zmiennych)

Rys.1. Wykres punktowy populacji badanej na 2 cechy xRys.1. Wykres punktowy populacji badanej na 2 cechy x11 i x i x22

2; 1

2; 33; 2

4; 44; 54; 64; 7

5; 5

7; 87; 9

8; 7

9; 9 10; 9

11; 10 12; 10

0

2

4

6

8

10

12

0 2 4 6 8 10 12 14wartości cechy x1

wart

ości

cech

y x2

Page 14: Metody analizy współzależności cech (zmiennych)

Z rys.1 widać wyraźnie, iż „na ogół” im większa Z rys.1 widać wyraźnie, iż „na ogół” im większa wartość cechy (xwartość cechy (x11), tym większą wartość przyjmuje ), tym większą wartość przyjmuje

cecha (xcecha (x22) i odwrotnie.) i odwrotnie.

0

2

4

6

8

10

12

0 2 4 6 8 10 12 14wartości cechy x1

warto

ści c

echy

x2

Page 15: Metody analizy współzależności cech (zmiennych)

Przykład 4.Przykład 4. Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za

pomocą dwóch innych cech pomocą dwóch innych cech ((xx11)) i i ((xx33). ). Wyniki próby 15-elementowej Wyniki próby 15-elementowej

badane ze względu na te cechy prezentują się na poniższym rysunku 2:badane ze względu na te cechy prezentują się na poniższym rysunku 2: Rys.2. Rys.2.

0

2

4

6

8

10

12

0 2 4 6 8 10 12wartość cechy x1

war

tość

cec

hy x

3

Page 16: Metody analizy współzależności cech (zmiennych)

Z rys.2 , w odróżnieniu od Z rys.2 , w odróżnieniu od rys.1, nie widać wyraźnie, rys.1, nie widać wyraźnie, aby wartości cechy xaby wartości cechy x11 i x i x33 były w jakiś sposób ze sobą były w jakiś sposób ze sobą powiązane.powiązane.

„„Na oko” można tylko Na oko” można tylko stwierdzić, iż cechy xstwierdzić, iż cechy x11 i x i x22 (rys.1)są zapewne ze sobą (rys.1)są zapewne ze sobą ściślej powiązane niż cechy ściślej powiązane niż cechy xx11 i x i x33 (rys.2). (rys.2).

Pytanie 1?Pytanie 1? – Jak ocenić i – Jak ocenić i zmierzyć siłę związku zmierzyć siłę związku dwóch cech?dwóch cech?

Rys.2

0

24

6

810

12

0 2 4 6 8 10 12wartość cechy x1

warto

ść ce

chy x

3

Rys.1

0

2

4

6

8

10

12

0 2 4 6 8 10 12 14

wartości cechy x1

war

tośc

i cec

hy x

2

Page 17: Metody analizy współzależności cech (zmiennych)

Metoda pozwalająca na ocenę i mierzenie siły Metoda pozwalająca na ocenę i mierzenie siły związku cech stanowi przedmiot związku cech stanowi przedmiot analizy analizy korelacji.korelacji.

Page 18: Metody analizy współzależności cech (zmiennych)

Uwaga!Uwaga! Badanie związków korelacyjnych ma sens jedynie Badanie związków korelacyjnych ma sens jedynie

tylko wtedy, gdy między zmiennymi istnieje więź tylko wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie przyczynowo-skutkowa, dająca się logicznie wytłumaczyć.wytłumaczyć.

Analiza związków między zjawiskami powinna być Analiza związków między zjawiskami powinna być dwukierunkowa: jakościowa i ilościowa.dwukierunkowa: jakościowa i ilościowa.

Zawsze na podstawie analizy merytorycznej należy Zawsze na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku a dopiero uzasadnić logiczne występowanie związku a dopiero potem można przystąpić do określania kierunku i siły potem można przystąpić do określania kierunku i siły zależności.zależności.

Page 19: Metody analizy współzależności cech (zmiennych)

Badanie korelacji między zmiennymi Badanie korelacji między zmiennymi (szeregami)(szeregami)

Zestawienie kilku szeregów=szukanie Zestawienie kilku szeregów=szukanie wzajemnych związków i porównanie wartości wzajemnych związków i porównanie wartości liczbowych cech w tych szeregach= wykrycie liczbowych cech w tych szeregach= wykrycie określonych prawidłowościokreślonych prawidłowości

Zmienna=szereg liczbowy=wartości liczbowe Zmienna=szereg liczbowy=wartości liczbowe cech w szeregucech w szeregu

Page 20: Metody analizy współzależności cech (zmiennych)

Parametrem wykorzystywanym do oceny siły i Parametrem wykorzystywanym do oceny siły i kierunku zależności pomiędzy zmiennymi jestkierunku zależności pomiędzy zmiennymi jest współczynnik korelacjiwspółczynnik korelacji, , zwany równieżzwany również współczynnikiem korelacji Persona.współczynnikiem korelacji Persona.

Page 21: Metody analizy współzależności cech (zmiennych)

Współczynnik korelacji PearsonaWspółczynnik korelacji Pearsona

rrxyxy jest miernikiem związku jest miernikiem związku

liniowego między dwiema liniowego między dwiema cechami (zmiennymi) cechami (zmiennymi) mierzalnymimierzalnymi

jest wyznaczany poprzez jest wyznaczany poprzez standaryzację kowariancjistandaryzację kowariancji

kowariancjakowariancja (wariancja wspólna (wariancja wspólna cech x i y) jest średnią cech x i y) jest średnią arytmetyczną iloczynu odchyleń arytmetyczną iloczynu odchyleń wartości liczbowych tych cech wartości liczbowych tych cech (zmiennych) x i y od ich (zmiennych) x i y od ich średnich arytmetycznychśrednich arytmetycznych

)()(

),cov(

)()(

))((1

ySxS

yxr

ySxSn

yyxxr

xy

i

n

ii

xy

n

iii

yxyxyyxxn

xyyx1

))((1

),cov(),cov(

Page 22: Metody analizy współzależności cech (zmiennych)

Współczynnik korelacji jest symetryczny, tzn. Współczynnik korelacji jest symetryczny, tzn. rrxyxy = r = ryxyx i i przyjmuje wartości z przedziału <-1,1>.przyjmuje wartości z przedziału <-1,1>.

Równy jest zeru, gdy między cechami nie zachodzi liniowa Równy jest zeru, gdy między cechami nie zachodzi liniowa zależność.zależność.

Moduł (wartość bezwzględna) współczynnika korelacji równy Moduł (wartość bezwzględna) współczynnika korelacji równy jest jedności, gdy pomiędzy cechami zachodzi związek jest jedności, gdy pomiędzy cechami zachodzi związek funkcyjny.funkcyjny.

Im wartość modułu współczynnika korelacji jest bardziej Im wartość modułu współczynnika korelacji jest bardziej zbliżona do jedności, tym zależność między badanymi zbliżona do jedności, tym zależność między badanymi cechami jest silniejsza.cechami jest silniejsza.

Znak współczynnika charakteryzuje kierunek zależności.Znak współczynnika charakteryzuje kierunek zależności. Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost

wartości jednej cechy powoduje wzrost wartości drugiej cechy wartości jednej cechy powoduje wzrost wartości drugiej cechy (ewentualnie spadek wartości jednej cechy powoduje spadek (ewentualnie spadek wartości jednej cechy powoduje spadek wartości drugiej cechy).wartości drugiej cechy).

W przypadku ujemnej wartości współczynnika korelacji W przypadku ujemnej wartości współczynnika korelacji możemy stwierdzić, iż wzrost wartości jednej cechy powoduje możemy stwierdzić, iż wzrost wartości jednej cechy powoduje spadek wartości drugiej cechy. spadek wartości drugiej cechy.

Page 23: Metody analizy współzależności cech (zmiennych)

Inna postać współczynnika korelacji PearsonaInna postać współczynnika korelacji Pearsona

W analizach statystycznych przyjmuje się, że jeżeli współczynnik W analizach statystycznych przyjmuje się, że jeżeli współczynnik korelacji wynosi:korelacji wynosi:• mniej niż 0,2 - brak związku liniowego między badanymi mniej niż 0,2 - brak związku liniowego między badanymi

cechami;cechami;• 0,2 – 0,4 0,2 – 0,4 →→ zależność liniowa wyraźna, lecz niska; zależność liniowa wyraźna, lecz niska;• 0,4 – 0,7 0,4 – 0,7 →→ zależność umiarkowana; zależność umiarkowana;• 0,7 – 0,9 0,7 – 0,9 →→ zależność znacząca; zależność znacząca;• powyżej 0,9 powyżej 0,9 →→ zależność bardzo silna. zależność bardzo silna.

Kwadrat współczynnika korelacji nazywamy Kwadrat współczynnika korelacji nazywamy współczynnikiem współczynnikiem determinacji Rdeterminacji R22 ..

n

i

n

iii

i

n

ii

XY

yyxx

yyxxr

1 1

22

1

)()(

))((

Page 24: Metody analizy współzależności cech (zmiennych)

Współczynnik korelacji PearsonaWspółczynnik korelacji Pearsona dla danych dla danych pogrupowanych obliczamy zgodnie ze wzorem:pogrupowanych obliczamy zgodnie ze wzorem:

gdzie:gdzie:

S(x) i S(y) są odchyleniami standardowymi rozkładów brzegowychS(x) i S(y) są odchyleniami standardowymi rozkładów brzegowych

nySxS

nyyxxrr i

ijjj

i

yxxy

)()(

))((

Page 25: Metody analizy współzależności cech (zmiennych)

Każdy związek korelacyjny jest ze swej istoty związkiem Każdy związek korelacyjny jest ze swej istoty związkiem stochastycznym (ale nie odwrotnie!).stochastycznym (ale nie odwrotnie!).

Czy poznając zależność liniową miedzy cechami, istnieje Czy poznając zależność liniową miedzy cechami, istnieje metoda umożliwiająca w pewnym przybliżeniu metoda umożliwiająca w pewnym przybliżeniu przewidzieć wartość jednej cechy na podstawie znajomości przewidzieć wartość jednej cechy na podstawie znajomości drugiej?drugiej?(gdyby badane cechy x i y były powiązane ścisłym związkiem (gdyby badane cechy x i y były powiązane ścisłym związkiem funkcyjnym typu y = f ( x ), to znając wartość jednej z cech funkcyjnym typu y = f ( x ), to znając wartość jednej z cech np. x , można by w sposób jednoznaczny przewidzieć wartość np. x , można by w sposób jednoznaczny przewidzieć wartość drugiej cechy y).drugiej cechy y).

Jeśli tak, to jak dobre jest to przybliżenie? Jeśli tak, to jak dobre jest to przybliżenie?

Page 26: Metody analizy współzależności cech (zmiennych)

Zagadnienie opisu zależności między cechami Zagadnienie opisu zależności między cechami x i y (zmiennymi X i Y) jest przedmiotem x i y (zmiennymi X i Y) jest przedmiotem analizy regresjianalizy regresji..

Zależność między cechami (zmiennymi) Zależność między cechami (zmiennymi) przedstawiona jest za pomocą przedstawiona jest za pomocą funkcji funkcji regresjiregresji..

Funkcja regresji przyjmuje postać Funkcja regresji przyjmuje postać modelu modelu regresjiregresji..

Page 27: Metody analizy współzależności cech (zmiennych)

Pojęcie funkcji regresjiPojęcie funkcji regresji

PrzykładPrzykład 8. 8.

Podstawą analizy zależności będzie zbiór danych w postaci n Podstawą analizy zależności będzie zbiór danych w postaci n uporządkowanych par liczb:uporządkowanych par liczb:

(x(x11,y,y11), (x), (x22,y,y22), …(x), …(xnn,y,ynn))

reprezentujących liczbę osób i spożycie mleka w zbiorze n reprezentujących liczbę osób i spożycie mleka w zbiorze n gospodarstw.gospodarstw.

Wszystkie obserwacje na dwóch zmiennych odwzorowane w Wszystkie obserwacje na dwóch zmiennych odwzorowane w układzie współrzędnych w postaci n punktów tworzą wykres układzie współrzędnych w postaci n punktów tworzą wykres rozrzutu punktów empirycznych (zob. wcześniej rozrzutu punktów empirycznych (zob. wcześniej prezentowane rys.1i 2).prezentowane rys.1i 2).

Page 28: Metody analizy współzależności cech (zmiennych)

Rysunek 4. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mlekaRysunek 4. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8

liczba osób

spo

życi

e m

lek

a w

lit

rach

Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są ich dochody, upodobania, wiek itp..).ich dochody, upodobania, wiek itp..).

Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Y, lecz zbiór różnych wartości tworzących pewien rozkład.Y, lecz zbiór różnych wartości tworzących pewien rozkład.

Rozkład Y dla ustalonej wartości x nazywamy Rozkład Y dla ustalonej wartości x nazywamy warunkowym rozkładem warunkowym rozkładem Y.Y.

Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez ułożone pionowo nad każdą wartością x punkty.ułożone pionowo nad każdą wartością x punkty.

Page 29: Metody analizy współzależności cech (zmiennych)

Rysunek 5. Wykres rozrzutu punktów Rysunek 5. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość empirycznych charakteryzujących wielkość gospodarstw i spożycie mlekagospodarstw i spożycie mleka

Na rys.5 widoczne jest np., że przy Na rys.5 widoczne jest np., że przy wzroście wartości x rozkłady wzroście wartości x rozkłady warunkowe „przemieszczają” się w warunkowe „przemieszczają” się w górę ku wyższym wartościom Y.górę ku wyższym wartościom Y.

Najłatwiej zaobserwować różnicę Najłatwiej zaobserwować różnicę miedzy rozkładami warunkowymi miedzy rozkładami warunkowymi zmiennej Y obliczając dla każdego z zmiennej Y obliczając dla każdego z nich średnią.nich średnią.

Średnie w warunkowych rozkładach Średnie w warunkowych rozkładach spożycia zaznaczono czerwonymi spożycia zaznaczono czerwonymi kółkami.kółkami.

Zbiór punktów reprezentujących Zbiór punktów reprezentujących te średnie określa regresję Y te średnie określa regresję Y względem X (regresję spożycia względem X (regresję spożycia mleka względem liczby osób w mleka względem liczby osób w gospodarstwie).gospodarstwie).

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8

liczba osóbsp

ożyc

ie m

leka

w li

trac

h

Page 30: Metody analizy współzależności cech (zmiennych)

Rysunek 6. Empiryczna linia regresjiRysunek 6. Empiryczna linia regresji

Funkcja regresji to analityczny obraz Funkcja regresji to analityczny obraz przyporządkowania średnich przyporządkowania średnich wartości zmiennej Y (zmiennej wartości zmiennej Y (zmiennej zależnej) konkretnym wartościom zależnej) konkretnym wartościom zmiennej X (zmiennej niezależnej):zmiennej X (zmiennej niezależnej):

Funkcja f (xFunkcja f (xii) średniej ) średniej

warunkowej zmiennej Y jest warunkowej zmiennej Y jest funkcją regresji I rodzajufunkcją regresji I rodzaju (odnosi (odnosi się do całej populacji).się do całej populacji).

Analityczna postać funkcji f (xAnalityczna postać funkcji f (xii) jest ) jest

zwykle nieznana.zwykle nieznana. Na podstawie zaobserwowanych Na podstawie zaobserwowanych

wyników w próbce możemy wyników w próbce możemy przedstawić graficznie w układzie przedstawić graficznie w układzie współrzędnych jedynie współrzędnych jedynie empiryczną empiryczną linię regresjilinię regresji zmiennej Y względem zmiennej Y względem zmiennej X.zmiennej X.

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8

liczba osóbsp

ożyc

ie m

leka w

litra

ch

kixfxXYEii

,...,2,1)()(

Page 31: Metody analizy współzależności cech (zmiennych)

Rysunek 7. Empiryczna linia regresji Rysunek 7. Empiryczna linia regresji zmiennej Y względem Xzmiennej Y względem X

Empiryczna linia regresjiEmpiryczna linia regresji zmiennej Y zmiennej Y względem zmiennej X jest linią łamaną względem zmiennej X jest linią łamaną powstałą przez połączenie punktów o powstałą przez połączenie punktów o współrzędnych:współrzędnych:

czyli:czyli:(cecha niezależna, odpowiadająca jej średnia warunkowa)(cecha niezależna, odpowiadająca jej średnia warunkowa)

Wykres empirycznej linii regresji Wykres empirycznej linii regresji pozwala postawić hipotezę na temat typu pozwala postawić hipotezę na temat typu funkcji matematycznejfunkcji matematycznej

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8

liczba osóbsp

ożyc

ie m

leka w

litra

ch

kixyxii

,...,2,1),(

Page 32: Metody analizy współzależności cech (zmiennych)

Rysunek 8 i 9. Wykresy rozrzutu Rysunek 8 i 9. Wykresy rozrzutu punktów empirycznych sugerujący punktów empirycznych sugerujący liniową regresję Y względem Xliniową regresję Y względem X

● ● Wykres rozrzutu punktów empirycznych Wykres rozrzutu punktów empirycznych sporządzony na podstawie obserwacji na sporządzony na podstawie obserwacji na zmiennych X i Y sugeruje, że regresja zmiennych X i Y sugeruje, że regresja zmiennej Y względem Y jest liniowa.zmiennej Y względem Y jest liniowa.

● ● Inaczej - zakładamy, że średnie w Inaczej - zakładamy, że średnie w warunkowych rozkładach zmiennej Y są warunkowych rozkładach zmiennej Y są liniową funkcją zmiennej X, czyli funkcją liniową funkcją zmiennej X, czyli funkcją o postaci:o postaci:

((postać liniowa funkcji regresji I rodzajupostać liniowa funkcji regresji I rodzaju).).● ● Składnik losowy w równaniach regresji Składnik losowy w równaniach regresji

pełni rolę błędu przypadkowego, pełni rolę błędu przypadkowego, zakłócającego funkcyjny związek między zakłócającego funkcyjny związek między wartościami zmiennej objaśnianej a wartościami zmiennej objaśnianej a wartościami zmiennej objaśniającej.wartościami zmiennej objaśniającej.

●●Składnik losowy jest w istocie pewną Składnik losowy jest w istocie pewną zmienna losową o odpowiednim zmienna losową o odpowiednim rozkładzie prawdopodobieństwarozkładzie prawdopodobieństwa

5

10

15

20

25

30

1 2 3 4 5 6 7

liczba osób

spoż

ycie

mle

ka

w li

trac

h

5

10

15

20

25

30

0 1 2 3 4 5 6 7 8

liczba osób

spo

życi

e m

lek

a w

lit

rach

Xy10

ˆ

XY10

ˆ

Page 33: Metody analizy współzależności cech (zmiennych)

Rysunek 10. Wykres rozrzutu punktów empirycznych oraz prosta Rysunek 10. Wykres rozrzutu punktów empirycznych oraz prosta regresji I rodzajuregresji I rodzaju

(Xi; Yi)

X

Y

Szukamy takiej prostej, by najlepiej „pasowała” do punktów na Szukamy takiej prostej, by najlepiej „pasowała” do punktów na wykresie.wykresie.

Prosta określona będzie za pomocą parametrów: - współczynnika Prosta określona będzie za pomocą parametrów: - współczynnika kierunkowego kierunkowego 11 oraz wyrazu wolnego oraz wyrazu wolnego 00..

Stopień tego dopasowania możemy oceniać na podstawie wielkości Stopień tego dopasowania możemy oceniać na podstawie wielkości odchyleń punktów reprezentujących obserwowane wartości zmiennej Y odchyleń punktów reprezentujących obserwowane wartości zmiennej Y od prostej.od prostej.

xy10

ˆ

yyi

ˆ} y

iy

ix

Page 34: Metody analizy współzależności cech (zmiennych)

Rysunek 10 i 11. Ilustracja metody Rysunek 10 i 11. Ilustracja metody

najmniejszych kwadratównajmniejszych kwadratów

Do poszukiwania najlepiej dopasowanej Do poszukiwania najlepiej dopasowanej prostej stosuje się kryterium prostej stosuje się kryterium minimalizacji sumy kwadratów minimalizacji sumy kwadratów odchyleń.odchyleń.

Metoda wyznaczania parametrów prostej Metoda wyznaczania parametrów prostej oparta na tym kryterium nosi nazwę oparta na tym kryterium nosi nazwę metody najmniejszych kwadratówmetody najmniejszych kwadratów (MNK).(MNK).

Stosując MNK wyznacza się na Stosując MNK wyznacza się na podstawie danych (xpodstawie danych (xii, y, yii), i=1,2,…, n, ), i=1,2,…, n,

parametry parametry 0 0 i i 11 prostej prostej tak, by suma tak, by suma

kwadratów odchyleń ykwadratów odchyleń yii od od 0 +0 + 11xxii była była

najmniejsza:najmniejsza:

(Xi; Yi)

X

Y

(Xi; Yi)

X

Y

n

i

n

iiii

xyyyS1 1

2

10

2 min)()ˆ(

xy10

ˆ

xy10

ˆ

Page 35: Metody analizy współzależności cech (zmiennych)

Wyznaczanie parametrów prostej regresjiWyznaczanie parametrów prostej regresji

Wyrażenie S przyjmuje najmniejszą wartość dla:Wyrażenie S przyjmuje najmniejszą wartość dla:

xaya

xx

yyxx

xnx

yxnyxa n

ii

n

iii

n

ii

n

iii

10

1

2

1

1

22

1

1

)(

))((

Page 36: Metody analizy współzależności cech (zmiennych)

Oszacowaniem funkcji regresji Y względem X w populacji Oszacowaniem funkcji regresji Y względem X w populacji generalnej jest funkcja regresji y względem x w próbie losowej generalnej jest funkcja regresji y względem x w próbie losowej

(zwana aproksymantą) mająca następującą postać:(zwana aproksymantą) mająca następującą postać:

5

10

15

20

25

30

0 1 2 3 4 5 6 7 8

liczba osób

spo

ży

cie

mle

ka

w l

itra

ch

Xy 025,2107,12ˆ