35
STATYSTYKA Rafal Kucharski U E K / ROND, F R,

New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

STATYSTYKARafał Kucharski

Uniwersytet Ekonomiczny w Katowicach 2015/16ROND, Finanse i Rachunkowość, rok 2

Page 2: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

ZależnośćI przyczynowo-skutkowa,I symptomatyczna,I pozorna (iluzoryczna),

funkcyjna stochastyczna

Page 3: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Korelacjabrak korelacji korelacja krzywoliniowa

korelacja dodatnia korelacja ujemna

Page 4: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Regresja I rodzajuI Rozważmy dwuwymiarową skokową zmienną losową (X ,Y ).I pij = P(X = xi ,Y = yj) – rozkład dwuwymiarowy,I pi · = P(X = xi ), p·j = P(Y = yj) – rozkłady brzegowe,I warunkowa wartość oczekiwana X pod warunkiem Y = yj :

E(X |Y = yj) =∑i

xiP(X = xi |Y = yj) =∑i

xi ·pijp·j,

I warunkowa wartość oczekiwana Y pod warunkiem X = xi :

E(Y |X = xi ) =∑j

yjP(Y = yj |X = xi ) =∑j

yj ·pijpi ·,

I Funkcję h1(y) := E(X |Y = y) nazywamy funkcją regresji I rodzajuzmiennej losowej X względem Y ,

I Funkcję h2(x) := E(Y |X = x) nazywamy funkcją regresji I rodzajuzmiennej losowej Y względem X ,

I Wykresy tych funkcji nazywamy krzywymi regresji I rodzaju.

Page 5: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

P(X = i ,Y = j)i \ j 1 2 3 pi ·1 2

32032

232

432

2 332

032

332

632

3 632

132

432

1132

4 532

532

132

1132

p·j 1632

632

1032 1

P(Y = j |X = k)i \ j 1 2 3

1 12 0 1

2

2 12 0 1

2

3 611

111

411

4 511

511

111

E(Y |X = 1) = 1 · 12

+ 3 · 12

= 2,

E(Y |X = 2) = 1 · 12

+ 3 · 12

= 2,

E(Y |X = 3) = 1 · 611

+ 2 · 111

+ 3 · 411

=2011,

E(Y |X = 4) = 1 · 511

+ 2 · 511

+ 3 · 111

=1811.

Page 6: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

E(X |Y = 1) =238, E(X |Y = 2) =

236, E(X |Y = 3) =

125.

1

2

3

1 2 3 4

X

Y

Uwaga: przyjmując pij =nijn

możemy wykonać analogiczne obliczeniadla danych empirycznych z tablicy korelacyjnej, otrzymując empirycznekrzywe regresji.

Page 7: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Szereg korelacyjny

numer xi yiobserwacji1 x1 y12 x2 y23 x3 y3

. . . . . .n xn yn

Uwaga: sortując dane nie możemy zgubić informacji o powiązaniachmiędzy cechami!

Page 8: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Tablica korelacyjna

y1 y2 . . . yj . . . ys∑j

x1 n11 n12 . . . n1j . . . n1s n1·x2 n21 n22 . . . n2j . . . n2s n2·...

...... . . . ... . . . ...

...xi ni1 ni2 . . . nij . . . nis ni ·...

...... . . . ... . . . ...

...xr nk1 nk2 . . . nkj . . . nrs nr ·∑i n·1 n·2 . . . n·j . . . n·s n

I nij – liczba obserwacji (xi , yj),I ni · =

∑sj=1 nij ,

I n·j =∑ri=1 nij .

Page 9: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Rozkłady brzegowe i warunkoweI średnia i wariancja ogólna cechy X :

x =1n

r∑i=1

xini ·, S2x =1n

r∑i=1

(xi − x)2ni · =1n

r∑i=1

x2i ni · − (x)2,

I średnia i wariancja ogólna cechy Y :

y =1n

s∑j=1

yjn·j , S2y =1n

s∑j=1

(yj − y)2n·j =1n

s∑j=1

y2i n·j − (y)2,

I średnie i wariancje warunkowe cechy X , dla j = 1, . . . , s :

xj =1n·j

r∑i=1

xinij , S2j (x) =1n·j

r∑i=1

(xi−xj)2nij =1n·j

r∑i=1

x2i nij−(xj)2,

I średnie i wariancje warunkowe cechy Y , dla i = 1, . . . , r :

yi =1ni ·

s∑j=1

yjnij , S2i (y) =1ni ·

s∑j=1

(yj−yi )2nij =1ni ·

s∑j=1

y2j nij−(yi )2.

Page 10: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Kowariancja

Kowariancja: dla szeregu szczegółowego:

cov(x , y) =1n

n∑i=1

(xi − x)(yi − y) =1n

n∑i=1

xiyi − x y ,

dla tablicy korelacyjnej:

cov(x , y) =1n

r∑i=1

s∑j=1

nij(xi − x)(yj − y) =1n

r∑i=1

s∑j=1

nijxiyj − x y .

Uwaga: kowariancja jest trudna w interpretacji – nie interpretujemy.

Page 11: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik korelacji liniowej Pearsona

rxy = ryx =cov(x , y)SxSy

=cov(x , y)√S2x S2y

I znak mówi nam o kierunku korelacji:I rxy > 0 – korelacja dodatnia,I rxy < 0 – korelacja ujemna,

I wartość bezwzględna mówi o sile zależności:I [0, 0.2) – bardzo słaba (brak),I [0.2, 0.4) – słaba,I [0.4, 0.6) – umiarkowana,I [0.6, 0.8) – silna,I [0.8, 1.0] – bardzo silna.

Page 12: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności
Page 13: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik zbieżności

I Niezależność zmiennych skokowych: pij = pi · · p·j dla każdych i , j ,I Zastępując prawdopodobieństwa liczebnościami otrzymujemy

warunek niezależności dla danych empirycznych:

nijn

=ni ·n· n·jn

dla każdych i , j

I Przy niezależności cech powinny wystąpić liczebności teoretyczne:

nij =ni · · n·jn

I Do oceny siły zależności służy wielkość

Z =r∑i=1

s∑j=1

(nij − nij)2

nij= n

r∑i=1

s∑j=1

nijni · · n·j

− 1

,

Page 14: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik zbieżności c.d.I Współczynnik zbieżności V Cramera:

V =

√Z

n · (min(r , s)− 1)

V ∈ [0, 1], V = 0 – niezależność, V = 1 – zależność funkcyjna.I współczynnik Czuprowa:

T =

√Z

n√

(r − 1)(s − 1),

I współczynnik C Pearsona:

C =

√ZZ + n

,

I współczynnik φ Yule’a:

φ =

√Zn,

Page 15: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynniki asocjacji dla tablic czteropolowychGdy badane zmienne są dychotomiczne, tablica korelacyjna maszczególną postać:

X \ Y y1 y2 Razemx1 a b a+ bx2 c d c + d

Razem a+ c b + d n

Do badania zależności zmiennych możemy wówczas użyćwspółczynników zbieżności korelacyjnej:

I Pearsona-Bravaisa:

V =ad − bc

(a+ b)(a+ c)(b + d)(c + d)

I Bykowskiego:

W =(a+ d)− (b + c)a+ b + c + d

,

I Yula-Kendalla:Q =ad − bcad + bc

.

Page 16: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Przykład: funkcyjna zależność krzywoliniowax y x2 y2 xy−2 4 4 16 −8−1 1 1 1 −10 0 0 0 01 1 1 1 12 4 4 16 8

covxy =15

(−8− 1+ 1+ 8) = 0 =⇒ rxy = 0.

y \ x −2 −1 0 1 2 ni ·0 0 0 1 0 0 11 0 1 0 1 0 24 1 0 0 0 1 2n·j 1 1 1 1 1 5

Z = 5(1+12

+12

+12

+12− 1

)= 10, V =

√10

5 · (min(3, 5)− 1)= 1.

Page 17: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Empiryczne krzywe regresjiI Empiryczna krzywa regresji cechy Y względem cechy X (opisująca

zależność Y od X ) to łamana przechodząca przez punkty (xi , yi ),i = 1, . . . , r ,

I Empiryczna krzywa regresji cechy X względem cechy Y (opisującazależność X od Y ) to łamana przechodząca przez punkty (xj , yj),j = 1, . . . , s ,

I Wariancja średnich warunkowych Y :

S2(yi ) =1n

r∑i=1

(yi − y)2ni · =1n

r∑i=1

(yi )2ni · − (y)2

I Wariancja średnich warunkowych X :

S2(xj) =1n

s∑j=1

(xj − x)2n·j =1n

s∑j=1

(xj)2n·j − (x)2

I Średnie wariancji:

S2i (y) =1n

r∑i=1

S2i (y)ni ·, S2j (x) =1n

s∑j=1

S2j (x)n·j ,

Page 18: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Stosunki korelacyjne

I wychodzimy od równości wariancyjnej:

S2y = S2(yi ) + S2i (y)

I stosunek korelacyjny y względem x (wpływ x na y ) obliczamy jako

eyx =

√S2(yi )S2y

=

√√√√1− S2i (y)S2y

.

I stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako

exy =

√S2(xj)S2x

=

√√√√1− S2j (x)

S2x.

I obliczamy dla danych uporządkowanych w tablicy korelacyjnej,

Page 19: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Stosunki korelacyjne

I Stosunki korelacyjne przyjmują wartości z [0, 1],I zwykle exy 6= eyx ,I są to miary zależności krzywoliniowej,I mamy r2xy ¬ e2xy , r2xy ¬ e2yx ,I za miary krzywoliniowości związku mogą służyć:

mxy = e2xy − r2xy , myx = e2yx − r2xy ,

I zmienna, której wpływ badamy, może być niemierzalna.

Page 20: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik korelacji rang Spearmana

I umożliwia określenie siły zależności między cechami porządkowymi,I krok 1: nadajemy obserwacjom rangi – kolejne numery od 1 do n,I jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im

średnią arytmetyczną z kolejnych rang (rangi wiązane),I obliczamy różnice rang di dla kolejnych obserwacji,I przy braku rang wiązanych współczynnik obliczamy z wzoru:

rS = 1− 6∑ni=1 d

2i

n(n2 − 1).

I w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoruna współczynnik korelacji Pearsona, za wartości cech podstawiającich rangi.

I rS ∈ [−1, 1], interpretacja taka jak współczynnika Pearsona,

Page 21: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik korelacji rang Spearmana

Jak wspominam Rangi Wynagrodzenie Rangi„Statystykę”? xi netto yi d2i

dobrze 3 2900 4 1bardzo dobrze 1 5000 1 0

dobrze 3 3800 2 1źle 6 3300 3 9

bardzo źle 7 1000 7 0dobrze 3 2300 5 4

tak sobie 5 2200 6 1

Ranga wiązana: 2+3+43 = 3.

1− 6∑ni=1 d

2i

n(n2 − 1)= 1− 6 · (1+ 1+ 9+ 4+ 1)

7 · (49− 1)≈ 0.7142857.

(a dokładnie rS = 0.704186851).

Page 22: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik korelacji cząstkowejI rozpatrujemy zmienne x1, . . . , xk ,I interesuje nas siła związku zmiennych xi oraz xj z wyłączeniem

wpływu pozostałych zmiennych,I wykorzystujemy współczynnik korelacji cząstkowej: rij .ab...zI indeksy przed kropką oznaczają cechy których zależność badamy,

indeksy po kropce – cechy których wpływ wykluczamy,I obliczamy go z wzoru:

rij .kl ...z =−Rij√RiiRjj

,

gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich

analizowanych zmiennych,I Rij jest dopełnieniem algebraicznym macierzy R ,Rij = (−1)i+j det(Mij), gdzie Mij jest podmacierzą powstałą przezskreślenie i-tego wiersza i j-tej kolumny macierzy R .

Page 23: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Współczynnik korelacji wielorakiejI chcemy badać zależność jednej zmiennej (zmiennej zależnej,

objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych(niezależnych, objaśniających),

I wykorzystujemy współczynnik korelacji wielorakiej: Rw = Ri .ab...zI indeks przed kropką oznacza zmienną objaśnianą, indeksy po

kropce – zmienne objaśniające, których wpływ chcemy badać,I obliczamy go z wzoru:

Rw = Ri .ab...z =

√1− det(R)

det(Ri ),

gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich

analizowanych zmiennych,I Ri jest macierzą współczynników korelacji zmiennych objaśniających.

I Rw ∈ [0, 1] – interpretujemy tylko siłę związku.

Page 24: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Regresja liniowa

I Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to:

Yi = aXi + b + εi , i = 1, . . . , n,

gdzie a i b są pewnymi parametrami, zaś εi są odchyleniami(składnikami) losowymi, nie wyjaśnionymi przez X .

I Zmienną Y = aX + b nazywamy regresją (liniową) Y względem X .I Zakładamy (schemat Gaussa-Markowa), że

I Zmienna objaśniająca X jest nielosowa.I Składnik losowy ma rozkład normalny: εi ∼ N(µi , σ

2i ), i = 1, . . . , n.

I Składnik losowy nie wpływa systematycznie na Y : µ = E(εi ) = 0,i = 1, . . . , n.

I Zmienność składnika losowego nie zależy od x : D2(εi ) = σ2,i = 1, . . . , n.

I Składniki losowe są nieskorelowane: cov(εi , εj) = 0, i 6= j .I Estymacji parametrów dokonuje się jedynie na podstawie informacji

zawartych w próbie.

Page 25: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Klasyczna Metoda Najmniejszych KwadratówI Gauss (1801), służy do szacowania parametrów funkcji regresji.I Parametry a i b są nieznane, szacujemy je na podstawie próby.I Otrzymamy wówczas linię regresji próby:

yi = axi + b, i = 1, . . . , n.

I yi – wartość teoretyczna zmiennej Y dla i-tej obserwacji.I a, b – estymatory (oszacowania) parametrów.I Różnice między wartościami teoretycznymi a empirycznymi

nazywamy resztami:

ei = yi − yi = yi − axi − b.

I Reszty ei nie są równe εi , ale można je traktować jako realizacjeskładnika losowego:

axi + b + εi = yi = yi + ei = axi + b + ei .

Page 26: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Klasyczna Metoda Najmniejszych Kwadratów, c.d.Oszacowania a i b mają minimalizować błąd dopasowania:

F (a, b) =n∑i=1

e2i =n∑i=1

(yi − axi − b)2 −→ min .

Przyrównujemy do zera jej pochodne względem parametrów:

∂∑ni=1(yi − axi − b)2

∂b= −2

n∑i=1

(yi − axi − b) = 0

∂∑ni=1(yi − axi − b)2

∂a= −2

n∑i=1

xi (yi − axi − b) = 0.

Po uporządkowaniu otrzymujemy układ równań normalnych:

n∑i=1

yi = nb +

(n∑i=1

xi

)a

n∑i=1

xiyi =

(n∑i=1

xi

)b +

(n∑i=1

x2i

)a

Page 27: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Klasyczna metoda najmniejszych kwadratów, c.d.

Dzieląc pierwsze równanie przez n otrzymujemy:

y = ax + b, ⇐⇒ b = y − ax .

Podstawiając ten wynik do drugiego równania obliczamy:

n∑i=1

xiyi =

(n∑i=1

xi

)(y − ax) +

(n∑i=1

x2i

)a

n∑i=1

xiyi − nx y = a

(n∑i=1

x2i − nx2)

Ostatecznie

a =

∑ni=1 xiyi − nx y∑ni=1 x

2i − nx2

=cov(x , y)S2x

=cov(x , y)Sx · Sy

· SySx

= rxy ·SySx.

Page 28: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Ocena dopasowania linii regresji

I wartości teoretyczne: yi = axi + b,I reszty: ei = yi − yi ,I TSS =

∑ni=1(yi − y)2, zmienność całkowita,

I ESS =∑ni=1(yi − y)2, zmienność objaśniona,

I RSS =∑ni=1 e

2i , suma kwadratów reszt, zmienność nieobjaśniona.

I współczynnik zbieżności:

ϕ2 =RSSTSS

=

∑ni=1(yi − y)2∑ni=1(yi − y)2

.

I współczynnik determinacji: R2 = 1− ϕ2 – jaka część zmiennościzmiennej Y jest wyjaśniona zmiennością zmiennej X .

Page 29: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Ocena dopasowania linii regresji c.d.

I wariancja resztowa:

S2e =1n − 2

n∑i=1

(yi − yi )2 =1n − 2

n∑i=1

e2i ,

I odchylenie standardowe składnika resztowego: Se =√S2e ,

I standardowe błędy szacunku parametrów (błędy średnie szacunku):

S(b) =Se√∑n

i=1(xi − x)2, S(a) = S(b) ·

√∑ni=1 x

2i

n,

I względne średnie błędy szacunku: S(a)/a, S(b)/b,I Uwaga: Var(a) = S2(a), Var(b) = S2(b),I S2e jest nieobciążonym estymatorem (nieznanego) parametru σ2.

Page 30: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Przykład 1

x 1 2 3 4 5 6 20y 5 6 6.5 5 7 9 1

0 5 10 15 20

02

46

810

x

y

Odrzucenie ostatniej obserwacji zmienia znak parametrów

Page 31: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Przykład 2

x 1 1.2 2 3 3.5 10 11 12 14 17 18 20y 7 4 6 5 1 25 21 26 19 15 17 10

0 5 10 15 20

05

10

15

20

25

30

Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna sąinne niż z całości.

Page 32: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Kwartet Anscombe

Zbiór danych 1-3 1 2 3 4 4Obserwacja Zmienna x y y y x y

1 10.0 8.04 9.14 7.46 8.0 6.582 8.0 6.95 8.14 6.77 8.0 5.763 13.0 7.58 8.74 12.74 8.0 7.714 9.0 8.81 8.77 7.11 8.0 8.005 11.0 8.33 9.26 7.81 8.0 8.476 14.0 9.96 8.10 8.84 8.0 7.047 6.0 7.24 6.13 6.08 8.0 5.258 4.0 4.26 3.10 5.39 19.0 12.509 12.0 10.84 9.13 8.15 8.0 5.5610 7.0 4.82 7.26 6.42 8.0 7.9111 5.0 5.68 4.74 5.73 8.0 6.89

Równania regresji dla wszystkich przypadków mają postać:

y = 3.0+ 0.5x

Page 33: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

0 5 10 15 20

02

46

810

Zbiór danych 1

0 5 10 15 20

02

46

810

Zbiór danych 2

0 5 10 15 20

02

46

810

Zbiór danych 3

0 5 10 15 20

02

46

810

Zbiór danych 4

Page 34: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Predykcja na podstawie modelu regresji liniowejI „Dobry” model może posłużyć do przewidywania wartości cechy Y

przy założonej wartości cechy X .I Estymatorem E(Y |X = x) jest

y = a · x + b.

I Dokładność tego oszacowania oceniamy za pomocą estymatorajego odchylenia standardowego:

S(y) = Se

√1n

+(x − x)2∑ni=1(xi − x)2

.

I Estymator pojedynczej realizacji Y |X = x jest także równy

yp = a · x + b,

przy czym błąd takiej prognozy należy powiększyć o możliweodchylenie od średniej:

S(yp) = Se

√1+1n

+(x − x)2∑ni=1(xi − x)2

.

Page 35: New Statystyka - Uniwersytet Ekonomiczny w Katowicachweb.ue.katowice.pl/rkucharski/data/uploads/stat_w_04.pdf · 2015. 11. 25. · I zwykle e xy 6= e yx, I są to miary zależności

Pewne zależności sprowadzalne do postaci liniowejI Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x

otrzymujemy:y = az + b.

I Funkcja wielomianowa: y = axp + b, p ∈ R. Przyjmując z = xp

otrzymujemy:y = az + b.

I Funkcja potęgowa: y = bxa, a > 0. Po zlogarytmowaniu:

ln y = ln b + a ln x .

Przyjmując β = ln b, α = a, z = ln y , u = ln x , otrzymujemy

z = αu + β.

I Funkcja wykładnicza: y = bax , a, b > 0, a 6= 1. Po zlogarytmowaniu:

ln y = ln b + ln a · x .

Przyjmując β = ln b, α = ln a, z = ln y , u = x otrzymujemy

z = αu + β.