26
ZAD 1. NORMALNOŚĆ Po czym można poznać normalność rozkładu?: 1. Wizualnie, a więc dane sprawdzone na oko poprzez obserwację: a. Histogramu INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → „więcej” → zaznaczyć dokładną liczbę przedziałów, k= √n → kliknąć na histogram. b. Wykresu normalności INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → Opisowe → Wykres Normalności 2. Liczbowo – czyli poprzez weryfikację hipotezy statystycznej a. Test Komogorowa – Smirnowa (Test K-S) – aby go użyć musimy znać średnią i odchylenie standardowe populacji, w praktyce nie jest wykorzystywany.

Statistica Zadania (1)

Embed Size (px)

Citation preview

ZAD 1. NORMALNOŚĆ

Po czym można poznać normalność rozkładu?:

1. Wizualnie, a więc dane sprawdzone na oko poprzez obserwację:

a. Histogramu

INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → „więcej” → zaznaczyć dokładną liczbę

przedziałów, k=√ n → kliknąć na histogram.

b. Wykresu normalności

INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → Opisowe → Wykres Normalności

2. Liczbowo – czyli poprzez weryfikację hipotezy statystycznej

a. Test Komogorowa – Smirnowa (Test K-S) – aby go użyć musimy znać średnią i

odchylenie standardowe populacji, w praktyce nie jest wykorzystywany.

b. Test Lilleforsa – używamy go kiedy liczebność próby jest większa od 30 (n>30)

c. Test Saphiro-Wilka – najbardziej popularny, wykorzystywany jeśli liczebność próby

jest mniejsza bądź równa od 50 (n ≤50)

Przy normalności zakładamy hipotezę zerową, że rozkład jest normalny czyli:

H0 : rozkład jest normalny

H1 : rozkład nie jest normalny.

Przy testach liczbowych otrzymujemy wartość P.

Jeśli P<0,05 → odrzucamy hipotezę zerową H0 na poziomie istotności 0,05, a zatem możemy przyjąć,

że rozkład nie jest normalny.

Jeśli P≥0,05 → to nie ma podstaw do odrzucenia hipotezy zerowej H0, a zatem możemy przyjąć, że

rozkład jest normalny.

INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → Normalność → Wybór testu

ZAD 2. PORÓWNYWANIE 2 ŚREDNICH (W PRÓBACH ZALEŻNYCH I NIEZALEŻNYCH)

1. TESTOWANIE PRÓB NIEZALEŻNYCH (z nieznanymi wariancjami)

a. Sprawdzamy normalność obu prób (Aby kontynuować rozkłady muszą być normalne)

H0 : rozkład jest normalny

H1 : rozkład nie jest normalny.

b. Sprawdzamy równość wariancji σ12 i σ2

2

H0 : σ12 = σ2

2

H1 : σ12 ≠ σ2

2

INSTRUKCJA: Statystyki podstawowe → Test t dla prób niezależnych (względem grup lub

zmiennych) → Opcje → Test Leven’a i Test Browna-Forsytha

Odczytujemy wartość p Laven’a

Wariancje są równe (jeśli nie odrzuciliśmy H0):

H0: m1=m2

H1: m1≠m2

INSTRUKCJA : klikamy na „podsumowanie testy t” w tym samym oknie.

H0: m1=m2

H1: m1<m2

INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,05

Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy

test t studenta; stopnie swobody df=n1+n2 -2;

Jeżeli t< t0,05 to odrzucamy hipotezę zerową, jeśli t>t0,05 to nie ma podstaw

do odrzucenia hipotezy zerowej.

H0: m1=m2

H1: m1>m2

INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,95

Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy

test t studenta; stopnie swobody df=n1+n2 -2;

Jeżeli t< t0,95 to odrzucamy hipotezę zerową, jeśli t>t0,95 to nie ma podstaw

do odrzucenia hipotezy zerowej.

Wariancje są różne (odrzuciliśmy H0 o równości wariancji)

H0: m1=m2

H1: m1≠m2

INSTRUKCJA: Używamy test Cochana-Coxa (tu test t z oddzielną oceną

wariancji) Odczytujemy wartość p dwustronnego!

Jeżeli p<0,05 to odrzucamy hipotezę zerową, jeżeli p>0,05 to mamy

podstawy do odrzucenia hipotezy zerowej o związku prób niezależnych.

2. Próby zależne o liczebności n1=n2=n (czyli próby przed i po)

a. Sprawdzamy normalność różnic. (patrz wyżej, rozkład musi być normalny żeby iść

dalej) Należy tu pamiętać, aby odjąć jeden wynik od drugiego i sprawdzić normalność

różnic. Aby to zrobić klikamy na zmienną nr 3 i wpisujemy w funkcjach komendę

Zm2-Zm1=Zm3

H0 : rozkład jest normalny

H1 : rozkład nie jest normalny.

b. Weryfikacja hipotezy

H0: m1=m2

H1: m1≠m2

INSTRUKCJA: Statystyki podstawowe → test t dla prób zależnych → Podsumowanie

Jeżeli odrzucamy H0:

H0: m1=m2

H1: m1<m2

INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,05

Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy

test t studenta; stopnie swobody df=n-1;

Jeżeli t< t0,05 to odrzucamy hipotezę zerową, jeśli t>t0,05 to nie ma podstaw

do odrzucenia hipotezy zerowej.

H0: m1=m2

H1: m1>m2

INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,95

Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy

test t studenta; stopnie swobody df=n-1;

Jeżeli t< t0,95 to odrzucamy hipotezę zerową, jeśli t>t0,95 to nie ma podstaw

do odrzucenia hipotezy zerowej.

ZAD 3. ANALIZA WARIANCJI – PROSTA ANOVA

Analiza wariancji bada równość średnich w trzech lub więcej niezależnych grupach, jeżeli spełnione są

odpowiednie założenia:

- mierzalność;

- niezależność;

- normalność – w każdej z grup.

UWAGA: DO STATISTICI DANE WPISUJEMY „PRZYPADEK POD PRZYPADKIEM” I TWORZYMY ZMIENNĄ

GRUPUJĄCĄ !!! (czyli wszystkie zmienne w jednej kolumnie)

1. Sprawdzamy czy w każdej grupie mamy do czynienia z rozkładem normalnym:

H0 : rozkład jest normalny

H1 : rozkład nie jest normalny.

2. Sprawdzamy równości wariancji (czy każda grupa ma taką samą)

H0 : σ12 =…= σ2

2

H1: ~ H0

INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i

kodującej (grupującej) → OK. → Karta testy ANOVA → Test Leven’a → „p” i wnioskujemy o

hipotezie. Jeśli wariancja jest równa (nie odrzuciliśmy H0) to idziemy dalej

3. Weryfikacja hipotezy o równości średnich ANOVA m1...mk

H0 : m1 =…= mk

H1: ~ H0

INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i

kodującej (grupującej) → OK. → Karta testy ANOVA → Analiza wariancji → odczytujemy „p”

Jeżeli p <0,05 to odrzucamy H0

Jeżeli p >0,05 to nie ma podstaw do odrzucenia hipotezy zerowej, a zatem wnioskujemy że

średnie we wszystkich grupach są równe, a dokładniej nie ma statystycznie istotnych różnic.

4. Jeżeli odrzuciliśmy H0 to wyznaczamy grupy jednorodne i , j∈ {1 ,…,k }; i≠ j

H0: mi=mj

H1: mi≠mj

INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i

kodującej (grupującej) → OK. → Karta „Post-Hoc” → Test NIR lub test Duncana

NP.:

m1≠m2

m1=m3

m2≠m3

0,05< grupa niejednorodna

0,05> grupa jednorodna

Tutaj grupy jednorodne {grupanr 1 , grupanr 3 }

Grupa niejednorodna : grupa nr 3

ZAD 4. TESTY NIEPARAMETRYCZNE – PORÓWNANIE GRUP NIEZALEŻNYCH ORAZ ZALEŻNYCH

Testy nieparametryczne stosujemy w przypadku niespełnienia któregoś z założeń

dotyczących testów parametrycznych (niespełnione założenia o normalności lub równości

wariancji).

H0:F1(x)=F2(x)

H1:~ H0

1. Dwie próby niezależne:

a. Dane wypisujemy przypadek za przypadkiem + zmienna kodująca jak w ANOVA

b. Weryfikujemy hipotezy:

H0:F1(x) ≠F2(x)

H1:~ H0

INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównaj z niezależną

grupą → OK. → zmienne + wybór zmiennej grupującej →

Jeśli liczebności obu grup są większe od 20 (n1>20 i n2>20) oraz nie

występują powtórzenia w danych tzn. nie ma rang wiązanych. (Aby

sprawdzić powtarzalność par, kopiujemy dane do Excela i

wykorzystujemy formułę „=jeżeli(A1=A2;1;0)” tam gdzie pojawi się 1,

będzie oznaczało, że liczba się powtarza) WYKORZYTSUJEMY: Test U

Manna – Witneya (kolumny „z” i „p”)

Jeżeli liczebności są większe od 20 (n1>20 i n2>20) i występuje

przynajmniej jedna podwójna liczba

WYKORZYSTUJEMY: Test U Manna – Witneya (kolumny „zpopr” i „p”)

Jeżeli liczebności obu grup są mniejsze, bądź równe 20

WYKORZYSTUJEMY: test Wolta-Wolfrowitza z poprawką singel a

(kolumny „zskoryg” i „p”)

2. Dwie próby zależne:

a. Dane wypisujemy jako 2 zmienne, obok siebie

b. Weryfikujemy hipotezy

H0:F1(x) =F2(x)

H1:~ H0

INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównanie 2 grup

niezależnych (zmiennych) → OK. → wybór zmiennych → Test Wilcoxona kolejności par

rangowanych

ZAD 5. TESTY NIEPARAMETRYCZNE – PORÓWNANIE WIELU PRÓB NIEZALEŻNYCH

(NIEPARAMETRYCZNA ANOVA)

1. Postępowanie:

a. Dane wpisujemy przypadek pod przypadkiem + zmienna kodująca

b. Weryfikacja hipotezy

H0:F1(x) =F2(x)= …= Fk(x)

H1:~ H0

INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównanie wielu

prób niezależnych (grup) → wybór zmiennych + kodujących (grupujących) →

podsumowanie ANOVA → Skala Kruskala-Wallisa i test mediany (zerkamy do

drugiego arkusza – rang Kruskala i odczytujemy „p”) Jeżeli p < 0,05 to odrzucamy

hipotezę zerową o równości rozkładów.

c. Grupy jednorodne

H0:Fi(x) =Fj(x) (rozkład i-tej I j-tej próby jest nierozróżnialny statystycznie)

H1: Fi(x) ≠Fj(x)

INSTRUKCJA: → wielokr. porówn. średnich rang dla wszystkich prób

ZAD 6. TESTY NIEPARAMETRYCZNE DLA WIELU PRÓB ZALEŻNYCH

1. Postępowanie - Dane Standardowe :

a. Dane wpisujemy jako zmienne,

b. Weryfikacja hipotezy:

H0:F1(x) =F2(x)= …= Fk(x)

H1:~ H0

(Rozważamy k≥3 prób zależnych!)

INSTRUKCJA: Testy Nieparametryczne→ Porównanie wielu prób zależnych → Podsumowanie

ANOVA Friedmana

2. Postępowanie – Dane Dychotomiczne :

Rozważamy k prób (k≥3) zależnych z danymi dychotomicznymi czyli zero-jedynkowymi. (W

zadaniu może być czy zaszło zdarzenie, czy nie, odpowiedź poprawna, albo nie itp)

a. Dane wpisujemy jako zmienne,

b. Weryfikacja hipotezy:

H0:F1(x) =F2(x)= …= Fk(x)

H1:~ H0

INSTRUKCJA: Testy Nieparametryczne → Test Q Cochrana → Podsumowanie

ZAD 7. TABELE DWUDZIELCZE (WIELODZIELCZE)

1. Przypadek dwóch różnych cech: Załóżmy, że dysponujemy N obserwacjami o jakościowej

cesze X i jakościowej cesze Y.

Kategorie cechy X: X1,…,Xk (np. kolory oczu chomików – niebieski, zielony, brązowy, szary)

Kategorie cechy Y: Y1,…,Yp (np. kolory futerka chomików – biały, w ciapki, brązowy )

nij – liczba elementów próby, dla których cecha X ma wariant Xi , a cecha Y ma wariant

Yj (i=1, … k; j=1, …, p).

Więc tabela dwudzielcza będzie wyglądała następująco:

H0: cechy X i Y są niezależne

H1: cechy X i Y są zależne

a. Tabele 2x2

Wybór odpowiedniego testu:

PRZYPADEK TEST

N> 40 i wszystkie liczności oczekiwane ≥5 Test Chi2

N< 40 i istnieje liczność oczekiwana <5 Test Chi2 z poprawką Yatsa

20<N≤ 40 i wszystkie liczności oczekiwane ≥5 Test Chi2 z poprawką Yatsa

20<N≤ 40 i istnieje liczność oczekiwana <5 Dokładny test Fischera

N≤20 Dokładny test Fischera

Sprawdzenie siły zależności (TYLKO w przypadku odrzucenia H0!) za pomocą współczynnika Fi

0≤Fi≤1 – im wartość bliższa 1 tym siła zależności jest większa!

INSTRUKCJA - HISTOGRAM: Statystyki podstawowe → Tabele wielodzielcze → Określ tabele

(wybór zmiennych) → OK. → Histogramy skategoryzowane bądź w zakładce WIĘCEJ

histogram 3d

INSTRUKCJA – POSTĘPOWANIE: Statystyki podstawowe → Tabele wielodzielcze → Określ

tabele (wybór zmiennych) → OK. → OPCJE → Na początku wybieramy Liczności Oczekiwane

(L.O.) → WIĘCEJ → Podsumowanie tabela zbiorcza i patrzymy na środek:

W tym przypadku WSZYSTKIE L.O. są większe niż 5, a liczebność wynosi 45, więc wybieramy

test Chi2 → OPCJE → Wybieramy odpowiedni test (patrz tabela wyżej) i współczynnik Fi

→ Na podstawie odpowiedniego testu (p) potwierdzamy lub odrzucamy H0 , a dopiero po

tym bierzemy i analizujemy Fi - im większe tym siła związku.

b. Tabele większe niż 2x2

Wybór testu : jeżeli wszystkie liczności oczekiwane ≥5 - Test Chi2

Sprawdzenie siły zależności w przypadku odrzucenia H0 – Współczynnik V-Cramera, który

interpretujemy tak samo jak Fi

INSTRUKCJA: Robimy wszystko to, co wyżej, używając Testu Chi2 i współczynnika V-Cramera

zamiast Fi.

INSTRUKCJA:

2. Przypadek jednej cechy badanej przed i po oddziaływaniu – test istotności zmian McNemara

Test McNemara A/D H0: A=D H1:A≠D

a. Test McNemara B/C H0: B=C H1:B≠C

INSTRUKCJA: Statystyki podstawowe → Tabele wielodzielcze → Określ tabele (wybór

zmiennych) → OK. → OPCJE → Test McNemara → interpretacja wyniku.

Kiedy wybrać A/D, a kiedy B/C?

ZAD 8. PODSTAWY KORELACJI

X1, … , Xn – wartość pierwszej cechy

Y1, … , Yn – wartość drugiej cechy

1. Dane mierzalne – przy rozkładzie normalnym w obu grupach:

a. Wykres rozrzutu (wykres korelacyjny):

Na podstawie wykresu korelacyjnego możemy wstępni określić charakter, kierunek i

siłę korelacji

b. Współczynnik korelacji liniowej Pearsona rxy (rxyϵ[-1;1])

i. Kierunek

rxy>0 → korelacja dodatnia

rxy<0 → korelacja ujemna

ii. Siła

IrxyI<0,2 → korelacja słaba, zależność nie znacząca

0,2≤IrxyI<0,4 → korelacja niska, zależność wyraźna, lecz mała

0,4≤IrxyI<0,7 → korelacja umiarkowana, zależność istotna

0,7≤IrxyI<0,9 → korelacja silna, zależność znaczna

0,9≤IrxyI → korelacja bardzo silna, zależność bardzo pewna

UWAGA: takiej interpretacji dokonujemy wówczas, gdy współczynnik

korelacji okaże się statystycznie istotny!

c. Istotność współczynnika korelacji liniowej Pearsona

H0: ρ=0 (nieistotne)

H1: ρ≠0 (istotne) – będzie istotny jeśli wartość p <0,05! Wtedy i tylko wtedy ρ≠0 !!!

INSTRUKCJA: Statystyki podstawowe → moc korelacji → 2 listy zmiennych → opcje →

wyświetl dokładną tabelę wyników → podsumowanie → odczytujemy r(x,y) i p – jeżeli p

pozwala na odrzucenie H0 interpretujemy siłę korelacji

2. Dane w skali porządkowej i jakościowej, które możemy porangować

a. W razie potrzeby należy nadać danym odpowiednie rangi w statistice (Kliknąć dwa

razy na odpowiednią zmienną i nacisnąć po prawej etykiety tekstowe – należy przy

tym pamiętać, o ustalonej kolejności, jeśli np. szeregujemy rozmiar sukienek i

wykształcenie, to najmniejszy rozmiar i najgorsze wykształcenie powinny mieć

najniższy zetykietowany numer)

b. Współczynnik korelacji rang Spearmana rs – kierunek i siła jak w przypadku

współczynnika rxy

c. Istotność rang Spearmana

H0: ρ=0 (nieistotne)

H1: ρ≠0 (istotne) – będzie istotny jeśli wartość p <0,05! Wtedy i tylko wtedy ρ≠0 !!!

INSTRUKCJA: Statystyki Nieparametryczne → korelacje → Oblicz: Szczegółowy raport → listy

zmiennych → R Spearmana

ZAD. 9 REGRESJA PROSTA (CZYLI TUPTUŚ)

(x1,y1),… ,(xn,yn) – dane empiryczne

Interesuje nas zależność LINIOWA y od x!

Y=bo+b1x

Y – zmienna zależna (objaśniana)

X – zmienna niezależna (objaśniająca)

bo – wyraz wolny

b1 – współczynnik regresji

1. Wykres rozrzutu

MNK – metoda najmniejszych kwadratów

2. Współczynnik korelacji Pearsona

a. Określ siłę i kierunek korelacji (jak w temacie poprzednim)

b. Sprawdź istotność współczynnika (musi być istotne statystycznie „p”)

3. Funkcja regresji prostej Y=bo+b1x

a. Wyznaczenie parametrów b0 i b1

b. Sprawdzenie istotności współczynnika regresji b1

c. Interpretacja współczynnika regresji – Wraz ze wzrostem zmiennej niezależnej (x) o

1 jednostkę, zmienna objaśniana (y) rośnie/maleje (w zależności od znaku) o b 1

jednostek!

d. Ocena dokładności dopasowania funkcji regresji do danych empirycznych:

i. Błąd standardowy estymacji (odchylenie standardowe) Su określa, o ile

średnio można się pomylić przy szacowaniu wartości zmiennej zależnej y i

zmiennej niezależnej x na podstawie funkcji regresji.

ii. Średni błąd szacunku Vu – określa ile procent średniego poziomu zmiennej

zależnej stanowi średni błąd szacunku

Vu=Suy

∗100

y - średnia arytmetyczna liczby y1, … , yn

iii. Współczynnik determinacji R2- określa jaki procent zamienności zmiennej

zależnej y wyjaśnia funkcja regresji. (od 0-1 im bliżej jedynki tym lepiej)

INSTRUKCJA (PUNKTU 3): Statystyka → regresja wieloraka → wybór zmiennych (zależna y i

niezależna x) → OK. → Podstawowe → Podsumowanie wyniki regresji

Średnią obliczamy w statystykach podstawowych → opisowe → Podsumowanie

ZAD. 10 KORELACJA CZĄSTKOWA WIELORAKA

Analiza współzależności 3 cech.

Dane: X1, X2,X3 – trzy cechy

Np.:

X1i –waga X2i - wzrost X3i – numer buta

Wyniki … … …

1. Współczynnik korelacji cząstkowej

a. Interpretacja – określenie siły i kierunku zależności pomiędzy dwoma cechami z

wyłączeniem wpływu trzeciej zmiennej.

r12.3 – współczynnik korelacji cząstkowej między X1 i X2 przy kontrolowaniu X3

r13.2 – współczynnik korelacji cząstkowej między X1 i X3 przy kontrolowaniu X2

r23.1 – współczynnik korelacji cząstkowej między X3 i X2 przy kontrolowaniu X1

b. Istotność współczynnika korelacji cząstkowej (H1 są istotne statystycznie):

HIPOTEZY r12.3 r13.2 r23.1

H0: Ρ12.3 = 0 Ρ13.2 = 0 Ρ32.1 = 0

H1: Ρ12.3 ≠ 0 Ρ13.2 ≠ 0 Ρ32.1 ≠ 0

INSTRUKCJA: Statystyka → podstawowe → macierze korelacji → OPCJE →

→ WIĘCEJ → Korelacje cząstkowe

2. Współczynnik korelacji wielorakiej

a. Interpretacja – określa siłę powiązania jednej cechy od dwóch pozostałych

r1.23 – współczynnik korelacji wielorakiej między X1 a X2 i X3

r2.13 – współczynnik korelacji wielorakiej między X1 a X3 i X2

r3.12 – współczynnik korelacji wielorakiej między X3 a X2 i X1

b. Istotność współczynnika korelacji wielorakiej

HIPOTEZY r1.23 r2.13 r3.12

H0: Ρ1.23 = 0 Ρ2.13 = 0 Ρ3.12 = 0

H1: Ρ1.23 ≠ 0 Ρ2.13 ≠ 0 Ρ3.12 ≠ 0

INSTRUKCJA : Statystyka → regresja wieloraka → zmienne zależna X1 i niezależne X2 i X3 → OK. →

Odczytaj p i Wielor. R

3. Współczynnik determinacji = współczynnik korelacji wielorakiej podniesiony do kwadratu.

a. Interpretacja – określa jaka część zmienności 1 cechy została wyjaśniona przez 2

pozostałe.

b. Związek ze współczynnikiem korelacji linowej Pearsona i współczynnikiem korelacji

cząstkowej

R1.232 = r12

2 + r13.22*(1- r12

2)

r12 – współczynnik korelacji liniowej Pearsona X1 i X2

r13.2 – współczynnik korelacji cząstkowej między X1 i X3 przy kontroli X2

Interpretacja równania: Zmienność cechy X1 jest wyjaśniona przez cechy X2 i X3 w

R1.232 *100%

A DOKŁADNIEJ

W r122*100% przez cechy X2 i w r13.2

2*100% przez cechy X3 przy ustabilizowanym

działaniu cechy X2

ZAD. 11 REGRESJA WIELORAKA

Y – zmienna obserwowalna

X1, … ,Xk – zmienne obserwowalne

Y - zmienna zależna (objaśniana)

X1, … ,Xk - zmienna niezależna (objaśniająca)

Dla przykładu :

Y = waga

X1= długość stopy

X2= obwód szyi

(Y1, X11, Xk1), (Y2, X12, Xk2), … , (Yn, X1n, Xkn) – czyli wszystkie te statystyki dla jednej osoby

Model regresji wielorakiej w zależności zmiennej Y od zmiennych X1, … ,Xk

Yi=β0+ β1X1i + … + βkXki +ξi , i=1, … , n

Β0 - wyraz wolny

Β1, … , Bk – współczynniki regresji określające zależność Y od odpowiednio X1, … ,Xk

ξ1 , … , ξ n – składniki losowe

Sposób przeprowadzenia analizy regresji wielorakiej:

1. Wyznaczenie równania regresji wielorakiej:

a. Oszacowanie parametrów B0, B1, … , Bk metodą najmniejszych kwadratów

b. Zapisanie równania regresji wielorakiej

Y i=b0+b1 x1i+bk x i

i= 1, … , n

bo, b1, b2 – oceny parametrów z punktu a)

c. Interpretacja współczynników B1, … , Bk

d. Sprawdzenie istotności parametrów B1, … , Bk

H0: B1=0

H1: B1≠0

2. Ocena dopasowania modelu do danych empirycznych:

a. Błąd standardowy estymacji (odchylenie standardowe reszt) – o ile średnio można się

pomylić przy szacowaniu wartości zmiennej Y, w zależności od zmiennej X1, … , Xk na

podstawie funkcji regresji wielorakiej

b. Współczynnik korelacji wielorakiej Ry.x1x2x3 – określenie siły zależności zmiennej Y od

X1, … , Xk (im bliżej 1 tym lepsza zależność)

H0: ρyx1=0

H1: ρyx1≠0

c. Współczynnik determinacji R2 określa jaki procent zmienności zmiennej Y został

wyjaśniony przez funkcję regresji wielorakiej

INSTRUKCJA: Punkt 1(a,b,c,d) i 2(a,c) wykonujmy jak w przypadku regresji prostej – patrz powyżej;

punkt 2(b) wykonujemy jak w zajęciach wcześniejszych w punkcie 2(b)

Zad. 12 REGRASJA WIELOMIANOWA

X, Y – zmienne mierzalne

Interesuje nas model:

Y=a0+a1X+a2 X2+…+ak X

k ak≠0

k- stopień wielomianu

a0,a1,ak – współczynniki wielomianu

1. Analiza regresji wielomianowej

a. Wprowadzenie nowych zmiennych

X1=X; X2=X2; Xk=Xk

b. Oszacowanie parametrów a0, a1,ak , modelu regresji wielorakiej

Y=a0+a1X+…+ak Xk + ξi

c. Sprawdzenie stopnia wielomianu

H0: ak=0

H1: ak≠0 (jeśli jest istotne, to wielomian jest stopnia k-tego)

d. Porównanie dopasowania modelu do danych empirycznych z innymi modelami (jeżeli

porównywane modele mają różną liczbę zmiennych objaśniających to korzystamy z R

2 [Skoryg.R2]) Im bliższy 1 tym lepiej dopasowany model.

INSTRUKCJA: Zmienną X dajemy do kwadratu w ostatniej komórce ( w taki sam sposób jak wyżej w

przypadku porównywania normalności różnic zmiennych zależnych. Używamy komendę =X^2).

Współczynniki wielomianu traktujemy jak wcześniejsze b.

CO BY SIĘ PRZYDALO DO KOLOKWIUM?:

Wybór odpowiedniego testu:

PRZYPADEK TEST

N> 40 i wszystkie liczności oczekiwane ≥5 Test Chi2

N< 40 i istnieje liczność oczekiwana <5 Test Chi2 z poprawką Yatsa

20<N≤ 40 i wszystkie liczności oczekiwane ≥5 Test Chi2 z poprawką Yatsa

20<N≤ 40 i istnieje liczność oczekiwana <5 Dokładny test Fischera

N≤20 Dokładny test Fischera

Siła korelacji

IrxyI<0,2 → korelacja słaba, zależność nie znacząca

0,2≤IrxyI<0,4 → korelacja niska, zależność wyraźna, lecz mała

0,4≤IrxyI<0,7 → korelacja umiarkowana, zależność istotna

0,7≤IrxyI<0,9 → korelacja silna, zależność znaczna

0,9≤IrxyI → korelacja bardzo silna, zależność bardzo pewna

WZORY:

Y=bo+b1x

Interpretacja współczynnika regresji – Wraz ze wzrostem zmiennej niezależnej (x) o 1 jednostkę,

zmienna objaśniana (y) rośnie/maleje (w zależności od znaku) o b1 jednostek!

Błąd standardowy estymacji (odchylenie standardowe) Su określa, o ile średnio można się pomylić

przy szacowaniu wartości zmiennej zależnej y i zmiennej niezależnej x na podstawie funkcji

regresji.

Średni błąd szacunku Vu – określa ile procent średniego poziomu zmiennej zależnej stanowi średni

błąd szacunku V u=Suy

∗100

Współczynnik determinacji R2- określa jaki procent zamienności zmiennej zależnej y wyjaśnia funkcja regresji.

R1.232 = r12

2 + r13.22*(1- r12

2)

Interpretacja równania: Zmienność cechy X1 jest wyjaśniona przez cechy X2 i X3 w R1.232 *100%

A DOKŁADNIEJ W r122*100% przez cechy X2 i w r13.2

2*100% przez cechy X3 przy ustabilizowanym

działaniu cechy X2

Yi=β0+ β1X1i + … + βkXki +ξi , i=1, … , n

Y=a0+a1X+a2 X2+…+ak X

k ak≠0