Upload
tomasz-jakubowski
View
156
Download
6
Embed Size (px)
Citation preview
ZAD 1. NORMALNOŚĆ
Po czym można poznać normalność rozkładu?:
1. Wizualnie, a więc dane sprawdzone na oko poprzez obserwację:
a. Histogramu
INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → „więcej” → zaznaczyć dokładną liczbę
przedziałów, k=√ n → kliknąć na histogram.
b. Wykresu normalności
INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → Opisowe → Wykres Normalności
2. Liczbowo – czyli poprzez weryfikację hipotezy statystycznej
a. Test Komogorowa – Smirnowa (Test K-S) – aby go użyć musimy znać średnią i
odchylenie standardowe populacji, w praktyce nie jest wykorzystywany.
b. Test Lilleforsa – używamy go kiedy liczebność próby jest większa od 30 (n>30)
c. Test Saphiro-Wilka – najbardziej popularny, wykorzystywany jeśli liczebność próby
jest mniejsza bądź równa od 50 (n ≤50)
Przy normalności zakładamy hipotezę zerową, że rozkład jest normalny czyli:
H0 : rozkład jest normalny
H1 : rozkład nie jest normalny.
Przy testach liczbowych otrzymujemy wartość P.
Jeśli P<0,05 → odrzucamy hipotezę zerową H0 na poziomie istotności 0,05, a zatem możemy przyjąć,
że rozkład nie jest normalny.
Jeśli P≥0,05 → to nie ma podstaw do odrzucenia hipotezy zerowej H0, a zatem możemy przyjąć, że
rozkład jest normalny.
INSTRUKCJA: Statystyki podstawowe → Tabele Liczności → Normalność → Wybór testu
ZAD 2. PORÓWNYWANIE 2 ŚREDNICH (W PRÓBACH ZALEŻNYCH I NIEZALEŻNYCH)
1. TESTOWANIE PRÓB NIEZALEŻNYCH (z nieznanymi wariancjami)
a. Sprawdzamy normalność obu prób (Aby kontynuować rozkłady muszą być normalne)
H0 : rozkład jest normalny
H1 : rozkład nie jest normalny.
b. Sprawdzamy równość wariancji σ12 i σ2
2
H0 : σ12 = σ2
2
H1 : σ12 ≠ σ2
2
INSTRUKCJA: Statystyki podstawowe → Test t dla prób niezależnych (względem grup lub
zmiennych) → Opcje → Test Leven’a i Test Browna-Forsytha
Odczytujemy wartość p Laven’a
Wariancje są równe (jeśli nie odrzuciliśmy H0):
H0: m1=m2
H1: m1≠m2
INSTRUKCJA : klikamy na „podsumowanie testy t” w tym samym oknie.
H0: m1=m2
H1: m1<m2
INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,05
Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy
test t studenta; stopnie swobody df=n1+n2 -2;
Jeżeli t< t0,05 to odrzucamy hipotezę zerową, jeśli t>t0,05 to nie ma podstaw
do odrzucenia hipotezy zerowej.
H0: m1=m2
H1: m1>m2
INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,95
Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy
test t studenta; stopnie swobody df=n1+n2 -2;
Jeżeli t< t0,95 to odrzucamy hipotezę zerową, jeśli t>t0,95 to nie ma podstaw
do odrzucenia hipotezy zerowej.
Wariancje są różne (odrzuciliśmy H0 o równości wariancji)
H0: m1=m2
H1: m1≠m2
INSTRUKCJA: Używamy test Cochana-Coxa (tu test t z oddzielną oceną
wariancji) Odczytujemy wartość p dwustronnego!
Jeżeli p<0,05 to odrzucamy hipotezę zerową, jeżeli p>0,05 to mamy
podstawy do odrzucenia hipotezy zerowej o związku prób niezależnych.
2. Próby zależne o liczebności n1=n2=n (czyli próby przed i po)
a. Sprawdzamy normalność różnic. (patrz wyżej, rozkład musi być normalny żeby iść
dalej) Należy tu pamiętać, aby odjąć jeden wynik od drugiego i sprawdzić normalność
różnic. Aby to zrobić klikamy na zmienną nr 3 i wpisujemy w funkcjach komendę
Zm2-Zm1=Zm3
H0 : rozkład jest normalny
H1 : rozkład nie jest normalny.
b. Weryfikacja hipotezy
H0: m1=m2
H1: m1≠m2
INSTRUKCJA: Statystyki podstawowe → test t dla prób zależnych → Podsumowanie
Jeżeli odrzucamy H0:
H0: m1=m2
H1: m1<m2
INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,05
Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy
test t studenta; stopnie swobody df=n-1;
Jeżeli t< t0,05 to odrzucamy hipotezę zerową, jeśli t>t0,05 to nie ma podstaw
do odrzucenia hipotezy zerowej.
H0: m1=m2
H1: m1>m2
INSTRUKCJA: odczytujemy wartość statystyki t – wartość krytyczną t0,95
Następnie wchodzimy w kalkulator prawdopodobieństwa: wybieramy
test t studenta; stopnie swobody df=n-1;
Jeżeli t< t0,95 to odrzucamy hipotezę zerową, jeśli t>t0,95 to nie ma podstaw
do odrzucenia hipotezy zerowej.
ZAD 3. ANALIZA WARIANCJI – PROSTA ANOVA
Analiza wariancji bada równość średnich w trzech lub więcej niezależnych grupach, jeżeli spełnione są
odpowiednie założenia:
- mierzalność;
- niezależność;
- normalność – w każdej z grup.
UWAGA: DO STATISTICI DANE WPISUJEMY „PRZYPADEK POD PRZYPADKIEM” I TWORZYMY ZMIENNĄ
GRUPUJĄCĄ !!! (czyli wszystkie zmienne w jednej kolumnie)
1. Sprawdzamy czy w każdej grupie mamy do czynienia z rozkładem normalnym:
H0 : rozkład jest normalny
H1 : rozkład nie jest normalny.
2. Sprawdzamy równości wariancji (czy każda grupa ma taką samą)
H0 : σ12 =…= σ2
2
H1: ~ H0
INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i
kodującej (grupującej) → OK. → Karta testy ANOVA → Test Leven’a → „p” i wnioskujemy o
hipotezie. Jeśli wariancja jest równa (nie odrzuciliśmy H0) to idziemy dalej
3. Weryfikacja hipotezy o równości średnich ANOVA m1...mk
H0 : m1 =…= mk
H1: ~ H0
INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i
kodującej (grupującej) → OK. → Karta testy ANOVA → Analiza wariancji → odczytujemy „p”
Jeżeli p <0,05 to odrzucamy H0
Jeżeli p >0,05 to nie ma podstaw do odrzucenia hipotezy zerowej, a zatem wnioskujemy że
średnie we wszystkich grupach są równe, a dokładniej nie ma statystycznie istotnych różnic.
4. Jeżeli odrzuciliśmy H0 to wyznaczamy grupy jednorodne i , j∈ {1 ,…,k }; i≠ j
H0: mi=mj
H1: mi≠mj
INSTRUKCJA: Statystyki podstawowe → Przekroje, prosta ANOVA → Wybór zmiennej i
kodującej (grupującej) → OK. → Karta „Post-Hoc” → Test NIR lub test Duncana
NP.:
m1≠m2
m1=m3
m2≠m3
0,05< grupa niejednorodna
0,05> grupa jednorodna
Tutaj grupy jednorodne {grupanr 1 , grupanr 3 }
Grupa niejednorodna : grupa nr 3
ZAD 4. TESTY NIEPARAMETRYCZNE – PORÓWNANIE GRUP NIEZALEŻNYCH ORAZ ZALEŻNYCH
Testy nieparametryczne stosujemy w przypadku niespełnienia któregoś z założeń
dotyczących testów parametrycznych (niespełnione założenia o normalności lub równości
wariancji).
H0:F1(x)=F2(x)
H1:~ H0
1. Dwie próby niezależne:
a. Dane wypisujemy przypadek za przypadkiem + zmienna kodująca jak w ANOVA
b. Weryfikujemy hipotezy:
H0:F1(x) ≠F2(x)
H1:~ H0
INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównaj z niezależną
grupą → OK. → zmienne + wybór zmiennej grupującej →
Jeśli liczebności obu grup są większe od 20 (n1>20 i n2>20) oraz nie
występują powtórzenia w danych tzn. nie ma rang wiązanych. (Aby
sprawdzić powtarzalność par, kopiujemy dane do Excela i
wykorzystujemy formułę „=jeżeli(A1=A2;1;0)” tam gdzie pojawi się 1,
będzie oznaczało, że liczba się powtarza) WYKORZYTSUJEMY: Test U
Manna – Witneya (kolumny „z” i „p”)
Jeżeli liczebności są większe od 20 (n1>20 i n2>20) i występuje
przynajmniej jedna podwójna liczba
WYKORZYSTUJEMY: Test U Manna – Witneya (kolumny „zpopr” i „p”)
Jeżeli liczebności obu grup są mniejsze, bądź równe 20
WYKORZYSTUJEMY: test Wolta-Wolfrowitza z poprawką singel a
(kolumny „zskoryg” i „p”)
2. Dwie próby zależne:
a. Dane wypisujemy jako 2 zmienne, obok siebie
b. Weryfikujemy hipotezy
H0:F1(x) =F2(x)
H1:~ H0
INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównanie 2 grup
niezależnych (zmiennych) → OK. → wybór zmiennych → Test Wilcoxona kolejności par
rangowanych
ZAD 5. TESTY NIEPARAMETRYCZNE – PORÓWNANIE WIELU PRÓB NIEZALEŻNYCH
(NIEPARAMETRYCZNA ANOVA)
1. Postępowanie:
a. Dane wpisujemy przypadek pod przypadkiem + zmienna kodująca
b. Weryfikacja hipotezy
H0:F1(x) =F2(x)= …= Fk(x)
H1:~ H0
INSTRUKCJA: Statystyki podstawowe → testy nieparametryczne → porównanie wielu
prób niezależnych (grup) → wybór zmiennych + kodujących (grupujących) →
podsumowanie ANOVA → Skala Kruskala-Wallisa i test mediany (zerkamy do
drugiego arkusza – rang Kruskala i odczytujemy „p”) Jeżeli p < 0,05 to odrzucamy
hipotezę zerową o równości rozkładów.
c. Grupy jednorodne
H0:Fi(x) =Fj(x) (rozkład i-tej I j-tej próby jest nierozróżnialny statystycznie)
H1: Fi(x) ≠Fj(x)
INSTRUKCJA: → wielokr. porówn. średnich rang dla wszystkich prób
ZAD 6. TESTY NIEPARAMETRYCZNE DLA WIELU PRÓB ZALEŻNYCH
1. Postępowanie - Dane Standardowe :
a. Dane wpisujemy jako zmienne,
b. Weryfikacja hipotezy:
H0:F1(x) =F2(x)= …= Fk(x)
H1:~ H0
(Rozważamy k≥3 prób zależnych!)
INSTRUKCJA: Testy Nieparametryczne→ Porównanie wielu prób zależnych → Podsumowanie
ANOVA Friedmana
2. Postępowanie – Dane Dychotomiczne :
Rozważamy k prób (k≥3) zależnych z danymi dychotomicznymi czyli zero-jedynkowymi. (W
zadaniu może być czy zaszło zdarzenie, czy nie, odpowiedź poprawna, albo nie itp)
a. Dane wpisujemy jako zmienne,
b. Weryfikacja hipotezy:
H0:F1(x) =F2(x)= …= Fk(x)
H1:~ H0
INSTRUKCJA: Testy Nieparametryczne → Test Q Cochrana → Podsumowanie
ZAD 7. TABELE DWUDZIELCZE (WIELODZIELCZE)
1. Przypadek dwóch różnych cech: Załóżmy, że dysponujemy N obserwacjami o jakościowej
cesze X i jakościowej cesze Y.
Kategorie cechy X: X1,…,Xk (np. kolory oczu chomików – niebieski, zielony, brązowy, szary)
Kategorie cechy Y: Y1,…,Yp (np. kolory futerka chomików – biały, w ciapki, brązowy )
nij – liczba elementów próby, dla których cecha X ma wariant Xi , a cecha Y ma wariant
Yj (i=1, … k; j=1, …, p).
Więc tabela dwudzielcza będzie wyglądała następująco:
H0: cechy X i Y są niezależne
H1: cechy X i Y są zależne
a. Tabele 2x2
Wybór odpowiedniego testu:
PRZYPADEK TEST
N> 40 i wszystkie liczności oczekiwane ≥5 Test Chi2
N< 40 i istnieje liczność oczekiwana <5 Test Chi2 z poprawką Yatsa
20<N≤ 40 i wszystkie liczności oczekiwane ≥5 Test Chi2 z poprawką Yatsa
20<N≤ 40 i istnieje liczność oczekiwana <5 Dokładny test Fischera
N≤20 Dokładny test Fischera
Sprawdzenie siły zależności (TYLKO w przypadku odrzucenia H0!) za pomocą współczynnika Fi
0≤Fi≤1 – im wartość bliższa 1 tym siła zależności jest większa!
INSTRUKCJA - HISTOGRAM: Statystyki podstawowe → Tabele wielodzielcze → Określ tabele
(wybór zmiennych) → OK. → Histogramy skategoryzowane bądź w zakładce WIĘCEJ
histogram 3d
INSTRUKCJA – POSTĘPOWANIE: Statystyki podstawowe → Tabele wielodzielcze → Określ
tabele (wybór zmiennych) → OK. → OPCJE → Na początku wybieramy Liczności Oczekiwane
(L.O.) → WIĘCEJ → Podsumowanie tabela zbiorcza i patrzymy na środek:
W tym przypadku WSZYSTKIE L.O. są większe niż 5, a liczebność wynosi 45, więc wybieramy
test Chi2 → OPCJE → Wybieramy odpowiedni test (patrz tabela wyżej) i współczynnik Fi
→ Na podstawie odpowiedniego testu (p) potwierdzamy lub odrzucamy H0 , a dopiero po
tym bierzemy i analizujemy Fi - im większe tym siła związku.
b. Tabele większe niż 2x2
Wybór testu : jeżeli wszystkie liczności oczekiwane ≥5 - Test Chi2
Sprawdzenie siły zależności w przypadku odrzucenia H0 – Współczynnik V-Cramera, który
interpretujemy tak samo jak Fi
INSTRUKCJA: Robimy wszystko to, co wyżej, używając Testu Chi2 i współczynnika V-Cramera
zamiast Fi.
INSTRUKCJA:
2. Przypadek jednej cechy badanej przed i po oddziaływaniu – test istotności zmian McNemara
Test McNemara A/D H0: A=D H1:A≠D
a. Test McNemara B/C H0: B=C H1:B≠C
INSTRUKCJA: Statystyki podstawowe → Tabele wielodzielcze → Określ tabele (wybór
zmiennych) → OK. → OPCJE → Test McNemara → interpretacja wyniku.
Kiedy wybrać A/D, a kiedy B/C?
ZAD 8. PODSTAWY KORELACJI
X1, … , Xn – wartość pierwszej cechy
Y1, … , Yn – wartość drugiej cechy
1. Dane mierzalne – przy rozkładzie normalnym w obu grupach:
a. Wykres rozrzutu (wykres korelacyjny):
Na podstawie wykresu korelacyjnego możemy wstępni określić charakter, kierunek i
siłę korelacji
b. Współczynnik korelacji liniowej Pearsona rxy (rxyϵ[-1;1])
i. Kierunek
rxy>0 → korelacja dodatnia
rxy<0 → korelacja ujemna
ii. Siła
IrxyI<0,2 → korelacja słaba, zależność nie znacząca
0,2≤IrxyI<0,4 → korelacja niska, zależność wyraźna, lecz mała
0,4≤IrxyI<0,7 → korelacja umiarkowana, zależność istotna
0,7≤IrxyI<0,9 → korelacja silna, zależność znaczna
0,9≤IrxyI → korelacja bardzo silna, zależność bardzo pewna
UWAGA: takiej interpretacji dokonujemy wówczas, gdy współczynnik
korelacji okaże się statystycznie istotny!
c. Istotność współczynnika korelacji liniowej Pearsona
H0: ρ=0 (nieistotne)
H1: ρ≠0 (istotne) – będzie istotny jeśli wartość p <0,05! Wtedy i tylko wtedy ρ≠0 !!!
INSTRUKCJA: Statystyki podstawowe → moc korelacji → 2 listy zmiennych → opcje →
wyświetl dokładną tabelę wyników → podsumowanie → odczytujemy r(x,y) i p – jeżeli p
pozwala na odrzucenie H0 interpretujemy siłę korelacji
2. Dane w skali porządkowej i jakościowej, które możemy porangować
a. W razie potrzeby należy nadać danym odpowiednie rangi w statistice (Kliknąć dwa
razy na odpowiednią zmienną i nacisnąć po prawej etykiety tekstowe – należy przy
tym pamiętać, o ustalonej kolejności, jeśli np. szeregujemy rozmiar sukienek i
wykształcenie, to najmniejszy rozmiar i najgorsze wykształcenie powinny mieć
najniższy zetykietowany numer)
b. Współczynnik korelacji rang Spearmana rs – kierunek i siła jak w przypadku
współczynnika rxy
c. Istotność rang Spearmana
H0: ρ=0 (nieistotne)
H1: ρ≠0 (istotne) – będzie istotny jeśli wartość p <0,05! Wtedy i tylko wtedy ρ≠0 !!!
INSTRUKCJA: Statystyki Nieparametryczne → korelacje → Oblicz: Szczegółowy raport → listy
zmiennych → R Spearmana
ZAD. 9 REGRESJA PROSTA (CZYLI TUPTUŚ)
(x1,y1),… ,(xn,yn) – dane empiryczne
Interesuje nas zależność LINIOWA y od x!
Y=bo+b1x
Y – zmienna zależna (objaśniana)
X – zmienna niezależna (objaśniająca)
bo – wyraz wolny
b1 – współczynnik regresji
1. Wykres rozrzutu
MNK – metoda najmniejszych kwadratów
2. Współczynnik korelacji Pearsona
a. Określ siłę i kierunek korelacji (jak w temacie poprzednim)
b. Sprawdź istotność współczynnika (musi być istotne statystycznie „p”)
3. Funkcja regresji prostej Y=bo+b1x
a. Wyznaczenie parametrów b0 i b1
b. Sprawdzenie istotności współczynnika regresji b1
c. Interpretacja współczynnika regresji – Wraz ze wzrostem zmiennej niezależnej (x) o
1 jednostkę, zmienna objaśniana (y) rośnie/maleje (w zależności od znaku) o b 1
jednostek!
d. Ocena dokładności dopasowania funkcji regresji do danych empirycznych:
i. Błąd standardowy estymacji (odchylenie standardowe) Su określa, o ile
średnio można się pomylić przy szacowaniu wartości zmiennej zależnej y i
zmiennej niezależnej x na podstawie funkcji regresji.
ii. Średni błąd szacunku Vu – określa ile procent średniego poziomu zmiennej
zależnej stanowi średni błąd szacunku
Vu=Suy
∗100
y - średnia arytmetyczna liczby y1, … , yn
iii. Współczynnik determinacji R2- określa jaki procent zamienności zmiennej
zależnej y wyjaśnia funkcja regresji. (od 0-1 im bliżej jedynki tym lepiej)
INSTRUKCJA (PUNKTU 3): Statystyka → regresja wieloraka → wybór zmiennych (zależna y i
niezależna x) → OK. → Podstawowe → Podsumowanie wyniki regresji
Średnią obliczamy w statystykach podstawowych → opisowe → Podsumowanie
ZAD. 10 KORELACJA CZĄSTKOWA WIELORAKA
Analiza współzależności 3 cech.
Dane: X1, X2,X3 – trzy cechy
Np.:
X1i –waga X2i - wzrost X3i – numer buta
Wyniki … … …
1. Współczynnik korelacji cząstkowej
a. Interpretacja – określenie siły i kierunku zależności pomiędzy dwoma cechami z
wyłączeniem wpływu trzeciej zmiennej.
r12.3 – współczynnik korelacji cząstkowej między X1 i X2 przy kontrolowaniu X3
r13.2 – współczynnik korelacji cząstkowej między X1 i X3 przy kontrolowaniu X2
r23.1 – współczynnik korelacji cząstkowej między X3 i X2 przy kontrolowaniu X1
b. Istotność współczynnika korelacji cząstkowej (H1 są istotne statystycznie):
HIPOTEZY r12.3 r13.2 r23.1
H0: Ρ12.3 = 0 Ρ13.2 = 0 Ρ32.1 = 0
H1: Ρ12.3 ≠ 0 Ρ13.2 ≠ 0 Ρ32.1 ≠ 0
INSTRUKCJA: Statystyka → podstawowe → macierze korelacji → OPCJE →
→ WIĘCEJ → Korelacje cząstkowe
2. Współczynnik korelacji wielorakiej
a. Interpretacja – określa siłę powiązania jednej cechy od dwóch pozostałych
r1.23 – współczynnik korelacji wielorakiej między X1 a X2 i X3
r2.13 – współczynnik korelacji wielorakiej między X1 a X3 i X2
r3.12 – współczynnik korelacji wielorakiej między X3 a X2 i X1
b. Istotność współczynnika korelacji wielorakiej
HIPOTEZY r1.23 r2.13 r3.12
H0: Ρ1.23 = 0 Ρ2.13 = 0 Ρ3.12 = 0
H1: Ρ1.23 ≠ 0 Ρ2.13 ≠ 0 Ρ3.12 ≠ 0
INSTRUKCJA : Statystyka → regresja wieloraka → zmienne zależna X1 i niezależne X2 i X3 → OK. →
Odczytaj p i Wielor. R
3. Współczynnik determinacji = współczynnik korelacji wielorakiej podniesiony do kwadratu.
a. Interpretacja – określa jaka część zmienności 1 cechy została wyjaśniona przez 2
pozostałe.
b. Związek ze współczynnikiem korelacji linowej Pearsona i współczynnikiem korelacji
cząstkowej
R1.232 = r12
2 + r13.22*(1- r12
2)
r12 – współczynnik korelacji liniowej Pearsona X1 i X2
r13.2 – współczynnik korelacji cząstkowej między X1 i X3 przy kontroli X2
Interpretacja równania: Zmienność cechy X1 jest wyjaśniona przez cechy X2 i X3 w
R1.232 *100%
A DOKŁADNIEJ
W r122*100% przez cechy X2 i w r13.2
2*100% przez cechy X3 przy ustabilizowanym
działaniu cechy X2
ZAD. 11 REGRESJA WIELORAKA
Y – zmienna obserwowalna
X1, … ,Xk – zmienne obserwowalne
Y - zmienna zależna (objaśniana)
X1, … ,Xk - zmienna niezależna (objaśniająca)
Dla przykładu :
Y = waga
X1= długość stopy
X2= obwód szyi
(Y1, X11, Xk1), (Y2, X12, Xk2), … , (Yn, X1n, Xkn) – czyli wszystkie te statystyki dla jednej osoby
Model regresji wielorakiej w zależności zmiennej Y od zmiennych X1, … ,Xk
Yi=β0+ β1X1i + … + βkXki +ξi , i=1, … , n
Β0 - wyraz wolny
Β1, … , Bk – współczynniki regresji określające zależność Y od odpowiednio X1, … ,Xk
ξ1 , … , ξ n – składniki losowe
Sposób przeprowadzenia analizy regresji wielorakiej:
1. Wyznaczenie równania regresji wielorakiej:
a. Oszacowanie parametrów B0, B1, … , Bk metodą najmniejszych kwadratów
b. Zapisanie równania regresji wielorakiej
Y i=b0+b1 x1i+bk x i
i= 1, … , n
bo, b1, b2 – oceny parametrów z punktu a)
c. Interpretacja współczynników B1, … , Bk
d. Sprawdzenie istotności parametrów B1, … , Bk
H0: B1=0
H1: B1≠0
2. Ocena dopasowania modelu do danych empirycznych:
a. Błąd standardowy estymacji (odchylenie standardowe reszt) – o ile średnio można się
pomylić przy szacowaniu wartości zmiennej Y, w zależności od zmiennej X1, … , Xk na
podstawie funkcji regresji wielorakiej
b. Współczynnik korelacji wielorakiej Ry.x1x2x3 – określenie siły zależności zmiennej Y od
X1, … , Xk (im bliżej 1 tym lepsza zależność)
H0: ρyx1=0
H1: ρyx1≠0
c. Współczynnik determinacji R2 określa jaki procent zmienności zmiennej Y został
wyjaśniony przez funkcję regresji wielorakiej
INSTRUKCJA: Punkt 1(a,b,c,d) i 2(a,c) wykonujmy jak w przypadku regresji prostej – patrz powyżej;
punkt 2(b) wykonujemy jak w zajęciach wcześniejszych w punkcie 2(b)
Zad. 12 REGRASJA WIELOMIANOWA
X, Y – zmienne mierzalne
Interesuje nas model:
Y=a0+a1X+a2 X2+…+ak X
k ak≠0
k- stopień wielomianu
a0,a1,ak – współczynniki wielomianu
1. Analiza regresji wielomianowej
a. Wprowadzenie nowych zmiennych
X1=X; X2=X2; Xk=Xk
b. Oszacowanie parametrów a0, a1,ak , modelu regresji wielorakiej
Y=a0+a1X+…+ak Xk + ξi
c. Sprawdzenie stopnia wielomianu
H0: ak=0
H1: ak≠0 (jeśli jest istotne, to wielomian jest stopnia k-tego)
d. Porównanie dopasowania modelu do danych empirycznych z innymi modelami (jeżeli
porównywane modele mają różną liczbę zmiennych objaśniających to korzystamy z R
2 [Skoryg.R2]) Im bliższy 1 tym lepiej dopasowany model.
INSTRUKCJA: Zmienną X dajemy do kwadratu w ostatniej komórce ( w taki sam sposób jak wyżej w
przypadku porównywania normalności różnic zmiennych zależnych. Używamy komendę =X^2).
Współczynniki wielomianu traktujemy jak wcześniejsze b.
CO BY SIĘ PRZYDALO DO KOLOKWIUM?:
Wybór odpowiedniego testu:
PRZYPADEK TEST
N> 40 i wszystkie liczności oczekiwane ≥5 Test Chi2
N< 40 i istnieje liczność oczekiwana <5 Test Chi2 z poprawką Yatsa
20<N≤ 40 i wszystkie liczności oczekiwane ≥5 Test Chi2 z poprawką Yatsa
20<N≤ 40 i istnieje liczność oczekiwana <5 Dokładny test Fischera
N≤20 Dokładny test Fischera
Siła korelacji
IrxyI<0,2 → korelacja słaba, zależność nie znacząca
0,2≤IrxyI<0,4 → korelacja niska, zależność wyraźna, lecz mała
0,4≤IrxyI<0,7 → korelacja umiarkowana, zależność istotna
0,7≤IrxyI<0,9 → korelacja silna, zależność znaczna
0,9≤IrxyI → korelacja bardzo silna, zależność bardzo pewna
WZORY:
Y=bo+b1x
Interpretacja współczynnika regresji – Wraz ze wzrostem zmiennej niezależnej (x) o 1 jednostkę,
zmienna objaśniana (y) rośnie/maleje (w zależności od znaku) o b1 jednostek!
Błąd standardowy estymacji (odchylenie standardowe) Su określa, o ile średnio można się pomylić
przy szacowaniu wartości zmiennej zależnej y i zmiennej niezależnej x na podstawie funkcji
regresji.
Średni błąd szacunku Vu – określa ile procent średniego poziomu zmiennej zależnej stanowi średni
błąd szacunku V u=Suy
∗100
Współczynnik determinacji R2- określa jaki procent zamienności zmiennej zależnej y wyjaśnia funkcja regresji.
R1.232 = r12
2 + r13.22*(1- r12
2)
Interpretacja równania: Zmienność cechy X1 jest wyjaśniona przez cechy X2 i X3 w R1.232 *100%
A DOKŁADNIEJ W r122*100% przez cechy X2 i w r13.2
2*100% przez cechy X3 przy ustabilizowanym
działaniu cechy X2
Yi=β0+ β1X1i + … + βkXki +ξi , i=1, … , n
Y=a0+a1X+a2 X2+…+ak X
k ak≠0