Upload
trandung
View
255
Download
0
Embed Size (px)
Citation preview
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)6. Testy nieparametryczne7. Korelacja liniowa i rangowa8. Regresja prosta9. Analiza wariancji
Testy parametryczne
weryfikacja hipotez dotyczących parametrów
populacji (średnia, wariancja)
założenie: znany rozkład populacji (głównie: cechy
ilościowe o rozkładzie normalnym)
hipotezy dotyczące średniej: test t (duże próby – test
średniej standaryzowanej, z)
hipotezy dotyczące wariancji: test F w analizie
wariancji i analizie regresji
Testy parametryczne - test t
ROZKŁAD t Studenta
Stosuje się go w analizach statystycznych, jeśli próby są małe (rozrzut danych nie oddaje prawdziwej zmienności cechy)
grafika - Wikipedia
Kształt zależy od
liczby stopni swobody,
nie zależy od wariancji
Ten rozkład prawdopodobieństwa odkrył i opracował angielski statystyk William Sealy Gosset
Testy parametryczne - test t
Publikował pod pseudonimem Student (stąd nazwa: rozkład t Studenta)
Pracował w browarach Guinnessa w Dublinie i w Londynie (m.in. nad kontrolą jakości piwa i surowców do jego produkcji)
Stąd: rozważania nad statystyką i szacowaniem nieznanych parametrów (nie był z wykształcenia matematykiem, ale miał genialną intuicję)
Wniósł wielki wkład w rozwój metod statystycznych (estymacji, testowania hipotez statystycznych) i doświadczalnictwa
William Sealy Gosset (1876 – 1937) – angielski statystyk.
źródło - Wikipedia
Testy parametryczne - test t
ROZKŁAD t Studenta
grafika - Wikipedia
2
12
1
2
21
k
kx
kk
k
xf
Test oparty na statystyce, która ma rozkład t Studenta nazywamy testem t
Test parametryczny (wnioskowanie o średniej)
Analiza cech ilościowych ciągłych
Niewielka liczebność prób
Próby z populacji o rozkładzie normalnym
Porównywane próby mają podobne wariancje
Testy parametryczne - test t
Kiedy i jak stosujemy test t
1. Hipotezy o średniej z pojedynczej próby
2. Porównanie średnich z dwóch prób niezależnych
3. Porównanie średnich z dwóch prób sparowanych
4. Porównanie średnich z kilku prób – test Duncana
Testy parametryczne - test t
Kiedy i jak stosujemy test t
Testy parametryczne - test t
POJEDYNCZA PRÓBA
Test t – pojedyncza próba
Przykład:
Podstawowa morfologia krwi
HCT – hematokryt (udział erytrocytów we krwi)
średnia wartość HCT wynosi 0,47
Płeć HCTk 0,49k 0,37k 0,44k 0,47k 0,51k 0,38k 0,39k 0,51k 0,41k 0,38k 0,44k 0,36…m 0,46m 0,51m 0,44
W próbie:
3606,0425,0
nsx
1. Określenie hipotez H0 i H1
H0: średnia wartość HCT w populacji wynosi 0,47
HA: średnia wartość HCT w populacji różni się od 0,47
H0: = 0,47 HA: ≠ 0,47
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
3. Wybór statystyki???
Test t – pojedyncza próba
Etapy testu:
Jedna próba, nieznana wariancja
Statystyka
gdzie:
s – standardowe odchylenie w próbie danych
ma rozkład t – Studenta o k = n – 1 stopniach swobody
ns
xt
(z poprzedniego wykładu) Testowanie hipotez
Stopnie swobody to liczba zmiennych niezależnych użytych
przy obliczaniu statystyki; jest to prawidłowe statystycznie
wyrażona liczebność próby
3. Wybór i określenie rozkładu statystyki testowej
Statystyka
ma rozkład t – Studenta o k = n -1 stopniach swobody
Mamy n = 36, więc k = 35
ns
xt
Test t – pojedyncza próba
4. Obliczenie wartości testu
5. Obliczenie wartości t (lub odczyt t)
000072,0T
6. Decyzjat < max H0 H1 (|t| > t)
Odp.: Średnia wartość HCT w populacji różni się od 0,47
5,4 5,43606,0
47,0425,0
tt
( t0,05;35 = 2,030108 )
Test t – pojedyncza próba
2293216
xsn
Próba A
Przykład z poprzedniego wykładu
H0: 1 = 235
max= 0,05
t = 0,75
T = 0,23
Wniosek?
ns
xt
Test t – pojedyncza próba
DWIE NIEZALEŻNE PRÓBY
Test t – dwie próby niezalezne
Podstawowa morfologia krwi
HCT – hematokryt (udział erytrocytów we krwi)
określono średnie wartości osobno dla kobiet i mężczyzn
W próbach:
18)08,0( 44,0)04,0( 40,0
MK
M
K
nnsxsx
Płeć HCTk 0,49k 0,37k 0,44k 0,47k 0,51k 0,38k 0,39k 0,51k 0,41k 0,38k 0,44k 0,36…m 0,46m 0,51m 0,44
1. Określenie hipotez H0 i H1
H0: średnia wartość HCT kobiet jest taka sama jak mężczyzn
HA: średnie wartości HCT kobiet i mężczyzn są różne
H0: K = M HA: K ≠ M
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
3. Wybór statystyki testowej???
Test t – dwie próby niezalezne
(z poprzedniego wykładu) Testowanie hipotez
Statystyka
gdzie
oraz
s1, n1 – stand. odchylenie i liczebność w pierwszej próbie;
s2, n2 – stand. odchylenie i liczebność w drugiej próbie
ma rozkład t – Studenta o k = n1+ n2 – 2 stopniach swobody
2
22
1
21
ns
nssD
Dsxx
t 21
Dwie próby, nieznana wariancja
3. Wybór i określenie rozkładu statystyki testowej
Statystyka
ma rozkład t – Studenta o k = n1 + n2 - 2 st. swobody
W przykładzie mamy k = 18 + 18 – 2 = 34
2
22
1
21
2121
ns
ns
xxsxxt
D
Test t – dwie próby niezalezne
4. Obliczenie wartości statystyki testowej
895,1
895,1
180,0064
180,0016
44,040,0
22
t
t
ns
ns
xxt
M
M
K
K
MK
Test t – dwie próby niezależne
5. Obliczenie wartości t
0666,0t
6. Decyzjat > max H0 H1
Nie ma podstaw do odrzucenia hipotezy zerowej
A gdyby test był jednostronny?
H0: K = M H1: K < M
Decyzja ?
0333,0t
Test t – dwie próby niezależne
( t0,05;34 = 2,032244 )
Testowanie hipotez
Próba A Próba B
H0: 1 = 2
max= 0,05
t = 1,67
T = 0,1029
Wniosek?
Dsxx
t 21
2452132293216
xsn
2672312494525
xsn
Przykład z poprzedniego wykładu
DWIE SPAROWANE PRÓBY
(pary skorelowane)
Test t – pary skorelowane
1. Badano odruch źreniczny (czas trwania pełnego cyklu reakcji na pojedynczy błysk światła, w milisekundach)
2. Badanie w obu oczach u 10 osób
Oko lewe Oko prawe
20,0 14,3
13,9 13,8
18,3 15,8
21,1 33,4
20,1 20,3
24,4 19,9
20,2 14,3
11,6 11,4
28,8 25,1
18,5 24,1
1. Określenie hipotez H0 i H1
H0: długość trwania reakcji jest taka sama w obu oczach HA: długość trwania reakcji jest różna w obu oczach
H0: L = P HA: L ≠ P
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
Test t – pary skorelowane
3. Wybór i określenie rozkładu statystyki testowej
1
1
2
1121
N
DDS
N
SS
N
D
N
xxD
SDt
N
ii
D
DD
N
ii
N
iii
D
i
i
Średnia arytmetyczna różnic (Di ) w parach obserwacji
Błąd standardowy średniej
Tak określona statystyka ma rozkład t - Studenta o k = N - 1
stopniach swobody
(N – liczba par)
Standardowe odchylenie różnic
Test t – pary skorelowane
4. Obliczenie wartości statystyki
25,07895,1
45,0
7895,110
6589,5
6589,5110
21.2881
45,010
5,4
1
2
121
D
DD
N
ii
D
N
iii
SDt
N
SS
N
DDS
N
xxD
i
i
Test t – pary skorelowane
5. Obliczenie wartości t
8082,0t
6. Decyzjat > max H0 H1
Odp.: odruch źreniczny trwa tyle samo w obu oczach.
( t0,05;9 = 2,262157)
Test t – pary skorelowane
KILKA PRÓB - TEST DUNCANA
Przykład z wykladu J. Szydy 2010
1. Badanie frekwencji na zajęciach ze statystyki
2. Podział na 4 grupy w zależności od „atrakcyjności” (ocena na podstawie ankiety w skali od 2 do 5) wykładowcy
poziom atrakcyjności
2 3 4 5
15 20 10 30
10 13 24 22
12 10 29 29
10 22 12 20
... ... ... ...
średnia
11.13 17.88 20.25 24.38
Test t – kilka prób (test Duncana)
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom istotności MAX
MAX* = 1 - (1 - MAX)n-1
4. W ten sam sposób obliczamy t:
2
3
4
5
* = 1 - (1 – 0,00000096)4-1 = 0,0000029
H0: 2 = 3 = 4 = 5 H1: 2 ≠ 3 ≠ 4 ≠ 5
Test t – kilka prób (test Duncana)
Przykład z wykladu J. Szydy 2010
liczba porównań
max pojed. testu t
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
5
* = 1 - (1 – 0,0048)3-1 = 0,0097
* = 1 - (1 – 0,0002)3-1 = 0,0004
H0: 2 = 3 = 4 H1: 2 ≠ 3 ≠ 4H0: 3 = 4 = 5 H1: 3 ≠ 4 ≠ 5
Test t – kilka prób (test Duncana)
Przykład z wykladu J. Szydy 2010
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom błędu istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
5
* = 1 - (1 - 0.0036)2-1 = 0.0036
H0: 2 = 3 H1: 2 ≠ 3
* = 1 - (1 - 0.0625)2-1 = 0.0625
H0: 4 = 5 H1: 4 ≠ 5
Test t – kilka prób (test Duncana)
Przykład z wykladu J. Szydy 2010
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom błędu istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
5
Test t – kilka prób (test Duncana)
Przykład z wykladu J. Szydy 2010
* = 1 - (1 – 0,2722)2-1 = 0,2722
H0: 3 = 4 H1: 3 ≠ 4
2
3 A
4 A B
5 B
1. Atrakcyjność wykładowcy wpływa na frekwencję
2. Frekwencja na zajęciach nie różni się istotnie (=0,05) w grupach „3” i „4” oraz „4” i „5”
Test t – kilka prób (test Duncana)
Przykład z wykladu J. Szydy 2010
Test parametryczny (wnioskowanie o średniej)
Analiza cech ilościowych ciągłych
Niewielka liczebność prób
Próby z populacji o rozkładzie normalnym
Porównywane próby mają podobne wariancje
Testy parametryczne - test t
Kiedy i jak stosujemy test t
1. Hipotezy o średniej z pojedynczej próby
2. Porównanie średnich z dwóch prób niezależnych
3. Porównanie średnich z dwóch prób sparowanych
4. Porównanie średnich z kilku prób – test Duncana
Testy parametryczne - test t
Kiedy i jak stosujemy test t