37
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na przykładzie testu t) 6. Testy nieparametryczne 7. Korelacja liniowa i rangowa 8. Regresja prosta 9. Analiza wariancji

PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Embed Size (px)

Citation preview

Page 1: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

PODSTAWY STATYSTYKI

1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)6. Testy nieparametryczne7. Korelacja liniowa i rangowa8. Regresja prosta9. Analiza wariancji

Page 2: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testy parametryczne

weryfikacja hipotez dotyczących parametrów

populacji (średnia, wariancja)

założenie: znany rozkład populacji (głównie: cechy

ilościowe o rozkładzie normalnym)

hipotezy dotyczące średniej: test t (duże próby – test

średniej standaryzowanej, z)

hipotezy dotyczące wariancji: test F w analizie

wariancji i analizie regresji

Page 3: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testy parametryczne - test t

ROZKŁAD t Studenta

Stosuje się go w analizach statystycznych, jeśli próby są małe (rozrzut danych nie oddaje prawdziwej zmienności cechy)

grafika - Wikipedia

Kształt zależy od

liczby stopni swobody,

nie zależy od wariancji

Ten rozkład prawdopodobieństwa odkrył i opracował angielski statystyk William Sealy Gosset

Page 4: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testy parametryczne - test t

Publikował pod pseudonimem Student (stąd nazwa: rozkład t Studenta)

Pracował w browarach Guinnessa w Dublinie i w Londynie (m.in. nad kontrolą jakości piwa i surowców do jego produkcji)

Stąd: rozważania nad statystyką i szacowaniem nieznanych parametrów (nie był z wykształcenia matematykiem, ale miał genialną intuicję)

Wniósł wielki wkład w rozwój metod statystycznych (estymacji, testowania hipotez statystycznych) i doświadczalnictwa

William Sealy Gosset (1876 – 1937) – angielski statystyk.

źródło - Wikipedia

Page 5: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testy parametryczne - test t

ROZKŁAD t Studenta

grafika - Wikipedia

2

12

1

2

21

k

kx

kk

k

xf

Test oparty na statystyce, która ma rozkład t Studenta nazywamy testem t

Page 6: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Test parametryczny (wnioskowanie o średniej)

Analiza cech ilościowych ciągłych

Niewielka liczebność prób

Próby z populacji o rozkładzie normalnym

Porównywane próby mają podobne wariancje

Testy parametryczne - test t

Kiedy i jak stosujemy test t

Page 7: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Hipotezy o średniej z pojedynczej próby

2. Porównanie średnich z dwóch prób niezależnych

3. Porównanie średnich z dwóch prób sparowanych

4. Porównanie średnich z kilku prób – test Duncana

Testy parametryczne - test t

Kiedy i jak stosujemy test t

Page 8: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testy parametryczne - test t

POJEDYNCZA PRÓBA

Page 9: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Test t – pojedyncza próba

Przykład:

Podstawowa morfologia krwi

HCT – hematokryt (udział erytrocytów we krwi)

średnia wartość HCT wynosi 0,47

Płeć HCTk 0,49k 0,37k 0,44k 0,47k 0,51k 0,38k 0,39k 0,51k 0,41k 0,38k 0,44k 0,36…m 0,46m 0,51m 0,44

W próbie:

3606,0425,0

nsx

Page 10: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Określenie hipotez H0 i H1

H0: średnia wartość HCT w populacji wynosi 0,47

HA: średnia wartość HCT w populacji różni się od 0,47

H0: = 0,47 HA: ≠ 0,47

(test dwustronny)

2. Ustalenie poziomu istotności

MAX = 0,05

3. Wybór statystyki???

Test t – pojedyncza próba

Etapy testu:

Page 11: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Jedna próba, nieznana wariancja

Statystyka

gdzie:

s – standardowe odchylenie w próbie danych

ma rozkład t – Studenta o k = n – 1 stopniach swobody

ns

xt

(z poprzedniego wykładu) Testowanie hipotez

Stopnie swobody to liczba zmiennych niezależnych użytych

przy obliczaniu statystyki; jest to prawidłowe statystycznie

wyrażona liczebność próby

Page 12: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

3. Wybór i określenie rozkładu statystyki testowej

Statystyka

ma rozkład t – Studenta o k = n -1 stopniach swobody

Mamy n = 36, więc k = 35

ns

xt

Test t – pojedyncza próba

Page 13: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

4. Obliczenie wartości testu

5. Obliczenie wartości t (lub odczyt t)

000072,0T

6. Decyzjat < max H0 H1 (|t| > t)

Odp.: Średnia wartość HCT w populacji różni się od 0,47

5,4 5,43606,0

47,0425,0

tt

( t0,05;35 = 2,030108 )

Test t – pojedyncza próba

Page 14: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

2293216

xsn

Próba A

Przykład z poprzedniego wykładu

H0: 1 = 235

max= 0,05

t = 0,75

T = 0,23

Wniosek?

ns

xt

Test t – pojedyncza próba

Page 15: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

DWIE NIEZALEŻNE PRÓBY

Page 16: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Test t – dwie próby niezalezne

Podstawowa morfologia krwi

HCT – hematokryt (udział erytrocytów we krwi)

określono średnie wartości osobno dla kobiet i mężczyzn

W próbach:

18)08,0( 44,0)04,0( 40,0

MK

M

K

nnsxsx

Płeć HCTk 0,49k 0,37k 0,44k 0,47k 0,51k 0,38k 0,39k 0,51k 0,41k 0,38k 0,44k 0,36…m 0,46m 0,51m 0,44

Page 17: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Określenie hipotez H0 i H1

H0: średnia wartość HCT kobiet jest taka sama jak mężczyzn

HA: średnie wartości HCT kobiet i mężczyzn są różne

H0: K = M HA: K ≠ M

(test dwustronny)

2. Ustalenie poziomu istotności

MAX = 0,05

3. Wybór statystyki testowej???

Test t – dwie próby niezalezne

Page 18: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

(z poprzedniego wykładu) Testowanie hipotez

Statystyka

gdzie

oraz

s1, n1 – stand. odchylenie i liczebność w pierwszej próbie;

s2, n2 – stand. odchylenie i liczebność w drugiej próbie

ma rozkład t – Studenta o k = n1+ n2 – 2 stopniach swobody

2

22

1

21

ns

nssD

Dsxx

t 21

Dwie próby, nieznana wariancja

Page 19: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

3. Wybór i określenie rozkładu statystyki testowej

Statystyka

ma rozkład t – Studenta o k = n1 + n2 - 2 st. swobody

W przykładzie mamy k = 18 + 18 – 2 = 34

2

22

1

21

2121

ns

ns

xxsxxt

D

Test t – dwie próby niezalezne

Page 20: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

4. Obliczenie wartości statystyki testowej

895,1

895,1

180,0064

180,0016

44,040,0

22

t

t

ns

ns

xxt

M

M

K

K

MK

Test t – dwie próby niezależne

Page 21: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

5. Obliczenie wartości t

0666,0t

6. Decyzjat > max H0 H1

Nie ma podstaw do odrzucenia hipotezy zerowej

A gdyby test był jednostronny?

H0: K = M H1: K < M

Decyzja ?

0333,0t

Test t – dwie próby niezależne

( t0,05;34 = 2,032244 )

Page 22: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Testowanie hipotez

Próba A Próba B

H0: 1 = 2

max= 0,05

t = 1,67

T = 0,1029

Wniosek?

Dsxx

t 21

2452132293216

xsn

2672312494525

xsn

Przykład z poprzedniego wykładu

Page 23: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

DWIE SPAROWANE PRÓBY

(pary skorelowane)

Page 24: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Test t – pary skorelowane

1. Badano odruch źreniczny (czas trwania pełnego cyklu reakcji na pojedynczy błysk światła, w milisekundach)

2. Badanie w obu oczach u 10 osób

Oko lewe Oko prawe

20,0 14,3

13,9 13,8

18,3 15,8

21,1 33,4

20,1 20,3

24,4 19,9

20,2 14,3

11,6 11,4

28,8 25,1

18,5 24,1

Page 25: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Określenie hipotez H0 i H1

H0: długość trwania reakcji jest taka sama w obu oczach HA: długość trwania reakcji jest różna w obu oczach

H0: L = P HA: L ≠ P

(test dwustronny)

2. Ustalenie poziomu istotności

MAX = 0,05

Test t – pary skorelowane

Page 26: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

3. Wybór i określenie rozkładu statystyki testowej

1

1

2

1121

N

DDS

N

SS

N

D

N

xxD

SDt

N

ii

D

DD

N

ii

N

iii

D

i

i

Średnia arytmetyczna różnic (Di ) w parach obserwacji

Błąd standardowy średniej

Tak określona statystyka ma rozkład t - Studenta o k = N - 1

stopniach swobody

(N – liczba par)

Standardowe odchylenie różnic

Test t – pary skorelowane

Page 27: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

4. Obliczenie wartości statystyki

25,07895,1

45,0

7895,110

6589,5

6589,5110

21.2881

45,010

5,4

1

2

121

D

DD

N

ii

D

N

iii

SDt

N

SS

N

DDS

N

xxD

i

i

Test t – pary skorelowane

Page 28: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

5. Obliczenie wartości t

8082,0t

6. Decyzjat > max H0 H1

Odp.: odruch źreniczny trwa tyle samo w obu oczach.

( t0,05;9 = 2,262157)

Test t – pary skorelowane

Page 29: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

KILKA PRÓB - TEST DUNCANA

Page 30: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Przykład z wykladu J. Szydy 2010

1. Badanie frekwencji na zajęciach ze statystyki

2. Podział na 4 grupy w zależności od „atrakcyjności” (ocena na podstawie ankiety w skali od 2 do 5) wykładowcy

poziom atrakcyjności

2 3 4 5

15 20 10 30

10 13 24 22

12 10 29 29

10 22 12 20

... ... ... ...

średnia

11.13 17.88 20.25 24.38

Test t – kilka prób (test Duncana)

Page 31: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom istotności MAX

MAX* = 1 - (1 - MAX)n-1

4. W ten sam sposób obliczamy t:

2

3

4

5

* = 1 - (1 – 0,00000096)4-1 = 0,0000029

H0: 2 = 3 = 4 = 5 H1: 2 ≠ 3 ≠ 4 ≠ 5

Test t – kilka prób (test Duncana)

Przykład z wykladu J. Szydy 2010

liczba porównań

max pojed. testu t

Page 32: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom istotności MAX

4. Zmodyfikowane obliczanie t:

2

3

4

5

* = 1 - (1 – 0,0048)3-1 = 0,0097

* = 1 - (1 – 0,0002)3-1 = 0,0004

H0: 2 = 3 = 4 H1: 2 ≠ 3 ≠ 4H0: 3 = 4 = 5 H1: 3 ≠ 4 ≠ 5

Test t – kilka prób (test Duncana)

Przykład z wykladu J. Szydy 2010

Page 33: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

4. Zmodyfikowane obliczanie t:

2

3

4

5

* = 1 - (1 - 0.0036)2-1 = 0.0036

H0: 2 = 3 H1: 2 ≠ 3

* = 1 - (1 - 0.0625)2-1 = 0.0625

H0: 4 = 5 H1: 4 ≠ 5

Test t – kilka prób (test Duncana)

Przykład z wykladu J. Szydy 2010

Page 34: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

4. Zmodyfikowane obliczanie t:

2

3

4

5

Test t – kilka prób (test Duncana)

Przykład z wykladu J. Szydy 2010

* = 1 - (1 – 0,2722)2-1 = 0,2722

H0: 3 = 4 H1: 3 ≠ 4

Page 35: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

2

3 A

4 A B

5 B

1. Atrakcyjność wykładowcy wpływa na frekwencję

2. Frekwencja na zajęciach nie różni się istotnie (=0,05) w grupach „3” i „4” oraz „4” i „5”

Test t – kilka prób (test Duncana)

Przykład z wykladu J. Szydy 2010

Page 36: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

Test parametryczny (wnioskowanie o średniej)

Analiza cech ilościowych ciągłych

Niewielka liczebność prób

Próby z populacji o rozkładzie normalnym

Porównywane próby mają podobne wariancje

Testy parametryczne - test t

Kiedy i jak stosujemy test t

Page 37: PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_5.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

1. Hipotezy o średniej z pojedynczej próby

2. Porównanie średnich z dwóch prób niezależnych

3. Porównanie średnich z dwóch prób sparowanych

4. Porównanie średnich z kilku prób – test Duncana

Testy parametryczne - test t

Kiedy i jak stosujemy test t