12
Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Embed Size (px)

Citation preview

Page 1: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Statystyczna analiza danych w programie STATISTICA(wykład 2)

Dariusz Gozdowski

Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Page 2: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Weryfikacja (testowanie) hipotez statystycznych

sprawdzenie określonych przypuszczeń (założeń) wysuniętych w stosunku do parametrów lub rozkładu populacji generalnej na podstawie próby.

Hipotezy możemy podzielić na– dotyczące typu rozkładu populacji – dotyczące parametrów rozkładu (który jest znany)

Page 3: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Test statystyczny – reguła postępowania, która pozwala na przyjęcie (nieodrzucenie) bądź odrzucenie sprawdzanej hipotezy

Procedura testowania hipotez polega na tym, że zakładamy pewną hipotezę zerową (H0), którą uznajemy za możliwą. Następnie sprawdzamy, czy ona może być prawdziwa przy pomocy testu statystycznego. Jeśli podczas weryfikacji hipotezy odrzucimy hipotezę zerową to przyjmujemy przeciwną do niej hipotezę alternatywną (H1).

Możliwe do popełnienia błędy przy testowaniu hipotez:

Błąd I rodzaju– błąd odrzucenia, występuje, gdy odrzucamy hipotezę, natomiast jest ona prawdziwa

Błąd II rodzaju – błąd przyjęcia, występuje gdy przyjmujemy hipotezę, natomiast jest ona fałszywa

Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy poziomem istotności (α) (przyjmujemy najczęściej α=0,05)

Page 4: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Test t do porównania średnich dwóch populacji

Hipoteza zerowa H0: μ1= μ2 Hipoteza alternatywna H1: μ1 ≠ μ2

założenia:

zmienne mają rozkład normalny

σ12= σ2

2 (jeśli to założenie nie jest spełnione stosujemy zmodyfikowaną wersję testu t uwzględniająca nierówność

wariancji)

Przykłady zastosowań:

Porównanie plonów dwóch odmian roślin uprawnych (badana zmienna: plon)

Porównanie skuteczności dwóch leków obniżających ciśnienie krwi (zmienna: ciśnienie krwi)

Porównanie dwóch produktów np. dwóch rodzajów konserw mięsnych pod względem zawartości tłuszczu(zmienna: zawartość tłuszczu)

Porównanie wyników z egzaminu dla dwóch grup studentów (kontrolnej i poddanej nowemu sposobowi nauczania)

Zmienna: liczba pkt uzyskana z egzaminu

Page 5: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Funkcja testowa:

remp S

yxt −=

Sr – błąd różnicy średnich

xy

Średnia dla pierwszej populacji

Średnia dla drugiej populacji

+=

21

2 11nn

SS er

gdzie wspólna wariancja: )n()n(

YvarXvarSe 11 21

2

−+−+=

∑=

−=n

ii )xx(Xvar

1

2 jest sumą kwadratów odchyleń od średniej

Page 6: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Wartość temp. porównujemy z wartością tkryt. i na tej podstawie stwierdzamy, czy średnie mogą być równie, czy też nie.

Wartość krytyczna tα,ν, dla rozkładu t-studenta, gdzie α jest przyjętym poziomem istotności (najczęściej 0,05), a ν liczbą stopni swobody, czyli liczebność 2 prób pomniejszona o 2 (n1 +n2 -2)

Jeżeli |temp|> tα,ν to hipotezę H0 odrzucamy i przyjmujemy hipotezę alternatywną H1: μ1 ≠ μ2 a więc stwierdzamy że średnie różnią się istotnie

W programach statystycznych (również w programie Statistica) zamiast wartości krytycznej podawana jest wartość p (p-value). Decyzję o tym, czy hipotezę zerową odrzucamy, czy też nie podejmujemy na podstawie wartości p. Jeżeli p<α to hipotezę zerową odrzucamy i przyjmujemy hipotezę alternatywną, a jeśli p>α to hipotezy zerowej nie odrzucamy. Przyjęło się, że wartość α ustalamy równą 0,05.

Page 7: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

test F - porównanie wariancji 2 populacji pod względem zmienności (wartości wariancji)

Hipoteza zerowa H0: σ12= σ2

2 Hipoteza alternatywna H1: σ12≠ σ2

2

Założenie: zmienne mają rozkład normalny

Funkcja testowa 22

21

emp ssF =

Wartość krytyczna Fα,ν,u dla rozkładu F-Fishera, gdzie α jest przyjętym poziomem istotności (najczęściej 0,05), a ν i u liczbami stopni swobody, czyli liczebnością próby pierwszej (n1-1) i drugiej (n2 -1)

Gdzie wartość s12>s2

2

Page 8: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

test U Manna-Whitneya - porównanie średnich 2 populacji o dowolnych rozkładach

Test U Manna-Whitneya (nazywany również testem rang Wilcoxona) służy do porównania zgodności dwóch rozkładów. Wykorzystywany jest natomiast najczęściej do porównania median. Jeśli rozkłady są symetryczne i ich wariancje są równe lub bliskie to uzasadnione jest stosowanie tego testu jako alternatywy dla testu t przy braku założenia normalności rozkładów. Dlatego też ten test stosuje się często do porównania średnich dla dwóch populacji o innych rozkładach niż normalne. Statystyka testową jest wartość U.Hipoteza zerowa jest taka sama jak w przypadku testu t, czyli w hipotezie zerowej przyjmujemy, że średnie nie różnią się. Jeśli ją odrzucimy to przyjmujemy hipotezę alternatywną, czyli stwierdzamy, że występuje różnica między średnimi.

Przykład zastosowania:Porównanie wyników z odpowiedzi z ankiety między kobietami a mężczyznamiZmienna: odpowiedź w skali od 1-5

Page 9: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Jednoczynnikowa analiza wariancji i porównania wielokrotne (układ całkowicie losowy)

Page 10: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Celem analizy wariancji (ANOVA) jest porównanie średnich w wielu populacjach o rozkładzie normalnym

Założenia:zmienne mają rozkład normalny Xi~N(m,σ2) wariancje (a tym samym odchylenia standardowe) dla badanych populacji są równe σ1 = σ2 = σ3 = ... = σi

Hipoteza zerowa H0: m1 = m2 = m3 =...= mi (średnie nie różnią się)Hipoteza alternatywna H1: mi ≠ mi’ (co najmniej dwie średnie różnią się)

Przykłady:

Porównanie kilku ras zwierząt pod względem przyrostów dziennych

Porównanie wielkości kolb kilku odmian kukurydzy

Page 11: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Wyniki analizy wariancji przedstawiane są najczęściej w formie następującej tabeli

N-1SSTcałkowita

MSEN-aSSEbłąd(wewnątrz grup)

MSA/MSEMSAa-1SSAczynnik(między grupami)

pFśrednie kwadraty

(MS)

stopnie swobody

(df)

sumy kwadratów

(SS)źródła

zmienności

a – liczba poziomów czynnikaN – łączna liczebność prób

Jeżeli p<α to hipotezę zerowa odrzucamy i przyjmujemy hipotezę alternatywną, czyli stwierdzamy, że co najmniej dwie średnie różnią się istotnie i przechodzimy do porównań wielokrotnych, czyli porównań wszystkich możliwych par średnich.

Page 12: Statystyczna analiza danych w programie STATISTICA (wykład ...agrobiol.sggw.waw.pl/biometria/media/gozdowski/dr_stat2.pdf · W programach statystycznych (również w programie Statistica)

Porównania wielokrotne (szczegółowe) – jest to metoda pozwalająca określić, które średnie różnią się istotnie a które się nie róznią. Wydzielamy grupy jednorodne, czyli podzbiory średnich, które można uznać za takie same (nie różniące się istotnie).Procedury porównań wielokrotnych: Tukeya, Scheff´ego, Bonfferroniego, Duncana, Newmana–Kuelsa i inne. Wybór procedury jest często dość dowolny (zależy od badacza).Najczęściej wynikiem analiz jest wartość NIR ( najmniejsza istotna różnica).

NIRXX ji ≥−

to uznajemy, że średnie różnią się (różnica istotna statystycznie).

Uwaga! W programie Statistica zamiast wartości NIR podawane jest od razu podział na grupy jednorodne oraz wartości p dla porównań wszystkich możliwych par średnich (podobnie tak jak w testowaniu innych hipotez, jeśli p<α to odrzucamy hipotezę o równości średnich czyli stwierdzamy że różnią się one istotnie)

Jeżeli