127
Agnieszka Nowak – Brzezińska Wykład dla przedmiotu „Biostatystyka”

Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Embed Size (px)

Citation preview

Page 1: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Agnieszka Nowak – Brzezińska

Wykład dla przedmiotu „Biostatystyka”

Page 2: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Testy parametryczne – weryfikują hipotezy dotyczącewartości parametrów rozkładu badanej populacji(najczęściej średnie, wariancje, odsetki). W większościprzypadków statystyki testowe obliczane są przywykorzystaniu bezpośrednich danych pochodzących zpróby, a ich rozkład zależy od rozkładu analizowanychzmiennych.

Testy nieparametryczne – służą do weryfikacji różnorakichhipotez, lecz nie są one bezpośrednio powiązane zparametrami rozkładu (bywają wyjątki). Dotyczą one raczejsamej postaci rozkładu (kształtu), podobieństwa pomiędzyrozkładami, losowości. Testy te operują na danych„przekształconych” – najczęściej rang, wobec czegorozkład statystyki z próby nie zależą bezpośrednio odrozkładu danych.

Page 3: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

1. Sformułowanie tezy rzeczowej i ustaleniu hipotez H0 i Ha;

2. Wyboru właściwej funkcji testowej (statystyki z próby);

3. Przyjęciu stosownego poziomu istotności ;

4. Odczytaniu wartości krytycznych w tablicach dystrybuanty

właściwego rozkładu i ustaleniu obszaru krytycznego;

5. Odrzuceniu hipotezy zerowej na korzyść hipotezy

alternatywnej, gdy funkcja testowa obliczona z próby

znajduje się w obszarze krytycznym i nie odrzucenie jej,

gdy funkcja testowa jest poza obszarem krytycznym.

Page 4: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

1. Porównanie poziomów parametrów medycznych dla dwóch grupsprowadza się z reguły do porównania przeciętnych poziomówzmiennych lub też porównania rozkładów analizowanego parametru

2. Należy ustalić czy próby są niezależne czy też zależne3. Czy znane są rozkłady cech w populacji, w próbkach ?4. Jeżeli spełnione są wszystkie założenia (głównie normalność,

ewentualnie równość wariancji, liczebność prób) należy wykonać testparametryczny:

– Test t dla prób niezależnych– Test t dla prób zależnych (założenie: rozkład różnic ma być zbliżony do

normalnego)5. W przypadku naruszenia jakiegokolwiek z założeń (np. jedna z grup

ma rozkład cechy istotnie różny od normalnego lub jest bardzo mała)wówczas wykonuje się test nieparametryczny:

– Dla prób niezależnych: test Manna-Whitneya-Wilcoxona– Dla prób zależnych: test kolejności par Wilcoxona (rangowanych znaków)Alternatywa: normalizacja danych, wykonywanie testów parametrycznych

na danych rangowanych.

Page 5: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Liczba grup do porównania nie powinna być za duża (teoretyczniekilkanaście, praktycznie najlepiej kilka).Jeżeli porównanie ma być reprezentatywne to próby powinny być

raczej liczne oraz mieć zbliżone liczności (nie powinnawystępować sytuacja, w której np. dwie grupy liczą po 40obserwacji, a trzecie 8).

Większość medycznych porównań wielu grup dotyczy poziomówanalizowanych parametrów medycznych (głównie średnie).

W przypadku zmiennych jakościowych porównuje się po prostuodsetki w kilku grupach (k>2).

Najczęściej mamy też do czynienia z analizą jednoczynnikową(jeden czynnik grupujący/efekt/zmienna zależna).

W przypadku wielu czynników można badać interakcje pomiędzyczynnikami (jeżeli jest to uzasadnione).

Page 6: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 7: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 8: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 9: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

1. Sparowany test t Studenta: sprawdzaróżnicę między parą obserwacji na tymsamym obiekcie. Czyli bada istotnośćwpływu jednego czynnika na zachowanieokreślonej zmiennej. Np. wpływ leku naparametr krwi.

2. Test t Studenta (bada czy średnia próby jestistotnie różna od hipotetycznej średniej)

3. Test normalny (test z): stosowany dlalicznych prób (n>60).

Page 10: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Hipoteza zerowa mówi, że średnia różnica międzywartościami dwóch zmiennych na jednym obiekcie =0

Jeżeli różnica między parami zmiennych obserwacjiposiada rozkład normalny, to wartość ( - µ)/(s/ ) należydo pola pod krzywą rozkładu t Studenta o n-1 stopniachswobody. A skoro H0 zakłada, że różnica µ =0 tostatystyka t przyjmuje tu wartość:

Porównujemy tą wartość z wartością teoretycznąodczytaną z tablic:

Jeżeli tpar >=tteor odrzucamy H0 Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0

x n

ns

xt par

/

Page 11: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

bada czy średnia próby jest istotnie różna od hipotetycznej średniej

ns

xt par

/

Porównujemy tą wartość z wartością teoretyczną odczytanąz tablic:Jeżeli tpar >=tteor odrzucamy H0Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0

Page 12: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Dla dużych próbns

xz

/

n

xz

/

Gdy znamy s to:

Page 13: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Istotą jest badanie, czy zmiennośćmiędzygrupowa przeważa nadwewnątrzgrupową. Jeżeli zakres zmiennościobserwowanej wewnątrz każdej grupy jestmniejszy niż między grupami to mówimy, żegrupy są odseparowane od siebie i mogą tworzyćizolowane populacje.

Tutaj wymaga się dodatkowo, aby odchyleniastandardowe nie różniły się istotnie od siebie.Porównywanie średnich wymaga aby próby byłyniezależne. Więc jeśli mamy porównywanieśrednich ale dla tej samej próby to stosujemy testt Studenta (sparowany).

Page 14: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Hipoteza zerowa (H0): średnie w obu populacjach są równe

Zmienność różnic wyraża wzór:2

2

2

1

2

1

nnSE

1. Test normalny (duża liczebność prób)2. Test t Studenta dla prób niezależnych (mała liczebność prób)

Page 15: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

2

2

2

1

2

1

21

n

s

n

s

xxz

2

2

2

1

2

1

21

nn

xxz

Gdy znamy

Przedział ufności:Dla dużych prób:

Gdy znamy

2

2

2

1

2

1

21 )'()(

n

s

n

sSE

SEzxxCI

2

2

2

1

2

1

21 )'()(

nnSE

SEzxxCI

Page 16: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

2

)1()1(

21

2

22

2

11

nn

snsns

21

21

11

nns

xxt

21

21

11

)'()(

nnsSE

SEtxxCI

Gdzie:d.f.=n1+n2-2

Próby mają mieć rozkład normalny i odchylenia standardowe muszą być równe. Gdy nie ma równości wariancji to:1. Transformacja danych (np. logarytmiczna)2. Testy nieparametryczne (Wlcoxona, U Manna-Whitneya)

Page 17: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 18: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Służą one do weryfikacji hipotez parametrycznych,odnoszących się do parametrów rozkładu badanej cechy wpopulacji generalnej.

Najczęściej weryfikują sądy o takich parametrach populacjijak średnia arytmetyczna, wskaźnik struktury i wariancja.

Testy te konstruowane są przy założeniu znajomości postacidystrybuanty w populacji generalnej.

Biorąc pod uwagę zakres ich zastosowań, testy te możnapodzielić na dwie grupy:

1. Testy parametryczne służące do weryfikacji własnościpopulacji jednowymiarowych,

2. Testy parametryczne służące do porównania własnościdwóch populacji.

Page 19: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Testy parametryczne służące do weryfikacji własności populacjijednowymiarowych, a wśród nich wyróżnia się:

◦ testy dla średniej

◦ test dla proporcji (wskaźnika struktury)

◦ test dla wariancji

W testach tych oceny parametrów uzyskane z próby losowej są porównywanez hipotetycznymi wielkościami parametrów, traktowanymi jako pewienwzorzec.

Testy parametryczne służące do porównania własności dwóch populacji, doktórych należą:

◦ test dla dwóch średnich

◦ test dla dwóch proporcji

◦ test dla dwóch wariancji

Testy te porównują oceny parametrów, uzyskane z dwóch prób losowych.

Page 20: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Służą do weryfikacji różnorodnych hipotez,dotyczących m.in. zgodności rozkładu cechy wpopulacji z określonym rozkładem teoretycznym,zgodności rozkładów w dwóch populacjach, atakże losowości doboru próby. Biorąc pod uwagęzakres ich zastosowań, testy te można podzielićna dwie grupy:

1. Testy nieparametryczne służące do porównaniawłasności dwóch populacji,

2. Testy nieparametryczne służące do weryfikacjiwłasności populacji jednowymiarowych

Page 21: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test Manna-Whitneya jest jedną z najpopularniejszych alternatyw dlatestu t-Studenta dla prób niezależnych.

Jeżeli dane nie spełniają założeń dla zastosowania testu t-Studenta,warto skorzystać z testu Manna-Whitneya, gdy chcemy porównać zesobą dwie niezależne wobec siebie grupy.

Zaleta: niewielkie wymogi: Zmienna zależna musi być mierzona na skalico najmniej porządkowej (może być również mierzona na skaliilościowej). Może też być skala dychotomiczna (czyli 0-1), dlatego, żejest to przypadek zmiennej nominalnej, która jest zarazem zmiennąporządkową.

Zastosowanie testu Manna-whitneya nie wymaga równoliczności grup,rozkładu normalnego czy też homogenicznych wariancji. To sprawia, żemoże być on szeroko stosowany.

Page 22: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test Manna-Whitneya polega na rangowaniu wyników zmiennej zależnej(od najmniejszej do największej) w badanych grupach, a następnie grupysą ze sobą porównywane.

Przykład zastosowania:

Chcemy sprawdzić, czy kobiety różnią się od mężczyzn pod względempoziomu wykształcenia mierzonego na skali (podstawowe, zawodowe,średnie, wyższe). Z racji, że zmienna zależna (poziom wykształcenia)jest mierzona na skali porządkowej zastosujemy test Manna-Whitneyado sprawdzenia różnic pomiędzy badanymi grupami.

Podstawową wadą tego testu jest fakt, że test nie bierze pod uwagęwariancji wyników w badanych grupach. To sprawia, że grupy mogą miećróżną wariancję wyników, co może nie zostać "wykryte" przez test,podczas gdy testy parametryczne biorą to pod uwagę.

Wniosek: Test Manna-Whitneya ma słabszą moc interpretacyjnąuzyskanych danych. W porównaniu do testu t-Studenta należy zachowaćwiększą ostrożność w interpretowaniu uzyskanych wyników.

Page 23: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

gdzie:R oznacza sumę rang n1, n2 oznaczaliczebność w badanych grupach.

Należy obliczyć statystykę U zarówno dla R1(suma rang w I grupie) jak i dla R2 (sumarang w II grupie). Mniejsza z dwóch wartościU stanowi statystykę U, a istotnośćstatystyczna odczytywana jest z tabel.

Dalej, dla próby większej niż 20, stosuje się inny wzór(zakłada się, że rozkład U jest wtedy w przybliżeniunormalny. Wzór ten ma postać:

Page 24: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Analiza korelacji służy do "wychwycenia" czy zachodzi związekpomiędzy dwiema zmiennymi (właściwościami, cechami). Cooznacza związek? Choć istnieje podobieństwo (przynajmniej przezanalogię) do związków interpresonalnych to jednak należy tutajrozumieć związek jako rodzaj podobieństwa w "zachowywaniu siędwóch cech". Gdy jedna cecha, właściwość wzrasta to czy drugarównież wzrasta? A może maleje? A może w ogóle się nie zmienia?

Przykład: Czy poziom kondycji fizycznej jest związana z ilościąspożywanego tygodniowo alkoholu? W tym celu zapytano 100losowo wybranych osób o średnią ilość (w litrach ;-) spożywanegoalkoholu w tygodniu oraz zmierzono ich wynik w biegu na 400m.Aby stwierdzić, czy istnieje związek pomiędzy spożywanymalkoholem a kondycją fizyczną (rozumianą tutaj jako wynik w bieguna 400m) należy przeprowadzić analizę korelacji r-Pearsonapomiędzy wynikami dla tych dwóch zmiennych.

Page 25: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Nieparametryczny odpowiednikjednoczynnikowej analizy wariancji dlapomiarów powtarzanych.

Uznawany za najlepszy nieparametryczny testdla danych tego rodzaju.

Najczęściej są to wyniki dla tych samych osóbotrzymane w n (n>>2) różnych badaniach lubwyniki równoważnych grup osób.

Page 26: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Występuje kilka zależnych pomiarów. Wynikipomiarów rejestrowane dla każdej jednostkiporządkuje się w kolejności niemalejącej i nadajekolejne rangi.

H0: Nie istnieje różnica miedzy efektami działaniaróżnych poziomów czynnika kontrolowanego

H1: Istnieje różnica miedzy efektami działaniaróżnych poziomów czynnika kontrolowanego

Statystyka ma postać:

gdzie k to liczba kategorii czynnika kontrolowanego,n – liczba jednostek w próbie, rij – ranga nadana j-tejobserwacji zmiennej zależnej u i-tej jednostki.

Page 27: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

bardzo podobny do testu Friedmana.Statystyka ma postać

gdzie n – liczba jednostek we wszystkichpróbach łącznie,

nj – liczba jednostek w j-tej próbie (j=1,...,k),

rij – ranga nadana i-tej obserwacji zmiennejzależnej z j-tej próby

Page 28: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Nieparametryczny odpowiednikjednoczynnikowej analizy wariancji.

Za pomocą tego testu sprawdzamy, czy „n”niezależnych próbek pochodzi z tej samejpopulacji, czy z populacji z taką samąmedianą.

Próbki nie muszą być tej samej liczebności.Maks. 10 grup.

Page 29: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Celem analizy wariancji (ANOVA) jestzazwyczaj testowanie istotności różnicpomiędzy średnimi.

W przypadku porównywania dwóch średnichANOVA daje takie same rezultaty, jak test tdla prób niezależnych (jeśli porównujemydwie różne grupy przypadków lub obserwacji)lub test t dla prób zależnych (jeśliporównujemy dwie zmienne dla tego samegozbioru przypadków lub obserwacji).

Page 30: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Anova pozwala stwierdzić, czy analizowaneczynniki wywierają wpływ na obserwowanezmienne. Celem ANOVA jest traktowanieistotności różnic pomiędzy średnimi.

Założenia: Analizowana zmienna zależna jest mierzalna Analizowana zmienna w każdej z rozważanych k

populacji ma rozkład normalny Rozkłady te mają jednakową wariancję 1

2=

22=…= k

2

Dlaczego porównujemy tu średnie ? Bo jeśliśrednie różnią się istotnie to analizowany czynnikwpływa na zmienną zależną.

Page 31: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Może wydawać się dziwne, że procedurasłużąca do porównywania średnich jestokreślana nazwą analiza wariancji.

Nazwa ta wywodzi się z faktu, że w celutestowania statystycznej istotności różnicpomiędzy średnimi w rzeczywistościprzeprowadzamy porównanie (tzn. analizę)wariancji.

Page 32: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Każda populacja musi mieć rozkład normalny

Pobrane do analizy próby są niezależne

Próby pobrane z każdej populacji muszą byćlosowymi próbami prostymi

Wariancje w populacjach są równe

UWAGA: W przypadku, gdy założenia analizy wariancji niesą spełnione należy posługiwać się testem Kruskala-Wallisa.

Page 33: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Rozważmy r populacji o rozkładzie normalnym,

jednakowej wariancji 2 i wartości oczekiwanej µi

, gdzie i=1,…,r . Z populacji tych losujemy niezależne próby o liczebnościach ni, na których przeprowadzamy pomiary otrzymując wartości xij

dla i=1,…,r i j=1,…,ni . Całkowita wielkość próby wynosi n = n1 + n2 + …+ nr. .

Układ hipotez jest następujący:

Hipoteza zerowa:

Hipoteza alternatywna: nie wszystkie µi są sobie równe: (i=1,…,r)

Page 34: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Do weryfikacji powyższej hipotezy obliczamy wartość statystyki F postaci:

gdzie:

MSTR oznacza średni kwadratowy błąd "zabiegowy", MSE oznacza średni kwadratowy błąd losowy, oznacza średnią arytmetyczną z i-tej próby,

oznacza średnią arytmetyczną ze wszystkich obserwacji ze wszystkich r prób.

ix

Page 35: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Przy założeniu prawdziwości hipotezy zerowej statystykama rozkład F-Snedecora z r-1 stopniami swobody wliczniku i n-r stopniami swobody w mianowniku.

Obszar krytyczny jest postaci:

gdzie F jest wartością krytyczną odczytaną z tablicrozkładu F-Snedecora dla (r-1,n-r) stopni swobody.

Jeżeli obliczona wartość statystyki F należy do obszarukrytycznego Q to hipotezę zerową odrzucamy na korzyśćhipotezy alternatywnej i wnioskujemy, że badane średnienie są jednorodne.

Jeżeli obliczona wartość statystyki F nie należy do obszarukrytycznego Q to nie ma podstaw do odrzucenia hipotezyzerowej i wnioskujemy, że badane średnie są jednorodne.

Page 36: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Fabryka gwoździ zamierza kupić jednąz czterech maszyn do produkcji.

Wszystkie maszyny mają podobnącenę.

Na podstawie analizy wariancji należysprawdzić czy istnieje istotna różnicamiędzy wydajnościami maszyn.

Tabela przedstawia procentowewydajności uzyskane naposzczególnych maszynach.

Page 37: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Wyniki dla każdej z maszyn to inna populacja.Dane:

r = 4, a każde próba ni ma wielkość 19.

Łączna wartość próby n wynosi zatem 76.Dla danych z tabeli:MSTR = 21.23

MSE = 4.26

Wartość emipryczna statystyki F wynosi 4.99

Liczba stopni swobody licznika wynosi 3, natomiast liczba stopni swobody mianownika wynosi 72.Dla rozkładu F-Snedecora(3,72) wartość krytyczna na poziomie istotności α = 0.05 wynosi 2.732. Obliczona wartość empiryczna statystyki testowej odpowiada p-wartościrównej 0.0034. Należy zatem odrzucić

hipotezę zerową na rzecz hipotezy alternatywnej.

http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm

Page 38: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 39: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Większa liczba czynników. Jedną z ważnych przyczyn,dla których powinno się stosować raczej metody ANOVAniż wielokrotne badanie dwóch grup przy pomocytestów t jest to, że ANOVA jest bardziej efektywna,dzięki czemu możemy uzyskać więcej informacjidysponując mniejszą liczbą obserwacji.

Kontrola czynników. Przypuśćmy, że w przykładzie dwóchgrup wprowadzimy kolejny czynnik grupujący, np. Płeć.Wyobraźmy sobie, że w każdej z grup mamy 3 mężczyzn i 3kobiety. Układ ten moglibyśmy zestawić w tabeli 2x2:

Page 40: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

całkowitą wariancję możemy rozdzielić na conajmniej trzy składniki: (1) zmiennośćspowodowaną błędem (wariancjawewnątrzgrupowa), (2) zmiennośćspowodowaną przynależnością do grupyeksperymentalnej oraz (3) zmiennośćspowodowaną czynnikiem płci. (Zauważmy,że jest jeszcze dodatkowe źródło zmienności-- interakcja). Co by się stało, gdybyśmy wanalizie nie uwzględnili czynnika Płeć leczprzeprowadzili prosty test t?

Page 41: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test t ANOVA

suma kwadratów odchyleń od średniej (SS) pomijając czynnik Płeć (stosujemy średnie wewnątrzgrupowe łącząc grupy badanych o różnej płci):SS=10+10=20

Gdy uwzględniamy płeć:Czyli stosujemy średnie wewnątrzgrupowe w obrębie SS; po 2 w każdej z grup, tak więc połączone wewnętrzne sumy kwadratów odchyleń będą równe 2+2+2+2=8

Różnica ta jest spowodowana faktem, iż średnie dla mężczyzn sąsystematycznie niższe od średnich dla kobiet i różnica ta powoduje wzrostzmienności, w przypadku gdy pomijamy ten czynnik. Kontrola wariancji błęduzwiększa moc testu.W przypadku metody ANOVA możemy oceniać wpływ każdego z czynników,kontrolując wszystkie pozostałe; jest to prawdziwa przyczyna, dla którejANOVA charakteryzuje się wyższą mocą niż prosty test t (tzn. potrzebujemymniej obserwacji, aby stwierdzić istotny wpływ).

20 > 8

Page 42: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Jest jeszcze jedna przewaga analizy wariancji nad prostymitestami t: ANOVA umożliwia wykrywanie efektów interakcjipomiędzy zmiennymi i w związku z tym testowaniebardziej złożonych hipotez na temat otaczającej nasrzeczywistości.

Efekty główne, interakcja dwuczynnikowa. Wyobraźmysobie, że mamy grupę studentów nastawionych naosiągnięcia oraz drugą grupę pozbawioną tych "dążeń".Utwórzmy następnie w sposób losowy dwie podgrupy orównej liczebności w każdej z prób i wśród studentówjednej podgrupy przeprowadźmy test o wysokim stopniutrudności, a wśród studentów drugiej podgrupy test oniskim poziomie trudności. Mierzymy wyniki uzyskaneprzez studentów w teście. Uzyskane w tym (fikcyjnym)badaniu średnie są następujące:

Page 43: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

(1) testy bardziej wymagające powodują, że studenci pracująbardziej intensywnie,

(2) studenci nastawieni na osiągnięcia pracują intensywniejod studentów nie nastawionych na osiągnięcia?

(3) Żadne z tych stwierdzeń nie odzwierciedla istoty tychwyraźnie regularnych relacji pomiędzy średnimi.

(4) testy wymagające powodują intensywniejszą pracę tylkowśród studentów nastawionych na osiągnięcia, podczasgdy łatwe testy wpływają mobilizująco na studentów nienastawionych na osiągnięcia. Inaczej mówiąc, rodzajnastawienia na osiągnięcia oraz stopień trudności testuwspółdziałają we wpływie na wysiłek studentów, wszczególności jest to przykład dwuczynnikowej interakcjipomiędzy nastawieniem na osiągnięcia a stopniemtrudności testu.

Page 44: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Podczas gdy interakcja dwuczynnikowa możebyć stosunkowo łatwo wyrażona werbalnie,interakcje wyższego rzędu są coraztrudniejsze do wyrażenia słowami.Wyobraźmy sobie, że w przedstawionympowyżej badaniu osiągnięć uwzględniliśmyczynnik Płeć i otrzymaliśmy następującyukład średnich:

Page 45: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Kobiety nastawione na osiągnięcia pracują intensywniej z testamibardziej wymagającymi niż z testami łatwymi, podczas gdy kobiety nienastawione na osiągnięcia pracują intensywniej nad testami łatwymi niżnad trudnymi. W przypadku mężczyzn interakcja ta ma charakterprzeciwny. Jak więc widać opis interakcji stał się bardziej złożony.

Ogólny sposób wyrażania interakcji. Ogólnym sposobem wyrażeniawszystkich interakcji jest stwierdzenie, że dany efekt jest modyfikowany(warunkowany) przez inny efekt. Spróbujmy to prześledzić naprzykładzie zaprezentowanej powyżej interakcji pomiędzy dwomaczynnikami. Efekt główny w postaci trudności testu jest modyfikowanyprzez nastawienia na osiągnięcia.

Dwuczynnikowa interakcja pomiędzy trudnością testu i nastawieniem naosiągnięcia jest modyfikowana (warunkowana) przez czynnik Płeć. Mającdo czynienia z czteroczynnikową interakcją, możemy powiedzieć, żetrójczynnikowa interakcja jest modyfikowana poprzez wpływ czwartejzmiennej, to znaczy istnieją różne rodzaje interakcji na różnychpoziomach oddziaływania czwartej zmiennej. Jak się okazuje, w wieludziedzinach badań interakcje piątego lub wyższych stopni nie należą dorzadkości.

Page 46: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

to metoda statystyczna, służąca do badania obserwacji, które zależą odjednego lub wielu działających równocześnie czynników. Metoda tawyjaśnia, z jakim prawdopodobieństwem wyodrębnione czynniki mogąbyć powodem różnic między obserwowanymi średnimi grupowymi.Analiza wariancji została stworzona w latach dwudziestych przezRonalda Fishera.

Modele analizy wariancji można podzielić na: modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany

oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analizawariancji,

modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywanyłącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analizawariancji.

Według kryterium podział modeli przebiega następująco: model efektów stałych - obserwacje są z góry podzielone na kategorie, model efektów losowych - kategorie mają charakter losowy, model mieszany - część kategorii jest ustalona, a część losowa.

Page 47: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 48: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Średnia dla całego zbioru (z wartościami pustymi) będzie inna niż dla zbioru bez wartości pustych:

Page 49: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Zakładamy, że zα∕2 oznacza 100(1 −α∕2)percentyl standardowego rozkładunormalnego. Dla losowej próbki odpowiedniodużego zbioru danych, koniec przedziałuufności (1 − α) dla wartości średniejwyznaczymy jako:

Page 50: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Zakładając, że odchylenie standardowepopulacji dotyczącej wzrostu studentów wbadaniu wynosiło σ= 9.48.

Chcemy znaleźć margines błędu dlaoszacowanego przedziału na 95% poziomieufności.

Page 51: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Jeśli to test dwustronny w rozkładzienormalnym, to 95% przedział ufnościoznacza, że rozkłada nam się równo po 2.5%na lewą i prawą stronę, przez co dorozważenia bierzemy 97.5ty percentyllewostronnego przedziału. Przez to zα∕2

wyznaczymy jako qnorm(.975). Mnożymy toprzez błąd standardowy średniej „sem” iotrzymujemy margines błędu.

Page 52: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Teraz dodajemy obliczoną wartość błędu do średniej iznajdujemy przedział ufności

Zakładając, że odchylenie standardowe populacji równe jest 9.48, margines błędu dotyczący wzrostu studentów na 95% przedziale ufności

wynosi 1.2852. Przez to przedział ufności wynosi: (171.10 ,173.67).

Page 53: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Można użyć testu z.test z pakietu:<TeachingDemos>. Nie jest on domyślnympakietem środowiska R – dlatego trzeba gonajpierw zainstalować i załadować, by móc zniego korzystać.

Page 54: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 55: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Po oszacowaniu wartości średniej populacjimożemy potrzebować określić dokładność.Ale w przypadku gdy nie znamy wariancji.

tα∕2 –to 100(1 −α∕2) percentylstudentyzowanego rozkładu normalnego zn− 1 stopniami swobody. Dla losowowybranych próbek odpowiednio dużejpopulacji, z odchyleniem standardowym (s),obliczymy (1 −α) przedział ufności jako:

Page 56: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Np. nie znając odchylenia standardowego populacji chcemy oszacować przedział ufności dla wzrostu studentów – 95%.

Rozwiązanie

Najpierw pozbądźmy się wartości pustych, które wpływają na średnią – za pomocą funkcji na.omit i zapiszmy nową kolumnę jako „height.response”.

Page 57: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 58: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Skoro mówimy o teście dwustronnym dlapoziomu ufności 95%, interesuje nas 97.5ty

percentyl studentyzowanego rozkładunormalnego. Dlatego tα∕2 będzie dane jakoqt(.975, df=n-1). Mnożymy tę wartość przezbłąd standardowy SE i otrzymujemy marginesbłędu.

Page 59: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Dodajemy do średniej utworzony przedział i w ten sposób znajdujemy przedział ufności dla średniej.

Jeśli nie znamy odchylenia standardowego populacji, to zakres błędu na 95 % poziomie ufności wynosi 1.3429 cm wzrostu studenta. Przedział ufności wynosi wtedy (171.04,173.72).

Page 60: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

t.test (biblioteka stats)

Page 61: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Jakość badania próby można poprawić przezzwiększenie rozmiaru próby. Formuławyznaczenia optymalnego rozmiaru próby napoziomie ufności (1 −α), z błędem E, iwariancją populacji σ2 jest następująca:

zα∕2 to 100(1 − α∕2) percentyl standardowego rozkładu normalnego.

Page 62: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Zakładając, że znamy odchylenie standardowe(σ)wzrostu studentów w badaniu jako 9.48. Chcemyznaleźć rozmiar próby niezbędny by otrzymać błądnie większy niż 1.2 cm na poziomie ufności 95%.

Jako że mamy dwustronny test, to dla 95% poziomuufności bierzemy pod uwagę 97.5ty percentylrozkładu normalnego. Więc: zα∕2 będzie danyjakoqnorm(.975).

Zakładając, że odchylenie standardowe populacji wynosi 9.48, potrzebujemy przynamniej 240 elementów w próbie by uzyskać margines błędu nie większy niż 1.2cm.

Page 63: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Testy dla proporcji to testy parametrycznesłużące do weryfikacji hipotez dotyczącychwartości proporcji w populacji generalnej lub teżdo porównania wartości proporcji w kilkupopulacjach – na podstawie znajomości wartościtej proporcji w losowej próbie (czy też dwóch lubkilku próbach) pobranych z populacji.

Proporcją w statystyce nazywamy liczbę (ułamek,procent) wyrażający, jaka część elementówpewnego zbioru spełnia określony warunek. Innerównoważnie stosowane określenia to: frakcja,wskaźnik struktury. Na przykład, jeśli w grupie nosób jest m palących, to proporcja osób palącychw tej grupie jest równa

Page 64: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test prawostronny dla proporcji populacji może być wyrażony jako:

Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.

Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:

Odrzucimy hipotezę zerową jeśli z ≤−zα , gdzie zα jest 100(1 − α) percentylem standarodowegorozkładu normalnego.

Page 65: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test lewostronny dla proporcji populacji może być wyrażony jako:

Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.

Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:

Odrzucimy hipotezę zerową jeśli z > zα , gdzie zα jest 100(1 − α) percentylemstandarodowego rozkładu normalnego.

Page 66: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.

Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:

Odrzucimy hipotezę zerową jeśli z ≤−zα/2 lub

z ≥ zα∕2 , gdzie zα/2 jest 100(1 − α) percentylem standarodowego rozkładu normalnego.

Page 67: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Spośród żarówek wyprodukowanych przez pewną fabrykę wylosowano n=200 szt. i sprawdzono ich jakość. Okazało się, iż 50 żarówek jest złych. Czy można się zgodzić z przypuszczeniem, że braki stanowią 28% produkowanych żarówek? Przyjąć a = 0,06.

ROZWIĄZANIE: dane: badana zbiorowość - żarówki zmienna losowa X – odsetek złych żarówek zmienna losowa X ma nieznany rozkład w zbiorowości generalnej próba: n = 200, n'=50 w = n’/n = 50/200 = 0,25

szukane: H0 : p = 0,28 (w zbiorowości generalne żarówek braki stanowią 28%) H1 : p ¹ 0,28 (w zbiorowości generalne żarówek braki nie stanowią 28%) rozkład normalny

Page 68: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

hipoteza alternatywna jest dwustronna zatem obszar krytyczny przyjmuje postać

(u odczytujemy z tablic rozkładu normalnego przy zadanym )

Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, iż procent wadliwych żarówek wynosi 28%.

Page 69: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Skoro wartość -0.94leży w środkuprzedziałukrytycznego a więcna poziomieistotności 0,06 niemamy podstaw byodrzucić hipotezęzerową.

Page 70: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Najczęściej w ankietach badamy procent jednej grupy w odniesieniu do całości.

Problem

Chcemy znaleźć oszacowanie proporcji kobiet wśród studentów danej uczelni.

Rozwiązanie

Filtrowanie danych (survey$Sex) za pomocą funkcji na.omit co zapiszemy w zmiennej: gender.response.

By znaleźć liczbę kobiet wystarczy zliczyć obiekty które w zmiennej gender.response mają wartość: ’Female’, Potem podzielimy to przez liczbę wszystkich obiektów (n) co da nam szukaną proporcję. Wynik: 50%.

Page 71: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 72: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Gdy już wiemy jak oszacować wartośćśredniej populacji możemy chcieć oszacowaćprzedział ufności.

Niech zα∕2 będzie 100(1 −α∕2) percentylemstandardowego rozkładu normalnego.

Jeśli rozmiar próby (n) i proporcja populacjispełniają warunek: np ≥ 5 oraz n(1 − p) ≥ 5,wówczas koniec przedziału na poziomieistotności (1 − α) jest zdefiniowany jako:

Page 73: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Oblicz błąd i przedział ufności dla liczbykobiet w grupie studentów na poziomieufności 95%.

Rozwiązanie

Najpierw oszacujemy średnią wartość dlaproporcji.

Page 74: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Wynik: na poziomie istotności 95 %, kobietwśród studentów uczelni stanowią między43.6% a 56.3%, z błędem 6.4%.

Skoro przedział ufności wynosi 95 % to tak naprawdę 5 % dzielimy na 2przy dwustronnym teście – co daje 97.5ty percentyl standardowegorozkładu normalnego. Przez to zα∕2 jest dany przez qnorm(.975). Wtedymnożymy tę wartość przez błąd standardowy SE i obliczamy marginesbłędu.

Page 75: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Można użyć prop.test z pakietu stats

Page 76: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Dwie próby są sparowane jeśli pochodzą z obserwacji tych samychobiektów. Zakładamy rozkład normalny w danych. Stosującsparowany test t-test, możemy określić przedział ufności różnicymiędzy średnimi w populacji.

W zbiorze „immer”, zapisano zbiory jęczmienia z dwóch lat: 1931 i1932 z tych samych pól. Są one prezentowane w kolumnach Y1 i Y2.

ProblemZakładając ze dane pochodzą z rozkładu normalnego, chcemy znaleźć

95% przedział ufności dla różnicy między średnimi w zbiorach jęczmienia z lat 1931 i 1932.

RozwiązanieStosujemy test t.test by obliczyć różnice między średnimi. Ponieważ to

test sparowany, wymaga argumentu "paired„ ustawionego na wartość TRUE.

Page 77: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Między rokiem 1932 a 1932 w zbiorze immer 95 % przedziałufności dla różnicy między średnimi należy do przedziału(6.122 , 25.705).

Page 78: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 79: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Dwie próby są niezależne jeśli pochodzą zpopulacji które nie są ze sobą skorelowane apróby nie wpływają na siebie wzajemnie.Zakładamy, że populacje pochodzą z rozkładunormalnego. Stosując test niesparowany możemyokreślić przedział ufności dla różnicy międzyśrednimi w obu populacjach.

przykład

W zbiorze mtcars zajmiemy się cechą mpgokreślającą zużycie paliwa (gas mileage) zróżnych samochodów roku 1974.

Page 80: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 81: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 82: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Możemy użyć t.test by obliczyć różnice między średnimi.

Page 83: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

W zbiorze mtcars, średnie zużycie palowawynosi dla skrzyni automatycznej 17.147 adla ręcznej 24.392.

95% przedział ufności dla średniego zużyciapaliwa to: (3.2097,11.2802)

Page 84: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Możemy też stworzyć zmienną odpowiedzi (objaśnianą)mtcars$mpg na podstawie mtcars$am, i potemzastosować t.test do oszacowania różnicy międzyśrednimi w populacji:

Page 85: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Wiadomo, że badanie 2 różnych populacji danam inne wyniki. Jest to jednak częstoniezbędne by porównać wyniki międzydwoma populacjami. Zakładamy jednak, żeobie pochodzą z rozkładu normalnego.

Page 86: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Tabele krzyżowe (albo rozdzielcze, kontyngencji)przedstawiają łączne rozkłady dwóch lub większej ilościzmiennych.

Podczas gdy rozkład częstości informuje o rozkładzie jednejzmiennej, tablica kontyngencji opisuje jednocześnie rozkładdwóch lub większej ilości zmiennych.

Każda komórka pokazuje ilość respondentów, którzy udzieliliokreślonej kombinacji odpowiedzi.

Zmienna potencjał konsumpcyjny ma trzy kategorie: zje dużo, zje mało, nic nie zje.Kategorie są wzajemnie rozłączne i wyczerpujące, więc wartości w kolumnach sumują się do100%. Druga zmienna poziom głodu posiada dwie kategorie: głodny, najedzony. W tymprzypadku, wartości w wierszach nie muszą sumować się do 100%. Każda z komórekodzwierciedla procent respondentów posiadających daną kombinację cech.

Page 87: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Są łatwe do zrozumienia, także dla ludzi, którzynie rozumieją bardziej wyszukanych miar.

Mogą być używane w przypadku zmiennychmierzonych na dowolnym poziomie:nominalnym, porządkowym, interwałowym czyilorazowym - tablice krzyżowe traktują wszystkiedane tak - jakby były mierzone na poziomienominalnym.

Łatwiej jest zauważyć związki między zmiennymianalizując taką tablicę niż oddzielne statystyki.

Rozwiązują problem braków danych.

Page 88: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

W zbiorze quine dzieci z australijskich miast sąklasyfikowane na pochodzenie etniczne, płeć, wiek,status kształcenia i liczbę dni nieobecności w szkole.

W wyniku, kolumna „Eth” określa czy uczeń jestAboriginal czy nie ("A" or "N"), a kolumna „Sex” określakobietę albo mężczyznę („F" / „M").

W środowisku R jest możliwe przedstawienie rozkładudanych płci i pochodzenia etnicznego w tablicy. Wwyniku z 38 uczniów pochodzenia „Aboriginal” 38 jestto kobiety. A w grupie „Non-Aboriginal” 42 osoby tokobiety.

Page 89: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 90: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 91: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Zakładając, że dane te pochodzą z rozkładunormalnego, chcemy znaleźć 95% przedziałufności dla różnicy między proporcją kobietw grupie uczniów z klasy Aboriginal i kobietw grupie drugiej klasy (Non-Aboriginal).

Stosujemy funkcję R: prop.test by wyznaczyćróżnice w proporcjach kobiet.

Page 92: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

95% przedział ufności dla różnicy między średnimi w obugrupach kobiet z różnych grup etnicznych wynosi: (-15.6% ,16.7%)

Page 93: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

2 losowe zmienne x i y nazywamy niezależnymi,gdy prawdopodobieństwo rozkładu jednejzmiennej nie zależy od obecności tej drugiejzmiennej.

Zakładając, że fij oznacza liczność częstościzdarzeń przynależności do obu kategorii: i-tejdla x i j-tej dla y. oraz zakładając, że eij jestoczekiwaną wartością tego, że obie zmienne sąniezależne. Hipoteza zerowa niezależnościmiędzy zmiennymi będzie odrzucona jeśli p-value testu Chi-kwadrat będzie mniejsza niżzadany poziom istotności α.

Page 94: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

W zbiorze survey, kolumna Smoke ("Heavy", "Regul"(regularly), "Occas" (occasionally) i "Never". ) oznaczazwyczaj palenia studentów, zaś kolumna Exer ("Freq"(frequently), "Some" i "None")oznacza częstość palenia.

Możemy sprawdzić rozkład poszczególnych wartościznów w tabeli:

Page 95: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 96: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Testujemy hipotezę, czy częstość palenia zależy od liczby wypalonych papierosów na poziomie istotności .05.

Rozwiązanie

Stosujemy funkcję R: chisq.test by stworzyć tablicę kontyngencji i znajdujemy wartość p-value jako 0.4828.

Skoro wartość p-value = 0.4828 jest większa niż poziom istotności.05 – to nie możemy odrzucić hipotezy zerowej mówiącej, że zmienna „habit” nie zależy od „exer”.

Page 97: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

łączymy drugą i trzecią kolumnę tbl, i zapisujemy wnową tabelę o nazwie ctbl. Następnie stosujemychisq.test:

Page 98: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Item1 Item2 Item322 52 1642 33 2444 8 1952 47 1845 43 3437 32 39

Algorytm: 1. Skopiuj powyższy zbiór do pliku i nazwij go "fastfood-1.txt“. 2. Załaduj plik jako data frame i nazwij df1 za pomocą funkcji

read.table. Pierwsza linia naturalnie określa nazwy kolumn (header=TRUE).

Page 99: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

3. Połącz wiersze df1 w jeden wektor „r” .

4. Określ nowe zmienne dla określenia poziomuczynnika i liczby obserwacji.

5. Stwórz wektor czynników odpowiadającychkażdemu elementowi „r” w kroku 3 za pomocąfunkcji „gl”.

6. Zastosuj funkcję „aov” by zbadać zależność „r” aczynnikiem „tm”.

7. Wyświetl tablicę ANOVA jako podsumowanie:

Page 100: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Skoro p-value = 0.11 jest większe niż .05 poziom istotności, nie możemy odrzucić hipotezy zerowej mówiącej że średnia sprzedaż dla nowych pozycji menu są równe.

Page 101: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Nadal jest tylko jeden czynnik główny badany. Alepodobne przedmioty są łączone w grupy (bloki).Każdy blok jest testowany – czy zależy od głównegoczynnika badanego. To ma wykluczyć wpływ innychczynników dodatkowych.

przykład Ten sam przykład z fastfood ale 6 restauracji

tworzących jeden blok będzie testowana odnośniewszystkich 3 nowych produktów. Ale tylko jedenprodukt na każdy osobny tydzień. Losowy jest wybórproduktów do testowania (kolejność).

Problem Załóżmy, że mamy następujące dane. Sprawdź, czy

na poziomie istotności .05 średnie sprzedażywszystkich 3 nowych produktów są takie same.

Page 102: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Item1 Item2 Item331 27 2431 28 3145 29 4621 18 4842 36 4632 17 40

Page 103: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Algorytm: 1. Skopiuj dane do pliku o nazwie"fastfood-2.txt". 2. Załaduj plik do ramki data frame i nazwij df2.3. Połącz wiersze w jeden wektor „r” . 4. Określ nowe zmienne „treatment levels” oraz „liczba

bloków”5. Stwórz wektor „treatment factors” który odpowiada

każdemu elementowi z wektora „r” z kroku 3 za pomocą funkcji „gl”.

6. Stwórz wektor czynników bloków dla każdego elementu z wektora „r”

7. Zastosuj funkcję „aov”. 8. Wyświetl rezultat ANOVA

Page 104: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Skoro p-value = 0.032 jest mniejsze niż .05 to odrzucamy hipotezę zerową mówiącą że średnie sprzedaży wszystkich produktów są równe.

Page 105: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Rozważa się tylko jeden główny czynnik który może wpływać na inne.

przykład

Sieć fastfood testuje 3 nowe produkty wprowadzone na rynek. By przekonać się, czy cieszą się one tą samą popularnością, wybrano 18 losowych restauracji do badania. Podzielono jest losowo na te 3 grupy, po 6 dla każdego nowego produktu.

Problem

Załóżmy, że tak się rozkłada sprzedaż po tygodniu testów. Na poziomie istotności .05 średnie sprzedaży wszystkich 3 produktów są takie same.

Page 106: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Tutaj może istnieć więcej niż jedne czynnik do rozważenia. Przykład Nadal rozważamy fastfood który testuje 3 nowe produkty na obu

wybrzeżach wschodnim (East) i zachodnim (West) USA. By się przekonać, że wszystkie produkty cieszą się tą samą popularnością 12 restauracji z wybrzeża wschodniego zostało wybranych do analizy. Założeniem jest w analizie czynnikowej, że 12 restauracji będzie podzielone: 4 do badania 1 produktu, 4 do drugiego i 4 do trzeciego. To samo w przypadku restauracji z zachodniego wybrzeża.

Problem Zakładając, że dane są takie jak w tabeli, po tygodniu testów.

Każdy wiersz w górnej tabeli reprezentuje sprzedaż w 3 różnych restauracjach na wschodnim wybrzeżu. Dolna połowa reprezentuje restauracje zachodniego wybrzeża. Na poziomie istotności .05 chcemy przeprowadzić test czy średnie sprzedaży są takie same dla wszystkich produktów. I czy region wpływa na wartość sprzedaży.

Page 107: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

East Coast:==========

Item1 Item2 Item3E1 25 39 36E2 36 42 24E3 31 39 28E4 26 35 29

West Coast:==========

Item1 Item2 Item3W1 51 43 42W2 47 39 36W3 47 53 32W4 52 46 33

Page 108: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 109: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

1. Zapisz dane do pliku o nazwie "fastfood-3.csv 2. Załaduj dane jako data frame i nazwij df3 stosując

funkcję read.csv3. Połącz dane w wierszach w jeden wektor „r” 4. Oznacz nowe zmienne „treatment levels” oraz „number of

observations”.5. Stwórz wektor odpowiadający pierwszej wartości

„treatment level” w zmiennej odpowiedzi w kroku 3 element po elemencie za pomocą funkcji „gl”.

6. Podobnie stwórz wektor korespondujący z 2 wartością cechy „treatment level” w zmiennej odpowiedzi wektora „r” z kroku 3.

7. Zastosuj funkcję „aov” by opisać zmienną odpowiedzi „r” za pomocą czynników „tm1” i „tm2”.

8. Pokaż wyniki ANOVA.

Page 110: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 111: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Ponieważ wartość p-value = 0.0015 jest mniejsza niż poziom istotności .05 –odrzucamy hipotezę zerową mówiącą, że średnia sprzedaż nowych produktów jest taka sama wszędzie. Co więcej, wartość p-value = 1.2e-05 dla porównania wybrzeży wschód-zachód jest również mniejsza niż zadany poziom istotności. To pokazuje, że istnieje różnica w ogólnej wartości sprzedaży między wybrzeżami. Ostatecznie, w analizie wykazano też, że p-value = 0.0113 (< 0.05) określa możliwe interakcje między produktami z menu a lokalizacją restauracji – jakoże klienci z różnych regionów mogą mieć inne upodobania kulinarne.

Page 112: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Nie zakłada się żadnych założeń co dorozkładu populacji, ani co do wielkości próby

Przypominając: metody parametrycznewymagają by dane były ilościowe, by miałyrozkład normalny, i by rozmiar próby byłodpowiednio duży.

Oczywiście testy nieparametryczne nie są takmocne jak te parametryczne, ale mają mniejzałożeń, są bardziej elastyczne, i mogą byćużyte do danych jakościowych !

Page 113: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Test ten stosujemy, gdy chcemy sprawdzić czy rozkład binominalny ma równe szanse porażki/sukcesu.

Page 114: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Producent napojów wymyślił nowy napój i chce sprawdzićczy będzie tak popularny jak jego dotychczasowynajpopularniejszy napój. W tym celu zaangażował 18ochotników do testów. Każdy z nich próbuje obu drinków:nowy i stary w losowej kolejności.

Okazało się, że 5 uczestników wybrało nowy napój jakolepszy, reszta wybrała dotychczasowy. Na poziomieistotności = .05 czy możemy odrzucić hipotezę, żesympatia do obu napojów jest taka sama ?

Rozwiązanie Zerowa hipoteza ma sprawdzić czy napoje są tak samo

lubiane. Stosujemy test: binom.test. Wartość p-value=0.096525, i jako że jest większa niż zadany poziomistotności .05, nie mamy podstaw by odrzucić tę hipotezę.

Page 115: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie
Page 116: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Tutaj dwie próby są sparowany gdy pochodząz powtórnych obserwacji tych samychobiektów.

Stosując ten test możemy decydować, czykorespondujące rozkłady dwu populacji sątakie same nie zakładając, że pochodzą zrozkładu normalnego.

Page 117: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Stosujemy zbiór „immer” ze zbioramijęczmienia z lat 1931 i 1932. Są odpowiedniozapisane w kolumnach Y1 i Y2.

Page 118: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Bez założeń o rozkładzie normalnym, napoziomie istotności .05 chcemy sprawdzić czydane mają te same rozkładu w dwóch różnychlatach.

Rozwiązanie Hipoteza zerowa że jęczmień w dwóch latach

zbiorów miał takie same wartości. Aby testowaćtę hipotezę stosujemy test wilcox.test byporównać pasujące próbki. Dla testusparowanego pamiętajmy o ustawieniuparametru "paired" na wartość TRUE. Skoro p-value = 0.005318 jest mniejsza niż zadanypoziom istotności .05 - odrzucamy hipotezęzerową.

Page 119: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Na poziomie istotności .05 wnioskujemy, że zbiory jęczmienia zlatach 1931 i 1932 nie są identycznymi populacjami.

Page 120: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Dwie próby są niezależne jeśli pochodzą zróżnych populacji i nie wpływają jedna nadrugą.

Stosując test Manna-Whitneya-Wilcoxonamożemy ocenić czy rozkłady populacji sąidentyczne nie zakładając ze pochodzą zrozkładu normalnego.

Page 121: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Mamy zbiór mtcars, i dane dotyczące zużyciapaliwa różnych samochodów w roku 1974.

Mamy też dana „am” określającą czy skrzyniabiegów jest ręczna czy automatyczna (0 =automatic, 1 = manual).

Przyjmuje się, że zużycie paliwa nie ma związku ztypem skrzyni biegów. Sprawdzimy to…

Page 122: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Nie zakładając rozkładu normalnego chcemysprawdzić, czy na poziomie istotności .05 zużyciepaliwa skrzyni automatycznych i ręcznych mają tesame rozkłady danych.

Rozwiązanie Hipoteza zerowa mówić będzie, że zużycie paliwa dla

skrzyni ręcznych ma taką samą populację jak zużyciepaliwa skrzyni automatycznych.

Aby to sprawdzić użyjemy funkcji R: wilcox.test byporównać wartości w niezależnych próbkach.

Skoro wartość p-value= 0.001817 i jest ona mniejszaniż .05 – odrzucamy hipotezę zerową na rzeczalternatywnej mówiącej, że jednak wartości zużyciapaliwa w obu typach skrzyni jest różna.

Page 123: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Na poziomie istotności testu = .05 stwierdzamy, żezużycie paliwa w skrzyniach ręcznych iautomatycznych nie są takie same.

Page 124: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Zakłada się, że kolekcje próbek danych sąniezależne jeśli pochodzą z niezwiązanychpopulacji i nie wpływają jedna na drugą.

Stosując test Kruskala-Wallisa, możemyoceniać, czy rozkłady populacji są identycznebez konieczności zakładania rozkładunormalnego.

Page 125: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

W zbiorze „airquality” mamy pomiary dzienne jakościpowietrza z Nowego Jorku z okresu od maja dowrześnia 1973 roku. Gęstość ozonu przedstawionow kolumnie o nazwie :Ozone.

Page 126: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

ProblemBez założeń o rozkładzie normalnym populacji

chcemy sprawdzić na poziomie istotności.05 czymiesięczna wartość gęstości ozonu w NowymJorku ma taki sam rozkład w miesiącach od majado września.

RozwiązanieHipoteza zerowa mówi, że miesięczna gęstość

ozonu jest taka sama we wszystkich populacjach.Aby to sprawdzić stosujemy funkcję R:kruskal.test by porównać dane z niezależnychmiesięcy. Wartość p-value zmierza do 0 (6.901e-06). Dlatego odrzucamy hipotezę zerową.

Page 127: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie

Na poziomie istotności .05 stwierdzamy, że miesięcznagęstość ozonu w Nowym Jorku w miesiącach od maja dowrześnia nie pochodziła z identycznych populacji.