Upload
victoria-kamasa
View
582
Download
2
Embed Size (px)
Citation preview
www.logic.amu.edu.pl 1
TESTOWANIE HIPOTEZ
PODSTAWY
dr Victoria Kamasa
www.logic.amu.edu.pl 2
DWIE STATYSTYKI OPISOWA
„Syntetyczny opis badanej zbiorowości za
pomocą określonych miar liczbowych” (Sambor
1990)
czyliCo na podstawie
zebranych danych mogę powiedzieć o
badanej próbie?
INDUKCYJNAZajmuje się:
szacowaniem parametrów rozkładu badanej cechy w populacji generalnej, (…)
weryfikowaniem hipotez dotyczących własności
populacji generalnej (Sambor 1990)czyli
Co na podstawie zebranych danych mogę powiedzieć o populacji?
dr Victoria Kamasa
www.logic.amu.edu.pl 3
STATYSTYKA INDUKCYJNAESTYMACJA
Szacowanie danego parametru w populacji na podstawie wyników uzyskanych w próbie.np.Szacowanie wyniku wyborów na podstawie danych zebranych w sondażach
przedział prawdopodobieństwo
poprawności oszacowania
TESTOWANIE HIPOTEZ
(najczęściej) Sprawdzanie, czy pewna różnica zaobserwowana w próbie jest związana z czynnikiem X czy jest przypadkowa.np.Czy zapamiętywanie zależy od intonacji.
Prawdopodobieństwo zachodzenia związku
dr Victoria Kamasa
www.logic.amu.edu.pl 4
WERYFIKACJA HIPOTEZDotyczących związku między dwoma zjawiskami: Zakładam, że ten związek nie istnieje Na podstawie zebranych danych „testuję” istnienie
tego związku Zakładam poziom pewności, że nie przyjmę hipotezy
o istnieniu związku, podczas gdy związek nie istnieje Określam poziom, od którego muszę dorzucić
założenie o braku związku Porównuję wynik „testowania” z obszarem odrzuceń –
przyjmuję bądź odrzucam założenie o braku związku Tym samym – odrzucam bądź przyjmuję hipotezę o
istnieniu związku.
dr Victoria Kamasa
www.logic.amu.edu.pl 5
WERYFIKACJA HIPOTEZ Zakładam, że ten związek nie
istnieje Na podstawie zebranych
danych „testuję” istnienie tego związku
Zakładam poziom pewności, że nie przyjmę hipotezy o istnieniu związku, podczas gdy związek nie istnieje
Określam poziom, od którego muszę dorzucić założenie o braku związku
Porównuję wynik „testowania” z obszarem odrzuceń – przyjmuję bądź odrzucam założenie o braku związku
Tym samym – odrzucam bądź przyjmuję hipotezę o istnieniu związku.
• Zakładam hipotezę zerową
• Przeprowadzam test statystyczny
• Przyjmuję poziom istotności (p) – prawdopodobieństwo popełnienia błędu I rodzaju• Określam wartość krytyczną i związany z nią obszar odrzuceń
•Porównuję wynik testu z obszarem odrzuceń – przyjmuję bądź odrzucam Ho
•Tym samym – przyjmuję bądź odrzucam H1
dr Victoria Kamasa
www.logic.amu.edu.pl 6
MOC TESTUPrzyjmuję
istnienie związku Przyjmuję nieistnienie
związku
Związek istnieje Błąd II rodzaju
Związek nie istnieje Błąd I rodzaju
dr Victoria Kamasa
POZI
OM
ISOT
ONOŚ
CI
MOC
TES
TU
www.logic.amu.edu.pl 7
POZIOM ISTOTNOŚCI TESTU prawdopodobieństwo przyjęcia istnienia związku, w sytuacji, w której związek faktycznie nie zachodzi; oznaczany p=x, p<x, p>x; ustalany przy pomocy odpowiednich rozkładów;
PRZYKŁAD:Prawdopodobieństwo dla hipotezy zerowej: p<0,01
CZYLIw mniej niż jednej na 100 prób pobranych z tej samej populacji postulowany przez nas związek nie zajdzie.
dr Victoria Kamasa
www.logic.amu.edu.pl 8
TEST STATYSTYCZNYPraktyczna procedura statystyczna stosowana
przy testowaniu hipotez, pomocna w podejmowaniu decyzji, czy zaobserwowaną korelację przypisujemy faktycznie istniejącej korelacji czy też błędowi z próby. (Ferguson, Tekane
2002, s. 197)Inaczej:
Procedura obliczeniowa, której wynik pozwala oszacować poziom istotności dla H0
iw konsekwencji: odrzucić bądź przyjąć stawianą
hipotezędr Victoria Kamasa
www.logic.amu.edu.pl 9
WYBÓR TESTU STATYSTYCZNEGO poziom zmiennych w hipotezie; wielkość próby; próby zależne bądź niezależne; rodzaj rozkładu (normalny bądź nie); co porównujemy:
średnie;proporcje;wariancje.
…
dr Victoria Kamasa
www.logic.amu.edu.pl 10
ANOVAANALIZA WARIANCJI
IBADANIE ISTOTNOŚCI RÓŻNIC MIĘDZY
ŚREDNIMI
dr Victoria Kamasa
www.logic.amu.edu.pl 11
ANOVA od ang. analysis of variance (analiza wariancji)
•CEL: testowanie istotności różnic pomiędzy średnimi uzyskanymi w różnych grupach.Innymi słowy (w DUŻYM uproszczeniu):• sprawdzamy, czy za otrzymaną różnicę w średnich odpowiada czynnik dzielący na grupy (np. rodzaj tekstu) czy różnice te są przypadkowe.• najczęściej czynników dzielących na podgrupy jest więcej (np. rodzaj forum i temat wypowiedzi).dr Victoria Kamasa
www.logic.amu.edu.pl 12
ANOVAJak to się dzieje w praktyce (i znów duże uproszczenie):• Dzielimy badaną grupę ze względu na
jakieś kryterium (np. gatunek literacki)• Zakładamy:
• Każdy pomiar jakoś różni się od średniej;• Za część tej różnicy odpowiada błąd z próby,
zatem ta część będzie widoczna także wewnątrz poszczególnych grup; (wewnątrzgrupowa)
• Za drugą część różnicy odpowiada czynnik dzielący na grupy; (międzygrupowa)
dr Victoria Kamasa
www.logic.amu.edu.pl 13
ANOVA• Sprawdzamy
• Jak poszczególne wyniki w grupie odchylają się od średniej w grupie (wewnątrzgrupowa suma kwadratów);
Xi – poszczególny pomiar w danej grupieXśr – średnia dla danej grupyi – liczba pomiarów w danej grupie
dr Victoria Kamasa
www.logic.amu.edu.pl 14
ANOVA• Jak średnie poszczególnych grup odchylają się
od ogólnej średniej (międzygrupowa suma kwadratów)
Nj – liczebność danej grupyXśr – średnia w poszczególnych grupachXŚR – średnia w całej próbiej – liczba grup wyróżnionych ze względu na zmienną
niezależnądr Victoria Kamasa
www.logic.amu.edu.pl 15
ANOVA• Obliczamy:• Wewnątrzgrupowy średni kwadrat:
• Międzygrupowy średni kwadrat:
N – liczba badanych przypadkówk – liczba grupN – k – liczba stopni swobody dla mianownikak – 1 – liczba stopni swobody dla licznika
dr Victoria Kamasa
www.logic.amu.edu.pl 16
ANOVA• testujemy hipotezę zerową:• Średnie zmiennej zależnej w poszczególnych
podgrupach w populacji nie różnią się ze względu na zmienną niezależną.
• Posługujemy się w tym celu testem F:
• Wynik testu porównujemy z rozkładem F- Snedecora:• Wynik testu• Liczba stopni swobody dla mianownika• Liczba stopni swobody dla licznikadr Victoria Kamasa
www.logic.amu.edu.pl 17
WYNIK TESTU I ROZKŁAD• METODA 1 – korzystamy z gotowych rozkładów:• Wybieramy rozkład z interesującym nas poziomem
istotności;• Porównujemy wynik do wyniku znajdującego się w
tabeli:• Jeśli wynik naszego testu jest mniejszy lub równy niż
odnaleziony wynik – przyjmujemy H0;• Jeśli wynik testu jest większy niż wynik odnaleziony w
tabeli – odrzucamy H0 i przyjmujemy H1;• Rozkłady dostępne na przykład na Wikiźródłach:http://pl.wikisource.org/wiki/Tablica_rozk%C5%82adu_F_Snedecora
dr Victoria Kamasa
www.logic.amu.edu.pl 18
WYNIK TESTU I ROZKŁAD
dr Victoria Kamasa
www.logic.amu.edu.pl 19
WYNIKI TESTU I ROZKŁAD• wartości dla niektórych rozkładów podaje Excel:• Dla rozkładu F:• =ROZKŁAD.F(wynik testu;k-1;N-k)• otrzymany wynik jest dokładnym poziomem istotności dla
uzyskanego wyniku testunp.• p=0,37 oznacza:Prawdopodobieństwo, że między grupami podzielonymi ze względu na zmienną niezależną nie zajdzie różnica w średniej zmiennej zależnej wynosi 0,37Innymi słowy:
W 37 na 100 prób pobranych z populacji nie zajdzie różnica średniej zmiennej zależnej ze względu na zmienną niezależną
dr Victoria Kamasa
www.logic.amu.edu.pl 20
PRZYKŁADBadano liczbę wulgaryzmów używanych w ciągu dnia przez mężczyzn i kobiety. Uzyskano następujące wyniki:
Sprawdź hipotezę: Płeć różnicuje średnie dzienne użycie wulgaryzmów.dr Victoria Kamasa
Wyniki poszczególnych badanych średnia
kobiety 12 16 31 12 14 16 10 17,
29mężczyźni 8 14 29 7 14 6 13,
0
www.logic.amu.edu.pl 21
DOBRA WIADOMOŚĆ
•Przy porównaniu dwóch grup możemy skorzystać z funkcji Excela TEST.F.
•W pozostałych przypadkach: możemy znacznie skrócić, uprościć proces
obliczeń korzystając z formuł w Excelu.
dr Victoria Kamasa
www.logic.amu.edu.pl 22
ZADANIE DOMOWE
dr Victoria Kamasa
Część obliczeniowa projektu:Wszystkie informacje na stronie
+ min. Jedna hipoteza testowana przy pomocy testu F
z ANOVY.
www.logic.amu.edu.pl 23
BIBLIOGRAFIA
dr Victoria Kamasa