61
Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Ustalanie mocy testu i optymalnej wielkości próby Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.

Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Warsztaty szkoleniowe z zakresu oceny oddziaływania

instrumentów aktywnej polityki rynku pracy

Ustalanie mocy testu i

optymalnej wielkości próby

Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.

Page 2: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Plan wykładu

Dlaczego próbkowanie jest potrzebne? (powtórzenie)

Jakie znaczenie ma wielkość próby? (nowość)

Jaka próba jest dostatecznie duża? (nowość)

Jak zwiększyć moc testu? (nowość)

Page 3: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

DLACZEGO PRÓBKOWANIE JEST KONIECZNE?

Page 4: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Próbkowanie pozwala…

1. Populacja docelowa 2. Próba badawcza

Takie same charakterystyki

(trafność zewnętrzna)

wnioskować o charakterystykach populacji

Page 5: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Typowe dylematy badacza (o wielkości próby)

• Powinienem wylosować 200, czy raczej 500

obserwacji do mojej próby?

• Jaka jest praktyczna różnica między próbą 200 a

500? Czy da się to skwantyfikować?

• Czy są jakieś reguły pozwalające ustalić optymalną

wielkość próby?

• Jak duża próba jest już wystarczająco duża?

Page 6: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

JAKIE ZNACZENIE MA WIELKOŚĆ PRÓBY?

Page 7: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład – badanie wzrostu Polaków

Załóżmy, że wybraliśmy (losowo) 10 osób z populacji Polski, mierząc ich

wzrost i następnie opierając się o prostą średnią wzrostu w próbie,

twierdzimy:

„średni wzrost Polaka wynosi 170 cm”

Dajecie wiarę temu wnioskowi? Dlaczego? Dlaczego nie?

Page 8: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład – badanie wzrostu Polaków

Załóżmy teraz, że wybraliśmy (losowo) 1000 osób z populacji Polski,

mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu

w próbie, twierdzimy:

„średni wzrost Polaka to 170 cm”

Czy wierzycie teraz mniej lub bardziej we wnioski z badania? Dlaczego?

Page 9: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Znaczenie wielkości próby

Duża próba losowa zwiększa wiarygodność badania, ponieważ:

• Mamy większą pewność że próba ma takie same

charakterystyki jak populacja.

• Jest mniejsza szansa, że ewentualne obserwacje odstające

spowodują obciążenie wyników.

• Jest większa szansa, że otrzymany wynik będzie bliższy

prawdziwemu i że błąd wynikający z przypadkowości losowania

będzie mniejszy.

Intuicyjnie: Im większa jest próba, tym mniejsza niepewność związana z wynikiem.

Page 10: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim

okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.

Jakie mamy możliwości?

Page 11: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim

okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.

Jakie mamy możliwości?

1) Zmierzyć wzrost wszystkich osób w populacji docelowej i podać wynik

(średnia).

2) Skonstruować próbę losową, policzyć średnią, przeprowadzić prosty test

statystyczny i wyciągnąć wnioski nt. wzrostu w populacji.

Ponieważ było wystarczające finansowanie projektu, analitycy PUP-u zmierzyli

wzrost wszystkich osób bezrobotnych w powiecie. Zatem bez wykorzystania

testów statystycznych, mogli stwierdzić że prawdziwy średni wzrost wśród

bezrobotnych (na terenie ich powiatu) wynosi 165,1 cm.

Dodatkowo, pewien dociekliwy analityk postanowił sprawdzić co by było, gdyby

zamiast obranej strategii zdecydowano się oprzeć badanie na próbie losowej

i estymować oczekiwany wzrost bezrobotnego, za pomocą średniej z próby.

Badacz przeprowadził w tym celu następujący eksperyment. Z tej samej

populacji wylosował 30 podprób – 10 po 5 os., 10 po 10 os. wreszcie 10 po 20

os.

Page 12: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - analiza wyników

Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161

Średnie z średnich

166,0 165,5 165,4

Błąd standardowy oszacowań

2,72 1,78 1,51 Źródło: Kopczyński M. (2005). Podstawy statystyki. Podręcznik dla humanistów. Warszawa:

Oficyna Wydawnicza „Mówią wieki”.

Page 13: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - analiza wyników

Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161

Średnie z średnich

166,0 165,5 165,4

Błąd standardowy oszacowań

2,72 1,78 1,51

Ta liczba oznacza, że w

pierwszej podpróbie

składającej się z 5 obs.

średni wzrost wyniósł 170,1

cm Ta liczba oznacza, że w

trzeciej podpróbie składającej

się z 20 obs. średni wzrost

wyniósł 168,4 cm.

Ta liczba oznacza, że w

drugiej podpróbie składającej

się z 10 obs. średni wzrost

wyniósł

169 cm.

Page 14: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - wnioski Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161

Średnie z średnich

166,0 165,5 165,4

Błąd standardowy oszacowań

2,72 1,78 1,51

Przeciętny rezultat eksperymentu jest bliższy prawdzie w próbie

liczniejszej.

Page 15: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - wnioski

Niepewność wyniku (mierzona bł. std.) jest mniejsza dla prób

liczniejszych

Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161

Średnie z średnich

166,0 165,5 165,4

Błąd standardowy oszacowań

2,72 1,78 1,51

Page 16: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Case study - podsumowanie

- W liczniejszej próbie jest większa szansa na to aby

wynik był dokładniejszy.

- Liczniejsze próby mają mniejszy błąd wyniku związany z

losowaniem (błąd czysto losowy).

- Liczniejsze próby mają bardziej stabilny wynik w ramach

eksperymentu (mniejszy błąd standardowy).

Page 17: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Skąd wiemy, że wnioski z badań nie

są przypadkowe?

Zwyczajowo przyjmuje się 95% poziom ufności.

Przez „ufność” rozumiemy pewność, że zaobserwowany

wynik nie jest przypadkowy (tzn. że nie wynika z błędu czysto

losowego).

Przedziały ufności są statystyczną miarą naszej ufności

w wyniki.

Page 18: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Testowanie przedziałem ufności

Grupa

eksperymentalna

Statystycznie

nieistotny wynik

Poziom

bezrobocia

95% poziom ufności

Wielkość próby = 200

35%

45%

40%

Grupa

kontrolna

Page 19: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład

Rząd chciałby przetestować nowy model aktywizacji bezrobotnych i zdecydował

się na przeprowadzenie programu pilotażowego w jednym z powiatów. Połowa

losowo wyselekcjonowanych bezrobotnych została wybrana do nowego

programu, a wobec pozostałych stosowano politykę sprzed reformy.

Do badania ewaluacyjnego wylosowano po 200 osób do grupy kontrolnej i

eksperymentalnej.

Załóżmy teraz, że stopa zatrudnienia po roku działania wśród osób

obserwowanych w badaniu ewaluacyjnym, objętych nowym programem wynosiła

65%, a w grupie kontrolnej 55%. Pojawia się kluczowe pytanie:

Czy różnica między grupami jest statystycznie istotna?

Spróbujmy rozważyć kilka analiz statystycznych z różnymi zestawami

parametrów badawczych.

Page 20: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

35%

45%

30%

Grupa

eksperymentalna

Grupa

kontrolna

Statystycznie

nieistotny wynik

Poziom

bezrobocia

95% poziom ufności

Wielkość próby = 200

Testowanie przedziałem ufności

Page 21: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład (2) – ufność w wyniki

Co by się stało, gdyby wskaźniki 55% i 65% były

prawdziwe, a my byśmy wyselekcjonowali do badania 1000

osób (500+500) zamiast 400 (200+200).

Page 22: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Liczniejsza próba oznacza pewność wyniku

35%

45%

40%

Grupa

eksperymentalna

Grupa

kontrolna

Statystycznie

istotny wynik

Poziom

bezrobocia

95% poziom ufności

Wielkość próby = 500

Page 23: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Intuicja: szerokość przedziału ufności (błąd) a wielkość próby

błąd = ½ * szerokość przedziału ufności/efektu programu

Page 24: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Duża próba v. mała próba wnioski

• Liczniejsza próba zwęża przedziały ufności, co

odzwierciedla wzrost pewności wyników.

• Z licznością próby rośnie prawdopodobieństwo

zaobserwowania statystycznie istotnego wyniku.

Page 25: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład (2) – Wielkość efektu

(effect size)

Załóżmy, że w wyniku działania tego samego

programu spodziewany jest większy efekt (20

punktów procentowych różnicy zamiast

wyjściowych 10 pp.).

Projektując ewaluację, powinno się zwiększyć czy

zmniejszyć próbę badawczą?

Page 26: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

CLICKER QUESTION Program A: oczekujemy dużej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (20 pp.) Program B: oczekujemy małej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (10 pp.) Aby oba badania miały tę samą moc, który scenariusz badawczy powinien zakładać większą próbę? A. Program A

B. Program B

C. Taka sama próba dla

scenariuszy A and B

A. B. C.

0% 0%0%

Page 27: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Wielkość efektu v. wielkość próby

N = 200 N = 500

Page 28: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Wielkość efektu wnioski

• Im większy rezultat naszej polityki, tym

mniejszej próby potrzebujemy aby go

udowodnić.

Page 29: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Podsumowanie

Zakładając, że estymowany efekt jest prawdziwy, zwiększamy

prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie

dostatecznie duża.

Więc jeśli zwiększanie próby może tylko poprawić jakość badania,

czemu nie badać za każdym razem całej populacji?

Page 30: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Podsumowanie

Zakładając, że estymowany efekt jest prawdziwy, zwiększamy

prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie

dostatecznie duża.

Więc jeśli zwiększanie próby może tylko poprawić jakość badania,

czemu nie badać za każdym razem całej populacji?

• ograniczone fundusze,

• malejąca korzyść z dodatkowej jednostki w próbie (np. malejący

wzrost wiarygodności wyników z 1 dodatkowej osoby w dużej próbie).

Potrzebne jest zatem narzędzie, które pozwoli na policzenie optymalnej

wielkości próby.

Optymalnej, czyli minimalnej próby potrzebnej do udowodnienia na

danym poziomie ufności założonego a priori efektu.

Page 31: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

JAKA PRÓBA JEST DOSTATECZNIE DUŻA?

POWER CALCULATIONS

Page 32: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Moc

Prawdopodobieństwo wykrycia efektu, pod

warunkiem że hipoteza o istnieniu efektu jest

prawdziwa.

Standardowo przyjmuje się poziom mocy testu

80%.

Oznacza to akceptację 20% prawdopodobieństwa

nie wykrycia efektu nawet jeśli jest prawdziwy.

Potrzebna jest większa próba, aby moc była większa!

Page 33: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Liczenie wielkości próby

• Mając:

• ustalony poziom ufności (zwykle 95%),

• założony poziom mocy testu (zwykle 80%),

• założoną wielkość efektu (zależy od

charakteru programu, ale za istotny uznaje się

efekt co najmniej na poziomie 20% odchylenia

standardowego w próbie),

możemy wyznaczyć minimalną wielkość próby

potrzebną do otrzymania statystycznie

istotnego wyniku.

Page 34: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Liczenie wielkości próby - przykład

Page 35: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Minimalny wykrywalny efekt

• Mając:

• ustalony poziom ufności (zwykle 95%),

• założony poziom mocy testu (zwykle 80%),

• założoną wielkość próby,

możemy policzyć minimalny efekt, jaki musimy

osiągnąć, aby udowodnić pozytywne skutki

ewaluowanej polityki.

Page 36: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

JAK ZWIĘKSZYĆ MOC?

Page 37: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

1. Zmienności w populacji

2. Wielkości efektu

3. Reprezentatywności próby

• Czy potrzebujemy stratyfikacji w schemacie

losowania?

4. Sposobu randomizacji (jednostki v. grupy):

• Czy losujemy pojedynczych respondentów,

czy raczej klastry? (szkoły, powiaty, etc.)

Moc testu zależy od wielu czynników

Page 38: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

1. Jak podobne/różne są osoby w populacji?

Populacja

jednorodna

Populacja

zróżnicowan

a

Page 39: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Test: Jak reagują na zmiany?

Podobnie

W różny

sposób

Page 40: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Jeśli populacja jest jednorodna, jest mniejsza szansa na uzyskanie przypadkowego wyniku

130 cm

140 cm

130 cm Bez dodatkowego dożywiania wzrost dzieci wynosi 130 cm.

Jeśli w grupie eksperymentalnej dzieci są wyższe (140 cm) to jest to wynik

działania programu.

W eksperymencie kontrolowanym przeprowadzonym na grupie

heterogenicznej wnioskowanie nie jest takie proste – przypadkowość wyniku

jest większa.

Page 41: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Jeśli oczekiwany jest duży efekt, zostanie wykryty nawet w

małej próbie badawczej.

Dlaczego? Ponieważ przy zaobserwowaniu dużej różnicy w

punkcie końcowym prawdopodobieństwo, że taki wynik jest

przypadkowy, jest niewielkie.

Odwrotnie, jeśli oczekujemy małych efektów (ale mających

praktyczne znaczenie), należy zwiększyć próbę aby

zwiększyć szansę udowodnienia go w analizie statystycznej.

UWAGA: NIE NALEŻY ROBIĆ NIEREALISTYCZNYCH

ZAŁOŻEŃ ODNOŚNIE WIELKOŚCI EFEKTU!!

2. Jak poprawnie założyć wielkość efektu?

Page 42: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Kto jest wyższy?

Page 43: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Kto jest wyższy?

Page 44: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

3. Stratyfikacja próby losowej

Czasami próba losowa nie jest wystarczająco duża,

abyśmy ex ante mieli zapewnioną

reprezentatywność badania (trafność zewnętrzna)

więc może okazać, że nie możemy rozciągnąć

wniosków z badania na populację.

Dlatego, musimy w schemacie losowania dokonać

stratyfikacji (warstwowania) aby upewnić się, że

kluczowe charakterystyki będą miały taki sam

rozkład w próbie i populacji.

Page 45: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

4. Losowanie grupowe

Czasami zależy nam na posiadaniu w próbie osób

należących do różnych jednostek – szkół,

miejscowości, powiatów, etc. Co wtedy?

Page 46: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

TEST Rząd zamierza dokonać ewaluacji nowego programu edukacyjnego w szkołach podstawowych. Badanie ewaluacyjne jest randomizowane na poziomie powiatu. Aby zwiększyć moc testu i wiarygodność badania analityk ma do wyboru jedną z dwóch strategii. Którą powinien zastosować?

A. Zwiększyć liczbę osób

badanych na poziomie

wybranego powiatu

B. Zwiększyć liczbę

powiatów

wyselekcjonowanych do

badania

Zw

ięks

zyć l

iczbę o

sób b

...

Zwię

kszy

ć licz

bę pow

iat..

0%0%

Page 47: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład: losowanie grupowe v. indywidualne

Page 48: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład: losowanie grupowe v. indywidualne

Page 49: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład: losowanie grupowe v. indywidualne

Page 50: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

4. Losowanie grupowe

Czasami zależy nam na posiadaniu w próbie osób

należących do różnych jednostek – szkół, miejscowości,

powiatów, etc. Co wtedy?

Jeśli losujemy na poziomie klastrów (np. powiatów), aby

utrzymać moc testu musimy zwiększyć ich liczbę.

Zwiększenie liczby osób wewnątrz klastrów nic nie da –

do próby będą trafiały osoby z tych samych klastrów,

wnosząc relatywnie niewiele nowej informacji – ich

zachowanie jest silnie powiązane z przynależnością do

konkretnego klastra.

Page 51: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład: wyniki uczniów w ramach szkoły

Szkoła A

Szkoła B

Page 52: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Intuicyjnie: obciążenie wyników przy małej liczbie klastrów

A

B

A

B

Page 53: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Zwiększenie liczby uczniów w klastrze nie zwiększa wiarygodności badania.

Uczniowie w ramach szkoły będą podobni (profil

ucznia w ramach szkoły jest w miarę jednolity).

Nowy uczeń z tej samej szkoły w badaniu nie niesie

zbyt wielu nowych informacji i nie zwiększa

znacząco reprezentatywności badania.

Aby zwiększyć moc badania trzeba zwiększyć

liczbę szkół (czyli klastrów).

Page 54: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Współczynnik korelacji wewnątrzgrupowej (ρ)

Stopień w jakim są podobni (homogeniczni) respondenci w ramach klastra.

Jeśli ρ=1

• Wszystkie osoby w ramach klastra są takie same.

• Zwiększenie liczby osób w ramach klastra w ogóle nie poprawia jakości badania

• Efektywna wielkość próby jest równa liczbie klastrów

Jeśli ρ=0

Sytuacja taka sama, jak gdybyśmy mieli do czynienia z randomizacją na poziomie osób (z pominięciem klastrów).

Page 55: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Poniższe badania mają dokładnie taką samą

moc:*

• 80 klastrów, 20 osób w klastrze

• 40 klastrów, 1 067 osób w klastrze

Porównajmy koszty: 1 600 osób v. 42 680!

*Założony współczynnik korelacji wewnątrzgrupowej 5%

Przykład - klastry

Page 56: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Przykład – klastry vs losowanie indywidualne

Oba poniższe badania mają taką samą moc*:

• Poziom indywidualny: po 393 w grupie

kontrolnej i eksperymentalnej [N=786]

• Losowanie grupowe: 80 klastrów, 20 osób na

klaster [N=1600]

Jeśli losujemy z klastrów, potrzebna jest większa próba.

*Założony współczynnik korelacji wewnątrzgrupowej 5%

Page 57: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

CLICKER QUESTION Zakładając, że rząd ma fundusze na 2000 wywiadów, którą opcję powinniśmy wybrać aby zmaksymalizować moc badania? (Wnioski z analizy mają dotyczyć populacji bezrobotnych w całej Polsce)

A. Przeprowadzenie 20 ankiet

na powiat w 100 powiatach.

B. Przeprowadzenie 50 ankiet

na powiat w 40 powiatach.

C. Przeprowadzenie 500 ankiet

na powiat w 4 powiatach.

D. Nie ma znaczenia, moc testu

i tak będzie wystarczająca.

A. B. C. D.

0% 0%0%0%

Page 58: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Inne sposoby zwiększania mocy przy tej

samej wielkości próby

• Stratyfikacja

• Kontrolowanie wszystkich istotnych zmiennych (e.g.

płeć, wiek, zawód)

• Solidne, rzetelne zbieranie danych

• Adekwatna metoda statystyczna

Page 59: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

wskazówki dla analityków

REGUŁY KCIUKA

Page 60: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Reguły kciuka

Losowanie indywidualne:

• 100 osoba próba losowa rzadko jest wystarczająca.

• 1000 osobowa próba losowa (i równy podział między

grupę kontrolną i eksperymentalną) zwykle wystarcza.

Dobór grupowy:

• 10 klastrów w grupie eksperymentalnej i 10 w kontrolnej

rzadko jest wystarczające.

• 50 klastrów w grupie eksperymentalnej i 50 w kontrolnej,

z co najmniej 15 osobami w klastrze, zwykle wystarcza.

ZASTRZEŻENIE: ostateczna optymalna wielkość próby zależy od takich

czynników jak: zmienność zjawiska, korelacja wewnątrzgrupowa,

oczekiwana wielkość efektu, korelacja między wartościami punktów

końcowych przed i po badaniu, itd.

Page 61: Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Kluczowe wnioski z wykładu

• Aby badanie było wiarygodne należy mieć

odpowiednią wielkość próby

• Zwiększenie próby powoduje zwiększenie

mocy badania • Randomizacja na poziomie osób poprzez wzrost liczby

osób

• Randomizacja na poziomie klastrów poprzez wzrost liczby

klastrów (a nie osób w klastrach)

• Wykrycie mniejszego efektu wymaga użycia

większej próby