Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco

Warsztaty szkoleniowe z zakresu oceny oddziaływania

instrumentów aktywnej polityki rynku pracy

Ustalanie mocy testu i

optymalnej wielkości próby

Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.

Plan wykładu

Dlaczego próbkowanie jest potrzebne? (powtórzenie)

Jakie znaczenie ma wielkość próby? (nowość)

Jaka próba jest dostatecznie duża? (nowość)

Jak zwiększyć moc testu? (nowość)

DLACZEGO PRÓBKOWANIE JEST KONIECZNE?

Próbkowanie pozwala…

1. Populacja docelowa 2. Próba badawcza

Takie same charakterystyki

(trafność zewnętrzna)

wnioskować o charakterystykach populacji

Typowe dylematy badacza (o wielkości próby)

• Powinienem wylosować 200, czy raczej 500

obserwacji do mojej próby?

• Jaka jest praktyczna różnica między próbą 200 a

500? Czy da się to skwantyfikować?

• Czy są jakieś reguły pozwalające ustalić optymalną

wielkość próby?

• Jak duża próba jest już wystarczająco duża?

JAKIE ZNACZENIE MA WIELKOŚĆ PRÓBY?

Przykład – badanie wzrostu Polaków

Załóżmy, że wybraliśmy (losowo) 10 osób z populacji Polski, mierząc ich

wzrost i następnie opierając się o prostą średnią wzrostu w próbie,

twierdzimy:

„średni wzrost Polaka wynosi 170 cm”

Dajecie wiarę temu wnioskowi? Dlaczego? Dlaczego nie?

Przykład – badanie wzrostu Polaków

Załóżmy teraz, że wybraliśmy (losowo) 1000 osób z populacji Polski,

mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu

w próbie, twierdzimy:

„średni wzrost Polaka to 170 cm”

Czy wierzycie teraz mniej lub bardziej we wnioski z badania? Dlaczego?

Znaczenie wielkości próby

Duża próba losowa zwiększa wiarygodność badania, ponieważ:

• Mamy większą pewność że próba ma takie same

charakterystyki jak populacja.

• Jest mniejsza szansa, że ewentualne obserwacje odstające

spowodują obciążenie wyników.

• Jest większa szansa, że otrzymany wynik będzie bliższy

prawdziwemu i że błąd wynikający z przypadkowości losowania

będzie mniejszy.

Intuicyjnie: Im większa jest próba, tym mniejsza niepewność związana z wynikiem.

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim

okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.

Jakie mamy możliwości?

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim

okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553.

Jakie mamy możliwości?

1) Zmierzyć wzrost wszystkich osób w populacji docelowej i podać wynik

(średnia).

2) Skonstruować próbę losową, policzyć średnią, przeprowadzić prosty test

statystyczny i wyciągnąć wnioski nt. wzrostu w populacji.

Ponieważ było wystarczające finansowanie projektu, analitycy PUP-u zmierzyli

wzrost wszystkich osób bezrobotnych w powiecie. Zatem bez wykorzystania

testów statystycznych, mogli stwierdzić że prawdziwy średni wzrost wśród

bezrobotnych (na terenie ich powiatu) wynosi 165,1 cm.

Dodatkowo, pewien dociekliwy analityk postanowił sprawdzić co by było, gdyby

zamiast obranej strategii zdecydowano się oprzeć badanie na próbie losowej

i estymować oczekiwany wzrost bezrobotnego, za pomocą średniej z próby.

Badacz przeprowadził w tym celu następujący eksperyment. Z tej samej

populacji wylosował 30 podprób – 10 po 5 os., 10 po 10 os. wreszcie 10 po 20

os.

Case study - analiza wyników

Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161

Średnie z średnich

166,0 165,5 165,4

Błąd standardowy oszacowań

2,72 1,78 1,51 Źródło: Kopczyński M. (2005). Podstawy statystyki. Podręcznik dla humanistów. Warszawa:

Oficyna Wydawnicza „Mówią wieki”.

Case study - analiza wyników


n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161


166,0 165,5 165,4


2,72 1,78 1,51

Ta liczba oznacza, że w

pierwszej podpróbie

składającej się z 5 obs.

średni wzrost wyniósł 170,1

cm Ta liczba oznacza, że w

trzeciej podpróbie składającej

się z 20 obs. średni wzrost

wyniósł 168,4 cm.

Ta liczba oznacza, że w

drugiej podpróbie składającej

się z 10 obs. średni wzrost

wyniósł

169 cm.

Case study - wnioski Średnie w podpróbach

n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161


166,0 165,5 165,4


2,72 1,78 1,51

Przeciętny rezultat eksperymentu jest bliższy prawdzie w próbie

liczniejszej.

Case study - wnioski

Niepewność wyniku (mierzona bł. std.) jest mniejsza dla prób

liczniejszych


n = 5 n = 10 n = 20

170,1 170 170

169,4 169 169

168 168,5 168,4

167,19 167 167

166,8 166,16 166,2

165,7 165,70 165,95

164,0 164,51 164,65

163,22 163 163,6

162,4 162 162,9

161 161,9 161


166,0 165,5 165,4


2,72 1,78 1,51

Case study - podsumowanie

- W liczniejszej próbie jest większa szansa na to aby

wynik był dokładniejszy.

- Liczniejsze próby mają mniejszy błąd wyniku związany z

losowaniem (błąd czysto losowy).

- Liczniejsze próby mają bardziej stabilny wynik w ramach

eksperymentu (mniejszy błąd standardowy).

Skąd wiemy, że wnioski z badań nie

są przypadkowe?

Zwyczajowo przyjmuje się 95% poziom ufności.

Przez „ufność” rozumiemy pewność, że zaobserwowany

wynik nie jest przypadkowy (tzn. że nie wynika z błędu czysto

losowego).

Przedziały ufności są statystyczną miarą naszej ufności

w wyniki.

Testowanie przedziałem ufności

Grupa

eksperymentalna

Statystycznie

nieistotny wynik

Poziom

bezrobocia

95% poziom ufności

Wielkość próby = 200

35%

45%

40%

Grupa

kontrolna

Przykład

Rząd chciałby przetestować nowy model aktywizacji bezrobotnych i zdecydował

się na przeprowadzenie programu pilotażowego w jednym z powiatów. Połowa

losowo wyselekcjonowanych bezrobotnych została wybrana do nowego

programu, a wobec pozostałych stosowano politykę sprzed reformy.

Do badania ewaluacyjnego wylosowano po 200 osób do grupy kontrolnej i

eksperymentalnej.

Załóżmy teraz, że stopa zatrudnienia po roku działania wśród osób

obserwowanych w badaniu ewaluacyjnym, objętych nowym programem wynosiła

65%, a w grupie kontrolnej 55%. Pojawia się kluczowe pytanie:

Czy różnica między grupami jest statystycznie istotna?

Spróbujmy rozważyć kilka analiz statystycznych z różnymi zestawami

parametrów badawczych.

35%

45%

30%

Grupa

eksperymentalna

Grupa

kontrolna

Statystycznie

nieistotny wynik

Poziom

bezrobocia

95% poziom ufności


Testowanie przedziałem ufności

Przykład (2) – ufność w wyniki

Co by się stało, gdyby wskaźniki 55% i 65% były

prawdziwe, a my byśmy wyselekcjonowali do badania 1000

osób (500+500) zamiast 400 (200+200).

Liczniejsza próba oznacza pewność wyniku

35%

45%

40%

Grupa

eksperymentalna

Grupa

kontrolna

Statystycznie

istotny wynik

Poziom

bezrobocia

95% poziom ufności


Intuicja: szerokość przedziału ufności (błąd) a wielkość próby

błąd = ½ * szerokość przedziału ufności/efektu programu

Duża próba v. mała próba wnioski

• Liczniejsza próba zwęża przedziały ufności, co

odzwierciedla wzrost pewności wyników.

• Z licznością próby rośnie prawdopodobieństwo

zaobserwowania statystycznie istotnego wyniku.

Przykład (2) – Wielkość efektu

(effect size)

Załóżmy, że w wyniku działania tego samego

programu spodziewany jest większy efekt (20

punktów procentowych różnicy zamiast

wyjściowych 10 pp.).

Projektując ewaluację, powinno się zwiększyć czy

zmniejszyć próbę badawczą?

CLICKER QUESTION Program A: oczekujemy dużej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (20 pp.) Program B: oczekujemy małej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (10 pp.) Aby oba badania miały tę samą moc, który scenariusz badawczy powinien zakładać większą próbę? A. Program A

B. Program B

C. Taka sama próba dla

scenariuszy A and B

A. B. C.

0% 0%0%

Wielkość efektu v. wielkość próby

N = 200 N = 500

Wielkość efektu wnioski

• Im większy rezultat naszej polityki, tym

mniejszej próby potrzebujemy aby go

udowodnić.

Podsumowanie

Zakładając, że estymowany efekt jest prawdziwy, zwiększamy

prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie

dostatecznie duża.

Więc jeśli zwiększanie próby może tylko poprawić jakość badania,

czemu nie badać za każdym razem całej populacji?

Podsumowanie

Zakładając, że estymowany efekt jest prawdziwy, zwiększamy

prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie

dostatecznie duża.

Więc jeśli zwiększanie próby może tylko poprawić jakość badania,

czemu nie badać za każdym razem całej populacji?

• ograniczone fundusze,

• malejąca korzyść z dodatkowej jednostki w próbie (np. malejący

wzrost wiarygodności wyników z 1 dodatkowej osoby w dużej próbie).

Potrzebne jest zatem narzędzie, które pozwoli na policzenie optymalnej

wielkości próby.

Optymalnej, czyli minimalnej próby potrzebnej do udowodnienia na

danym poziomie ufności założonego a priori efektu.

JAKA PRÓBA JEST DOSTATECZNIE DUŻA?

POWER CALCULATIONS

Moc

Prawdopodobieństwo wykrycia efektu, pod

warunkiem że hipoteza o istnieniu efektu jest

prawdziwa.

Standardowo przyjmuje się poziom mocy testu

80%.

Oznacza to akceptację 20% prawdopodobieństwa

nie wykrycia efektu nawet jeśli jest prawdziwy.

Potrzebna jest większa próba, aby moc była większa!

Liczenie wielkości próby

• Mając:

• ustalony poziom ufności (zwykle 95%),

• założony poziom mocy testu (zwykle 80%),

• założoną wielkość efektu (zależy od

charakteru programu, ale za istotny uznaje się

efekt co najmniej na poziomie 20% odchylenia

standardowego w próbie),

możemy wyznaczyć minimalną wielkość próby

potrzebną do otrzymania statystycznie

istotnego wyniku.

Liczenie wielkości próby - przykład

Minimalny wykrywalny efekt

• Mając:

• ustalony poziom ufności (zwykle 95%),

• założony poziom mocy testu (zwykle 80%),

• założoną wielkość próby,

możemy policzyć minimalny efekt, jaki musimy

osiągnąć, aby udowodnić pozytywne skutki

ewaluowanej polityki.

JAK ZWIĘKSZYĆ MOC?

1. Zmienności w populacji

2. Wielkości efektu

3. Reprezentatywności próby

• Czy potrzebujemy stratyfikacji w schemacie

losowania?

4. Sposobu randomizacji (jednostki v. grupy):

• Czy losujemy pojedynczych respondentów,

czy raczej klastry? (szkoły, powiaty, etc.)

Moc testu zależy od wielu czynników

1. Jak podobne/różne są osoby w populacji?

Populacja

jednorodna

Populacja

zróżnicowan

a

Test: Jak reagują na zmiany?

Podobnie

W różny

sposób

Jeśli populacja jest jednorodna, jest mniejsza szansa na uzyskanie przypadkowego wyniku

130 cm

140 cm

130 cm Bez dodatkowego dożywiania wzrost dzieci wynosi 130 cm.

Jeśli w grupie eksperymentalnej dzieci są wyższe (140 cm) to jest to wynik

działania programu.

W eksperymencie kontrolowanym przeprowadzonym na grupie

heterogenicznej wnioskowanie nie jest takie proste – przypadkowość wyniku

jest większa.

Jeśli oczekiwany jest duży efekt, zostanie wykryty nawet w

małej próbie badawczej.

Dlaczego? Ponieważ przy zaobserwowaniu dużej różnicy w

punkcie końcowym prawdopodobieństwo, że taki wynik jest

przypadkowy, jest niewielkie.

Odwrotnie, jeśli oczekujemy małych efektów (ale mających

praktyczne znaczenie), należy zwiększyć próbę aby

zwiększyć szansę udowodnienia go w analizie statystycznej.

UWAGA: NIE NALEŻY ROBIĆ NIEREALISTYCZNYCH

ZAŁOŻEŃ ODNOŚNIE WIELKOŚCI EFEKTU!!

2. Jak poprawnie założyć wielkość efektu?

Kto jest wyższy?

Kto jest wyższy?

3. Stratyfikacja próby losowej

Czasami próba losowa nie jest wystarczająco duża,

abyśmy ex ante mieli zapewnioną

reprezentatywność badania (trafność zewnętrzna)

więc może okazać, że nie możemy rozciągnąć

wniosków z badania na populację.

Dlatego, musimy w schemacie losowania dokonać

stratyfikacji (warstwowania) aby upewnić się, że

kluczowe charakterystyki będą miały taki sam

rozkład w próbie i populacji.

4. Losowanie grupowe

Czasami zależy nam na posiadaniu w próbie osób

należących do różnych jednostek – szkół,

miejscowości, powiatów, etc. Co wtedy?

TEST Rząd zamierza dokonać ewaluacji nowego programu edukacyjnego w szkołach podstawowych. Badanie ewaluacyjne jest randomizowane na poziomie powiatu. Aby zwiększyć moc testu i wiarygodność badania analityk ma do wyboru jedną z dwóch strategii. Którą powinien zastosować?

A. Zwiększyć liczbę osób

badanych na poziomie

wybranego powiatu

B. Zwiększyć liczbę

powiatów

wyselekcjonowanych do

badania

Zw

ięks

zyć l

iczbę o

sób b

...

Zwię

kszy

ć licz

bę pow

iat..

0%0%

Przykład: losowanie grupowe v. indywidualne



4. Losowanie grupowe

Czasami zależy nam na posiadaniu w próbie osób

należących do różnych jednostek – szkół, miejscowości,

powiatów, etc. Co wtedy?

Jeśli losujemy na poziomie klastrów (np. powiatów), aby

utrzymać moc testu musimy zwiększyć ich liczbę.

Zwiększenie liczby osób wewnątrz klastrów nic nie da –

do próby będą trafiały osoby z tych samych klastrów,

wnosząc relatywnie niewiele nowej informacji – ich

zachowanie jest silnie powiązane z przynależnością do

konkretnego klastra.

Przykład: wyniki uczniów w ramach szkoły

Szkoła A

Szkoła B

Intuicyjnie: obciążenie wyników przy małej liczbie klastrów

A

B

A

B

Zwiększenie liczby uczniów w klastrze nie zwiększa wiarygodności badania.

Uczniowie w ramach szkoły będą podobni (profil

ucznia w ramach szkoły jest w miarę jednolity).

Nowy uczeń z tej samej szkoły w badaniu nie niesie

zbyt wielu nowych informacji i nie zwiększa

znacząco reprezentatywności badania.

Aby zwiększyć moc badania trzeba zwiększyć

liczbę szkół (czyli klastrów).

Współczynnik korelacji wewnątrzgrupowej (ρ)

Stopień w jakim są podobni (homogeniczni) respondenci w ramach klastra.

Jeśli ρ=1

• Wszystkie osoby w ramach klastra są takie same.

• Zwiększenie liczby osób w ramach klastra w ogóle nie poprawia jakości badania

• Efektywna wielkość próby jest równa liczbie klastrów

Jeśli ρ=0

Sytuacja taka sama, jak gdybyśmy mieli do czynienia z randomizacją na poziomie osób (z pominięciem klastrów).

Poniższe badania mają dokładnie taką samą

moc:*

• 80 klastrów, 20 osób w klastrze

• 40 klastrów, 1 067 osób w klastrze

Porównajmy koszty: 1 600 osób v. 42 680!

*Założony współczynnik korelacji wewnątrzgrupowej 5%

Przykład - klastry

Przykład – klastry vs losowanie indywidualne

Oba poniższe badania mają taką samą moc*:

• Poziom indywidualny: po 393 w grupie

kontrolnej i eksperymentalnej [N=786]

• Losowanie grupowe: 80 klastrów, 20 osób na

klaster [N=1600]

Jeśli losujemy z klastrów, potrzebna jest większa próba.

*Założony współczynnik korelacji wewnątrzgrupowej 5%

CLICKER QUESTION Zakładając, że rząd ma fundusze na 2000 wywiadów, którą opcję powinniśmy wybrać aby zmaksymalizować moc badania? (Wnioski z analizy mają dotyczyć populacji bezrobotnych w całej Polsce)

A. Przeprowadzenie 20 ankiet

na powiat w 100 powiatach.

B. Przeprowadzenie 50 ankiet


C. Przeprowadzenie 500 ankiet


D. Nie ma znaczenia, moc testu

i tak będzie wystarczająca.

A. B. C. D.

0% 0%0%0%

Inne sposoby zwiększania mocy przy tej

samej wielkości próby

• Stratyfikacja

• Kontrolowanie wszystkich istotnych zmiennych (e.g.

płeć, wiek, zawód)

• Solidne, rzetelne zbieranie danych

• Adekwatna metoda statystyczna

wskazówki dla analityków

REGUŁY KCIUKA

Reguły kciuka

Losowanie indywidualne:

• 100 osoba próba losowa rzadko jest wystarczająca.

• 1000 osobowa próba losowa (i równy podział między

grupę kontrolną i eksperymentalną) zwykle wystarcza.

Dobór grupowy:

• 10 klastrów w grupie eksperymentalnej i 10 w kontrolnej

rzadko jest wystarczające.

• 50 klastrów w grupie eksperymentalnej i 50 w kontrolnej,

z co najmniej 15 osobami w klastrze, zwykle wystarcza.

ZASTRZEŻENIE: ostateczna optymalna wielkość próby zależy od takich

czynników jak: zmienność zjawiska, korelacja wewnątrzgrupowa,

oczekiwana wielkość efektu, korelacja między wartościami punktów

końcowych przed i po badaniu, itd.

Kluczowe wnioski z wykładu

• Aby badanie było wiarygodne należy mieć

odpowiednią wielkość próby

• Zwiększenie próby powoduje zwiększenie

mocy badania • Randomizacja na poziomie osób poprzez wzrost liczby

osób

• Randomizacja na poziomie klastrów poprzez wzrost liczby

klastrów (a nie osób w klastrach)

• Wykrycie mniejszego efektu wymaga użycia

większej próby

Documents

Warsztaty szkoleniowe z zakresu oceny oddziaływania ...pubdocs.worldbank.org/en/556481498503853623/T-13...3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco