Propensity Score Matching - Uniwersytet Warszawskicoin.wne.uw.edu.pl/pstrawinski/psm/psm05.pdf · Szacowanie ATT Wyniki Analiza wrażliwości Podsumowanie Oszacowania efektu szkolenia

Dehejia i Wahba (1999)

Propensity Score Matching

Paweł Strawiński

Zajęcia 5

Paweł Strawiński Propensity Score Matching


Plan na dziś

1 Dehejia i Wahba (1999)Wyniki LaLonde (1986)Szacowanie ATTWynikiAnaliza wrażliwościPodsumowanie



Wyniki LaLonde (1986)Szacowanie ATTWynikiAnaliza wrażliwościPodsumowanie


Causal Effects in Nonexperimental Studies:Reevaluating the Evaluation of Training Programs

Rajeev H. Dehejia, Sadek Wahba,Journal of the American Statistical Association, vol. 94, nr. 448,str. 1053-1062.




Podsumowanie wyników LaLonde (1986)

W artykule pokazany jest sposób szacowania efektówoddziaływania na podstawie danych nieeksperymentalnych

W artykule wykorzystano dane z artykułu LaLonde (1986)

Celem badania LaLonde (1986) było pokazanie który sposóbszacowania efektów oddziaływania na podstawie danychprzekrojowych (nieeksperymentalnych) pozwala uzyskaćnieobciążone oszacowanie zgodne z wynikiem eksperymentu

Wnioskiem z badania LaLonde było, że metodynieeksperymentalne dają mniej dokładne wyniki w stosunkudo metod eksperymentalnych lub te wyniki są zależne odwybranej specyfikacji modelu




Cel artykułu

W artykule autorzy wykorzystują metody propensity score dodanych z badania LaLonde (1986)

W celu budowania grupy kontrolnej wykorzystują technikępropensity score matching

Zauważają, że uwzględnienie różnic wszystkich charakterystyksprzed interwencji jest trudne w przypadku, gdy jest dużaliczba takich charakterystyk lub gdy grupa eksperymentalnaróżni się znacznie od potencjalnych jednostek kontrolnych

Oszacowana wartość propensity score jest jedną liczbąpodsumowującą wartości wszystkich charakterystyk dla danejobserwacji




Cel artykułu

Oszacowane wartości propensity score mogą być wykorzystanedo kontroli różnic pomiędzy grupą poddaną oddziaływaniueksperymentalnemu i oddziaływaniu kontrolnemu

Metoda PSM opiera się na założeniu, że przydzielenieoddziaływania jest powiązane wyłącznie z obserwowanymicharakterystykami przed interwencją (ignorable treatment,selection on observables)

Badanie pokazało, że wykorzystanie techniki propensity scorematching do danych LaLonde pozwala na uzyskane oszacowańbliższych oszacowaniom eksperymentalnym niż wynikiLaLonde (1986)




Informacje ogólne

National Supported Work Demonstration był programemczasowego zatrudnienia dla osób pozbawionych podstawowychkwalifikacji

Program był zarządzany przez Manpower DemonstrationResearch Corporation

Uczestnicy programu byli przydzielani do różnego typu działańw sposób losowy

Pomoc otrzymała jedynie część aplikujących. W rezultacieschemat programu zapewnił istnienie grupy odniesienia




Program szkoleń NSW

Program prowadzono w dziesięciu miejscach w StanachZjednoczonych Ameryki Północnej (Atlanta, Chicago,Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia,San Francisco, Wisconsin)

Program trwał od 6 do 18 miesięcy

Od wszystkich potencjalnych uczestników zebrano dane,a następnie ankietowano po zakończeniu programu

W artykule ograniczono się do analizy danych dla mężczyzn

Uzasadnieniem wyboru był brak odporności wynikówuzyskanych przez LaLonde na zmiany specyfikacji formyfunkcyjnej modelu, szczególnie dla tej grupy




Program szkoleń NSW

Kandydaci byli włączani do programu w okresie od marca1975 do lipca 1977

Jedną z konsekwencji jest fakt, iż osoby przyjętew początkowym okresie do programu różniły się podwzględem charakterystyk ekonomicznych i demograficznychod osób przyjętych w późniejszym okresie

Dodatkowo różnią się one pod względem czasu ekspozycji naoddziaływanie eksperymentalne

By temu przeciwdziałać LaLonde zdyskontował uzyskiwanezarobki




Ograniczenie próby

LaLonde ograniczył próbę do osób przyjętych do programu pogrudniu 1975, którzy zakończyli uczestnictwo w programieprzed styczniem 1978

Dzięki temu mógł potraktować zarobki z roku 1975 jakowartość niezależną od oddziaływania (ang. preinterventionvariable) a zarobki z roku 1978 jako jego wynik

Literatura pokazuje, że w przypadku oceny programuaktywizacji na rynku pracy uwzględnienie zarobków tylkoz jednego roku może być niewystarczające

W związku z tym, autorzy ograniczają próbę LaLonde do osóbdla których dostępna jest informacja o wysokości zarobkóww 1974 roku




Losowość próby

Podpróba jest wybierana na podstawie miesiąca przystąpieniado programu i historii zatrudnienia, preintervention variables

Przy spełnionym założeniu, że pierwotna randomizacja byłaniezależna od charakterystyk osób sprzed interwencjiograniczona próba zachowuje cechy danycheksperymentalnych

W grupie eksperymentalnej i kontrolnej rozkładycharakterystyk sprzed interwencji są identyczne

LaLonde (1986) wykorzystał próbę eksperymentalną liczącą297 obserwacji i grupę kontrolną liczącą 425 obserwacji

Dehejia i Wahba ograniczyli liczebność próby eksperymentalnejdo 185 obserwacji, a grupy kontrolnej do 260 obserwacji




Charakterystyki próby

Podpróba danych eksperymentalnych Dehejia i Wahba (1999)różni się od danych LaLonde (1986)

Najważniejszą różnicą jest wysokość zarobków w 1975 roku

Jest to suma efektu kohorty i faktu, że w próbie Dehejiai Wahba jest większa liczba osób, które przed programem byłybezrobotne

Różnice w rozkładzie charakterystyk sprzed programu nie sąstatystycznie istotne poza zmienną no degree




Tabela 1.Charakterystyka danych




Grupy odniesienia

PSID-1: Wszystkie gospodarstwa które uczestniczyływ badaniu w latach 1975-1979, głową był mężczyzna w wieku20-55 i nie był na emeryturze w 1975

PSID-2: PSID-1 ograniczone do mężczyzn nie pracującychw 1976

PSID-3: PSID-1 ograniczone do mężczyzn nie pracującychw 1975 i 1976

CPS-1: Wszyscy mężczyźni z CPS w wieku do 55 lat

CPS-2: Wszyscy mężczyźni z CPS w wieku do 55 lat, niepracujący wiosną 1975

CPS-3: CPS-1 ograniczone do bezrobotnych mężczyznw 1976, których dochód w 1975 był poniżej linii ubóstwa




Grupy odniesienia

Próby PSID-1 - PSID-3 oraz CPS-1 są identyczne jak wbadaniu LaLonde, prób CPS-2 i CPS-3 autorom nie udało siędokładnie odtworzyć, użyto prób podobnych

Dehejia i Wahba zauważają, że rozkłady cech w podpróbachróżnią się od rozkładów tych cech w grupie eksperymentalnej




Tabela 1. Charakterystyka grup odniesienia




Charakterystyka grup odniesienia

Rozkłady charakterystyk w grupach PSID-1 oraz CPS-1 różniąsię w sposób istotny statystycznie od rozkładu w grupieeksperymentalnej

W przypadku dodatkowych grup skonstruowanych przezLaLonde różnice w wartościach charakterystyk są mniejsze, alepozostają statystycznie istotne na poziomie istotności 1 %




Oszacowania efektu uczestnictwa w programie

W kolejnym kroku autorzy odtworzyli oryginalne wynikiartykułu LaLonde (1986) (tabela A)

W modelu regresji jako zmiennych kontrolnych użyto: age,age squared, years of schooling, high school dropout status,black, hispanic oraz w przypadku tabeli C zarobków w 1974roku (tabela C)

Następnie zastosowali te same techniki analizy do wybranegopodzbioru danych w dwóch wariantach

bez dodatkowej zmiennej wysokość zarobków w 1974 roku(tabela B)z dodatkową zmienną wysokość zarobków w 1974 roku (tabelaC)




Oszacowania efektu uczestnictwa w programie

Dehejia i Wahba uzyskali wyższą wartość oszacowania dlaefektu uczestnictwa w programie

Wyższy jest efekt uczestnictwa w programie dla osób, którewcześniej przystąpiły do programu oraz osób bezrobotnychprzed programem

Oszacowania w kolumnie 5, gdzie użyto pełnego zestawuzmiennych kontrolnych, są najbliższe wynikomeksperymentalnym




Tabela 2. Dane LaLonde (1986)




Tabela 2. Podpróba Dehejia i Wahba (1999)




Oszacowania efektu szkolenia

Uwzględnienie dodatkowej zmiennej poprawia oszacowaniawzględem zaprezentowanych w części B tabeli 2.

Część oszacowań nadal ma wartość ujemną ale bliższąwartości zero

Wartości w kolumnie (4) i (5) są bliższe wynikomeksperymentalnym niż odpowiadające im rezultaty z tabeli 2B

Wyniki najbliższe eksperymentalnym uzyskano dla próbyCPS-3.




Tab 2. Podpróba Dehejia i Wahba (1999) z zarobkami 1974




Metoda szacowania

W pierwszym kroku szacowane jest propensity score dla każdejpróby

Autorzy wybrali model logistyczny

Początkowo wprowadzono zmienne w pierwszej potędze

Autorzy grupowali obserwacje ze względu na oszacowanąwartość propensity score i weryfikowali zbilansowanierozkładów charakterystyk w każdej warstwie

W artykule nie jest to wprost napisane, ale zapewne podzieliliprzedział [0, 1] na dwadzieścia warstw o szerokości 0,05

W każdej warstwie przeprowadzili test równości rozkładuoparty o dwa pierwsze momenty (średnia i wariancja)




Metoda szacowania

W przypadku braku istotnych różnic autorzy akceptowalispecyfikację formy funkcyjnej modelu

W przypadku istotnych statystycznie różnic, autorzy dodawaliczynniki wyższego rzędu (zmienne w kolejnych potęgach) orazinterakcje między zmiennymi. Czynność była powtarzana douzyskania zbilansowania rozkładów

W drugim kroku szacowano rozmiar efektu wykorzystującnieparametryczny model regresji z jedną zmienną objaśniającą.Nieparametryczną metodą była stratyfikacja albo matching




Stratyfikacja

Obserwacje są sortowane względem oszacowanej wartościpropensity score od najmniejszej do największej

Obserwacje z wartością propensity score mniejszą niżminimum i większą niż maksimum dla grupy eksperymentalnejsą usuwane

Warstwy, definiowane na postawie wartości propensity score sąustalane tak, by rozkłady zmiennych były w każdej warstwiezbilansowane

Ważona różnica między średnim wynikiem w grupieeksperymentalnej i kontrolnej jest oszacowaniemprzeciętnego efektu oddziaływania wobec jednostek poddanychoddziaływaniu (ATT), wagami są liczby obserwacji w grupieeksperymentalnej




Matching

Każda jednostka z grupy eksperymentalnej jest łączona zezwracaniem z najbliższą jednostką z grupy kontrolnej podwzględem wartości propensity score. Ta technika nosi nazwęłączenia najbliższych sąsiadów (ang. nearest neighbourmatching)

Jednostki nie poddane oddziaływaniu, które nie zostanąpołączone nie są brane pod uwagę przy obliczaniuoszacowania efektu oddziaływania




Uzasadnienie podejścia dwuetapowego

Szacowanie ATT z wykorzystaniem regresji nieparametrycznejbędzie narażone na problem wielowymiarowości

Ten problem powoduje, że do szacowania propensity score jestwykorzystywany model parametryczny

Dzięki temu oszacowania są mniej czułe na zmianyspecyfikacji modelu dla propensity score

Przyjęta metoda weryfikacji poprawności szacowaniapropensity score powoduje, że charakterystyki sprzedinterwencji są zbilansowane

Jest to warunkiem dostatecznym dla uzyskania nieobciążonychoszacowań dla ATT




Liczebność grup kontrolnych

Większość obserwacji z PSID (1333 z 2490) oraz CPS (12611z 15992) nie jest uwzględnianych podczas szacowania wartościefektu oddziaływania, ponieważ wartość propensity score jestniższa niż minimum w grupie eksperymentalej

Pomimo tego pierwsza warstwa zawiera większość jednostekz grupy kontrolnej i tylko kilka z grupy eksperymentalnej

W przypadku dużej liczby warstw liczebność grupyeksperymentalnej przewyższa liczebność grupy kontrolnej

Wspólna część przedziału określoności dla wartości propensityscore (overlap) jest niewielka




Histogram propensity score dla PSID




Histogram propensity score dla CPS




Szacowanie wartości oddziaływania

Autorzy wykorzystali warstwowanie w celu pogrupowniajednostek z grupy eksperymentalnej

Wartość efektu oddziaływania obliczono osobno dla każdejwarstwy jako różnicę w średnich zarobkach w 1978 roku dlagrupy eksperymentalnej i kontrolnej

Następnie utworzono ważoną średnią, w której wagami byłyliczebności warstw w grupie eksperymentalnej (kolumna 4)

Alternatywnym sposobem szacowania efektu oddziaływaniabyła regresja wewnątrz warstw (kolumna 5)

Wykorzystano również propensity score matching (kolumna 7,przed łączeniem i 8 po łączeniu)




Formy funkcyjne modelu

a: regresja RE78 na wskaźnik oddziaływania oraz age, agesquared, education, no degree, black, hispanic, RE74, RE75b: regresja RE78 na wskaźnik oddziaływania oraz propensityscore i propensity score2d: ważona MNK, specyfikacja jak w (a).e: PSID1: logit dla Pr(T=1)=f(age, age2, education,education2, married, nodegree, black, hispanic, RE74, RE75,RE742, RE752, u74×black)f: PSID2 oraz PSID3: logit dla Pr(T=1)=f(age, age2,education, education2, married, nodegree, black, hispanic,RE74, RE75, RE742, RE752, u74, u75)g: CPS: logit dla Pr(T=1)=f(age, age2, education, educaion2,married, nodegree, black, hispanic, RE74, RE75, u74, u75,education×RE74, age3)




Oszacowania wartości efektu

Dla próby PSIDOszacowanie metodą warstwowania wynosi 1608$Oszacowanie metodą propensity score wynosi 1691$Obie wartości są bliskie wynikowi eksperymentalnemuUwzględnienie dodatkowych zmiennych wpływa w niewielkimstopniu na wartość oszacowania efektu

Dla próby CPSOszacowanie metodą warstwowania wynosi 1713$Oszacowanie metodą propensity score wynosi 1582$Obie wartości są bliskie wynikowi eksperymentalnemuUwzględnienie dodatkowych zmiennych wpływa w niewielkimstopniu na wartość oszacowania efektu

Wyniki są znacznie bliższe wynikom eksperymentalnym niżw artykule LaLonde (1986)




Tabela 3. Oszacowania wartości efektów programu




Oszacowania wartości efektu

Dla mniej liczebnych podprób oszacowania są bliższewartościom z eksperymentu

Aczkolwiek nadal rozrzut (wariancja) uzyskanych oszacowańjest znaczna

Wyjaśnienia dlaczego tak się dzieje dostarcza tabela 4prezentująca statystyki opisowe dla mniej liczebnych grupodniesienia

Próby PSID-1 oraz CPS-1 są zbliżone pod względem rozkładucharakterystyk do grupy eksperymentalnej, mniej liczebnepodpróby mają inne rozkłady dla poszczególnychcharakterystyk

Szczególnie duże rozbieżności w rozkładach są widoczne dladanych PSID




Tabela 4. Statystyki opisowe grup odniesienia




Charakterystyki grup odniesienia

Połączona część (ang. matched subset) prób CPS-1 orazPSID-1 jest po względem rozkładu cech bardzo podobna docech jednostek z grupy eksperymentalnej

W przypadku mniej liczebnych podzbiorów już tak nie jest.Jest to szczególnie widoczne w podgrupach z badania PSID




Ważna cecha PSM

Ważną cechą metod wykorzystujących propensity score jestfakt, że podpróby zbudowane metodą ad-hoc nie są anipotrzebne ani pożądane. Podpróby zbudowane na podstawierozkładu jednej charakterystyki mogą być wystarczające dozbilansowania rozkładu pozostałych charakterystyk

Wektor propensity score uwzględnia równocześnie wszystkiecharakterystyki, większą wagę przykładając do najbardziejodpowiednich jednostek porównawczych pod względemwszystkich cech, nie tylko wybranej jednej




Komentarz do wyników

Pomimo tego, że oszacowania wykorzystujące propensity scorematching są bliższe wynikom eksperymentalnym niżoszacowania wykorzystujące modele regresji, odchyleniastandardowe oszacowań są znacznie większe.

Dla prób CPS i PSID wynoszą odpowiednio 1152 oraz 1581podczas, gdy na podstawie modeli regresji 550 i 886

Różnica wynika z faktu, że oszacowania wykorzystującepropensity score matching wykorzystują mniejszą liczbęobserwacji

Gdy przy łączeniu wykorzystywane są dodatkowe zmienne,błędy standardowe są zbliżone (Tabela 3, kolumna 8)




Wrażliwość wyników na specyfikację propensity score

Okazuje się, że wyniki nie są wrażliwe na niewielkiemodyfikacje specyfikacji wektora propensity score

Usunięcie wyższych potęg oraz interakcji zmiennychobjaśniających w niewielkim stopniu wpływ a na wartościuzyskanych oszacowań efektów programu

Zmiany w wartości oszacowania efektu są niższe od jednegoodchylenia standardowego

Jednak warto zauważyć, że wartości oszacowań są dalsze odwyników eksperymentalnych w porównaniu z wynikami zTabeli 3




Tabela 5. Wrażliwość oszacowań ATT na zmianyspecyfikacji propensity score




Wrażliwość wyników na dobór zmiennych

Ważnym założeniem metody PSM jest to, że w modelupowinny być uwzględnione wszystkie zmienne wpływające naprzydział oddziaływania i wszystkie zmienne skorelowane zezmienną wynikową

Z tego powodu Dehejia i Wahba ograniczyli próbę LaLonde

W celu sprawdzenia poprawności założenia oszacowali modelebez uwzględniania zmiennej zarobki w 1974 roku

Wyniki zależą od uwzględnienia tej zmiennej, ale w każdejpróbie w inny sposób




Tabela 5. Wrażliwość oszacowań ATT na zmianyspecyfikacji propensity score




Podsumowanie (1)

Dehejia i Wahba pokazali w jaki sposób można wykorzystaćtechnikę propensity score matching do oszacowania efektówoddziaływania na podstawie danych nie pochodzących zeksperymentu

Wartości oszacowań uzyskane na podstawie połączonychzbiorów danych nieeksperymentalnych i eksperymentalnych(zbiory LaLonde) są bliskie wynikom eksperymentalnym i sąodporne na wybór grupy odniesienia oraz specyfikację formyfunkcyjnej wektora propensity score




Podsumowanie (2)

Podstawą skuteczności metody jest ograniczenie analizy dopodzbioru danych, który jest podobny pod względemcharakterystyk do grupy eksperymentalnejDodatkowo, analiza pokazała, że w dużym zbiorze jednosteknie poddanych działaniu eksperymentalnemu tylko kilka możebyć podobnych pod względem istotnych charakterystyk dojednostek z grupy eksperymentalnejNawet nieliczna grupa odniesienia (grupa kontrolna) jestwystarczająca do oszacowania efektu programuJednak, metoda wykorzystująca wektory propensity score niejest uniwersalnym remedium na wszystkie problemy. Jeżeliważna charakterystyka skorelowana z przydziałem dooddziaływania lub zmienną wynikową jest nieobserwowana tometoda nie daje dobrych rezultatów


Documents

Propensity Score Matching - Uniwersytet Warszawskicoin.wne.uw.edu.pl/pstrawinski/psm/psm05.pdf · Szacowanie ATT Wyniki Analiza wrażliwości Podsumowanie Oszacowania efektu szkolenia