Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
DIFERENCIAS REGIONALES Y DESIGUALDAD: UN ANÁLISIS DE CUANTILES NO CONDICIONALES
Área VI : Economía y Comercio Exterior
Tema 3 : Inclusión social y fomento a las economías regionales
21° Congreso Nacional de Profesionales en Ciencias Económicas
San Miguel de Tucumán, 28, 29 y 30 de Septiembre de 2016
Contenido1. INTRODUCCIÓN..........................................................................................................................
2. DATOS........................................................................................................................................
3. METODOLOGÍA.........................................................................................................................
3.1 Regresión por cuantiles..........................................................................................................
3.2 Descomposición de cuantiles.................................................................................................
3.3 Regresión por Funciones de Influencia Recentradas..............................................................
3.4 Relación entre estimadores de cuantiles condicionales y no condicionales...........................
3.5 Distribución contrafactual......................................................................................................
3.6 Estimador de diferencias como efecto tratamiento...............................................................
4. RESULTADOS................................................................................................................................
5. CONCLUSIÓN................................................................................................................................
REFERENCIAS....................................................................................................................................
APÉNDICE: estimación de las funciones de influencia recentradas..................................................
1.INTRODUCCIÓNEl estudio de la distribución del ingreso en América Latina ha sido objeto de cada vez mayor
atención debido a la creciente disponibilidad tanto de información pública proveniente de
encuestas de hogares, así como también de información armonizada que permite que éstos sean
comparables a lo largo de diferentes países.
Dentro de la vasta literatura sobre distribución del ingreso, existe un fenómeno que aún no ha
recibido atención suficiente ni en Argentina ni en América Latina: los diferenciales de ingreso
interregionales. Es necesario tener un conocimiento detallado de sus causas a fines de orientar
políticas públicas hacia su reducción (Galego and Pereira 2014) en particular en economías
emergentes como la de Argentina donde las remuneraciones están aun fuertemente ligadas a la
productividad de la tierra.
Existen otros trabajos que abordan la temática de la desigualdad salarial a lo largo de la
distribución del ingreso laboral con la metodología que se utilizará aquí, por ejemplo, (Zacaria
and Zoloa 2005)) quienes realizan también una microdescomposición del coeficiente de Gini y
de la línea de pobreza extrema por regiones, utilizando una metodología diferente desarrollada
por (Bourgignon and Ferreira 2005) pero que parte también de una ecuación de Mincer. Los
autores encuentran una fuerte heterogeneidad en los resultados a lo largo de las regiones de los
parámetros relacionados con educación y calidad del puesto de trabajo.
Otro trabajo de importancia es el de (Groisman 2014) quien utiliza la metodología citada para
evaluar los cambios distributivos acaecidos entre 2003 y 2011 para el total del país, en su
análisis el grueso de la reducción en la desigualdad (medida a través de los índices de Gini y la
varianza logarítmica) se debió a un incremento en los retornos salariales y en los retornos a la
calidad del empleo.
En el caso de Argentina, la desigualdad del ingreso laboral creció significativamente en la
década de 1990, para volver a reducirse luego de la crisis de 2001-2002, para luego estabilizarse
a partir de 2011.
Figura 1 : Evolución del coeficiente de Gini del ingreso laboral para Argentina
Fuente: elaboración propia en base a INDEC
La Figura 1 muestra la mencionada evolución de la desigualdad para el total país medida a
través del coeficiente de Gini, se incluyen también los intervalos de confianza dónde la varianza
del estimador se calcula por medio del método de bootstrap, para resolver el problema que surge
debido a que el coeficiente de Gini es un estimador puntual de la desigualdad y por si sólo no
provee una medida de su variabilidad.
El método citado consiste en realizar un número finito (denotado comoR ¿ de muestras
aleatorias de observaciones pertenecientes a la base de datos y calcular en cada una el
estadístico en cuestión (en este caso el índice de Gini), una vez que se poseen estas estimaciones
se calcula la media y la desviación estándar1, y es ésta última la que se utiliza para calcular los
intervalos de confianza, en este caso del 95\%.
1 Sea Gicada una de las estimaciones y G= 1R ∑
i=1
R
Gi su media, la desviación estándar del
coeficiente de Gini estimada por éste método es: SE (G )=√ 1R−1∑i=1
R
( Gi−G )2
Figura 2 : Desigualdad del ingreso laboral según regiones
Fuente: elaboración propia en base a INDEC
La desigualdad entre regiones replica el comportamiento del agregado, sin embargo, su
variabilidad entre regiones es bastante reducida, el índice de Gini varía entre 1 y 4 puntos en
promedio entre cada subdivisión geográfica.
El ingreso laboral promedio por regiones también se caracteriza por poseer una evolución muy
similar entre regiones, pero con diferencias significativas y persistentes en niveles.
Figura 3 : Ingreso laboral promedio por regiones
Fuente: elaboración propia en base a INDEC
El objetivo de éste trabajo consiste en dilucidar cuáles son los determinantes de éstos
diferenciales de ingresos laborales entre regiones vis-à-vis la región del Gran Buenos Aires.
2.DATOSPara el presente trabajo se utilizarán datos provenientes de la Encuesta Permanente de
Hogares (EPH), realizada trimestralmente por el INDEC en 43 aglomerados urbanos, para los
tres trimestres del año 2014, el análisis se circunscribe a los individuos mayores de 14 años
que reportan ingresos laborales positivos.
El análisis se centrará en el ingreso laboral horario, definido como la suma del total de ingresos
monetarios percibidos por cualquier tipo de ocupación durante el período de referencia (mes
anterior al de la encuesta) dividido en el total de horas trabajadas en dicho período (igual a
cuatro veces la cantidad de horas trabajadas por semana). Para estimar ecuaciones de Mincer
se utilizan como covariadas a la experiencia del individuo (definida como su edad menos los
años de educación que reporta y menos seis), su antigüedad en el puesto que ocupa, su
educación definida por medio de una variable categórica con tres niveles (menos que
secundario completo, secundario completo y superior completo), condición laboral (formal o
informal en caso de poseer o no derecho a percibir una jubilación) y otra variable categórica
por sector industrial con los siguientes niveles:
1. Agrícola y demás actividades primarias
2. Industrias de baja tecnología (industria alimenticia, bebidas y tabaco, textiles y
confecciones)
3. Resto de industria manufacturera
4. Construcción
5. Comercio minorista y mayorista, restaurantes, hoteles, reparaciones
6. Electricidad, gas, agua, transporte, comunicaciones
7. Bancos, finanzas, seguros, servicios profesionales
8. Administración pública y defensa
9. Educación, salud, servicios personales
10. Servicio doméstico
Por su parte, las regiones se definen utilizando la misma clasificación del INDEC (Gran Buenos
Aires, Pampeana, Cuyo, Patagonia, NOA y NEA). Las provincias que integran cada región son:
Gran Buenos Aires: Ciudad Autónoma de Buenos Aires y partidos del Conurbano Bonaerense
Pampeana: Resto de Buenos Aires, La Pampa, Santa Fe, Entre Ríos
Cuyo: San Juan, Mendoza, San Luis
Noroeste: Catamarca, Jujuy, La Rioja, Salta, Santiago del Estero, Tucumán
Patagonia: Neuquén, Río Negro, Chubut, Santa Cruz, Tierra del Fuego
Noreste: Chaco, Corrientes, Formosa, Misiones
Un simple gráfico de salarios horarios por provincia (Figura 4) basta para mostrar la magnitud
de las disparidades de remuneraciones a nivel regional en Argentina.
Se observa que los ingresos más bajos se concentran en el norte del país, mientras que lo
opuesto ocurre en el sur, sin embargo, éste mapa no muestra que la densidad de la población
es mayor en la zona centro del país, en particular en el Gran Buenos Aires, donde se concentra
aproximadamente el 30% de la población del país, además de ser dónde se ubica la capital y
ciudad más grande de Argentina.
Figura 4 : Ingreso laboral horario promedio por provincia - año 2014
Fuente: elaboración propia en base a INDEC
Cuadro 1: Promedios por región - año 2014
Fuente: elaboración propia en base a INDEC
En el Cuadro 1 pude verse que los trabajadores que habitan en las diferentes regiones son en
promedio muy similares en términos de sus niveles de escolaridad, antigüedad en el puesto y
horas trabajadas, pero la retribución horaria por sus tareas difiere notablemente entre todas las
regiones, excepto la Pampeana y el GBA2, sin embargo, éste mayor salario promedio no se
traduce en mayor desigualdad, medida a través de la descomposición del coeficiente de Gini3.
2 Las diferencias de medias (no reportadas) son significativas al 1% para todas las regiones menos para la Pampeana con respecto al GBA.3 Los valores reportados surgen de la descomposición del coeficiente de Gini por regiones utilizando el método de (Lerman and Yitzhaki 1985) (véase (Gasparini et al. 2013), capítulo 6), según la cual el
mencionado coeficiente puede descomponerse en K fuentes como: G ( x )=∑k=1
K
Rk G ( xk ) sk , dónde
Según (Zacaria and Zoloa 2005), la desigualdad en Argentina se relaciona con un gran número
de factores, algunos de los cuales son capturados por la EPH y otros que no:
Retornos a la educación: existe una relación positiva entre la productividad y el nivel
educativo, la cual se ve reflejada a través de la remuneración que los individuos perciben en el
mercado de trabajo.
Brecha de género: en promedio, los hombres perciben salarios más altos que las mujeres, este
fenómeno se redujo notablemente en los último 30 años gracias a la entrada masiva de las
mujeres en el mercado laboral, pero aún continúan existiendo diferenciales de ingresos
atribuibles al género.
Retornos a la experiencia: Cuanto mayor es la antigüedad en el puesto, mayor es el salario, en
parte por arreglos institucionales (convenios colectivos de trabajo o estatutos en el sector
público) y también debido al “learning by doing”.
Horas trabajadas: es un factor muy relacionado con la brecha de género, ya que, si en el hogar
existe uno o más miembros menores de 4 años, la probabilidad que la mujer trabaje menor
cantidad de horas que el hombre se incrementa.
Condición laboral: por último, una característica del mercado laboral argentino es su elevada
tasa de informalidad (definida aquí en términos del acceso a una jubilación), la cual creció
notablemente en la década de 1990 junto con la desigualdad, pero a diferencia de la segunda, no
se redujo con la misma fuerza que ésta (Beccaria and Groisman 2007).
3.METODOLOGÍAEn este trabajo se implementará una descomposición del estilo Oaxaca-Blinder ((Oaxaca 1973);
(Blinder 1973)) para regresiones por cuantiles no condicionales propuesta por (Firpo et al.
2009) y (Fortin et al. 2011) con el objeto de descomponer los diferenciales salariales regionales
a lo largo de toda su distribución.
El punto de partida del método es la conocida descomposición Oaxaca-Blinder, la cual consiste
en determinar cuáles son los factores que explican la diferencia de salarios entre dos grupos, A
y B. Sea Y g el logaritmo del salario para los grupos g∈ A ,B, sean X un conjunto de
G ( xk ) es el coeficiente de Gini de la región k , sk=μk
μ, es la participación de la región k en el ingreso
total y Rk es la correlación-Gini entre el ingreso de la región k y el ingreso total, en la tabla se reportan sólo los Gk.
características observables (covariadas) y υg un conjunto de características no observables, el
modelo de determinación de salarios se supone lineal en ambas:
Y=X βg+υg para: g∈ A , B
Con: E [υg∨X ]=0, sea DB una dummy igual a 1 si el individuo pertenece al grupo B y si se
denota como ΔμO a la brecha de salarios entre los grupos A y B entonces:
ΔμO=E [Y B∨DB=1 ]−E [Y A∨DB=0 ]
¿ (E [ X∨DB=1 ] β B+E [υB∨DB=1 ] )−(E [ X∨DB=0 ] β A+E [υA∨DB=0 ] )
Puesto que E [υB∨DB=1 ]=E [υA∨DB=0 ]=0, entonces se agrega y sustrae el salario
promedio contrafactual, definido como el salario que percibirían los miembros del grupo B si
fueran remunerados de acuerdo a la estructura salarial del grupo A:E [ X∨DB=1 ] β A , la
expresión anterior se convierte en:
ΔμO=E [ X∨DB=1 ] βB−E [ X∨DB=1 ] β A+E [ X∨DB=1 ] βA−E [ X∨DB=0 ] βA
¿ E [ X∨DB=1 ] ( βB−β A )+( E [ X∨DB=1 ]−E [ X∨DB=0 ]) β A
¿ ΔμS + Δμ
X
En la práctica, en vez de las esperanzas condicionales (E [ X|DB=d ] ), se poseen las medias
muestrales, X g, de modo que el diferencial estimado es igual a:
∆μO=XB ( βB− β A )+( XB−X A ) βA
¿ ∆μS+ ∆μ
X
El diferencial de salarios queda, entonces, descompuesto en dos términos (efectos):
∆μS: efecto estructura salarial, efecto precio o variación no explicada, diferencias originadas en
los coeficientes estimados para cada covariada.
∆μX :efecto composición, efecto características o variación explicada, diferencias en los valores
promedio de las covariadas.
A fines de analizar los determinantes de los diferenciales de ingresos por regiones a lo largo de
la distribución de ésta, la descomposición de la media es de importancia secundaria, puesto que
dicho estadístico no brinda información útil sobre la desigualdad. Para resolver éste problema es
necesario ir más allá de ésta y estudiar los cuantiles de la mencionada distribución de ingresos
laborales4.
3.1 Regresión por cuantilesVolviendo al modelo lineal descrito previamente (Y =X βg+υg ), el método tradicional de
Mínimos Cuadrados Ordinarios (MCO) requiere, a fines que la estimación del vector β sea
insesgada, que E (υg|X )=0 , sea cual fuere la distribución de υg. El método de Regresión por
cuantiles desarrollado por (Koenker and Bassett 1978) parte de la misma especificación lineal,
pero reemplaza el supuesto de insesgadez por uno más débil, que el cuantil τ -ésimo es igual a
cero. Si f ( . ) es la distribución de υg, entonces:
∫−∞
0
f τ (υg ) d υg=τ
Los coeficientes de regresión para cada uno de los cuantiles ( β (τ ) ) se obtienen como la solución
del siguiente problema de optimización:
min{ β }
1N ∑
i=1
N
ρτ (Y i−X i βi )
Dónde ρτ es la función definida como:
ρτ (υ )=υ∗(τ−I (υ<0 ) )
I ( . ) es una función indicadora (igual a uno si la condición entre paréntesis es verdadera), puesto
que ésta función no es diferenciable (Koenker 2005) la solución se obtiene por medio de
programación lineal.
3.2 Descomposición de cuantilesEl coeficiente β en una regresión (a la media) convencional puede interpretarse de dos formas
(Fortin et al. 2011): por una lado, β mide el efecto de las covariadas X sobre la esperanza
condicional de Y con relación a X :E(Y / X)=Xβ , por otro lado, el coeficiente β muestra
también el impacto de incrementar el valor promedio de X sobre la media no condicional de Y :
E(Y )=E ( X ) β . Ambas interpretaciones son equivalentes en virtud de la Ley de esperanzas
iteradas:
4 En el resto del trabajo nos referiremos a “cuantiles” o “deciles” como sinónimos, más allá de que los cálculos pueden realizarse por quintiles, veintiles o percentiles de la distribución del ingreso laboral.
E(Y )=E X[ E(Y / X)] E ( X ) β
Según el modelo de la sección anterior, el modelo de regresión para el cuantil condicional τ -
ésimo de la distribución de Y es: Qτ (Y )=X β τ. El coeficiente β τ mide el efecto de X sobre el
cuantil condicional de Y dado X .
Lamentablemente, la ley de esperanzas iteradas no se cumple para cuantiles, de modo que:
Qτ (Y ) ≠ E X [Qτ ] E( X) β τ , donde Qτ es el cuantil no condicional; esto implica que los cuantiles
condicionales muestran el efecto de las covariadas X sobre la distribución de Y , pero no sobre
los individuos.
Una ilustración del efecto que ésta característica (Angrist and Pischke 2009) posee sobre las
inferencias que pueden hacerse sobre las distribuciones de ingresos es el siguiente, si una región
posee ingresos promedio en el primer decil superiores a otra, no implica necesariamente que en
un escenario contrafáctico dónde esa persona pudiera migrar de la región más pobre a la de
mayores ingresos promedio podrá esperar tener ingresos más altos.
Para poder realizar las inferencias que repliquen el análisis de Oaxaca-Blinder en cada decil, lo
que nos interesan no son los cuantiles condicionales, sino los cuantiles marginales, dado que
son éstos los que muestran el impacto que las variaciones en las covariadas poseen sobre la
desigualdad del ingreso laboral.
Qτ (Y )=inf { y :FY ( y )≥ τ }
Donde FY ( y )=Pr (Y < y ) es la distribución marginal de Y :, para calcular el τ -ésimo cuantil
marginal se debe obtener una estimación de la distribución marginal para la totalidad de los
cuantiles:
FY ( y )=∫∫0
1
I [ X βτ< y ] dτd FX (X )
Existen varias soluciones posibles para éste problema, una de ellas, propuesta por (Machado and
Mata 2005) consiste en estimar el análogo muestral de la última ecuación:
FY ( y )=N−1( 110 )∑
τ=0
1
I [ X β τ< y ]
Dónde los coeficientes β τse estiman utilizando regresión por cuantiles y luego se repiten éstas
estimaciones un determinado número de veces, a fines de simular la distribución condicional
sobre la cual se suma (integra) para obtener la distribución marginal deseada, pero con un
elevado costo en términos de cómputo.
3.3 Regresión por Funciones de Influencia RecentradasUn método alternativo (Firpo et al. 2009) para obtener los cuantiles marginales (o no
condicionales), no utiliza la distribución condicional de Y , sino una transformación de dicha
variable, la cual se regresa contra el conjunto de variables explicativas.
La mencionada transformación, se denomina Función de Influencia Recentrada, sea ν (F )un
estadístico cualquiera5, función de la distribución F (Y ), la Función de Influencia (Hampel
1974), (Cowell and Flachaire 2015) del estadístico ν (F )es igual a:
IF ( y ; ν , FY )=∂ ν (FY , t∗Δy )
∂t t=0
Donde Δ y es una medida de probabilidad que le asigna la totalidad de la masa de probabilidad
al valor y, entonces su correspondiente Función de Influencia Recentrada (RIF) será:
RIF ( y; ν , FY )=υ ( FY )+∫ IF ( y ;ν , FY ) d Δy=υ ( FY )+¿ IF ( y ;ν , FY )¿
Es posible derivar la forma funcional exacta de ambas funciones para un gran número de
funciones (Essama-Nssah and Lambert 2012). Para este trabajo se utilizarán las RIFs de tres
estadísticos:
Media: RIF ( y ;μ)= y
Cuantil τ -ésimo: RIF ( y ;Q τ)=Qτ+τ−l { y≤ Qτ }
f ( Qτ )
Coeficiente de Gini: RIF (νGini)=1+B2(FY ) y+C2( y ; F y) , dónde:
A2 ( FY )= 2μR ( FY )
B2 ( FY )= 2μ2 R ( FY )
C2 ( FY )=−2μ [ y (1−p( y ))+GL( p ( y ) ; FY )]
5 El cuantil τ , coeficiente de Gini, media, varianza, etcétera.
R ( FY )=∫0
1
GL ( p ;FY ) dp
p ( y )=FY ( y)
GL ( p ; FY )= ∫−∞
F−1( p)
zd FY(z )
Donde GL ( p ; FY )es la Curva de Lorenz Generalizada de y, en el apéndice se detalla como se
estiman éstos parámetros.
(Firpo et al. 2009) muestran que la RIF es una aproximación lineal del funcional no lineal ν (F )
de la distribución de Y que permite calcular los efectos parciales de cada una de las covariadas
X sobre Y . En el mismo trabajo, los autores muestran que éste efecto parcial puede estimarse de
tres formas: a través de una regresión de variables transformadas utilizando el método de
mínimos cuadrados ordinarios (“RIF-OLS”), a través de un modelo lineal generalizado (“RIF-
Logit”) o bien utilizando métodos no paramétricos (“RIF-NP”).
El método de RIF-OLS es no es otra cosa que una regresión lineal de la RIF estimada contra el
conjunto de covariadas para cada uno de los subgrupos (regiones, en nuestro caso), el modelo
es:
E [ RIF (Y g ;Qτ∨X g)]=X ' ig β τg g=A ,B
Los coeficientes β τg representan los efectos marginales aproximados de las variables
explicativas sobre el logaritmo del salario para el cuantil Qτen la región g=A , B.
3.4 Relación entre estimadores de cuantiles condicionales y no condicionalesVolviendo a la definición de Función de Influencia Recentrada para el cuantil Qτésta puede re
expresarse como:
RIF (Y ;Qτ )=Qτ+τ−I ( y<Qτ )
f (Qτ )= Qτ+
τ−1f ( Qτ )
+I ( y≥ Qτ )
f (Qτ )=c2 ,τ+c1, τ Pr ( y≥ Qτ )
Dónde las constantes son: c1 , τ=1
f (Qτ ) y c2 , τ=Qτ−c1 , τ(1−τ), tomando esperanzas
condicionales a X , se obtiene:
E [ RIF (Y ;Qτ )∨X ]=¿ c2 , τ+c1 ,τ Pr ( y ≥Q τ∨X)
Finalmente, tomando la derivada parcial del cuantil con respecto a X se obtiene el llamado
“Efecto parcial del cuantil no condicional” (Unconditional Quantile Partial Effect o UQPE),
denotado como α (τ ) :
α (τ )= 1f (Qτ)
∂ Pr ( y≥ Qτ∨X )∂ X
En el caso de RIF-OLS, el valor estimado del UQPE se reduce a:
α g (τ )= 1f (Qτ )
βg(τ)
βg (τ )es el estimador del coeficiente del cuantil τ la variable g y f (Q τ )es la función de densidad
estimada de Y en el cuantil Qτ , en otras palabras, los coeficientes de la regresión por cuntiles no
condicionados son iguales a los de la regresión por cuantiles condicionados multiplicados por el
inverso de la función de densidad de la variable Y evaluada en el decil correspondiente.
Para mostrar la relación entre cada uno de éstos, a continuación se estiman tres regresiones de
(Micer 1958) del logaritmo del ingreso laboral horario contra un conjunto de covariadas: edad,
experiencia, antigüedad en el empleo, sexo, condición de informal, y dos variables categóricas,
una del sector industrial y otra que indica la región donde vive el individuo, tomando como base
al Gran Buenos Aires, de forma que los coeficientes representan la brecha de ingresos de cada
una de las regiones con respecto a ésta. Ésta ecuación se estima por tres métodos (MCO,
regresión por cuantiles condicionales y no condicionales), en el gráfico a continuación se
muestran los coeficientes estimados de la variable categórica “región” por cuantil.
Figura 5 : Efectos marginales estimados por región
Fuente: elaboración propia en base a INDEC
En la Figura 5 se muestran los coeficientes estimados de la variable categórica de región para
cada decil de la distribución del logaritmo del ingreso laboral y sus respectivos intervalos de
confianza al 95%, a partir de éste pueden sacarse algunas conclusiones:
1. Los coeficientes de regresión por cuantiles en sus dos formas varían sustancialmente a
lo largo de los deciles de la distribución del logaritmo del ingreso, a diferencia del
estimador MCO que, por definición es constante a lo largo de éstos.
2. La mayoría de los coeficientes son significativos (el cero no está contenido entre los
intervalos de confianza) y negativos, salvo para la Patagonia, lo que implica que existe
una brecha de ingresos positiva a favor del Gran Buenos Aires en la mayor parte del
país.
3. La brecha es mayor para los deciles más bajos de las regiones NOA y NEA (a favor del
GBA) y para los más altos de la región patagónica (en contra del GBA), mientras que el
decil 5 (mediana) coincide casi con la media, consecuencia de la simetría de la
distribución del logaritmo del ingreso.
4. La variación interdecílica de los coeficientes de la regresión por cuantiles no
condicional es mucho mayor que la de los coeficientes de la condicional, fruto del
impacto de la inversa del valor estimado de la distribución del ingreso en dicho decil,
tal como se vio anteriormente.
3.5 Distribución contrafactualLa descomposición Oaxaca-Blinder se generaliza ahora para cualquier funcional υ (Fg) para
ambos grupos, de modo que la diferencia total entre ambos es igual a:
ΔOυ =υ (FYB∨DB
)−υ (FY A∨D A)
Para poder descomponer el resultado en los efectos estructura salarial y composición
necesitamos una distribución contrafactual que combine la estructura salarial de la región A con
la distribución de características de la región B, esta distribución se denominará como FY A∨DB
C ,de
modo que la ecuación será ahora:
ΔOυ =[υ (FY B∨D B)−υ ( FY A∨DB
C ) ]+[υ (FY A∨D B
C )−υ (FY A∨D A ) ]¿ ΔSυ+Δ X
υ
En este caso, dado que la función de esperanza no es lineal ni para cuantiles ni para el
coeficiente de Gini, no es posible utilizar la representación lineal FY A∨DB
C =X B β A, por lo que se
utiliza el método semiparamétrico desarrollado por (DiNardo et al. 1996) el cual consiste en
reponderar la distribución del ingreso del grupo A utilizando las características del grupo B.
El método parte de la siguiente estimación de la función de densidad de FY A∨DB
C :
FY A∨DB
C ( y )=∫FY A∨X A( y∨X ) Ψ ( X ) d F X A
(X )
El factor de reponderación se define como Ψ ( X )=d F XB
( X)d FX A
( X ), de manera tal que la distribución
de FY A∨DB
C no es sino la de Y A reponderada en función de las características del grupo B. Éste
factor se estima en base a un modelo logit o probit que estima la probabilidad de pertenecer al
grupo B dadas las características (X ) de los individuos, con lo que se obtiene un vector de
valores, el cual se normaliza para que su suma sea igual a 1, que representa la ponderación que
cada individuo i de la distribución de la región A debería tener para asemejarse a sus
contrapartes de la región B. El método es en esencia similar al del “propensity score” de la
literatura de evaluación de impacto.
El factor estimado será:
Ψ ( X )=
Pr (B=1∨X)Pr (B=1)
Pr (B=0∨X )Pr (B=0∨X )
=
Pr (B=1∨X)Pr (B=1)
[1−Pr(B=1∨X )][1−Pr (B=1)]
Pr ( B=1|X )son los valores estimados de una regresión probit de X contra una dummy igual a 1
si el individuo pertenece a la región B, mientras que Pr (B=1) es la participación de los
individuos de la región B en el agregado de individuos de las regiones A y B.
Una vez estimado Ψ ( X ), es posible obtener una estimación de la distribución del contrafactual
utilizando una función de kernel:
f Y A∨DB
C ( y )= 1b N A
∑iϵA
Ψ ( X i ) K ( Y− y i
b )A modo de ilustración se muestran las distribuciones del ingreso laboral observada y
contrafáctica en todas las regiones:
Figura 6 : Densidades por región - observadas y contrafactuales
Fuente: elaboración propia en base a INDEC
La Figura 6 muestra las distribuciones de ingresos laborales observadas en las regiones Gran
Buenos Aires ( f GBA∨GBA ) y en las demás ( f R∨R ) así como también la distribución contrafáctica
( f R∨GBAC ) que muestra cómo se distribuiría el ingreso laboral si sus habitantes experimentaran la
misma estructura salarial que sus contrapartes del Gran Buenos Aires.
Los cuantiles y el coeficiente de Gini de esta distribución contrafactual se utilizan para
descomponer la desigualdad en cada una de las regiones.
El efecto estructura salarial se descompone también en dos elementos:
ΔSτ =XB ( β τ , B− βτ , A
C )+ (X B−X AC ) β τ , A
C ¿ ΔS , pτ + ΔS ,e
τ
En la última ecuación, ΔS , pτ es el efecto estructura salarial puro, proveniente de la diferencia
entre βτ , By β τ , AC , mientras que ΔS , e
τ representa al error que surge por reponderar los valores de la
distribución del ingreso, ya que X B y X A suelen ser diferentes.
De la misma forma, el efecto composición también puede descomponerse en:
Δ Xτ =(X A
C−X A ) β τ , A+X AC ( β τ , A
C − β τ , A )
¿ Δ X, pτ + ΔX ,e
τ
Δ X , pτ es el efecto composición puro, equivalente al que surge de la descomposición Oaxaca-
Blinder y Δ X, eτ es el error de especificación, igual a cero si el modelo es lineal. Para concluir,
dado que no existe una forma cerrada para los errores estándar de los estimadores utilizados, se
optará por utilizar bootstrap para realizar pruebas de significatividad.
3.6 Estimador de diferencias como efecto tratamientoSiguiendo a (Fortin et al. 2011) cuando los contrafactuales se basan en distribuciones de salarios
hipotéticas, pueden vincularse con facilidad con la literatura de efectos tratamiento. El Efecto
tratamiento promedio sobre los tratados (ATT)6 se define como la diferencia entre los
ingresos promedios de los individuos de los grupos (regiones) A y B si los miembros de éste
grupo perciben la remuneración del grupo A, dónde el “tratamiento” consiste en moverse de un
grupo a otro:
ATT=E [Y B∨DB=1 ]−E [Y A∨DB=1 ]
En la literatura de evaluación de impacto (Véase (Todd 2007))) éste se define como la ganancia
promedio experimentada por el subconjunto de individuos que posee un determinado conjunto
de características que participa de un programa. Del mismo modo, para cualquier otro
estadístico υ (.) de la distribución del ingreso, el efecto tratamiento se define de idéntica forma:
υ−TT=υ ( FY B∨D B)−υ ( FY A∨DB )
Ahora el problema radica en que FY A∨D B, no es directamente observable a partir de los datos
(sólo se dispone información sobre Y , DBy X ), si los individuos fuesen asignados
aleatoriamente a cada grupo, ésta distribución podría identificarse.
6 “Average Treatment on the Treated”
Para saltear éste problema, es necesario invocar dos supuestos, denominados ignorabilidad y
soporte común. El primer supuesto, también denominado “selección por observables” se cumple
si el término de error ε es independiente de la asignación a cada grupo (D gpara g=A ,B), para
un dado X=x , esto implica que los individuos no deciden a que grupo pertenecer en base a
características observables, de no ser así no podría separarse el efecto que tiene la región del que
poseen sus características observables. El segundo supuesto, el de soporte común, implica que
la probabilidad de pertenecer a alguno de los grupos puede estimarse como función de las
características ( X ) de los integrantes de cada uno de éstos, es decir que las características que
determinan la pertenencia son observables para todos los individuos y no sólo para uno de los
grupos.
Bajo el supuesto de ignorabilidad: FY A∨D BFY A
C∨X , el método de reponderación supone
explícitamente el cumplimiento de éste supuesto, de modo que la diferencia total entre grupos
puede descomponerse como:
∆Oυ =υ (FY B∨DB
)−υ (FY AC ∨D B
)+υ (FY AC∨DB
)−υ (FY A∨DA)¿υ−TT+υ (FY A
C∨D B)−υ (FY A∨D A
)
El efecto estructura salarial es entonces el efecto tratamiento sobre los tratados, esto es, cual es
el efecto que posee para un grupo de individuos el vivir en una región versus su contrafactual si
éstas mismas personas viviesen en el Gran Buenos Aires para cualquier estadístico υ(.) que sea
función de las distribuciones del ingreso en cada región.
La literatura sobre evaluación de impacto se centra principalmente en la inferencia causal, es
decir, bajo cuales condiciones el resultado (diferencia entre los valores del estadístico) fue
causado por el tratamiento (pertenecer a un grupo o al otro). En este caso no es discutible en qué
medida el tratamiento es una acción manipulable o no, dado que el costo de migrar suele ser
muy elevado en países como Argentina debido a la rigidez de los mercados laborales e
inmobiliarios. Sin embargo, y a diferencia de los estudios sobre discriminación en base a género
o raza, la región dónde el individuo vive si es modificable, más allá de los costos a los que éstos
se enfrentan.
Por otro lado, los valores de las covariadas X pueden variar como consecuencia del tratamiento,
esto es, las personas que deciden vivir en una región pueden poseer características diferentes de
las que habitan en otra. Sin embargo, este argumento es válido para los migrantes, no tanto para
quienes nacieron en cada región, nuevamente es discutible cual es el alcance de éste efecto,
dada la baja movilidad entre regiones observada en Argentina.
4. RESULTADOSEn el Cuadro 2 se muestran los resultados de las regresiones salariales con respecto a la media y
a los deciles 10, 50 y 90; debido a la gran cantidad de coeficientes se optó por excluir a los
coeficientes de las dummies por sector industrial. Los errores estándar de las regresiones por
cuantiles no condicionales se estimaron por bootstrap con 100 repeticiones, debido a que no
existe una forma funcional específica para ellos.
Las variables dependientes son la experiencia y antigüedad en el puesto del trabajador, así como
también sus valores al cuadrado, dos dummies de nivel educativo (hasta secundario completo y
superior completo), una dummy de género igual a uno si el trabajador es hombre, otra dummy
de condición laboral (igual a uno si el individuo no posee derecho a una jubilación) y un
conjunto de variables categóricas por región, cuyo nivel omitido es el GBA, de modo que
representan la brecha de ingresos con respecto al GBA en la media y en cada cuantil no
condicional.
Los coeficientes poseen, en su mayoría, el signo esperado: la experiencia posee un efecto
positivo pero que declina con el tiempo, sin embargo, la antigüedad en el puesto genera el
efecto opuesto, con excepción del decil 10.
El impacto de la educación secundaria completa es siempre positivo, pero no lineal, el valor del
coeficiente del decil 50 (mediana) es mayor que el de los deciles 10 y 90, por otro lado, el
coeficiente de la variable educación superior completa es siempre positivo y creciente a lo largo
de los deciles. Entonces, la educación secundaria tiene un impacto mucho mayor en los deciles
más bajos y lo inverso ocurre en los más altos debido a que los individuos con secundario
completo tienden a tener ingresos en la mediana de la distribución, mientras que los que poseen
estudios superiores se ubican en los deciles más altos.
De la misma forma, el coeficiente de informalidad es siempre negativo, pero su valor absoluto
es decreciente a lo largo de los deciles, la falta de beneficios sociales perjudica más a quienes
poseen menores ingresos, puesto que son quienes más lo necesitan debido a que su
productividad (medida a través de sus ingresos laborales) es más baja, mientras que en el otro
extremo de la distribución el impacto es casi nulo, a pesar de ser significativo en términos
estadísticos.
Al igual que en la Figura 5 el signo de la dummy por regiones es negativo para todas éstas, con
excepción de la Patagonia, y se observa que, en general, la brecha con respecto al Gran Buenos
Aires se reduce a medida que se avanza a lo largo de la distribución del ingreso laboral, con
excepción de las regiones Patagónica y Pampeana, dónde ocurre lo contrario, pero con mayor
fuerza en la primera.
Cuadro 2: Regresiones a la media y por cuantiles no condicionales en los deciles 10, 50 y 90 para variables
seleccionadas
Fuente: elaboración propia en base a INDEC
El cuadro 3 muestra las estimaciones de las brechas regionales para los deciles 1, 5 y 9;
separadas en sus respectivos efectos composición y estructura salarial. Puede verse que las
brechas salariales se reducen a lo largo de la distribución para la mayor parte de las regiones,
éste comportamiento es un reflejo del que muestran los coeficientes de la Figura 5.
El efecto composición es negativo para todas las regiones relativas al GBA en el decil 1, pero
cambia de signo en los deciles superiores, esto implica que la región Gran Buenos Aires posee
una fuerza laboral más calificada que las demás en los deciles en y por encima de la mediana.
Sin embargo, el efecto estructura salarial es ínfimo para todas las regiones, de modo que no
existe una mejor retribución a las características observables de los trabajadores para ninguno de
los deciles de la distribución del ingreso que se muestran aquí.
Los factores que determinan la importancia del efecto composición en el primer decil son la
experiencia, antigüedad en el puesto y la condición de informal, mientras que la educación
juega un rol secundario. El quinto decil, se nivela la importancia de la experiencia, la
antigüedad y los niveles educativos, al mismo tiempo que la informalidad continúa siendo más
importante que éstas. Finalmente, en el noveno decil, la educación es principal factor que
explica la brecha de ingresos, al mismo tiempo que todos los demás se reducen a prácticamente
cero, en particular la informalidad, que pierde su significatividad económica, pero no así su
significatividad estadística.
Volviendo a la definición de cada elemento de la descomposición, el efecto estructura salarial
refleja diferencias en los retornos (Cahuc and Zyllerberg 2004) es decir en los coeficientes de la
ecuación de Mincer, mientras que el efecto composición refleja diferencias en la distribución de
las características entre los grupos (regiones); claramente la contribución del efecto
composición es la más importante, mientras que el efecto estructura salarial posee un impacto
marginal.
Los coeficientes de las variables del efecto composición son significativas, apuntando a que la
principal causa de las diferencias en ingresos laborales para los deciles 1, 5 y 9 radica en las
diferencias en las distribuciones del conjunto de características observables de los individuos,
pero éste efecto se reduce a medida que se avanza en la distribución del ingreso laboral, de
modo que la principal explicación para las diferencias observadas en los coeficientes de la
Figura 5 se origina en diferencias en el capital humano (educación y experiencia) de los
individuos ubicados en los deciles más bajos de la distribución más que en diferencias en la
estructura salarial.
Cuadro 3: Descomposición detallada de las brechas de salarios regionales
Fuente: elaboración propia en base a INDEC
Por último, en el Cuadro 4 se muestra la misma descomposición, pero para el coeficiente de
Gini por región, los valores de los coeficientes estimados se multiplicaron por 100 (y sus
respectivas desviaciones estándar por 10) a fines de asistir en la visualización. Se observa que
los resultados son similares a los encontrados para los deciles de la distribución, nuevamente la
distribución de las características de los individuos explica la mayor parte de las diferencias en
los coeficientes de Gini entre cada región y el Gran Buenos Aires.
La desigualdad, como se observa en el Cuadro1, varía poco entre regiones, no más de 2 puntos,
por lo que la variación total no supera dicho valor, la excepción es la región NEA, donde el
residuo (no reportado) posee una magnitud muy grande en relación a la variación, motivo por el
cual la suma de ambos efectos supera la diferencia observada, un problema similar, pero de
menor magnitud tiene lugar en la región Pampeana.
Es interesante notar que la experiencia y la educación son los factores que explican mejor las
variaciones en la desigualdad, así como la antigüedad en el puesto, mientras que el género
explica una parte muy pequeña de la variación total, lo mismo sucede con la informalidad, con
excepción de la región Patagónica.
Cuadro 4: Descomposición detallada del coeficiente de Gini por regiones
Fuente: elaboración propia en base a INDEC
Figura 7 : Descomposición del diferencial de ingresos por regiones y por deciles
Fuente: elaboración propia en base a INDEC
La Figura 7 muestra los efectos composición y estructura salarial para los nueve deciles de la
distribución del ingreso laboral horario, esto es, el resultado de:
∆OQτ=[QFY R ∨DR
( τ )−QFY GBAC ∨DR
( τ ) ]+[QFY GBAC ∨D R
(τ )−QFY GBA∨D GBA
(τ ) ]
El efecto composición permanece relativamente estable a lo largo de los deciles, al igual que el
efecto estructura salarial, sólo que las variaciones del segundo son ínfimas y estadísticamente
indistinguibles del cero, en la ecuación de arriba resulta evidente que el motivo de dicha
discrepancia radica en que la diferencia entre las distribuciones de ingresos del Gran Buenos
Aires y la distribución simulada de la región $R$ si las características de los individuos se
distribuyeran como las de la región Gran Buenos Aires es ínfima, siendo esta diferencia del
orden de 0,001 puntos.
En la mayoría de las regiones el efecto composición es negativo, excepto en Cuyo, dónde es
positivo a lo largo de todos los deciles, mientras que en las regiones NOA y NEA es dónde éste
resulta poseer un valor negativo de mayor magnitud. La Región Pampeana se distingue de las
demás porque los valores de cada uno de los efectos fluctúan muy poco en relación a las demás
regiones, reforzando la idea que ésta no es diferente en términos de las características
observables que el Gran Buenos Aires.
En este caso la reponderación muestral no tuvo el éxito deseado, debido en gran parte a que las
distribuciones contrafactuales son muy similares a la de la región GBA, lo que hace que el
efecto características sea ínfimo y estadísticamente no significativo, sin embargo si sirve para
aclarar algunos aspectos de la desigualdad inter-regional, en particular, que las características de
la ocupación actual (y especialmente la condición de formalidad) afectan más a las condiciones
salariales en los deciles más bajos, mientras que a medida que se avanza en la distribución éstas
pierden fuerza mientras que con la educación ocurre lo contrario. Por su lado, la
descomposición del coeficiente de Gini muestra que la experiencia, la antigüedad en el puesto y
el sector industrial son los principales determinantes de las diferencias en desigualdad
observadas.
5.CONCLUSIÓNEn este trabajo se empleó la metodología desarrollada por (Fortin et al. 2011) para estimar el
impacto de cambiar la distribución de un conjunto de covariadas en los deciles no condicionales
del ingreso per cápita laboral y en su coeficiente de Gini. Se encuentra que existen notables
diferenciales de ingresos entre cada región y el Gran Buenos Aires, considerada como región
base, con la única excepción de la región Pampeana, los diferenciales son bastante estables a lo
largo de la distribución, pero con una tendencia a ser mayores en los deciles más bajos, en
particular en las regiones NOA y NEA.
El método de descomposición muestra que el principal componente de las variaciones es el
efecto composición, es decir que las diferencias se originan entre las distribuciones de las
características de la población y no en la estructura salarial a la que se enfrentan los habitantes
de cada una de las regiones. Sin embargo, la importancia de la educación crece a medida que se
avanza en los deciles de la distribución en detrimento de las otras variables. Éstos resultados se
replican también para el coeficiente de Gini, dónde la educación y las características del actual
empleo explican en su mayoría los diferenciales de desigualdad entre regiones.
Una derivación futura del estudio consiste en utilizar la idea de (Groisman 2014) pero
segmentando la muestra por regiones, esto es, estudiar los diferenciales de ingresos por regiones
utilizando como contrafactual a la distribución del ingreso de ésta en un año anterior (2005, por
ejemplo) a fines de estudiar las variaciones intertemporales.
REFERENCIAS
(1) Angrist, J., y Pischke, J. 2009. "Mostly Harmless Econometrics: An Empiricist’s Companion". Princeton University Press.
(2) Beccaria, L., & Groisman, F. (2007)." Informalidad y Pobreza en Argentina" (pp. 1–19). Anales de la XLII Reunión Anual de la Asociación Argentina de Economía Política.
(3) Blinder A. (1973) "Wage Discrimination: Reduced Form and Structural Estimates". The Journal of Human Resources 8:436–455.
(4) Bourgignon, F. y Ferreira, F. 2005. “Decomposing Changes in the Distribution of Household Incomes: Methodological Aspects”. En The Microeconomics of Income Distribution Dynamics in East Asia and Latin America, editado por François Bourgignon, Francisco Ferreira, y Nora Lustig. The World Bank.
(5) Cahuc, P. y Zyllerberg, A. 2004. "Labor Economics". Cambridge, MA: MIT Press.
(6) Cowell, F. A., & Flachaire, E. (2015). "Statistical Methods for Distributional Analysis". En A. B. Atkinson & F. Bourguignon (Eds.), "Handbook of Income Distribution" (Vol. 2, pp. 359–465). Elsevier.
(7) DiNardo J, Fortin N, Lemieux T (1996) "Labor Market Institutions and the Distribution of Wages, 1973-1992: A Semiparametric Approach". Econometrica 64:1001–1044.
(8) Essama-Nssah, B., & Lambert, P. (2012). "Influence Functions for Policy Impact Analysis". En "Inequality, Mobility and Segregation: Essays in Honor of Jacques Silber" (pp. 135–159).
(9) Firpo S, Fortin N, Lemieux T (2007) "Decomposing Wage Distributions using Recentered Influence Function Regressions". University of British Columbia
(10) Firpo S., Fortin N, Lemieux T. (2009) "Unconditional Quantile Regressions". Econometrica 77:953–973.
(11) Fortin, N., Lemieux, T., & Firpo, S. (2011). "Decomposition Methods in Economics". En O. Ashenfelter & D. Card (Eds.) "Handbook of Labor Economics", Vol. 4A, pp. 1–102. Elsevier.
(12) Galego, A., & Pereira, J. (2014). "Decomposition of Regional Wage Differences Along the Wage Distribution in Portugal: The Importance of Covariates". Environment and Planning A, 46(10), 2514–2532.
(13) Gasparini, L., Cicowiez, M., & Sosa Escudero, W. (2013). "Pobreza y Desigualdad en América Latina. Conceptos, herramientas y aplicaciones" (1a ed.). Buenos Aires: Temas.
(14) Groisman, F. (2014). "Empleo, desigualdad y salarios en Argentina: análisis de los determinantes distributivos". Problemas de Desarrollo, 117(45), 59–86.
(15) Hampel, F. (1974) "The Influence Curve and Its Role in Robust Estimation". Journal of the American Statistical Association 69:383–393.
(16) Koenker, R. (2005) "Quantile Regression". Cambridge Universtiy Press
(17) Koenker R. y Bassett G. (1978) "Regression Quantiles". Econometrica 46:33–50.
(18) Lerman R., Yitzhaki S. (1985) "Income Inequality Effects by Income Source: A New Approach and Applications to the United States". The Review of Economics and Statistics 67:151–156.
(19) Li Q, Racine JS (2007) "Nonparametric Econometrics". Princeton University Press, New Jersey
(20) Machado, J. A., & Mata, J. (2005). "Counterfactual Decomposition of Changes in Wage Distributions using Quantile Regressions", Journal of Applied Econometrics, 20, 445–465.
(21) Mincer J. (1958) "Investment in Human Capital and Personal Income Distribution". Journal of Political Economy 66:281–302.
(22) Oaxaca, R. (1973). "Male-Female Wage Differentials in Urban Labor Markets", International Economic Review, 14(3), 693–709.
(23) Press W., Teukolsky S., Vetterling W. y Flannery B. (2007) "Numerical Recipes: The Art of Scientific Computing", Third Edition. Cambridge University Press, New York
(24) Todd, Petra E. 2007. “Evaluating Social Programs with Endogenous Program Placement and Selection of the Treated”. En , editado por T. Paul Schultz y John A. Strauss, 4:3847–94. "Handbook of Development Economics". Elsevier.
(25) Zacaria, H., & Zoloa, J. (2005). "Desigualdad y pobreza en las regiones argentinas: Un análisis de microdescomposiciones" (pp. 1–30). Anales de la XL Reunión Anual de la Asociación Argentina de Economía Política.
APÉNDICE: estimación de las funciones de influencia recentradasLas RIFs de los tres estadísticos utilizados en este trabajo son:
Media: RIF ( y ; μ )= y= 1N ∑
i=1
N
y i
Cuantil τ -ésimo: RIF ( y;Qτ )=Qτ+τ−I { y ≤ Qτ }
f (Q τ )
Qτes el cuantil muestral τ , definido como:
Qτ=minQ
∑i=1
N
(τ−I {Y i−Q ≤0 }) (Y i−q )
Por su parte, f (Qτ ) es un estimador de densidad por funciones de kernel de Rosenblatt-Parzen
(Li and Racine 2007):
f Y (Q τ )= 1Nb ∑i=1
N
K (Y i−Qτ
b )K ( z )es una función de kernel7 y b es el parámetro de ancho de banda.
Coeficiente de Gini: RIF (υGini )=1+ B2 ( FY ) y+C2( y ;FY )
Las contrapartes muestrales de las coordenadas de la Curva de Lorenz generalizada se estiman
utilizando una serie de puntos de datos discretos y1 , …, y N ordenados de menor a mayor, de
manera que: y1≤ y2 ≤…≤ yN :
p ( y i )=∑j=1
i
ω (T j)
∑j=1
N
ω (T j)
GL [ p ( y i ) ]=∑j=1
i
ω(T j)Y j
∑j=1
N
ω (T j)
T jes un indicador de pertenencia a los grupos A o B y los ω son ponderadores normalizados,
tales que:
ω (T j )=ω (T i)
∑i=1
N
ω(T i)
Dónde: p=N−1∑i=1
N
T i, mientras que las estimaciones de R(FY) se obtienen por integración
numérica utilizando integración numérica de GL [ p ( y i ) ] a lo largo de p ( y i ) vía splines cúbicos
(Press et al. 2007) 8.
7 Usualmente las funciones Epanechnikov o Gaussiana8 A diferencia de (Firpo et al. 2007) no se utiliza el mismo código en Stata, pero se replican los resultados aproximando la función por medio de dos comandos en R: splinefun, para obtener la interpolación e integrate para integrar la función obtenida.