cpcecorrientes.org.arcpcecorrientes.org.ar/.../documentos/diciembre_trabajo_victor_fun… · Web viewEl estudio de la distribución del ingreso en América Latina ha sido objeto

DIFERENCIAS REGIONALES Y DESIGUALDAD: UN ANÁLISIS DE CUANTILES NO CONDICIONALES

Área VI : Economía y Comercio Exterior

Tema 3 : Inclusión social y fomento a las economías regionales

21° Congreso Nacional de Profesionales en Ciencias Económicas

San Miguel de Tucumán, 28, 29 y 30 de Septiembre de 2016

Contenido1. INTRODUCCIÓN..........................................................................................................................

2. DATOS........................................................................................................................................

3. METODOLOGÍA.........................................................................................................................

3.1 Regresión por cuantiles..........................................................................................................

3.2 Descomposición de cuantiles.................................................................................................

3.3 Regresión por Funciones de Influencia Recentradas..............................................................

3.4 Relación entre estimadores de cuantiles condicionales y no condicionales...........................

3.5 Distribución contrafactual......................................................................................................

3.6 Estimador de diferencias como efecto tratamiento...............................................................

4. RESULTADOS................................................................................................................................

5. CONCLUSIÓN................................................................................................................................

REFERENCIAS....................................................................................................................................

APÉNDICE: estimación de las funciones de influencia recentradas..................................................

1.INTRODUCCIÓNEl estudio de la distribución del ingreso en América Latina ha sido objeto de cada vez mayor

atención debido a la creciente disponibilidad tanto de información pública proveniente de

encuestas de hogares, así como también de información armonizada que permite que éstos sean

comparables a lo largo de diferentes países.

Dentro de la vasta literatura sobre distribución del ingreso, existe un fenómeno que aún no ha

recibido atención suficiente ni en Argentina ni en América Latina: los diferenciales de ingreso

interregionales. Es necesario tener un conocimiento detallado de sus causas a fines de orientar

políticas públicas hacia su reducción (Galego and Pereira 2014) en particular en economías

emergentes como la de Argentina donde las remuneraciones están aun fuertemente ligadas a la

productividad de la tierra.

Existen otros trabajos que abordan la temática de la desigualdad salarial a lo largo de la

distribución del ingreso laboral con la metodología que se utilizará aquí, por ejemplo, (Zacaria

and Zoloa 2005)) quienes realizan también una microdescomposición del coeficiente de Gini y

de la línea de pobreza extrema por regiones, utilizando una metodología diferente desarrollada

por (Bourgignon and Ferreira 2005) pero que parte también de una ecuación de Mincer. Los

autores encuentran una fuerte heterogeneidad en los resultados a lo largo de las regiones de los

parámetros relacionados con educación y calidad del puesto de trabajo.

Otro trabajo de importancia es el de (Groisman 2014) quien utiliza la metodología citada para

evaluar los cambios distributivos acaecidos entre 2003 y 2011 para el total del país, en su

análisis el grueso de la reducción en la desigualdad (medida a través de los índices de Gini y la

varianza logarítmica) se debió a un incremento en los retornos salariales y en los retornos a la

calidad del empleo.

En el caso de Argentina, la desigualdad del ingreso laboral creció significativamente en la

década de 1990, para volver a reducirse luego de la crisis de 2001-2002, para luego estabilizarse

a partir de 2011.

Figura 1 : Evolución del coeficiente de Gini del ingreso laboral para Argentina

Fuente: elaboración propia en base a INDEC

La Figura 1 muestra la mencionada evolución de la desigualdad para el total país medida a

través del coeficiente de Gini, se incluyen también los intervalos de confianza dónde la varianza

del estimador se calcula por medio del método de bootstrap, para resolver el problema que surge

debido a que el coeficiente de Gini es un estimador puntual de la desigualdad y por si sólo no

provee una medida de su variabilidad.

El método citado consiste en realizar un número finito (denotado comoR ¿ de muestras

aleatorias de observaciones pertenecientes a la base de datos y calcular en cada una el

estadístico en cuestión (en este caso el índice de Gini), una vez que se poseen estas estimaciones

se calcula la media y la desviación estándar1, y es ésta última la que se utiliza para calcular los

intervalos de confianza, en este caso del 95\%.

1 Sea Gicada una de las estimaciones y G= 1R ∑

i=1

R

Gi su media, la desviación estándar del

coeficiente de Gini estimada por éste método es: SE (G )=√ 1R−1∑i=1

R

( Gi−G )2

Figura 2 : Desigualdad del ingreso laboral según regiones


La desigualdad entre regiones replica el comportamiento del agregado, sin embargo, su

variabilidad entre regiones es bastante reducida, el índice de Gini varía entre 1 y 4 puntos en

promedio entre cada subdivisión geográfica.

El ingreso laboral promedio por regiones también se caracteriza por poseer una evolución muy

similar entre regiones, pero con diferencias significativas y persistentes en niveles.

Figura 3 : Ingreso laboral promedio por regiones


El objetivo de éste trabajo consiste en dilucidar cuáles son los determinantes de éstos

diferenciales de ingresos laborales entre regiones vis-à-vis la región del Gran Buenos Aires.

2.DATOSPara el presente trabajo se utilizarán datos provenientes de la Encuesta Permanente de

Hogares (EPH), realizada trimestralmente por el INDEC en 43 aglomerados urbanos, para los

tres trimestres del año 2014, el análisis se circunscribe a los individuos mayores de 14 años

que reportan ingresos laborales positivos.

El análisis se centrará en el ingreso laboral horario, definido como la suma del total de ingresos

monetarios percibidos por cualquier tipo de ocupación durante el período de referencia (mes

anterior al de la encuesta) dividido en el total de horas trabajadas en dicho período (igual a

cuatro veces la cantidad de horas trabajadas por semana). Para estimar ecuaciones de Mincer

se utilizan como covariadas a la experiencia del individuo (definida como su edad menos los

años de educación que reporta y menos seis), su antigüedad en el puesto que ocupa, su

educación definida por medio de una variable categórica con tres niveles (menos que

secundario completo, secundario completo y superior completo), condición laboral (formal o

informal en caso de poseer o no derecho a percibir una jubilación) y otra variable categórica

por sector industrial con los siguientes niveles:

1. Agrícola y demás actividades primarias

2. Industrias de baja tecnología (industria alimenticia, bebidas y tabaco, textiles y

confecciones)

3. Resto de industria manufacturera

4. Construcción

5. Comercio minorista y mayorista, restaurantes, hoteles, reparaciones

6. Electricidad, gas, agua, transporte, comunicaciones

7. Bancos, finanzas, seguros, servicios profesionales

8. Administración pública y defensa

9. Educación, salud, servicios personales

10. Servicio doméstico

Por su parte, las regiones se definen utilizando la misma clasificación del INDEC (Gran Buenos

Aires, Pampeana, Cuyo, Patagonia, NOA y NEA). Las provincias que integran cada región son:

Gran Buenos Aires: Ciudad Autónoma de Buenos Aires y partidos del Conurbano Bonaerense

Pampeana: Resto de Buenos Aires, La Pampa, Santa Fe, Entre Ríos

Cuyo: San Juan, Mendoza, San Luis

Noroeste: Catamarca, Jujuy, La Rioja, Salta, Santiago del Estero, Tucumán

Patagonia: Neuquén, Río Negro, Chubut, Santa Cruz, Tierra del Fuego

Noreste: Chaco, Corrientes, Formosa, Misiones

Un simple gráfico de salarios horarios por provincia (Figura 4) basta para mostrar la magnitud

de las disparidades de remuneraciones a nivel regional en Argentina.

Se observa que los ingresos más bajos se concentran en el norte del país, mientras que lo

opuesto ocurre en el sur, sin embargo, éste mapa no muestra que la densidad de la población

es mayor en la zona centro del país, en particular en el Gran Buenos Aires, donde se concentra

aproximadamente el 30% de la población del país, además de ser dónde se ubica la capital y

ciudad más grande de Argentina.

Figura 4 : Ingreso laboral horario promedio por provincia - año 2014


Cuadro 1: Promedios por región - año 2014


En el Cuadro 1 pude verse que los trabajadores que habitan en las diferentes regiones son en

promedio muy similares en términos de sus niveles de escolaridad, antigüedad en el puesto y

horas trabajadas, pero la retribución horaria por sus tareas difiere notablemente entre todas las

regiones, excepto la Pampeana y el GBA2, sin embargo, éste mayor salario promedio no se

traduce en mayor desigualdad, medida a través de la descomposición del coeficiente de Gini3.

2 Las diferencias de medias (no reportadas) son significativas al 1% para todas las regiones menos para la Pampeana con respecto al GBA.3 Los valores reportados surgen de la descomposición del coeficiente de Gini por regiones utilizando el método de (Lerman and Yitzhaki 1985) (véase (Gasparini et al. 2013), capítulo 6), según la cual el

mencionado coeficiente puede descomponerse en K fuentes como: G ( x )=∑k=1

K

Rk G ( xk ) sk , dónde

Según (Zacaria and Zoloa 2005), la desigualdad en Argentina se relaciona con un gran número

de factores, algunos de los cuales son capturados por la EPH y otros que no:

Retornos a la educación: existe una relación positiva entre la productividad y el nivel

educativo, la cual se ve reflejada a través de la remuneración que los individuos perciben en el

mercado de trabajo.

Brecha de género: en promedio, los hombres perciben salarios más altos que las mujeres, este

fenómeno se redujo notablemente en los último 30 años gracias a la entrada masiva de las

mujeres en el mercado laboral, pero aún continúan existiendo diferenciales de ingresos

atribuibles al género.

Retornos a la experiencia: Cuanto mayor es la antigüedad en el puesto, mayor es el salario, en

parte por arreglos institucionales (convenios colectivos de trabajo o estatutos en el sector

público) y también debido al “learning by doing”.

Horas trabajadas: es un factor muy relacionado con la brecha de género, ya que, si en el hogar

existe uno o más miembros menores de 4 años, la probabilidad que la mujer trabaje menor

cantidad de horas que el hombre se incrementa.

Condición laboral: por último, una característica del mercado laboral argentino es su elevada

tasa de informalidad (definida aquí en términos del acceso a una jubilación), la cual creció

notablemente en la década de 1990 junto con la desigualdad, pero a diferencia de la segunda, no

se redujo con la misma fuerza que ésta (Beccaria and Groisman 2007).

3.METODOLOGÍAEn este trabajo se implementará una descomposición del estilo Oaxaca-Blinder ((Oaxaca 1973);

(Blinder 1973)) para regresiones por cuantiles no condicionales propuesta por (Firpo et al.

2009) y (Fortin et al. 2011) con el objeto de descomponer los diferenciales salariales regionales

a lo largo de toda su distribución.

El punto de partida del método es la conocida descomposición Oaxaca-Blinder, la cual consiste

en determinar cuáles son los factores que explican la diferencia de salarios entre dos grupos, A

y B. Sea Y g el logaritmo del salario para los grupos g∈ A ,B, sean X un conjunto de

G ( xk ) es el coeficiente de Gini de la región k , sk=μk

μ, es la participación de la región k en el ingreso

total y Rk es la correlación-Gini entre el ingreso de la región k y el ingreso total, en la tabla se reportan sólo los Gk.

características observables (covariadas) y υg un conjunto de características no observables, el

modelo de determinación de salarios se supone lineal en ambas:

Y=X βg+υg para: g∈ A , B

Con: E [υg∨X ]=0, sea DB una dummy igual a 1 si el individuo pertenece al grupo B y si se

denota como ΔμO a la brecha de salarios entre los grupos A y B entonces:

ΔμO=E [Y B∨DB=1 ]−E [Y A∨DB=0 ]

¿ (E [ X∨DB=1 ] β B+E [υB∨DB=1 ] )−(E [ X∨DB=0 ] β A+E [υA∨DB=0 ] )

Puesto que E [υB∨DB=1 ]=E [υA∨DB=0 ]=0, entonces se agrega y sustrae el salario

promedio contrafactual, definido como el salario que percibirían los miembros del grupo B si

fueran remunerados de acuerdo a la estructura salarial del grupo A:E [ X∨DB=1 ] β A , la

expresión anterior se convierte en:

ΔμO=E [ X∨DB=1 ] βB−E [ X∨DB=1 ] β A+E [ X∨DB=1 ] βA−E [ X∨DB=0 ] βA

¿ E [ X∨DB=1 ] ( βB−β A )+( E [ X∨DB=1 ]−E [ X∨DB=0 ]) β A

¿ ΔμS + Δμ

X

En la práctica, en vez de las esperanzas condicionales (E [ X|DB=d ] ), se poseen las medias

muestrales, X g, de modo que el diferencial estimado es igual a:

∆μO=XB ( βB− β A )+( XB−X A ) βA

¿ ∆μS+ ∆μ

X

El diferencial de salarios queda, entonces, descompuesto en dos términos (efectos):

∆μS: efecto estructura salarial, efecto precio o variación no explicada, diferencias originadas en

los coeficientes estimados para cada covariada.

∆μX :efecto composición, efecto características o variación explicada, diferencias en los valores

promedio de las covariadas.

A fines de analizar los determinantes de los diferenciales de ingresos por regiones a lo largo de

la distribución de ésta, la descomposición de la media es de importancia secundaria, puesto que

dicho estadístico no brinda información útil sobre la desigualdad. Para resolver éste problema es

necesario ir más allá de ésta y estudiar los cuantiles de la mencionada distribución de ingresos

laborales4.

3.1 Regresión por cuantilesVolviendo al modelo lineal descrito previamente (Y =X βg+υg ), el método tradicional de

Mínimos Cuadrados Ordinarios (MCO) requiere, a fines que la estimación del vector β sea

insesgada, que E (υg|X )=0 , sea cual fuere la distribución de υg. El método de Regresión por

cuantiles desarrollado por (Koenker and Bassett 1978) parte de la misma especificación lineal,

pero reemplaza el supuesto de insesgadez por uno más débil, que el cuantil τ -ésimo es igual a

cero. Si f ( . ) es la distribución de υg, entonces:

∫−∞

0

f τ (υg ) d υg=τ

Los coeficientes de regresión para cada uno de los cuantiles ( β (τ ) ) se obtienen como la solución

del siguiente problema de optimización:

min{ β }

1N ∑

i=1

N

ρτ (Y i−X i βi )

Dónde ρτ es la función definida como:

ρτ (υ )=υ∗(τ−I (υ<0 ) )

I ( . ) es una función indicadora (igual a uno si la condición entre paréntesis es verdadera), puesto

que ésta función no es diferenciable (Koenker 2005) la solución se obtiene por medio de

programación lineal.

3.2 Descomposición de cuantilesEl coeficiente β en una regresión (a la media) convencional puede interpretarse de dos formas

(Fortin et al. 2011): por una lado, β mide el efecto de las covariadas X sobre la esperanza

condicional de Y con relación a X :E(Y / X)=Xβ , por otro lado, el coeficiente β muestra

también el impacto de incrementar el valor promedio de X sobre la media no condicional de Y :

E(Y )=E ( X ) β . Ambas interpretaciones son equivalentes en virtud de la Ley de esperanzas

iteradas:

4 En el resto del trabajo nos referiremos a “cuantiles” o “deciles” como sinónimos, más allá de que los cálculos pueden realizarse por quintiles, veintiles o percentiles de la distribución del ingreso laboral.

E(Y )=E X[ E(Y / X)] E ( X ) β

Según el modelo de la sección anterior, el modelo de regresión para el cuantil condicional τ -

ésimo de la distribución de Y es: Qτ (Y )=X β τ. El coeficiente β τ mide el efecto de X sobre el

cuantil condicional de Y dado X .

Lamentablemente, la ley de esperanzas iteradas no se cumple para cuantiles, de modo que:

Qτ (Y ) ≠ E X [Qτ ] E( X) β τ , donde Qτ es el cuantil no condicional; esto implica que los cuantiles

condicionales muestran el efecto de las covariadas X sobre la distribución de Y , pero no sobre

los individuos.

Una ilustración del efecto que ésta característica (Angrist and Pischke 2009) posee sobre las

inferencias que pueden hacerse sobre las distribuciones de ingresos es el siguiente, si una región

posee ingresos promedio en el primer decil superiores a otra, no implica necesariamente que en

un escenario contrafáctico dónde esa persona pudiera migrar de la región más pobre a la de

mayores ingresos promedio podrá esperar tener ingresos más altos.

Para poder realizar las inferencias que repliquen el análisis de Oaxaca-Blinder en cada decil, lo

que nos interesan no son los cuantiles condicionales, sino los cuantiles marginales, dado que

son éstos los que muestran el impacto que las variaciones en las covariadas poseen sobre la

desigualdad del ingreso laboral.

Qτ (Y )=inf { y :FY ( y )≥ τ }

Donde FY ( y )=Pr (Y < y ) es la distribución marginal de Y :, para calcular el τ -ésimo cuantil

marginal se debe obtener una estimación de la distribución marginal para la totalidad de los

cuantiles:

FY ( y )=∫∫0

1

I [ X βτ< y ] dτd FX (X )

Existen varias soluciones posibles para éste problema, una de ellas, propuesta por (Machado and

Mata 2005) consiste en estimar el análogo muestral de la última ecuación:

FY ( y )=N−1( 110 )∑

τ=0

1

I [ X β τ< y ]

Dónde los coeficientes β τse estiman utilizando regresión por cuantiles y luego se repiten éstas

estimaciones un determinado número de veces, a fines de simular la distribución condicional

sobre la cual se suma (integra) para obtener la distribución marginal deseada, pero con un

elevado costo en términos de cómputo.

3.3 Regresión por Funciones de Influencia RecentradasUn método alternativo (Firpo et al. 2009) para obtener los cuantiles marginales (o no

condicionales), no utiliza la distribución condicional de Y , sino una transformación de dicha

variable, la cual se regresa contra el conjunto de variables explicativas.

La mencionada transformación, se denomina Función de Influencia Recentrada, sea ν (F )un

estadístico cualquiera5, función de la distribución F (Y ), la Función de Influencia (Hampel

1974), (Cowell and Flachaire 2015) del estadístico ν (F )es igual a:

IF ( y ; ν , FY )=∂ ν (FY , t∗Δy )

∂t t=0

Donde Δ y es una medida de probabilidad que le asigna la totalidad de la masa de probabilidad

al valor y, entonces su correspondiente Función de Influencia Recentrada (RIF) será:

RIF ( y; ν , FY )=υ ( FY )+∫ IF ( y ;ν , FY ) d Δy=υ ( FY )+¿ IF ( y ;ν , FY )¿

Es posible derivar la forma funcional exacta de ambas funciones para un gran número de

funciones (Essama-Nssah and Lambert 2012). Para este trabajo se utilizarán las RIFs de tres

estadísticos:

Media: RIF ( y ;μ)= y

Cuantil τ -ésimo: RIF ( y ;Q τ)=Qτ+τ−l { y≤ Qτ }

f ( Qτ )

Coeficiente de Gini: RIF (νGini)=1+B2(FY ) y+C2( y ; F y) , dónde:

A2 ( FY )= 2μR ( FY )

B2 ( FY )= 2μ2 R ( FY )

C2 ( FY )=−2μ [ y (1−p( y ))+GL( p ( y ) ; FY )]

5 El cuantil τ , coeficiente de Gini, media, varianza, etcétera.

R ( FY )=∫0

1

GL ( p ;FY ) dp

p ( y )=FY ( y)

GL ( p ; FY )= ∫−∞

F−1( p)

zd FY(z )

Donde GL ( p ; FY )es la Curva de Lorenz Generalizada de y, en el apéndice se detalla como se

estiman éstos parámetros.

(Firpo et al. 2009) muestran que la RIF es una aproximación lineal del funcional no lineal ν (F )

de la distribución de Y que permite calcular los efectos parciales de cada una de las covariadas

X sobre Y . En el mismo trabajo, los autores muestran que éste efecto parcial puede estimarse de

tres formas: a través de una regresión de variables transformadas utilizando el método de

mínimos cuadrados ordinarios (“RIF-OLS”), a través de un modelo lineal generalizado (“RIF-

Logit”) o bien utilizando métodos no paramétricos (“RIF-NP”).

El método de RIF-OLS es no es otra cosa que una regresión lineal de la RIF estimada contra el

conjunto de covariadas para cada uno de los subgrupos (regiones, en nuestro caso), el modelo

es:

E [ RIF (Y g ;Qτ∨X g)]=X ' ig β τg g=A ,B

Los coeficientes β τg representan los efectos marginales aproximados de las variables

explicativas sobre el logaritmo del salario para el cuantil Qτen la región g=A , B.

3.4 Relación entre estimadores de cuantiles condicionales y no condicionalesVolviendo a la definición de Función de Influencia Recentrada para el cuantil Qτésta puede re

expresarse como:

RIF (Y ;Qτ )=Qτ+τ−I ( y<Qτ )

f (Qτ )= Qτ+

τ−1f ( Qτ )

+I ( y≥ Qτ )

f (Qτ )=c2 ,τ+c1, τ Pr ( y≥ Qτ )

Dónde las constantes son: c1 , τ=1

f (Qτ ) y c2 , τ=Qτ−c1 , τ(1−τ), tomando esperanzas

condicionales a X , se obtiene:

E [ RIF (Y ;Qτ )∨X ]=¿ c2 , τ+c1 ,τ Pr ( y ≥Q τ∨X)

Finalmente, tomando la derivada parcial del cuantil con respecto a X se obtiene el llamado

“Efecto parcial del cuantil no condicional” (Unconditional Quantile Partial Effect o UQPE),

denotado como α (τ ) :

α (τ )= 1f (Qτ)

∂ Pr ( y≥ Qτ∨X )∂ X

En el caso de RIF-OLS, el valor estimado del UQPE se reduce a:

α g (τ )= 1f (Qτ )

βg(τ)

βg (τ )es el estimador del coeficiente del cuantil τ la variable g y f (Q τ )es la función de densidad

estimada de Y en el cuantil Qτ , en otras palabras, los coeficientes de la regresión por cuntiles no

condicionados son iguales a los de la regresión por cuantiles condicionados multiplicados por el

inverso de la función de densidad de la variable Y evaluada en el decil correspondiente.

Para mostrar la relación entre cada uno de éstos, a continuación se estiman tres regresiones de

(Micer 1958) del logaritmo del ingreso laboral horario contra un conjunto de covariadas: edad,

experiencia, antigüedad en el empleo, sexo, condición de informal, y dos variables categóricas,

una del sector industrial y otra que indica la región donde vive el individuo, tomando como base

al Gran Buenos Aires, de forma que los coeficientes representan la brecha de ingresos de cada

una de las regiones con respecto a ésta. Ésta ecuación se estima por tres métodos (MCO,

regresión por cuantiles condicionales y no condicionales), en el gráfico a continuación se

muestran los coeficientes estimados de la variable categórica “región” por cuantil.

Figura 5 : Efectos marginales estimados por región


En la Figura 5 se muestran los coeficientes estimados de la variable categórica de región para

cada decil de la distribución del logaritmo del ingreso laboral y sus respectivos intervalos de

confianza al 95%, a partir de éste pueden sacarse algunas conclusiones:

1. Los coeficientes de regresión por cuantiles en sus dos formas varían sustancialmente a

lo largo de los deciles de la distribución del logaritmo del ingreso, a diferencia del

estimador MCO que, por definición es constante a lo largo de éstos.

2. La mayoría de los coeficientes son significativos (el cero no está contenido entre los

intervalos de confianza) y negativos, salvo para la Patagonia, lo que implica que existe

una brecha de ingresos positiva a favor del Gran Buenos Aires en la mayor parte del

país.

3. La brecha es mayor para los deciles más bajos de las regiones NOA y NEA (a favor del

GBA) y para los más altos de la región patagónica (en contra del GBA), mientras que el

decil 5 (mediana) coincide casi con la media, consecuencia de la simetría de la

distribución del logaritmo del ingreso.

4. La variación interdecílica de los coeficientes de la regresión por cuantiles no

condicional es mucho mayor que la de los coeficientes de la condicional, fruto del

impacto de la inversa del valor estimado de la distribución del ingreso en dicho decil,

tal como se vio anteriormente.

3.5 Distribución contrafactualLa descomposición Oaxaca-Blinder se generaliza ahora para cualquier funcional υ (Fg) para

ambos grupos, de modo que la diferencia total entre ambos es igual a:

ΔOυ =υ (FYB∨DB

)−υ (FY A∨D A)

Para poder descomponer el resultado en los efectos estructura salarial y composición

necesitamos una distribución contrafactual que combine la estructura salarial de la región A con

la distribución de características de la región B, esta distribución se denominará como FY A∨DB

C ,de

modo que la ecuación será ahora:

ΔOυ =[υ (FY B∨D B)−υ ( FY A∨DB

C ) ]+[υ (FY A∨D B

C )−υ (FY A∨D A ) ]¿ ΔSυ+Δ X

υ

En este caso, dado que la función de esperanza no es lineal ni para cuantiles ni para el

coeficiente de Gini, no es posible utilizar la representación lineal FY A∨DB

C =X B β A, por lo que se

utiliza el método semiparamétrico desarrollado por (DiNardo et al. 1996) el cual consiste en

reponderar la distribución del ingreso del grupo A utilizando las características del grupo B.

El método parte de la siguiente estimación de la función de densidad de FY A∨DB

C :

FY A∨DB

C ( y )=∫FY A∨X A( y∨X ) Ψ ( X ) d F X A

(X )

El factor de reponderación se define como Ψ ( X )=d F XB

( X)d FX A

( X ), de manera tal que la distribución

de FY A∨DB

C no es sino la de Y A reponderada en función de las características del grupo B. Éste

factor se estima en base a un modelo logit o probit que estima la probabilidad de pertenecer al

grupo B dadas las características (X ) de los individuos, con lo que se obtiene un vector de

valores, el cual se normaliza para que su suma sea igual a 1, que representa la ponderación que

cada individuo i de la distribución de la región A debería tener para asemejarse a sus

contrapartes de la región B. El método es en esencia similar al del “propensity score” de la

literatura de evaluación de impacto.

El factor estimado será:

Ψ ( X )=

Pr (B=1∨X)Pr (B=1)

Pr (B=0∨X )Pr (B=0∨X )

=

Pr (B=1∨X)Pr (B=1)

[1−Pr(B=1∨X )][1−Pr (B=1)]

Pr ( B=1|X )son los valores estimados de una regresión probit de X contra una dummy igual a 1

si el individuo pertenece a la región B, mientras que Pr (B=1) es la participación de los

individuos de la región B en el agregado de individuos de las regiones A y B.

Una vez estimado Ψ ( X ), es posible obtener una estimación de la distribución del contrafactual

utilizando una función de kernel:

f Y A∨DB

C ( y )= 1b N A

∑iϵA

Ψ ( X i ) K ( Y− y i

b )A modo de ilustración se muestran las distribuciones del ingreso laboral observada y

contrafáctica en todas las regiones:

Figura 6 : Densidades por región - observadas y contrafactuales


La Figura 6 muestra las distribuciones de ingresos laborales observadas en las regiones Gran

Buenos Aires ( f GBA∨GBA ) y en las demás ( f R∨R ) así como también la distribución contrafáctica

( f R∨GBAC ) que muestra cómo se distribuiría el ingreso laboral si sus habitantes experimentaran la

misma estructura salarial que sus contrapartes del Gran Buenos Aires.

Los cuantiles y el coeficiente de Gini de esta distribución contrafactual se utilizan para

descomponer la desigualdad en cada una de las regiones.

El efecto estructura salarial se descompone también en dos elementos:

ΔSτ =XB ( β τ , B− βτ , A

C )+ (X B−X AC ) β τ , A

C ¿ ΔS , pτ + ΔS ,e

τ

En la última ecuación, ΔS , pτ es el efecto estructura salarial puro, proveniente de la diferencia

entre βτ , By β τ , AC , mientras que ΔS , e

τ representa al error que surge por reponderar los valores de la

distribución del ingreso, ya que X B y X A suelen ser diferentes.

De la misma forma, el efecto composición también puede descomponerse en:

Δ Xτ =(X A

C−X A ) β τ , A+X AC ( β τ , A

C − β τ , A )

¿ Δ X, pτ + ΔX ,e

τ

Δ X , pτ es el efecto composición puro, equivalente al que surge de la descomposición Oaxaca-

Blinder y Δ X, eτ es el error de especificación, igual a cero si el modelo es lineal. Para concluir,

dado que no existe una forma cerrada para los errores estándar de los estimadores utilizados, se

optará por utilizar bootstrap para realizar pruebas de significatividad.

3.6 Estimador de diferencias como efecto tratamientoSiguiendo a (Fortin et al. 2011) cuando los contrafactuales se basan en distribuciones de salarios

hipotéticas, pueden vincularse con facilidad con la literatura de efectos tratamiento. El Efecto

tratamiento promedio sobre los tratados (ATT)6 se define como la diferencia entre los

ingresos promedios de los individuos de los grupos (regiones) A y B si los miembros de éste

grupo perciben la remuneración del grupo A, dónde el “tratamiento” consiste en moverse de un

grupo a otro:

ATT=E [Y B∨DB=1 ]−E [Y A∨DB=1 ]

En la literatura de evaluación de impacto (Véase (Todd 2007))) éste se define como la ganancia

promedio experimentada por el subconjunto de individuos que posee un determinado conjunto

de características que participa de un programa. Del mismo modo, para cualquier otro

estadístico υ (.) de la distribución del ingreso, el efecto tratamiento se define de idéntica forma:

υ−TT=υ ( FY B∨D B)−υ ( FY A∨DB )

Ahora el problema radica en que FY A∨D B, no es directamente observable a partir de los datos

(sólo se dispone información sobre Y , DBy X ), si los individuos fuesen asignados

aleatoriamente a cada grupo, ésta distribución podría identificarse.

6 “Average Treatment on the Treated”

Para saltear éste problema, es necesario invocar dos supuestos, denominados ignorabilidad y

soporte común. El primer supuesto, también denominado “selección por observables” se cumple

si el término de error ε es independiente de la asignación a cada grupo (D gpara g=A ,B), para

un dado X=x , esto implica que los individuos no deciden a que grupo pertenecer en base a

características observables, de no ser así no podría separarse el efecto que tiene la región del que

poseen sus características observables. El segundo supuesto, el de soporte común, implica que

la probabilidad de pertenecer a alguno de los grupos puede estimarse como función de las

características ( X ) de los integrantes de cada uno de éstos, es decir que las características que

determinan la pertenencia son observables para todos los individuos y no sólo para uno de los

grupos.

Bajo el supuesto de ignorabilidad: FY A∨D BFY A

C∨X , el método de reponderación supone

explícitamente el cumplimiento de éste supuesto, de modo que la diferencia total entre grupos

puede descomponerse como:

∆Oυ =υ (FY B∨DB

)−υ (FY AC ∨D B

)+υ (FY AC∨DB

)−υ (FY A∨DA)¿υ−TT+υ (FY A

C∨D B)−υ (FY A∨D A

)

El efecto estructura salarial es entonces el efecto tratamiento sobre los tratados, esto es, cual es

el efecto que posee para un grupo de individuos el vivir en una región versus su contrafactual si

éstas mismas personas viviesen en el Gran Buenos Aires para cualquier estadístico υ(.) que sea

función de las distribuciones del ingreso en cada región.

La literatura sobre evaluación de impacto se centra principalmente en la inferencia causal, es

decir, bajo cuales condiciones el resultado (diferencia entre los valores del estadístico) fue

causado por el tratamiento (pertenecer a un grupo o al otro). En este caso no es discutible en qué

medida el tratamiento es una acción manipulable o no, dado que el costo de migrar suele ser

muy elevado en países como Argentina debido a la rigidez de los mercados laborales e

inmobiliarios. Sin embargo, y a diferencia de los estudios sobre discriminación en base a género

o raza, la región dónde el individuo vive si es modificable, más allá de los costos a los que éstos

se enfrentan.

Por otro lado, los valores de las covariadas X pueden variar como consecuencia del tratamiento,

esto es, las personas que deciden vivir en una región pueden poseer características diferentes de

las que habitan en otra. Sin embargo, este argumento es válido para los migrantes, no tanto para

quienes nacieron en cada región, nuevamente es discutible cual es el alcance de éste efecto,

dada la baja movilidad entre regiones observada en Argentina.

4. RESULTADOSEn el Cuadro 2 se muestran los resultados de las regresiones salariales con respecto a la media y

a los deciles 10, 50 y 90; debido a la gran cantidad de coeficientes se optó por excluir a los

coeficientes de las dummies por sector industrial. Los errores estándar de las regresiones por

cuantiles no condicionales se estimaron por bootstrap con 100 repeticiones, debido a que no

existe una forma funcional específica para ellos.

Las variables dependientes son la experiencia y antigüedad en el puesto del trabajador, así como

también sus valores al cuadrado, dos dummies de nivel educativo (hasta secundario completo y

superior completo), una dummy de género igual a uno si el trabajador es hombre, otra dummy

de condición laboral (igual a uno si el individuo no posee derecho a una jubilación) y un

conjunto de variables categóricas por región, cuyo nivel omitido es el GBA, de modo que

representan la brecha de ingresos con respecto al GBA en la media y en cada cuantil no

condicional.

Los coeficientes poseen, en su mayoría, el signo esperado: la experiencia posee un efecto

positivo pero que declina con el tiempo, sin embargo, la antigüedad en el puesto genera el

efecto opuesto, con excepción del decil 10.

El impacto de la educación secundaria completa es siempre positivo, pero no lineal, el valor del

coeficiente del decil 50 (mediana) es mayor que el de los deciles 10 y 90, por otro lado, el

coeficiente de la variable educación superior completa es siempre positivo y creciente a lo largo

de los deciles. Entonces, la educación secundaria tiene un impacto mucho mayor en los deciles

más bajos y lo inverso ocurre en los más altos debido a que los individuos con secundario

completo tienden a tener ingresos en la mediana de la distribución, mientras que los que poseen

estudios superiores se ubican en los deciles más altos.

De la misma forma, el coeficiente de informalidad es siempre negativo, pero su valor absoluto

es decreciente a lo largo de los deciles, la falta de beneficios sociales perjudica más a quienes

poseen menores ingresos, puesto que son quienes más lo necesitan debido a que su

productividad (medida a través de sus ingresos laborales) es más baja, mientras que en el otro

extremo de la distribución el impacto es casi nulo, a pesar de ser significativo en términos

estadísticos.

Al igual que en la Figura 5 el signo de la dummy por regiones es negativo para todas éstas, con

excepción de la Patagonia, y se observa que, en general, la brecha con respecto al Gran Buenos

Aires se reduce a medida que se avanza a lo largo de la distribución del ingreso laboral, con

excepción de las regiones Patagónica y Pampeana, dónde ocurre lo contrario, pero con mayor

fuerza en la primera.

Cuadro 2: Regresiones a la media y por cuantiles no condicionales en los deciles 10, 50 y 90 para variables

seleccionadas


El cuadro 3 muestra las estimaciones de las brechas regionales para los deciles 1, 5 y 9;

separadas en sus respectivos efectos composición y estructura salarial. Puede verse que las

brechas salariales se reducen a lo largo de la distribución para la mayor parte de las regiones,

éste comportamiento es un reflejo del que muestran los coeficientes de la Figura 5.

El efecto composición es negativo para todas las regiones relativas al GBA en el decil 1, pero

cambia de signo en los deciles superiores, esto implica que la región Gran Buenos Aires posee

una fuerza laboral más calificada que las demás en los deciles en y por encima de la mediana.

Sin embargo, el efecto estructura salarial es ínfimo para todas las regiones, de modo que no

existe una mejor retribución a las características observables de los trabajadores para ninguno de

los deciles de la distribución del ingreso que se muestran aquí.

Los factores que determinan la importancia del efecto composición en el primer decil son la

experiencia, antigüedad en el puesto y la condición de informal, mientras que la educación

juega un rol secundario. El quinto decil, se nivela la importancia de la experiencia, la

antigüedad y los niveles educativos, al mismo tiempo que la informalidad continúa siendo más

importante que éstas. Finalmente, en el noveno decil, la educación es principal factor que

explica la brecha de ingresos, al mismo tiempo que todos los demás se reducen a prácticamente

cero, en particular la informalidad, que pierde su significatividad económica, pero no así su

significatividad estadística.

Volviendo a la definición de cada elemento de la descomposición, el efecto estructura salarial

refleja diferencias en los retornos (Cahuc and Zyllerberg 2004) es decir en los coeficientes de la

ecuación de Mincer, mientras que el efecto composición refleja diferencias en la distribución de

las características entre los grupos (regiones); claramente la contribución del efecto

composición es la más importante, mientras que el efecto estructura salarial posee un impacto

marginal.

Los coeficientes de las variables del efecto composición son significativas, apuntando a que la

principal causa de las diferencias en ingresos laborales para los deciles 1, 5 y 9 radica en las

diferencias en las distribuciones del conjunto de características observables de los individuos,

pero éste efecto se reduce a medida que se avanza en la distribución del ingreso laboral, de

modo que la principal explicación para las diferencias observadas en los coeficientes de la

Figura 5 se origina en diferencias en el capital humano (educación y experiencia) de los

individuos ubicados en los deciles más bajos de la distribución más que en diferencias en la

estructura salarial.

Cuadro 3: Descomposición detallada de las brechas de salarios regionales


Por último, en el Cuadro 4 se muestra la misma descomposición, pero para el coeficiente de

Gini por región, los valores de los coeficientes estimados se multiplicaron por 100 (y sus

respectivas desviaciones estándar por 10) a fines de asistir en la visualización. Se observa que

los resultados son similares a los encontrados para los deciles de la distribución, nuevamente la

distribución de las características de los individuos explica la mayor parte de las diferencias en

los coeficientes de Gini entre cada región y el Gran Buenos Aires.

La desigualdad, como se observa en el Cuadro1, varía poco entre regiones, no más de 2 puntos,

por lo que la variación total no supera dicho valor, la excepción es la región NEA, donde el

residuo (no reportado) posee una magnitud muy grande en relación a la variación, motivo por el

cual la suma de ambos efectos supera la diferencia observada, un problema similar, pero de

menor magnitud tiene lugar en la región Pampeana.

Es interesante notar que la experiencia y la educación son los factores que explican mejor las

variaciones en la desigualdad, así como la antigüedad en el puesto, mientras que el género

explica una parte muy pequeña de la variación total, lo mismo sucede con la informalidad, con

excepción de la región Patagónica.

Cuadro 4: Descomposición detallada del coeficiente de Gini por regiones


Figura 7 : Descomposición del diferencial de ingresos por regiones y por deciles


La Figura 7 muestra los efectos composición y estructura salarial para los nueve deciles de la

distribución del ingreso laboral horario, esto es, el resultado de:

∆OQτ=[QFY R ∨DR

( τ )−QFY GBAC ∨DR

( τ ) ]+[QFY GBAC ∨D R

(τ )−QFY GBA∨D GBA

(τ ) ]

El efecto composición permanece relativamente estable a lo largo de los deciles, al igual que el

efecto estructura salarial, sólo que las variaciones del segundo son ínfimas y estadísticamente

indistinguibles del cero, en la ecuación de arriba resulta evidente que el motivo de dicha

discrepancia radica en que la diferencia entre las distribuciones de ingresos del Gran Buenos

Aires y la distribución simulada de la región $R$ si las características de los individuos se

distribuyeran como las de la región Gran Buenos Aires es ínfima, siendo esta diferencia del

orden de 0,001 puntos.

En la mayoría de las regiones el efecto composición es negativo, excepto en Cuyo, dónde es

positivo a lo largo de todos los deciles, mientras que en las regiones NOA y NEA es dónde éste

resulta poseer un valor negativo de mayor magnitud. La Región Pampeana se distingue de las

demás porque los valores de cada uno de los efectos fluctúan muy poco en relación a las demás

regiones, reforzando la idea que ésta no es diferente en términos de las características

observables que el Gran Buenos Aires.

En este caso la reponderación muestral no tuvo el éxito deseado, debido en gran parte a que las

distribuciones contrafactuales son muy similares a la de la región GBA, lo que hace que el

efecto características sea ínfimo y estadísticamente no significativo, sin embargo si sirve para

aclarar algunos aspectos de la desigualdad inter-regional, en particular, que las características de

la ocupación actual (y especialmente la condición de formalidad) afectan más a las condiciones

salariales en los deciles más bajos, mientras que a medida que se avanza en la distribución éstas

pierden fuerza mientras que con la educación ocurre lo contrario. Por su lado, la

descomposición del coeficiente de Gini muestra que la experiencia, la antigüedad en el puesto y

el sector industrial son los principales determinantes de las diferencias en desigualdad

observadas.

5.CONCLUSIÓNEn este trabajo se empleó la metodología desarrollada por (Fortin et al. 2011) para estimar el

impacto de cambiar la distribución de un conjunto de covariadas en los deciles no condicionales

del ingreso per cápita laboral y en su coeficiente de Gini. Se encuentra que existen notables

diferenciales de ingresos entre cada región y el Gran Buenos Aires, considerada como región

base, con la única excepción de la región Pampeana, los diferenciales son bastante estables a lo

largo de la distribución, pero con una tendencia a ser mayores en los deciles más bajos, en

particular en las regiones NOA y NEA.

El método de descomposición muestra que el principal componente de las variaciones es el

efecto composición, es decir que las diferencias se originan entre las distribuciones de las

características de la población y no en la estructura salarial a la que se enfrentan los habitantes

de cada una de las regiones. Sin embargo, la importancia de la educación crece a medida que se

avanza en los deciles de la distribución en detrimento de las otras variables. Éstos resultados se

replican también para el coeficiente de Gini, dónde la educación y las características del actual

empleo explican en su mayoría los diferenciales de desigualdad entre regiones.

Una derivación futura del estudio consiste en utilizar la idea de (Groisman 2014) pero

segmentando la muestra por regiones, esto es, estudiar los diferenciales de ingresos por regiones

utilizando como contrafactual a la distribución del ingreso de ésta en un año anterior (2005, por

ejemplo) a fines de estudiar las variaciones intertemporales.

REFERENCIAS

(1) Angrist, J., y Pischke, J. 2009. "Mostly Harmless Econometrics: An Empiricist’s Companion". Princeton University Press.

(2) Beccaria, L., & Groisman, F. (2007)." Informalidad y Pobreza en Argentina" (pp. 1–19). Anales de la XLII Reunión Anual de la Asociación Argentina de Economía Política.

(3) Blinder A. (1973) "Wage Discrimination: Reduced Form and Structural Estimates". The Journal of Human Resources 8:436–455.

(4) Bourgignon, F. y Ferreira, F. 2005. “Decomposing Changes in the Distribution of Household Incomes: Methodological Aspects”. En The Microeconomics of Income Distribution Dynamics in East Asia and Latin America, editado por François Bourgignon, Francisco Ferreira, y Nora Lustig. The World Bank.

(5) Cahuc, P. y Zyllerberg, A. 2004. "Labor Economics". Cambridge, MA: MIT Press.

(6) Cowell, F. A., & Flachaire, E. (2015). "Statistical Methods for Distributional Analysis". En A. B. Atkinson & F. Bourguignon (Eds.), "Handbook of Income Distribution" (Vol. 2, pp. 359–465). Elsevier.

(7) DiNardo J, Fortin N, Lemieux T (1996) "Labor Market Institutions and the Distribution of Wages, 1973-1992: A Semiparametric Approach". Econometrica 64:1001–1044.

(8) Essama-Nssah, B., & Lambert, P. (2012). "Influence Functions for Policy Impact Analysis". En "Inequality, Mobility and Segregation: Essays in Honor of Jacques Silber" (pp. 135–159).

(9) Firpo S, Fortin N, Lemieux T (2007) "Decomposing Wage Distributions using Recentered Influence Function Regressions". University of British Columbia

(10) Firpo S., Fortin N, Lemieux T. (2009) "Unconditional Quantile Regressions". Econometrica 77:953–973.

(11) Fortin, N., Lemieux, T., & Firpo, S. (2011). "Decomposition Methods in Economics". En O. Ashenfelter & D. Card (Eds.) "Handbook of Labor Economics", Vol. 4A, pp. 1–102. Elsevier.

(12) Galego, A., & Pereira, J. (2014). "Decomposition of Regional Wage Differences Along the Wage Distribution in Portugal: The Importance of Covariates". Environment and Planning A, 46(10), 2514–2532.

(13) Gasparini, L., Cicowiez, M., & Sosa Escudero, W. (2013). "Pobreza y Desigualdad en América Latina. Conceptos, herramientas y aplicaciones" (1a ed.). Buenos Aires: Temas.

(14) Groisman, F. (2014). "Empleo, desigualdad y salarios en Argentina: análisis de los determinantes distributivos". Problemas de Desarrollo, 117(45), 59–86.

(15) Hampel, F. (1974) "The Influence Curve and Its Role in Robust Estimation". Journal of the American Statistical Association 69:383–393.

(16) Koenker, R. (2005) "Quantile Regression". Cambridge Universtiy Press

(17) Koenker R. y Bassett G. (1978) "Regression Quantiles". Econometrica 46:33–50.

(18) Lerman R., Yitzhaki S. (1985) "Income Inequality Effects by Income Source: A New Approach and Applications to the United States". The Review of Economics and Statistics 67:151–156.

(19) Li Q, Racine JS (2007) "Nonparametric Econometrics". Princeton University Press, New Jersey

(20) Machado, J. A., & Mata, J. (2005). "Counterfactual Decomposition of Changes in Wage Distributions using Quantile Regressions", Journal of Applied Econometrics, 20, 445–465.

(21) Mincer J. (1958) "Investment in Human Capital and Personal Income Distribution". Journal of Political Economy 66:281–302.

(22) Oaxaca, R. (1973). "Male-Female Wage Differentials in Urban Labor Markets", International Economic Review, 14(3), 693–709.

(23) Press W., Teukolsky S., Vetterling W. y Flannery B. (2007) "Numerical Recipes: The Art of Scientific Computing", Third Edition. Cambridge University Press, New York

(24) Todd, Petra E. 2007. “Evaluating Social Programs with Endogenous Program Placement and Selection of the Treated”. En , editado por T. Paul Schultz y John A. Strauss, 4:3847–94. "Handbook of Development Economics". Elsevier.

(25) Zacaria, H., & Zoloa, J. (2005). "Desigualdad y pobreza en las regiones argentinas: Un análisis de microdescomposiciones" (pp. 1–30). Anales de la XL Reunión Anual de la Asociación Argentina de Economía Política.

APÉNDICE: estimación de las funciones de influencia recentradasLas RIFs de los tres estadísticos utilizados en este trabajo son:

Media: RIF ( y ; μ )= y= 1N ∑

i=1

N

y i

Cuantil τ -ésimo: RIF ( y;Qτ )=Qτ+τ−I { y ≤ Qτ }

f (Q τ )

Qτes el cuantil muestral τ , definido como:

Qτ=minQ

∑i=1

N

(τ−I {Y i−Q ≤0 }) (Y i−q )

Por su parte, f (Qτ ) es un estimador de densidad por funciones de kernel de Rosenblatt-Parzen

(Li and Racine 2007):

f Y (Q τ )= 1Nb ∑i=1

N

K (Y i−Qτ

b )K ( z )es una función de kernel7 y b es el parámetro de ancho de banda.

Coeficiente de Gini: RIF (υGini )=1+ B2 ( FY ) y+C2( y ;FY )

Las contrapartes muestrales de las coordenadas de la Curva de Lorenz generalizada se estiman

utilizando una serie de puntos de datos discretos y1 , …, y N ordenados de menor a mayor, de

manera que: y1≤ y2 ≤…≤ yN :

p ( y i )=∑j=1

i

ω (T j)

∑j=1

N

ω (T j)

GL [ p ( y i ) ]=∑j=1

i

ω(T j)Y j

∑j=1

N

ω (T j)

T jes un indicador de pertenencia a los grupos A o B y los ω son ponderadores normalizados,

tales que:

ω (T j )=ω (T i)

∑i=1

N

ω(T i)

Dónde: p=N−1∑i=1

N

T i, mientras que las estimaciones de R(FY) se obtienen por integración

numérica utilizando integración numérica de GL [ p ( y i ) ] a lo largo de p ( y i ) vía splines cúbicos

(Press et al. 2007) 8.

7 Usualmente las funciones Epanechnikov o Gaussiana8 A diferencia de (Firpo et al. 2007) no se utiliza el mismo código en Stata, pero se replican los resultados aproximando la función por medio de dos comandos en R: splinefun, para obtener la interpolación e integrate para integrar la función obtenida.

Documents

cpcecorrientes.org.arcpcecorrientes.org.ar/.../documentos/diciembre_trabajo_victor_fun… · Web viewEl estudio de la distribución del ingreso en América Latina ha sido objeto