Upload
dangkien
View
218
Download
0
Embed Size (px)
Citation preview
Métodos para el análisis de datos biográficos
Daniel Courgeau*
En este artículo se presentan tres enfoques para analizar datos biográficos. E l enfoque no paramétrico permite tratar las interacciones de varios fenómenos demográficos y conduce a diversos tipos de dependencia entre ellos. E l enfoque paramétrico busca introducir en el análisis la heterogeneidad observada en el seno de la población, relacionando los comportamientos temporales con diversas características dependientes o independientes del tiempo. En enfoque semiparamétrico hace posible un tratamiento simultáneo de las interacciones y de la heterogeneidad. La cuestión de la heterogeneidad no observada en los datos se aborda también. Estos diversos métodos se ilustran por medio de ejemplos de aplicación con datos provenientes de encuestas.
Introducción
M i e n t r a s el análisis l o n g i t u d i n a l clásico privilegió e l es tudio de u n evento, los demás f u e r o n considerados per turbadores . A n t e esta situación, el análisis de datos biográficos trata de ver la m a n e r a c ó m o diversos eventos de la existencia in f luyen sobre el desarrol lo poster ior de la v ida de l i n d i v i d u o , y c ó m o algunas características l levan al i n d i v iduo a comportarse de u n a manera di ferente de los demás.
Este cambio de perspectiva conduce a f o r m u l a r las bases de l análisis de datos biográficos en términos de l análisis de procesos estocas-ticos complejos . Trabajos en p r o b a b i l i d a d , realizados sobre t o d o en Francia, p e r m i t i e r o n establecer firmemente este análisis sobre la teoría de las mart ingalas (Del lacherie y Meyer, 1980), la integración es-tocástica ( K u n i t a y Watanabe, 1967; Del lacherie , 1980) y los procesos de conteo , countingprocesses ( B r e m a u d y Jacod , 1977) . N o obstante , sólo presentamos aquí u n a visión s impl i f i cada de estos métodos y rem i t i m o s al l e c t o r interesado en sus f u n d a m e n t o s teóricos a l a m u y completa obra de Andersen el al. (1993).
Trataremos p r i m e r o de ver c ó m o u n evento fami l ia r , e c o n ó m i c o o de o t r o t i p o exper imentado p o r u n i n d i v i d u o mod i f i ca las p r o b a b i l idades de o currenc ia de otros eventos de su existencia. Tra taremos de examinar , p o r e jemplo , c ó m o el m a t r i m o n i o puede i n f l u i r sobre la carrera l a b o r a l , la v ida f a m i l i a r y la m o v i l i d a d espacial. Estos nos
* Institut National d'Etudes Démographiques.
[599]
600 E S T U D I O S DEMOGRÁFICOS Y URBANOS
llevará a general izar el análisis demográf ico clásico al es tudio de las interacciones de los eventos, gracias al método de análisis no paramé-trico.
Es preciso considerar luego la heterogene idad en el seno de las poblaciones, la cual inf luye sobre las probabi l idades de o currenc ia de u n evento dado. Por e jemplo , se puede pensar que el n ive l educativo de u n i n d i v i d u o o el o r d e n de n a c i m i e n t o entre h e r m a n o s i n f l u y e n sobre la p r o b a b i l i d a d de a b a n d o n a r el agro , según la c o n d i c i ó n de empresario o de trabajador agrícola. Esto nos llevará a general izar los métodos de regresión, de larga tradición en econometría, a los métodos de análisis paramétrico, que p e r m i t e n i n c l u i r la heterogene idad de las poblaciones de manera dinámica, en vez de estática.
Pero estos métodos conducen también a u n a representación pa-ramétrica de l t i e m p o de permanenc ia de los indiv iduos en diferentes estados; por lo tanto sus resultados no son completamente satisfactorios. Preferimos u n método que sintetice los dos análisis anteriores: el análisis semiparamétrico. E n efecto, esta técnica permi te conservar la estimación n o paramétrica de los t iempos de p e r m a n e n c i a , al t i e m p o que incluye el efecto paramétrico de diversas características. Veremos en p a r t i c u l a r que este m é t o d o p e r m i t e resolver en parte los p r o b l e mas ligados a la heterogeneidad n o observada. I lustraremos esta pre sentación con aplicaciones a la encuesta Biografía Famil iar , Labora l y M i g r a t o r i a ( d e n o m i n a d a más senci l lamente 3B) , que se llevó a cabo en Francia durante 1981.
£1 análisis no paramétrico
C o m o lo indicamos antes, el desarrol lo de l análisis de datos biográficos considerados como u n proceso estocástico conduce a u n a f o r m u lación probabilística, de la cual carecía completamente el análisis l o n g i t u d i n a l clásico. Para presentar este enfoque es pre fer ib le comenzar p o r e l caso más s imple , d o n d e se estudia, al i gua l que en e l análisis clásico, la ocurrenc ia de u n solo evento.
Formulación probabilística para un solo evento
Supongamos que estemos siguiendo u n a muestra de mujeres nacidas entre 1911 y 1935, como en la encuesta 3B, y que se observan las p r i m e -
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 601
ras uniones que o curren durante el transcurso de l t i empo . 1 Es evidente que se p u e d e n extraer u n g r a n n ú m e r o de muestras d i ferentes que arro jan fechas de m a t r i m o n i o distr ibuidas de diferentes maneras. Sin e m b a r g o , la distribución t e m p o r a l de estas fechas n o será c o m p l e t a mente aleatoria, ya que proviene de una misma población. Se considera entonces la edad al m a t r i m o n i o de estas mujeres como u n a variable aleatoria que puede tomar diversos valores (15, 16, 17 . . . ) , desconocidos a priori, pero sobre los cuales la observación de u n a muestra nos s u m i nistra u n a información cuya precisión trataremos de medir .
E l s iguiente paso consiste en formal izar esta información con u n a terminología probab i l i s ta . L a medic ión de la edad o de la durac ión en t i e m p o c o n t i n u o o discreto d ist ingue dos casos.
T i e m p o c o n t i n u o
Sea T u n a v a r i a b l e a l e a t o r i a p o s i t i v a o n u l a y c o n t i n u a ( p a r a este e j e m p l o : e l m o m e n t o d e l m a t r i m o n i o , m e d i d o c o n g r a n prec is ión con respecto al n a c i m i e n t o ) . Es posible d e f i n i r varias func iones asociadas a esta variable a leator ia , algunas ya conocidas en demograf ía clásica.
L a función de permanenc ia (en estado de celibato) general iza la función de sobrevida o función de riesgo: es la p r o b a b i l i d a d de que el i n d i v i d u o n o haya e x p e r i m e n t a d o el evento (el m a t r i m o n i o e n este caso) antes de u n a fecha dada t
Se c o m p r u e b a fácilmente que S(0)=1 (todas las mujeres son solteras a la fecha de nac imiento ) y que S(°<>)>0 (algunas mujeres permanecen solteras durante toda su v ida) . Sin embargo , s iempre se puede colocar a r t i f i c i a l m e n t e u n a masa en el i n f i n i t o (las mujeres solteras durante toda su v i d a ) , para que S(°°) =0.
L a densidad de probabilidad de l evento estudiado es la derivada con respecto al t i e m p o de S(t):
S(t)=P(T>t)
f(t) =\im At—> 0
P(t<T< t+At)
At
dS(t)
dt
1 Aquí se supone que el único evento posible es el matrimonio; obviamente el iminaremos esta hipótesis más adelante.
602 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
N o existe n ingún e q u i v a l e n t e de esta d e n s i d a d e n d e m o g r a f í a clásica.
Se pre f i e re la dens idad c o n d i c i o n a l , más c o m ú n m e n t e l l a m a d a en demografía cociente instantáneo:
k(t)Aim P ( T < t + A t l 7 ^ t ) - /(*)-_ d[logS(t)] A ^ O A i S(t) dt
Por def inic ión, este coc iente n o es necesar iamente m e n o r que u n o .
F ina lmente , i n t r o d u c i m o s el cociente acumulado, que t a m p o c o tiene equivalente en demografía clásica, pero que es indispensable para trabajar con eventos múltiples (abandono de l cel ibato p o r m a t r i m o n i o o por unión l ib re , p o r e j emplo ) :
H(t) = dlog S(x)
h(x)dx=
x = 0 0
dx=-\og S(t) dx
Se puede apreciar que u n a de estas diversas funciones basta para p o d e r calcular las otras.
T i e m p o discreto
Sea T u n a variable aleatoria discreta que puede tomar los valores tb ¿2 • • en los cuales p u e d e n o c u r r i r los eventos:
f(tl)=P(T=tl)
h(ti)= P(T=ti\T> t{) S(ti)
p o r l o tanto :
s(to- n [i-h(tj)]
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 603
luego:
HftO—logSftO
U n a vez más, el cociente acumulado H^no t iene equivalente en demografía clásica.
Estimación para un solo evento
G e n e r a l m e n t e , la observación de la o c u r r e n c i a de u n evento n o es comple ta y algunos ind iv iduos p u e d e n dejar de ser observados antes de haber e x p e r i m e n t a d o el evento . E n el caso de l m a t r i m o n i o , p o r e jemplo , algunas mujeres solteras p u e d e n salir de observación, y a pesar de e l lo , casarse después de la encuesta. E n tales casos, hablaremos de datos censurados. N o discutiremos aquí los diversos tipos de censura, p o r l o que r e m i t i m o s al lector interesado a la obra de A n d e r s e n et al (1993: 135-168).
Empecemos p o r suponer que se trabaja en t i e m p o discreto y que se observa en el m o m e n t o í¿, a ^ i n d i v i d u o s , de los cuales ¿¿¿experim e n t a n el evento y mt son censurados. Aquí se supone que los eventos se p r o d u c e n antes de la salida de observación (censura).
Para estimar el cociente h(ti) correspondiente , se calcula la veros i m i l i t u d como función de l cociente y se t o m a como estimación e l val o r de l cociente que max imiza d i cha v e r o s i m i l i t u d . Su expresión es:
Se aprecia fácilmente que el máximo de L¿se presenta en los mismos valores de h(t¿) que el máximo de l o g (L¿). Por lo tanto , es más sencillo max imizar la expresión:
Se obt iene el máximo al anular la derivada con respecto a h(ti), lo que conduce al siguiente estimador:
Ni-di
logL i =d i logtAfí j ; ] + ( i V j - d j ) l o g [ l
h(h) = A d¡
604 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
Su varianza se calcula gracias a las propiedades asintóticas de
^ÍÑ'i(h(ti)-h(ti))
Se trata de l inverso de la matr iz de información de Fisher, que en este caso es d iagonal :
dANi-dA var [&(*,•) =
D e allí se d e d u c e el e s t i m a d o r S(£¿), d e n o m i n a d o de K a p l a n y Meier :
•fíe * S U ) = 1 1 ( 1 — ) i-1
y el de /¿Yí¿/):
H(t,)=-log[S(t,)]
L a varianza as intot ica de S(t{) puede calcularse m e d i a n t e la fórm u l a de Greenwood:
var[S(í,-)] = ( S ( í < ) ) 2 £ ^
y la de H(ti) con:
var [#(*,•)] = ¿ d j
Si trabajamos en t i e m p o c o n t i n u o , se r e q u i e r e n hipótesis suplementarias. Sigamos suponiendo que se observan ¿¿eventos y m¿salidas de observación en el i n t e r v a l o a n u a l [ £¿^,£¿1. Supongamos además
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 605
que los cocientes instantáneos permanecen constantes en este i n t e r valo, t an t o para el evento estudiado h(ti), c o m o para la salida d e ob servación C(t{), y que los dos eventos sean independientes . C o n esto podemos calcular las contr ibuc iones a la v e r o s i m i l i t u d de los g r u p o s de ind iv iduos siguientes:
- los que per tenecen todavía a la muestra al final de l i n t e r v a l o , s in haber exper imentado el evento;
- los que exper imentan el evento; - los que salen de observación.
La maximización de l l o g a r i t m o de la v e r o s i m i l i t u d con respecto a h(ti)y a C(tt) conduce a u n sistema de ecuaciones de dos incógnitas, que p e r m i t e est imar de la m a n e r a s iguiente el cociente instantáneo (Courgeau y Leliévre, 1989: 60-61; 1992: 69-71).
h(tl)=-—^ l o g ( l d l + m i - d l
dl + mt N¡ A f - _ L W + m¿)
H a y que tener en cuenta que este cociente instantáneo n o es el m i s m o coc iente demográ f i c o clásico, el cua l m i d e la p r o b a b i l i d a d cond i c i ona l de exper imentar el evento a lo largo de l intervalo e n ausencia de censuras:
qftj-l-expf-hfti)) = d
Ni 2 mi
Desde luego, es posible estimar S(t¿) y H(t^, así como las varianzas respectivas de los diferentes estimadores.
Se p u e d e n e l i m i n a r las hipótesis que sustentan estas es t imac io nes, con el propósito de obtener estimadores más satisfactorios, que p e r m i t a n analizar varios eventos en competic ión (riesgos múltiples).
Eventos competitivos
Supongamos a h o r a que u n i n d i v i d u o expuesto al riesgo p u e d a salir d e l estado i n i c i a l c on d i f e rentes a l ternat ivas : m o r t a l i d a d p o r cau-
606 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
sas, salida d e l estado de so l tero hac ia la un ión l i b r e o e l m a t r i m o n i o , etcétera.
Si se calculan los estimadores de Kaplan y Meier para cada causa, considerando a las otras causas como censuras, tenemos que suponer la i n d e p e n d e n c i a entre los di ferentes riesgos; g e n e r a l m e n t e esta h i pótesis no se c u m p l e . Para evitar este inconven iente se p u e d e re for -m u l a r el p r o b l e m a en términos de procesos de conteo. Estos procesos p e r m i t e n estudiar ind iv iduos expuestos a riesgos múltiples e n t i e m p o c o n t i n u o .
E l proceso mul t i var iado N=((Nl (t),N2(t),...Nk(t);t)es u n a colección de k procesos de conteo que pueden ser mutuamente dependientes. Para cada proceso estocástico Nj(t) se define u n proceso de intensid a d A i ( t), c o m o la p r o b a b i l i d a d de o c u r r e n c i a d e l evento i en e l intervalo (t, t + At), que conoce el pasado del proceso, F(t). Por lo tanto:
A t)=lim E[Nl(t+At)-Nl(t)\F(t))
¿¿-•o At
A a l e n (1978) desarrolló el m o d e l o de in tens idad m u l t i p l i c a t i v a , que expresa el proceso de intens idad de la siguiente manera :
A,(t)=hi(t) Y¡(t)
d o n d e Y¿(t) representa, p o r e jemplo , la población expuesta al riesgo de e x p e r i m e n t a r el evento i y h^t)!^ in tens idad de este evento para u n i n d i v i d u o dado. Anotemos aquí que es posible d e f i n i r Yi(t)áe manera más compleja , p o r e jemplo cuando se estudia la migración entre áreas de u n m i s m o país; en ese caso, Y¿(t)puede representar el p r o duc to de las poblaciones de las dos áreas.
L a intens idad acumulada está dada p o r la fórmula:
Hi(t)= ¡ hi(x)dx
Se puede estimar esta in tens idad acumulada bajo hipótesis m u y poco restrictivas, u t i l i zando la teoría de las martingalas y los procesos de conteo (para mayores detalles sobre esta estimación, véase A n d e r -sen et al, 1993: 176-331). Si tñ < ti2 < .. .son las fechas observadas para la
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 607
ocurrenc ia de l evento i en la población, el est imador de Nelson-Aalen de la in tens idad acumulada es e l s iguiente:
1
IT,-(*(,)]
y el est imador de su varianza es:
Var(Ht(t))^ —
Si varios eventos o c u r r e n en el instante £¿y(en esas condic iones ya no se t iene u n proceso de c onteo ) , se general izan estas estimaciones remplazando el u n o de l n u m e r a d o r p o r el número de eventos. Estas intensidades siempre están b i e n definidas, aun cuando los riesgos n o sean i n d e p e n d i e n t e s , y se puede c o m p r a r en t re ellas las gráficas de los e s t imadores de N e l s o n - A a l e n p a r a los diversos riesgos ( A a l e n , 1982:10-11) . S in e m b a r g o , se t r a t a de riesgos en u n c o n t e x t o e n el que las otras posibil idades de salida de l estado in i c ia l están presentes; g e n e r a l m e n t e es i m p o s i b l e ca lcular riesgos c u a n d o las otras causas h a n desaparecido (Courgeau y Leliévre, 1996: 649) .
C o m o veremos más ade lante , estas gráficas también son útiles cuando se desea probar la validez de diversos modelos paramétricos.
Interacciones entre eventos
Consideremos ahora el caso más general en el cual dos o más eventos p u e d e n o c u r r i r e interactuar . Examinaremos el caso bivariado y r e m i t imos al l e c tor interesado en los casos más comple jos a C o u r g e a u y Leliévre (1989: 85-91; 1992: 99-106).
T o m e m o s como e jemplo e l caso de las dependencias que pueden existir entre la salida del agro y el m a t r i m o n i o de empresarios o trabajadores agrícolas. Otros estudios efectuados en Francia han mostrado que, c on respecto a los demás, e l ce l ibato es m u c h o más c o m ú n e n t r e los hombres del agro. Cabe la duda de si los hombres que abandonan el medio agrícola conservan este celibato, o por el contrario , adoptan el comportamiento del resto de la población. O t r a posible pregunta es si las m u jeres casadas abandonan más frecuentemente el agro que las solteras. La respuesta a este t ipo de preguntas requiere u n estudio biográfico.
608 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
E n todos los casos se observan dos f enómenos que i n t e r v i e n e n en d o m i n i o s di ferentes de la v ida de l i n d i v i d u o , f enómenos cuyo o r d e n de o c u r r e n c i a n o está fijado de a n t e m a n o : el m a t r i m o n i o es pos ib le antes de dejar la act iv idad agrícola, o lo c o n t r a r i o , se puede abandonar la a g r i c u l t u r a antes de casarse. Por lo tanto , t rataremos de ver si u n cambio de estado m a t r i m o n i a l o residencial mod i f i ca la p r o b a b i l i d a d de ocurrenc ia del o t r o evento.
C o n el propós i to de f o rma l i zar la situación, la i lus t ramos c o n el s iguiente esquema:
ESQUEMA 1 Representación de la interacción entre el matrimonio y el abandono de la agricultura
Solteros
En la agricultura No(0
(t)
r
Fuera de la agricultura N2(t)
h0l(t)
/¿2i (t\v)
Casados
N2(t)
A l comienzo, todos los ind iv iduos están en la situación 0 (solteros en la a g r i c u l t u r a ) ; de acuerdo con su evolución, ellos p u e d e n dec id i r pasar a la situación 1 (casados en la a g r i c u l t u r a ) o a la situación 2 (solteros fuera de la a g r i c u l t u r a ) , para poder l legar a la situación final (casados fuera de la a g r i c u l t u r a ) , alcanzada sólo p o r algunos m i e m bros de la población i n i c i a l . 2
Introduzcamos ahora dos variables T ¡ y T2, las edades de ocurrencia de l m a t r i m o n i o y de la salida del agro. Se observa que los cocientes se pueden expresar como las siguientes probabilidades condicionales:
h0l(t)-Um P ^ A t l T ^ T ^ t ) A ¿ - > 0 At
2 En este ejemplo se descartan los casos de simultaneidad.
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 609
h21(t\v)= lim — — 1 donde v<t A / - > O A T
Para h02 (t) y h12 (71 u), tenemos fórmulas análogas.
Supongamos ahora que los cocientes h21 y hl2 n o dependen de la edad de o c u r r e n c i a de l o t r o evento . 3 Se puede así demostrar q u e si los eventos correspondientes a los d i ferentes cocientes son iguales a n 0 1 (t), n02(t),n21 (t),nl2(t), entonces se t i e n e n los est imadores siguientes:
h0l (t) = ; h2l (t) = N0(t)_l(n0l(t)+n02(t)) N2(t)_i(n2l(t)-n02(t))
2 2
con fórmulas análogas para h02(t) y h12 (t). A p a r t i r de esta serie de diferentes cocientes, nos interesa probar ,
p o r e jemplo , la igualdad de h 01 (t) y de h2l (t), o la de los cocientes acumulados correspondientes . Si se c u m p l e para todo t , podremos conc lu i r que la salida de la actividad agrícola n o inf luye para nada en las probabi l idades de m a t r i m o n i o de los indiv iduos ; en caso c o n t r a r i o , se podrá probar el signo de la di ferencia . Para el lo , podemos calcular la cant idad :
D = -h01(t) -h2l(t)
h oí (0 h\ W —7 + — I
V Y0(t) Y2(t)
A A A A
donde F 0 ( t ) y Y2(t)son los denominadores de h0l (t) y h2l(t)dados anter i o rmente .
A A
Si h01 (t)no d i f iere signif icativamente de (t) , entonces la variable D tendrá una distribución n o r m a l de media 0 y desviación estándar 1. Se puede operar de la misma manera con los cocientes acumulados.
3 Es fácil eliminar esta hipótesis y calcular las series de cocientes para las diferentes edades de ocurrencia del otro evento.
610 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
Como ejemplo, inc lu imos en las gráficas 1 y 2 las curvas que representan los cocientes acumulados de nupc ia l idad de las mujeres según su situación labora l (en la a g r i c u l t u r a o fuera de ella) y los cocientes acumulados de salida de la agricultura, según su estado civil . Se aprecia claramente, y las pruebas lo c on f i rman , que la salida de l agro no tiene n i n g u n a incidencia sobre la nupc ia l idad , sino que por el c ontrar i o , las mujeres casadas en el m e d i o agrícola t i enen mayores probab i l idades de permanecer en él. Se trata, por lo tanto, de una dependencia unidireccional que evidencia u n a estrategia: el m a t r i m o n i o con u n a g r i c u l t o r determina la permanencia en el m u n d o agrícola. También es interesante observar (Courgeau y Leliévre, 1986) que para los hombres, la dependencia unilateral es opuesta a la de las mujeres: la probabi l idad de casarse se dupl ica cuando dejan el agro; po r el contrar io , el hecho de ser o no casado no influye sobre la salida de la agricultura.
GRÁFICA 1 Cocientes acumulados de nupcialidad de las mujeres según su situación laboral
Edad Agricultores No agricultores
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 611
GRÁFICA 2 Cocientes acumulados de salida de la agricultura de las mujeres según su estado civil
20 25 30 35 40 45 50 55 Edad
Solteras Casadas
Otros tipos de dependencia pueden aparecer en estos análisis. L a más frecuente es la dependencia bidireccional: el haber exper imentado u n evento afecta la probab i l idad de exper imentar o t ro y viceversa. Esto es lo que ocurre con la dependencia entre fecundidad y migración hacia las metrópolis (Courgeau, 1987, 1989). Para los nacimientos de o r d e n mayor que 2, la encuesta 3B muestra que la migración hacia la metróp o l i reduce la p robab i l i dad de tener u n h i j o más, mientras que la m i gración e n sent ido c o n t r a r i o la i n c r e m e n t a . U n a dependencia a priori también puede aparecer en algunos casos. Cuando se aisla a la población que emigrará hacia la metrópoli antes de los 50 años, aparece u n a baja fecundidad, tanto antes como después de la migración. Por l o tanto, estamos ante u n fenómeno de selección, en la población no metropo l itana, de personas con baja fecundidad que emigran hacia las grandes ciudades sin cambiar su patrón de fecundidad. A la inversa, cuando se
612 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
aisla en u n a metrópol i a la poblac ión f e m e n i n a que emigrará, se e n c u e n t r a que, antes de emigrar , estas mujeres t i e n e n u n a f e c u n d i d a d igua l a la de las que permanecen, pero después de la migración, la fec u n d i d a d aumenta. Esta vez estamos frente a u n f enómeno de adaptación provocada por la migración, ya que estas mujeres adoptan el c ompor tamiento de las sedentarias del med io no metropo l i tano .
Las numerosas interacciones estudiadas en la encuesta 3B n o arroj a r o n ningún caso de independencia total entre eventos. Esto demuestra el pe l i g ro que se corre cuando se t ratan fenómenos demográficos separadamente , según la hipótesis de independenc ia m u t u a .
E l análisis paramétríco
L a heterogene idad de las poblaciones i n t r o d u c e u n a propens ión d i ferencia l al exper imentar los diferentes eventos demográficos. Según el n ive l educativo, el o r d e n de nac imiento entre hermanos , e l tamaño de la fami l ia de o r igen , etc., los ind iv iduos pueden tener p r o b a b i l i d a des diferentes de casarse, migrar , cambiar de empleo , etc. Por lo t a n to , se podría tratar de resolver este p r o b l e m a descomponiendo la po b l a c i ó n e n g r u p o s c a d a vez más h o m o g é n e o s ( p o r s e x o , n i v e l educativo y región de or igen , etc.) pero , en contrapart ida , e l número de casos en cada g r u p o se irá reduc iendo . Este p r o c e d i m i e n t o c o n d u ce rápidamente a unas poblac iones expuestas al riesgo m u y peque ñas, desde luego, a resultados n o significativos.
L o anter ior plantea la necesidad de i n t r o d u c i r diversas características indiv iduales en u n m o d e l o de t i p o regresivo, s in de jar p o r e l lo de trabajar con el c on j unto de la población o con u n subgrupo lo suficientemente n u m e r o s o . A h o r a b i e n , en este m o d e l o se debe t a m bién i n t r o d u c i r el t i empo , por m e d i o de u n a función base paramétri-ca q u e a p r o x i m e c o r r e c t a m e n t e la d i s t r ibuc ión n o p a r a m é t r i c a es t imada p a r a e l c o n j u n t o de la p o b l a c i ó n . U n m é t o d o semejante p e r m i t e i n c l u i r u n g r a n número de características, pero será necesar i o verif icar las hipótesis en las cuales se f u n d a m e n t a el m o d e l o .
Algunos modelos paramétricos
E n t r e los numerosos modelos paramétricos que p e r m i t e n descr ib i r correctamente el c o m p o r t a m i e n t o de u n a población o de algún sub-
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 613
grupo de ella, conviene escoger aquellos que dependen de u n mínimo de parámetros, pero p e r m i t e n al mismo t iempo u n buen ajuste a la distribución no paramétrica que se puede estimar. Presentaremos aquí algunos de ellos y r e m i t i m o s al l e c tor interesado en u n a presentación más detallada a Courgeau y Leliévre (1989: 95-125; 1992: 109-144).
Distribución exponenc ia l
Esta es la distribución más s imple que se obt iene cuando el cociente instantáneo permanece constante a lo largo de l t i empo . E n este caso, tenemos:
h(t)=p ;S(t)=exp(-p t) f(t)=p exp(-pt);H(t)=pt
U n a p r u e b a fácil de esta distribución consiste en representar el cociente acumulado n o paramé tr i co en función de l t i empo . Esta curva debe aproximarse a u n a recta si la distribución es exponenc ia l .
Es m u y f r e c u e n t e que u n a distr ibución e x p o n e n c i a l se ajuste b i en a u n número reduc ido de periodos, a pesar de que n o sea válida para e l c o n j u n t o de ellos. E n estos casos es posible descomponer la distribución y estimar los parámetros p correspondientes.
Distribución de Gompertz
Esta distribución se aplica f recuentemente en demografía, tanto para la m o v i l i d a d espacial y l abora l , c o m o para la m o r t a l i d a d (en edades avanzadas). E l cociente instantáneo es u n a función exponenc ia l de l t i empo . Se expresa como sigue:
h(t)=Xp exp(pt);S(t) = exp (X [ l - e x p ( p t) ] f(t) = Xp e x p { p ¿ + A [l-exp(pt)]};H(t)=X [ e x p ( p ¿ ) - l ]
Los cocientes son u n i f o r m e m e n t e crecientes (p >0), o u n i f o r m e mente decrecientes (p <0). U n a prueba de esta distribución se obt ie ne con la representación de l l o g a r i t m o de l cociente en función de L Cuando se trabaja con migraciones de diversos rangos o con la mov i l i d a d labora l , el parámetro p es generalmente negativo. E n este caso u n a parte de la población (exp X ) sigue siendo sedentaria.
E l parámetro p es positivo cuando se considera la m o r t a l i d a d de las personas de edad. E n este caso toda la población desaparece.
614 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
Distribución log-logística
Frecuentemente , esta distribución es u n a me jor alternativa que la distribución l o g - n o r m a l , cuyos parámetros son más difíciles de estimar. E n estos casos se t iene:
A(í)=Ap {pt)x~l [\+pt)xY;{S(t) = [\ + {pt)x y1
f(t) = Xp (pt)x-l[l + {pt)x ] " 2 ; H(t)=log[Upt)x]
Por lo t a n t o , u n a p r u e b a de esta distribución consiste en r e p r e sentar l og (exp (H(t))-l)en función de log t. U n a relación l i n e a l c omprueba que la distribución log-logística es válida. Este t ipo de d i s t r i b u c ión se ut i l iza a m e n u d o para la nupc ia l idad y la f e c u n d i d a d según el rango de nac imiento , ya que si X> \ la curva de nac imientos t iene u n máximo.
Modelos de regresión
Incluyamos ahora diversas características de los ind iv iduos , que podemos representar con u n vector Z:
Z = ( Z „ . . . , Z „ )
F r e c u e n t e m e n t e , estas características son variables cual i tat ivas c on valores d i co tómicos (1 si e l i n d i v i d u o posee la característica, 0 de l o c o n t r a r i o ) , p e r o también p u e d e n ser var iables c u a n t i t a t i v a s (número de hermanos y hermanas , número de migrac iones realizadas d u r a n t e la in fanc ia , etc . ) . Estas características p u e d e n depender de l t i e m p o (variable igua l a 0 mientras que el i n d i v i d u o n o posee la característica, para convertirse en 1 desde el m o m e n t o de su a d q u i s ic ión) .
Dos grandes grupos de modelos describen el efecto que e jercen estas características sobre los cocientes instantáneos.
Modelos de riesgos proporc ionales
L a hipótesis que f u n d a m e n t a estos modelos es la s iguiente : las d i fe rentes características indiv iduales actúan en f o r m a m u l t i p l i c a t i v a sobre u n cociente base, el mismo para toda la población, y al cual se le
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 615
dará u n a f o r m a paramétrica. Esto conduce a u n cociente instantáneo de la f o r m a :
h(t;Z)=h0(t)(p (Z,P)
donde h0(t)es u n a función paramétrica de t, que depende de u n cierto n ú m e r o de parámetros aunque i n d e p e n d i e n t e de las características Z, y (p (Z,P)es u n a función de las características Z cuyos parámetros ¡3 s o n i n d e p e n d i e n t e s de t. L a f u n c i ó n u t i l i z a d a c o n m a y o r frecuencia es exponencia l :
q> (Z,p) = exp(Zp)=exp(Z1pl+Z2p2+...+ Znpr)
Se observa fácilmente que cuando todas las variables Z son nulas, el m o d e l o se reduce a la expresión paramétrica de l cociente base:
h(t;0)=h0(t)
si sólo la variable Z 2 es igua l a 1 siendo todas las demás 0, se observa que:
h(t;0)=h0(t)exppl
De allí se deduce la relación siguiente:
h(t;Z) • = e x p pl9
h(t;0) que es p o r lo tanto independ iente de la duración. Así se puede comprobar la validez de l m o d e l o de riesgos proporc ionales . Basta d i v i d i r la pob lac ión en dos subpoblaciones, u n a que posea la característica Z j y o t ra que n o la posea, para luego estimar de manera n o paramétr i ca para cada u n a de ellas h ( t) o me jo r aún H ( t). Las gráficas de l o g ( H(t))en función de t deben ser paralelas para que el m o d e l o se cumpla. De esta manera se puede probar el modelo de riesgos propor cionales para cada una de las características consideradas por separado.
L a gráfica 3 representa los l ogar i tmos de los cocientes acumula dos de l p r i m e r cambio de residencia después de la salida de l hogar de los padres, según que la vivienda in i c ia l sea o no gratui ta (encuesta 3 B ) . L a comprobac i ón exitosa de l parale l ismo de las curvas p e r m i t e ut i l i zar e l m o d e l o de riesgos proporcionales .
616 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
GRÁFICA 3 Logaritmos de los cocientes acumulados del primer cambio de residencia después de la salida del hogar de los padres
0.05 I > * « i 1 1 i 1 « 1 i 1 1—i
0 10 20 30
Viviendas gratuitas Otras viviendas
Modelos con t i e m p o de salida acelerado
Supongamos ahora que las características inf luyen directamente sobre la función de permanencia , en vez de sobre el cociente instantáneo. E n ese caso, u n i n d i v i d u o t i p o con todas sus variables Z nulas t iene u n a función de permanenc ia igual a S0 (t); e\ i n d i v i d u o que posea todas las características Z tendrá la siguiente función de permanencia :
S(t;Z)=SQ(texp Z/3)
Se puede demos t rar que en este caso la expresión d e l coc iente instantáneo es:
h(t;Z)=h0(texp Z/?)exp Zp
Si h 0 (t) es u n a distribución de Gompertz se t iene:
h(t;Z)=Xp e x p ( p ¿ e x p Zp) e x p Zp=Áp exp(Z /3 +p ¿ e x p Zp)
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 617
mientras que para u n m o d e l o de riesgos proporc ionales la expresión será:
h(t;Z)=Áp exp(Z/5+pt)
Por consiguiente , los dos cocientes n o t i enen la misma f o r m a . Este m o d e l o puede expresarse también en términos de variables
aleatorias:
T=T0exp(-Zp)
donde T 0 es la duración de la permanencia de u n ind iv iduo con características todas nulas. Esta relación puede expresarse también así:
l o g r = l o g T o - Z 0
Estimación de los modelos paramétricos
Para est imar correc tamente el m o d e l o es necesario i n c l u i r de nuevo los datos censurados. C o n este propósito representamos el c o n j u n t o de los datos recolectados bajo la f o r m a de u n a tríada:
(t ¿,5¿, Z¿) ¿=1,..., n
d o n d e t • es la duración de la observación, ya sea hasta la o c u r r e n c i a de l evento, en caso de que éste se observe (8¡ =1 ) , o b i en hasta e l m o m e n t o de la censura, antes de que el evento o curra (8 j= 0 ) .
Cálculo de la v e r o s i m i l i t u d
Consideremos el caso en que la censura es i n d e p e n d i e n t e de que el i n d i v i d u o haya e x p e r i m e n t a d o o n o el evento: esto es l o que de hecho sucede cuando se realiza u n a encuesta retrospectiva, ya que la fecha de la encuesta es independ iente de la h istor ia de vida i n d i v i d u a l . In troduzcamos la variable aleatoria T 5 , que corresponde a la censura, cuya función de permanenc ia es Orft) y densidad de probab i l idad q^t). Esta variable es i n d e p e n d i e n t e de la fecha de o currenc ia de l evento estudiado T, cuya función de p e r m a n e n c i a es S ( í ;Z¿ )y dens idad de p r o b a b i l i d a d f (t ;Zt). L a variable observada es T° - m i n (T^,T).
618 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
Calculemos la p r o b a b i l i d a d siguiente para los i n d i v i d u o s que h a n e x p e r i m e n t a d o el evento:
P ( í < T - < £ + A / , 5 i = l ; Z í ) = 0 z ( 0 / ( t ; Z ¿ ) A £
Para los ind iv iduos que n o l o hayan hecho tenemos:
P(t<T:<t+At,8l = 0;Zl) = ql(t)S(t;Zl)At
C o m o Q(t)y qi(t)no suminis tran n i n g u n a información sobre ¡3, se puede considerar que la v e r o s i m i l i t u d es p r o p o r c i o n a l al valor :
n n
L(P)=Ylf(tf,Zt)8' S(í i ; Z¡) ^^TlHtfo)*' S(/,-;Z,.),
i = 1 i = 1
d o n d e h ( t; Z ) es e l cociente instantáneo de o currenc ia d e l evento. E n estas condic iones se vuelve posible , gracias al m é t o d o de má
x i m a v e r o s i m i l i t u d , es t imar los diversos parámetros, t a n t o los de la distribución paramétrica supuesta, c omo los efectos de las di ferentes características individuales .
Estimación y prueba de los parámetros
Expresemos ahora la v e r o s i m i l i t u d de las observaciones e n su f o r m a logarítmica:
l o g L ( j 8 ) = £ ( S . - l o g A ^ / Z ^ + l o g S a . / Z , . ; ; i= 1
E l método consiste en dar a los parámetros ¡3 los valores que ma-x i m i z a n la v e r o s i m i l i t u d . Para el lo , basta calcular las derivadas de l o g L( j8 ) con respecto a los diferentes parámetros e igualarlas a 0. Se t en drá entonces u n sistema con tantas incógnitas c o m o ecuaciones. Se demuestra entonces que, bajo unas condiciones simples genera lmente satisfechas (L( jS)debe ser tres veces di ferenciable y deben c u m p l i r se ciertas condiciones límites en la tercera der ivada) , este sistema t ie ne s o luc i ón . L a est imación de parámetros que se o b t i e n e de esta manera es asintóticamente insesgada y de varianza mínima. L a d i s t r i buc ión asintótica de l est imador es u n a n o r m a l con tantas variables co-
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 619
m o parámetros p o r estimar. L a med ia de esta ley es el verdadero va lor de /?. Si se calcula el negativo de la matr iz de las segundas derivadas de L o g Up), l lamada matr iz de información de Fisher, se demuestra que d i cha m a t r i z es u n est imador de la matr i z de covarianza de los parámetros p.
L a solución de l sistema:
g = c/( /?)=0 dP
se compl ica rápidamente con el aumento de l número de parámetros, y puede carecer de u n a solución analítica simple. Por esta razón se u t i l i zan métodos numéricos para obtener soluciones aproximadas. E l algor i t m o de Newton-Raphson 4 es entonces u n método de uso común.
Hab iendo resuelto el sistema se pueden realizar diferentes pruebas sobre los parámetros estimados /?. Se puede probar , p o r e j emplo , que los parámetros estimados son diferentes de los valores P0 que se habían escogido a priori. Si se designa a la m a t r i z de covarianza c o m o V(fi),
podemos plantear el estadístico siguiente (el superíndice Trepresenta el vector transpuesto) :
Cuando los parámetros P no son signif icativamente di ferentes de P0, este estadístico t iene distribución x2 con tantos grados de l i b e r t a d como parámetros p o r estimar.
También se puede ut i l i zar d irectamente la veros imi l i tud al calcular la fracción:
Se demuestra en efecto que la distribución asintotica de ( - 2 l og R(P0)) es u n a X2 c o n tantos grados de l i b e r t a d como parámetros. F i n a l m e n t e , también es posible emplear U(p0). Cuando P=PQ, e l estadístico U(p0) es asintot icamente n o r m a l , de med ia Oy varianza V(p0). E n estas condic iones, el estadístico:
4 Para mayores detalles sobre este método, véase Courgeau y Leliévre (1989: 137; 1992: 157-158).
620 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
UT(P0) V(p0)~lU(p0)
es asintóticamente d i s t r i b u i d o c omo u n a % 2 c on tantos grados de l i b e r t a d como parámetros.
Traigamos como e jemplo e l estudio de la duración de p e r m a n e n cia e n la vivienda de hombres nacidos entre 1931 y 1935, proveniente también de la encuesta 3B (Courgeau, 1985). E n este caso se est iman diferentes modelos de Gompertz , que inc luyen u n número creciente de características. E l n ú m e r o de durac iones de p e r m a n e n c i a es de 2 523, de las cuales 493 se m a n t i e n e n todavía en el m o m e n t o de la en cuesta en 1981.
Comparemos con el m o d e l o exponencia l (mode lo de Gompertz , en e l cual p = Oy Xp - > C ¿ ) . U n mode lo de este t ipo conduce a u n cociente constante, estimado en 0.1237, con - 6273.15 como valor máxim o de veros imi l i tud . Incluyamos ahora los diferentes grupos de edad, así como la duración de permanencia. Esto conduce a u n nuevo máxim o igua l a - 5 991.65. U t i l i z a n d o la fracción de las veros imi l i tudes se obt iene - 2 l og R = 562.96, lo cual muestra que los efectos de la edad y de la duración de permanencia son efectivamente significativos.
E l cuadro 1 cont iene la estimación de los di ferentes parámetros /?, c o n sus desviaciones estándar, el estadístico que p e r m i t e p robar los efectos de diferentes parámetros
CUADRO 1 Estimación de los parámetros P, de la desviación estándar, prueba del %2
con un grado de libertad de la nulidad de los (3 y estimación de exp )
y los valores de exp ( j3 ¿). v(Pù
Característica considerada
A
Pi °(Pi) 2
E x p j B ¿
20-24 años 25-29 años 30-34 años 35-39 años 40-44 años
Constante Menos de 20 años
-2 .727 1.131 1.410 0.892 0.626 0.135
-0.177
0.2880 0.2920 0.2912 0.2940 0.2978 0.3064 0.3292
89.187 15.008 23.460 9.203 4.417 0.194 0.127
0.0654 3.100 4.097 2.440 1.870 1.145 0.889
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 621
E l cuadro muestra u n efecto m u y significativo de todos los grupos de edad infer iores a 35 años sobre la p r o b a b i l i d a d de migrar . L a curva que d a el efecto m u l t i p l i c a t i v o de cada edad es idéntica a la curva clásica de migración p o r edad. También existe u n efecto signif icativo de la duración de permanenc ia con u n parámetro p - - 0.0629 y u n a desviación estándar igua l a 0.0045. Así, la p r o b a b i l i d a d de m i g r a r se reduce casi a la m i t a d después de 10 años.
La adición de nuevas características mejora la calidad del mode lo : características familiares ( log L = -5963.17), estatus de ocupación de la v i vienda ( log L = - 5755.45), características laborales ( log L = - 5685.59), acontecimientos políticos y or igen de los padres ( log L = - 5637.67). De esta manera se llega a u n mode lo que recurre a 32 características d i fe rentes para explicar el comportamiento migrator io de esta población.
Se podr ía pensar que algunas características incorporadas e n el c a m i n o , corre lac ionadas c o n la edad , e x p l i c a n m e j o r e l c o m p o r t a m i e n t o que la edad de p o r sí. E n este caso, el efecto de la edad se vería atenuado en los modelos donde se inc luyen de manera más p r e c i sa las demás características. E n efecto, la m o v i l i d a d de u n i n d i v i d u o casado se reduce a 8 0 % de lo que es para u n i n d i v i d u o soltero, y más j o v e n en p r o m e d i o ; la m o v i l i d a d de u n i n d i v i d u o que posee su v iv ien da se reduce a 2 0 % de lo que era para u n arrendatar io , también más j o v e n en p r o m e d i o , etcétera.
Cuando el m o d e l o incluye todas las características, el efecto de la edad ya n o es significativo, como lo muestra el cuadro 2.
CUADRO 2 Efecto de los grupos de edad al comienzo de la permanencia, cuando el modelo incluye simultáneamente todas las variables
A A r A i 2 Grupos de edad Pi Pi E x p £ ¿
° ( & ) m
Menos de 20 años 0.234 0.298 0.619 1.264 20-24 años 0.201 0.295 0.466 1.223 25-29 años 0.014 0.294 0.002 1.014 30-34 años -0 .160 0.297 0.293 0.852 35-39 años - 0.399 0.303 1.741 0.671
Se constata que el factor verdaderamente explicativo de los cambios migrator ios es la situación fami l iar , laboral , etc. en vez de la edad
622 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
misma. Se puede a f i rmar que la edad influiría sólo como u n a variable de r e m p l a z o , cuyo efecto desaparece c o m p l e t a m e n t e desde e l m o m e n t o en que se inc luyen las características actuantes, a las cuales está l igado .
La heterogeneidad no observada
Los modelos presentados hasta ahora sólo p u e d e n i n c l u i r características observadas en la encuesta. Así se haya ten ido el mayor cu idado posible para tratar de captar todas las causas de variación de los coc ientes , se p u e d e p e n s a r q u e o t r a s carac ter í s t i cas , más d i f í c i l e s de observar o de m e d i r en u n a encuesta, o a u n características que a j u i cio de l investigador n o p u e d e n i n f l u i r sobre el evento estudiado, t en gan de hecho u n efecto no despreciable sobre los cocientes.
E n ciertos casos puede existir u n a dependencia entre las características observadas y la heterogene idad no observada, c omo lo v imos en el estudio anter ior sobre las migraciones: los eventos que in f luyen sobre la migración están corre lac ionados con la edad. Mient ras que no se los observe, el efecto de la edad sigue siendo significativo deb i do a esta correlación. U n a vez inc lu idos se puede e l i m i n a r la edad de l m o d e l o , sin que esto afecte su validez. Por consiguiente, son cuestiones de p e r t i n e n c i a de las características observadas y de especificac ión correcta de l m o d e l o las que in f luyen en este caso.
E n otros casos, las características observadas son independientes de la heterogeneidad no observada, la cual puede entonces afectar la estimación de los parámetros relativos a los efectos de las características observadas. Si b ien es cierto que, para los modelos lineales con varianza homoscedástica, la omisión de variables no correlacionadas con las variables incluidas n o t iene consecuencia alguna sobre las estimaciones de mínimos cuadrados, esta característica n o se mantiene en el caso general . Mientras que no se inc luyan en el mode lo todas las variables explicativas, los métodos de máxima veros imi l i tud no suministran genera lmente u n a estimación correcta, aun si estas variables no observadas son totalmente no correlacionadas con las observadas.
A pesar de la falta de información sobre estas variables omit idas , algunos investigadores h a n tratado de i n t r o d u c i r u n a distribución pa-ramétrica, o incluso n o paramétrica de la heterogeneidad n o observada. Se puede demostrar la v i a b i l i d a d de considerar el efecto de esta heterogene idad de m a n e r a m u l t i p l i c a t i v a y de estimar los valores de
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 623
nuevos parámetros correspondientes a las características observadas, las cuales t i e n e n e n cuenta la h e t e r o g e n e i d a d n o observada. Se enc u e n t r a que según la distribución supuesta de esta h e t e r o g e n e i d a d ( H e c k m a n y Singer, 1984) , o a u n según la distribución paramétrica ut i l i zada para estimar el efecto de las características observadas ( T r u s -sel y Richards , 1985) , los parámetros estimados p u e d e n variar enor m e m e n t e , al p u n t o de ser de signos opuestos.
Estos resultados l levan a pre f e r i r el enfoque semiparamétrico, para el que se dispone de resultados más precisos con respecto al efecto de la h e t e r o g e n e i d a d n o observada sobre la estimación de los parámetros.
E l análisis semiparamétrico
E l enfoque semiparamétrico busca liberarse de la hipótesis paramétrica relativa a la f o r m a de la distribución de la función de riesgos, pero conservando la de l efecto m u l t i p l i c a t i v o de las características i n d i v i duales (mode los de riesgo p r o p o r c i o n a l ) . L a expresión de l m o d e l o propuesto es:
h(t;Z)=h0 (t)exp(Zp)
donde h0(t)es u n a función n o paramétrica de t, l lamada cociente instantáneo base. De hecho es el cociente instantáneo de l i n d i v i d u o que posee todas sus características Z iguales a 0.
Estimación de los parámetros
Los parámetros p se est iman p o r m e d i o de l cálculo de u n a veros imi l i t u d parc ia l , empleada p o r Cox (1972) . C o n d i c i o n a l m e n t e al conoc i m i e n t o de la p o b l a c i ó n expues ta a l r iesgo y a l h e c h o de q u e u n a o currenc ia de l evento se p r o d u j o en ti9 la p r o b a b i l i d a d de que el i n d i v i d u o i exper imente el evento es igual a:
M * ¿ ) e x p ( Z f . j 8 ) exp(ZiP)
Z M t ¿ ) e x p {ZTP) Z e x p ( Z ^ ) le R¿. le Rt
624 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
d o n d e R ¿ es el c on junto de los individuos expuestos al riesgo en t ¿ - 0. Es evidente que esta veros imi l i tud parcial n o incluye ya más e l cociente instantáneo base. A l efectuar el p roduc to de estas probabi l idades sobre toda la población se obtiene la veros imi l i tud parcial p o r maximizar :
exp PL(P) = ì l i
I l X e x p ( Z ¿ / 3 ) le Ri
Es conveniente anotar que esta v e r o s i m i l i t u d parc ia l n o es u n a ver o s i m i l i t u d en el sentido h a b i t u a l , puesto que no es p r o p o r c i o n a l a la p r o b a b i l i d a d c o n d i c i o n a l (o m a r g i n a l ) de los eventos observados. A pesar de el lo , su maximización conduce a estimadores as intot i camente insesgados y n o r m a l m e n t e d is tr ibuidos . As into t i camente , la matr i z de covarianza es e l inverso d e l negativo de la matr i z de las segundas derivadas de la veros imi l i tud . Estas estimaciones, que h a n sido objeto de numerosas controversias en t re estadísticos, están a h o r a b i e n sustentadas en el marco de la teoría de martingalas y de los procesos de conteo (Andersen et al., 1993: 476-591).
Estimación de la función base
A h o r a queda por estimar el componente no paramétrico del modelo. Observemos p r i m e r o que la función de permanencia puede expresarse así:
S(t,Z)=S0(t)e*P(ZP)
d o n d e S0 (t) es la función base n o paramétrica. Sean 11 < t 2 < ... < t R las ocurrencias de eventos observados. E n
el intervalo [ ti91 i + l ] , algunos ind iv iduos e x p e r i m e n t a n el evento t . Su contribución a la v e r o s i m i l i t u d es p o r lo tanto :
S0(exP(zP)-S0(ti+0)exPW)
y notamos T¿ el c o n j u n t o de estos ind iv iduos . L a contribución a la ver o s i m i l i t u d de u n i n d i v i d u o censurado durante el intervalo es:
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 625
Softt+O^pW)
y notamos M¿ el c o n j u n t o de ellos. L a expresión de la veros imi l i tud es entonces:
i=l laT- lf)Mi
L a maximización de esta veros imi l i tud , con ¡3 conoc ido , p e r m i t e estimar la función base S0 (t).5
Un ejemplo de estimación
Prosigamos con el análisis no paramétrico in i c iado páginas atrás sobre las interacciones entre el m a t r i m o n i o y la salida de la a g r i c u l t u r a para las mujeres . Sólo consideraremos aquí el a b a n d o n o de l m e d i o agrícola antes o después de l m a t r i m o n i o e inc lu i remos di ferentes características indiv iduales . C o n este propósito , apelaremos al m o d e l o semiparamétrico siguiente:
A ( í ; Z ; Z , ) = / i 0 ( í ) e x p ( Z ) 8 1 + ^ ( t-u) ( / 3 0 + Z / 3 2 + Z'/3 2 )
donde
1 0 S ¿ x < 0
1 S¿ x > 0
u es la fecha de m a t r i m o n i o , Z el vector de características que i n f l u yen antes y después de l m a t r i m o n i o , Z ' el de las características que i n fluyen sólo después de l m a t r i m o n i o (características de l cónyuge, por e j e m p l o ) . Esta formulación supone que el cociente base se m u l t i p l i c a p o r u n a constante exp fS0 cuando la m u j e r contrae m a t r i m o n i o : en el a p a r t a d o " I n t e r a c c i o n e s de eventos " c o m p r o b a m o s que esto era correcto . E l cuadro 3 muestra el mode lo ópt imo obten ido con las características observadas.
5 Para mayores detalles sobre esta estimación, véase Courgeau y Leliévre (1989: 159-161; 1992: 185-187).
626 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
CUADRO 3 Modelo óptimo de salida de la agricultura para las mujeres (valor de los parámetros)
Conjunto de variables Interacción
Número de hermanos (as) 0.012 ** 0.320 ** 0.928 **
0.000 0.296 0.806*
Hermana mayor Padre agricultor Matrimonio - 0.228 Mujer en la agricultura al
momento del matrimonio - 1.040 - 0.359 ** -0 .126
Esposo agricultor Suegro agricultor
* Resultado significativo a 10%. ** Resultado significativo a 5%.
E l examen del cuadro 3 permi te precisar las diferentes características de las m u j e r e s propensas o n o a a b a n d o n a r e l a g r o . Así p o r e jemplo , la mayor de dos hijos de u n agr icul tor , t iene u n factor m u l t i p l i ca t ivo de l riesgo base de salida de la a g r i c u l t u r a de exp (0.012 -0.32 - 0.928) = 0.290, mientras que la m e n o r de los c inco hi jos de u n trabajador agrícola t iene u n factor mul t ip l i ca t ivo de exp (4 x 0.012) = 1.048. L a p r o b a b i l i d a d de que esta última deje la agr i cu l tura es p o r lo tanto 3.85 veces mayor que la de la p r i m e r a . Después de l m a t r i m o n i o , las mujeres que p e r m a n e c e n en la act iv idad agrícola t i e n e n características m u y marcadas. Son las hijas mayores de famil ias poco n u m e rosas, de padres agricultores y casadas con u n agr icu l tor . Es evidente que estas condiciones favorecen la reunión de las tierras de las dos famil ias . La estrategia de las otras mujeres, que constituyen la mayoría, será abandonar la agr icu l tura .
La heterogeneidad no observada
C o m o el m o d e l o semiparamétrico n o cont i ene n i n g u n a especificación paramétrica de l cociente base, es necesario volver a examinar el efecto de la heterogeneidad no observada.
Bretagno le y H u b e r - C a r o l (1988) en u n trabajo teórico estudiar o n de qué manera la omisión de características afectaba los parámetros estimados para las características observadas en u n m o d e l o de es-
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 627
te t ipo . Cuando se trabaja sobre datos con posibles censuras a la derecha y si l a he terogene idad n o observada es i n d e p e n d i e n t e de las características observadas, esta omisión n o afecta el s igno de los parám e t r o s e s t i m a d o s , p e r o p r o v o c a u n a d i s m i n u c i ó n de sus v a l o r e s absolutos. Por lo tanto , si el efecto de u n a característica parecía i m por tante cuando se omitían otras características, la inclusión de estas últimas e n el m o d e l o sólo puede reforzar el efecto de la p r i m e r a . Por el c o n t r a r i o , algunas características sin efectos importantes a p r i m e r a vista p u e d e n volverse m u y significativas al i n c l u i r otras características no observadas en p r i n c i p i o .
Este resultado p e r m i t e precisar me jor el efecto de la heterogenei dad n o observada. Si la he te rogene idad y las características observadas son independientes , también nos asegura de la validez de l signo de los parámetros estimados.
Conclusiones
Los métodos de análisis de datos biográficos presentados nos per m i t i e r o n alcanzar los principales objetivos mencionados en la introducción.
Los mode los n o paramétricos p e r m i t e n estimar probab i l idades de transición de u n estado a o t ro , cuando los diferentes fenómenos demográficos estudiados interactúan. Esto p e r m i t e p o n e r en evidencia dependencias de diverso t ipo : unilaterales, bilaterales, totales, a priori, etcétera.
Los modelos paramétricos p e r m i t e n apreciar c ó m o in f luyen di ferentes características indiv iduales sobre las probabi l idades de t rans i c ión de u n estado a o t ro . Estos modelos requ ieren hipótesis más restrictivas que las de los modelos no paramétricos. Por consiguiente, es indispensable veri f icar su validez para los datos estudiados. Los m o d e los de riesgos proporc i ona les o de t iempos de salida acelerados que presentamos aquí no son la única a l ternat iva pos ib le . Se les p u e d e remplazar p o r otros que se adapten me jor a unas situaciones p a r t i c u lares. La heterogeneidad n o observada también plantea otros p r o b l e mas difíciles de resolver.
Los m o d e l o s semiparamétr icos c o n s t i t u y e n la m e j o r so luc i ón cuando se desea i n c l u i r simultáneamente las interacc iones de f enó menos y la heterogene idad de la población. E n esa situación, se h a n p o d i d o resolver algunos de los problemas planteados por la heterogene idad n o observada.
628 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S
Se puede a f i r m a r que la r e c o l e c c i ó n y e l análisis de biograf ías a b r e n u n amplísimo campo de investigación inscr i to , a su vez, d e n t r o de u n a corriente más general que reagrupa a la tota l idad de las ciencias sociales. Generalizaciones sencillas de estos métodos p e r m i t e n el estud io de situaciones más complejas. E l análisis de modelos mult in ive les (Courgeau, 1994; 1995b; 1996) o el análisis de estructuras sociales complejas como la fami l ia o el g rupo doméstico (Courgeau, 1995a) pueden ser abordados con métodos derivados de los aquí presentados. E n este sent ido , dichos métodos trascienden el n ive l de l i n d i v i d u o hacia u n a comprensión más p r o f u n d a de las sociedades humanas.
Bibliografía
Aalen, O. (1978), "Nonparametric Inference for a Family of Counting Processes", The Annals of Statistics, vol. 6, num. 4, pp. 701-726.
(1982), "Practical Applications of the Nonparametric Statistical Theory for Counting Processes", Oslo, Instituto de Matemáticas, Universidad de Oslo (Statistical Research Report, 2).
Andersen, P.K., O. Borgan, R. Gi l ly N. Keiding (1993), Statistical Models Based on Counting Processes, Nueva York, Springer Verlag.
Bremaud, P. y J . Jacod (1977), "Processus ponctuels et martingales: résultats récents sur la modélisation et le filtrage", Advanced Applied Probabilities, vol. 9, pp. 362-416.
Bretagnolle, J . y C. Huber-Carol (1988), "Effects of Omit t ing Covariates in Cox's Model for Survival Data", Scandinavian Journal of Statistics, vol. 15, pp. 125-138.
Courgeau, D. (1985), "Interaction Between Spatial Mobility, Family and Career Life-Cycle: A French Survey", European Sociological Review, vol. 1, num. 2, pp. 139-162.
(1987), "Constitution de la famille et urbanisation", Population, vol. 42, num. l , p p . 57-82.
(1989), "Family Formation and Urbanization", Population: an English Selection, num. 1, pp. 123-146.
(1994), "Du groupe à l ' indiv idu: l 'example des comportements m i gratoires", Population, vol. 49, num. 1, pp. 7-26.
(1995a), "Event History Analysis of Household Formation and Dissol u t i o n " , en Evert van Imho f f et al. (coord.), Household Demography and Household Modelling, Nueva York, Plenum Press, pp. 185-202.
(1995b), "From the Group to the Individual: What Can Be Learned From Migratory Behaviour", Population: an English Selection, num. 7, pp. 145-162.
MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 629
(1996), "Towards a Multi level Analysis in Social Science/Vers une analyse multiniveaux en sciences sociales", en Bocquet-Appel, Courgeau y Pumain (eds.), Analyse spatiale de données biodémographiques, L ibbey / INED, pp. 10-22.
y E. Leliévre (1986), "Nuptialité et agriculture", Population, vol . 41 , nûm. 2, pp. 303-326.
y E. Leliévre (1989), Analyse démographique des biographies, Paris, I N E D . y E. Leliévre (1992), Event History Analysis in Demography, Oxford, Cla
rendon Press. y E. Leliévre (1996), "Changement de paradigme en démographie",
Population, vol. 51, num. 3, pp. 645-654. Cox, D. (1972), "Regression Models and Life Tables", Journal of the Royal Sta
tistical Society, num. 34, pp. 187-220 (Série B). Dellacherie, C. (1980), "Un survol de la théorie de l'intégrale stochastique",
Stochastic Processes Applications, nûm. 10, pp. 115-144. y P. A. Meyer (1980), Probabilités et potentiels: Théorie des martingales, Pa
ris, Hernan. Heckman, J. y B. Singer (1984), "A Method for Minimizing the Impact o f Dis
tributional Assumptions in Ecometric Models for Duration Data", Econo-métrica, vol. 52, num. 2, pp. 271-320.
Kunita, H . y S. Watanabe (1967), "On Square Integrable Martingales", Nayoya MathematicJournal, num. 30, pp. 209-245.
Trussell, J . y T. Richards (1985), "Correcting for Immeasured Heterogenetic in Hazard Models Using the Heckman-Singer Procedure", Sociological Methodology, pp. 242-278.