Análisis estadístico de datos de tiempos de fallo en R

Embed Size (px)

Citation preview

  • Universidad de Granada

    Departamento de Estadstica e I.O.

    ANLISIS ESTADSTICO DE DATOS DE

    TIEMPOS DE FALLO EN R

    Ana Mara Hernndez Domnguez

    Tutores: M.Luz Gmiz Prez y M.Dolores Martnez Miranda

    Granada, 2010

  • NDICE GENERAL

    CONTENIDOS DEL TRABAJO .......................................................................................................................1

    CAPTULO I. INTRODUCCIN AL ANLISIS DE FIABILIDAD ...........................................................3

    1. VARIABLE ALEATORIA TIEMPO DE VIDA .........................................................................................................4 2. ALGUNOS MODELO ALEATORIOS DE FIABILIDAD ......................................................................................6 3. TIPOS DE DATOS EN FIABILIDAD.............................................................................................................15 4. ESTIMACIN NO PARAMTRICA DE LAS CARACTERSTICAS DE FIABILIDAD ............................................19 5. COMPARACIN NO PARAMTRICA DE CURVAS ........................................................................................26 6. ESTIMACIN CON DATOS TRUNCADOS A LA IZQUIERDA Y CENSURADOS A LA DERECHA ..........................29 7. MODELOS SEMIPARMETRICOS .............................................................................................................31

    CAPTULO II. ANLISIS COMPUTACIONAL DE DATOS DE TIEMPOS DE FALLOS.....................37

    1. LA FUNCIN SURV ..................................................................................................................................38 2. LA FUNCIN SURVFIT ..............................................................................................................................41 3. LA FUNCIN SURVEXP .............................................................................................................................44 4. LA FUNCIN SURVDIFF ...........................................................................................................................48 5. LA FUNCIN SURVREG ............................................................................................................................51 6. LA FUNCIN COXPH................................................................................................................................55 7. LA FUNCIN SURVFIT.COXPH ..................................................................................................................57 8. LA FUNCIN BASEHAZ.............................................................................................................................60 9. LA FUNCIN RESIDUALS.COXPH .............................................................................................................61 10. LA FUNCIN COX.ZPH .............................................................................................................................62 11. LA FUNCIN STRATA................................................................................................................................65

    CAPTULO III. APLICACIN REAL...........................................................................................................67

    1. INTRODUCCIN ............................................................................................................................................67 2. ESTIMACIN DE LA FUNCIN DE FIABILIDAD...............................................................................................70 3. ESTUDIO DE LAS COVARIABLES. MODELOS ESTRATIFICADOS......................................................................72 4. MODELO DE COX .........................................................................................................................................75 5. CONCLUSIONES............................................................................................................................................85

    BIBLIOGRAFA ...............................................................................................................................................87

  • 1

    CONTENIDOS DEL TRABAJO

    El contenido de este trabajo est dividido claramente en tres partes.

    El Captulo I, Introduccin al Anlisis de Fiabilidad, es sin lugar a dudas el

    bloque ms importante de este trabajo. En l se exponen los modelos tericos ms

    importantes del Anlisis de Fiabilidad como son: la distribucin Exponencial o la

    Weibull para los modelos paramtricos; el Estimador de Kaplan-Meier para los no

    paramtricos; o el Modelo de Cox dentro de los semiparamtricos.

    Como la caracterstica principal en Fiabilidad es que la observacin completa de

    la variables no es posible, veremos las causas principales de este problema que dan

    lugar a los distintos tipos de datos en este anlisis.

    El Captulo II, Anlisis computacional de datos en tiempos de fallo, es la parte

    ms tcnica del trabajo. Tras estudiar en el primer bloque los modelos tericos ms

    importantes en Fiabilidad, en este bloque vemos como esas funciones podran ser

    calculadas de un modo computacional, y para ello, nosotros veremos algunas de las

    funciones para este tipo de anlisis del lenguaje R.

    El entorno de anlisis estadstico R tiene varias libreras que permiten el clculo

    del anlisis de supervivencia, pero nosotros nos referiremos exclusivamente a la librera

    Survival. As que explicaremos la sintaxis y sus argumentos para las funciones ms

    importantes de esta librera.

    El Captulo III, es una aplicacin real donde se puede ver como son empleados

    algunos de los modelos que hemos visto en el primer bloque y su tratamiento

    computacional usando algunas de las funciones del bloque II.

    Para este estudio, se ha tomado una red de suministro de agua de una ciudad espaola

    de la que se pretende obtener informacin y registro del verdadero estado de deterioro

    de la red y su fiabilidad. Mediante tramos individuales de tubera se ha estudiado el

    fallo teniendo en cuenta diversas caractersticas fsicas, y la fuerte censura y

    truncamiento que presentan los datos. Por este motivo, veremos algunos de sus factores

    y su impacto sobre el riesgo de fallo, y su efecto sobre la razn de fallo mediante el

    Modelo de Riesgos Proporcionales de Cox (RPC).

  • Ana Mara Hernndez Domnguez

    2

  • Anlisis estadstico de datos de tiempos de fallo en R

    3

    Captulo I

    Introduccin al Anlisis de Fiabilidad

    El Anlisis de Fiabilidad o Anlisis de Supervivencia es un conjunto de tcnicas que se

    emplean para analizar los datos en los que la variable de inters es el tiempo que

    transcurre desde un instante inicial bien definido, hasta la ocurrencia de un determinado

    suceso o instante final. Es decir, obtener informacin sobre la variable tiempo de vida,

    tiempo hasta la muerte o curacin, probabilidad de fallo en cada instante, riesgo de

    fallo, etc.

    Cuando hablamos de tiempo de vida nos estamos refiriendo a la longitud de tiempo

    hasta la ocurrencia de un suceso de inters (que suele ser el fallo de una pieza, o la

    muerte o recada de un paciente) desde un punto prefijado. En otras ocasiones, el

    trmino tiempo de vida se usa en sentido figurado. Matemticamente, el tiempo de vida

    es una variable aleatoria no negativa. Klein y Moeschberger (1997), Andersen, Borgan,

    Gill y Keiding (1993), Cox y Oakes (1984), Lawless (1982).

    En el tratamiento del conjunto de datos es de importancia la utilizacin de

    modelos especficos paramtricos, modelos no paramtricos y semi-paramtricos que

    describen bien el comportamiento del conjunto de datos.

    Una de las caractersticas ms importantes en el anlisis de los datos en un estudio de

    fiabilidad de un dispositivo es la presencia de censura, es decir, cuando el suceso de

    inters no ha sido observado en ese sujeto. Esta peculiaridad, entre otras, de los datos en

  • Ana Mara Hernndez Domnguez

    4

    anlisis de fiabilidad hace que los mtodos clsicos de estimacin tengan que ser

    adaptados como veremos.

    A continuacin, estudiaremos los modelos usados a menudo en estudios de

    Fiabilidad y posteriormente los aplicaremos en un caso prctico.

    1. Variable aleatoria Tiempo de vida Llamaremos T al tiempo hasta la ocurrencia de un suceso de inters (generalmente el

    fallo de un mecanismo). Nos referimos a este tiempo como tiempo de fallo, tiempo de

    vida o tiempo de supervivencia. Consideraremos T como una variable continua.

    Adems, es una variable no negativa, T 0.

    1.1. Funcin de Fiabilidad o de Supervivencia Se define como la probabilidad de que el dispositivo sobreviva ms all del instante t.

    [ ]( ) 1 ( )S t P T t F t= > = donde F(t) es su funcin de distribucin, que asumimos es una funcin absolutamente

    continua.

    Esta funcin cuantifica la capacidad que tiene un dispositivo para cumplir con xito su

    funcin, en un intervalo de tiempo (0,t].

    Sus propiedades son:

    Montona, decreciente y continua.

    t(0) 1 y lim ( ) 0S S t

    = =

    ( ) [ ] ( ) 0t

    S t P T t f x dx t

    = > = donde f es la funcin de densidad asociada a T.

    1.2. Funcin de Riesgo La funcin de riesgo o tasa de fallo, denotada por r(t), se define como el cociente entre

    la funcin de densidad y la funcin de supervivencia. Esta funcin tiene un inters

    particular en aplicaciones de Supervivencia ya que indica la disposicin inmediata al

    fallo en un intervalo de tiempo pequeo, como una funcin de la edad. Su expresin es:

    ( )( )

    ( )

    f tr t

    S t=

    Desde esta expresin podemos dar una interpretacin del significado fsico de la

    funcin de riesgo. Supongamos un individuo cuyo tiempo de vida viene dado por la

    variable aleatoria T. Sea t pequeo, entonces

  • Anlisis estadstico de datos de tiempos de fallo en R

    5

    ( ) (aparezca un fallo en ( , ))( ) ( | )

    ( ) ( )

    f t t P t t tr t t P t T t t T t

    S t P T t

    + = = < + >>

    As, r(t)t representa la probabilidad de fallo durante (t, t+t], dado que el sistema est funcionando en t.

    En algunos casos, se interpreta tambin como la velocidad de degradacin del

    dispositivo, o la intensidad con que se presentan los fallos en el dispositivo, justo en el

    instante t. Por eso la estimacin de la funcin de riesgo se basa esencialmente en

    consideraciones fsicas.

    Cuando el fenmeno fsico que se est estudiando es la evolucin de un individuo,

    se puede estimar esta funcin considerando una serie de individuos en condiciones

    similares, de modo que si se quiere modelizar matemticamente el tiempo de vida, una

    estimacin natural de la funcin de riesgo es el nmero de recadas por unidad de

    tiempo ocurridos en cada intervalo de observacin. Siguiendo esta lnea, y con el fin de

    elegir un modelo adecuado va la funcin de riesgo, conviene tener en cuenta la

    existencia de tres tipos de "fallos" (sucesos en general) que presentan caractersticas

    esencialmente temporales.

    El primer tipo, llamado fallo inicial, se manifiesta al principio de la vida del

    individuo y va desapareciendo conforme se desarrolla el periodo inicial. Un ejemplo de

    este tipo puede observarse en las tablas de mortalidad humana, en las cuales se supone

    que en la vida de un individuo hay presentes, al principio de la misma, ciertos

    problemas de carcter hereditario que pueden provocar desenlaces fatales y que van

    desapareciendo conforme el individuo crece, y aproximadamente estn presentes hasta

    una edad de 10 aos.

    El segundo tipo de fallo se llama fallo accidental, y ocurre durante el periodo en

    el que el individuo presenta una funcin de riesgo constante, generalmente menor que la

    que prevalece durante su periodo inicial. En las tablas de mortalidad humana, se supone

    que las muertes ocurridas entre los 10 y 30 aos son debidas a accidentes.

    El tercer tipo, llamado fallo de desgaste, se asocia con un deterioro gradual del

    individuo. En las tablas de mortalidad humana hay, a partir de los 30 aos una

    proporcin creciente de muertes atribuidas al envejecimiento del individuo.

    Si en la evolucin de un individuo nicamente estuviesen presentes estos tres

    tipos de fallo, el modelo seleccionado para representar matemticamente su tiempo de

    funcionamiento debe tener una funcin de riesgo que por su forma es conocida con el

    nombre de Curva de Baera, y se asemeja a la siguiente figura:

  • Ana Mara Hernndez Domnguez

    6

    Figura 1.1. Curva de Baera

    1.3. Funcin de Riesgo Acumulada La Funcin de Riesgo Acumulada, R(t), se define como:

    0( ) ( ) log ( )

    tR t r u du S t= =

    Esta funcin es importante en la medicin de la frecuencia con que ocurren los

    fallos en el tiempo, en la construccin de papeles probabilsticos y en el anlisis de

    residuos en el ajuste de algunos modelos.

    Todas estas funciones f(t), F(t), S(t), r(t) y R(t) sirven para caracterizar la

    distribucin de probabilidad de T y, adems, son equivalentes entre s, con lo que

    conocida una de ellas, las restantes son fciles de obtener a travs de alguna de las

    siguientes relaciones:

    { } ( )0

    ( ) ( )

    ( ) ln ( )

    ( ) exp ( )

    ( ) ln ( )

    t R t

    df t S t

    dtd

    r t S tdt

    S t r u du e

    R t S t

    =

    =

    = =

    =

    2. Algunos modelo aleatorios de fiabilidad Existen numerosos modelos paramtricos que son usados en el anlisis de tiempo de

    vida y en problemas relacionados con la modelizacin del envejecimiento y el proceso

    de fallo. Entre los modelos univariantes, son unas pocas distribuciones las que toman un

    papel fundamental dado su demostrada utilidad en casos prcticos. As se tiene, entre

    otras, la exponencial, gamma, la Weibull, la normal y log-normal y la log-logstica.

    El mtodo consiste en estimar, por mtodos robustos (mxima verosimilitud o

    mnimos cuadrados), los parmetros caractersticos de la distribucin, y usar su

  • Anlisis estadstico de datos de tiempos de fallo en R

    7

    normalidad asinttica para realizar la estimacin por intervalos y resolver contrastes de

    hiptesis.

    A continuacin, presentamos algunas de las distribuciones referidas

    anteriormente.

    2.1. Distribucin Exponencial La distribucin exponencial tiene un papel fundamental en el Anlisis de Fiabilidad ya

    que se trata de la distribucin ms empleada en el anlisis de datos de tiempo de fallo.

    Se suele utilizar para modelizar el tiempo transcurrido entre dos sucesos aleatorios

    cuando la tasa de ocurrencia, , se supone constante.

    En fiabilidad se usa para describir los tiempos de fallo de un dispositivo durante

    su etapa de vida til, en la cual la tasa de fallo es aproximadamente constante, r(t) = .

    Una tasa de fallo constante significa que, para un dispositivo que no haya fallado con

    anterioridad, la probabilidad de fallar en el siguiente intervalo infinitesimal es

    independiente de la edad del dispositivo.

    La expresin de la funcin de densidad que sigue una distribucin exponencial

    es:

    ( ) 0tf t e t = donde es la tasa de fallo, y es una constante positiva.

    La funcin de distribucin es:

    ( ) 1 0tF t e t= La funcin de fiabilidad queda como:

    ( ) 1 ( ) 0tS t F t e t= = La funcin de riesgo es:

    ( )( ) t 0

    ( )

    t

    t

    f t er t

    S t e

    = = =

    Propiedad de no memoria

    La distribucin exponencial se caracteriza por la propiedad de no memoria, y se enuncia

    como sigue:

    Sea X una variable aleatoria con distribucin exponencial entonces

    { } { }P X>x+t|X>t P X t= > para todo x, y 0.

  • Ana Mara Hernndez Domnguez

    8

    Es decir, si interpretamos X como el tiempo de vida de un individuo, esta

    igualdad establece que la probabilidad de que el individuo sobreviva al tiempo x+t dado

    que ha sobrevivido al tiempo x, es igual a la probabilidad de que sobreviva al tiempo t al

    principio de su vida (o cuando est nuevo para el caso de un objeto).

    La condicin anterior puede tambin escribirse en trminos de la funcin de

    supervivencia

    ( ) ( ) ( )S x t S x S t+ =

    Esta propiedad describe el proceso de vida sin envejecimiento, y caracteriza a la

    funcin exponencial.

    2.2. Distribucin Gamma Una generalizacin de la distribucin exponencial es la distribucin Gamma. Una

    variable aleatoria de tiempo de vida se dice que se distribuye segn una Gamma de

    parmetros y , G(,), cuando su funcin de densidad viene dada por 1

    ( ) t 0, , 0( )

    ttf t e

    = >

    donde es el parmetro de forma, es el parmetro de escala y representa la funcin

    gamma que se define

    1

    0( ) , para todo 0xx e dx

    = >

    y verifica que (n)=(n-1)!, para todo nN. Cuando =1, se tiene la distribucin

    exponencial.

    La funcin de riesgo es: 1

    1

    0

    ( )t

    x

    t er t

    x e dx

    =

    es una funcin decreciente en t si 1.

    Adems r(t) se aproxima asintticamente a 1/ cuando t, lo cual sugiere que

    la distribucin Gamma puede ser til como un modelo de poblacin cuando los

    individuos que sufren determinada enfermedad son sometidos a un programa de

    seguimiento regular. La razn de fallo puede crecer o decrecer algo inicialmente, pero

    despus de algn tiempo la enfermedad tiende a estabilizarse y a partir de ah la recada

    es tan probable en un intervalo de tiempo como en otro de la misma amplitud.

  • Anlisis estadstico de datos de tiempos de fallo en R

    9

    0 10 20 30 40

    0.0

    0.4

    0.8

    1.2

    t

    r(t)

    G(0.5,0.5)G(1,0.5)G(3,0.5)

    Figura 1.2. Funciones de riesgo de distintas distribuciones Gamma

    2.3. Distribucin Weibull Un inconveniente de la distribucin exponencial es que no sirve como modelo para

    tiempos de vida en los que la razn de fallo no es una funcin constante, sino que la

    probabilidad condicional de fallo instantneo vara con el tiempo. Es decir, mientras que

    la distribucin exponencial supone una razn de fallo constante, la familia de

    distribuciones de Weibull incluyen razones de fallo crecientes y decrecientes. Como

    muchos fallos que encontramos en la prctica presentan una tendencia creciente, debido

    al envejecimiento o desgaste, esta distribucin es til para describir los patrones de este

    tipo de fallo.

    Definiremos la distribucin de Weibull a partir de su funcin razn de fallo, r(t).

    Sea T una variable aleatoria tiempo de vida tal que la correspondiente razn de fallo

    viene dada por: 1( ) ( )r t t =

    con > 0, >0, t > 0; es el parmetro de forma y el de escala. Notamos a la

    distribucin como W (, ). Cuando = 2, es conocida como distribucin de Rayleigh.

    Grficamente, representamos las funciones de riesgo de distribuciones para

    W(1, 1.5), W(1,1) y W(1,0.5).

  • Ana Mara Hernndez Domnguez

    10

    Figura 1.3. Funciones de riesgo de distribuciones W(1, 1.5), W(1,1) y W(1, 0.5)

    Propiedades

    Dada la importancia de la distribucin Weibull ya que es una familia ms amplia que

    contiene como caso particular a la Exponencial y est formada por aquellas

    distribuciones con funcin de riesgo de tipo potencial, vamos a ver algunas de sus

    propiedades ms importantes:

    Propiedad 1: Si T1,T2,...,Tn son n variables aleatorias independientes e idnticamente

    distribuidas con distribucin comn Weibull, entonces T(1)= min{T1,T2,...,Tn} es tambin

    Weibull. La funcin de supervivencia es

    ( ) ( ){ }(1) ( ) ( ) expnTS t S t n t = = y los parmetros pueden identificarse a partir de aqu fcilmente.

    Propiedad 2: Si X tiene distribucin exp(), entonces T=Xp tiene distribucin Weibull,

    W(p, 1/p).

    De donde se deduce que la distribucin exponencial es un caso particular de la

    distribucin Weibull para =1.

    Propiedad 3: La funcin de riesgo es creciente para >1 y r(t) cuando t. Es

    decreciente para

  • Anlisis estadstico de datos de tiempos de fallo en R

    11

    Propiedad 4: Si (t)

  • Ana Mara Hernndez Domnguez

    12

    Figura 1.4. Razn de fallo de la distribucin N(0,1)

    Cuando una variable aleatoria tiene distribucin normal pero con una cota

    superior y/o inferior para los valores de la variable, la distribucin resultante se llama

    distribucin normal truncada. Cuando slo hay una cota inferior (superior), la

    distribucin se dice truncada a la izquierda (derecha), si existen las dos cotas se dice

    doblemente truncada.

    La distribucin normal truncada en 0 es a menudo usada como distribucin de

    tiempo de vida.

    2.5. Distribucin Lognormal La distribucin normal, sin duda la ms importante de las distribuciones estadsticas, no

    resulta de mucho inters a la hora de modelar tiempos de fallo. Esto es debido al hecho

    de que la distribucin normal admite valores negativos, lo cual contrasta con el hecho

    de que los tiempos transcurridos hasta el fallo sean siempre valores positivos. Aunque

    como hemos visto anteriormente, este problema se podra solucionar truncado la

    distribucin Normal, otra forma de solventar esta dificultad, es recurrir a la distribucin

    log-normal, derivada de la normal, que slo considera valores positivos.

    Se dice que una variable aleatoria T tiene un comportamiento lognormal, de

    parmetros y si su logaritmo es una variable aleatoria con distribucin Normal, es decir, si

    ( ) ,N)Tln( Si T sigue una distribucin lognormal se representa por T ~ LN(, ), donde y son

    los parmetros de localizacin y dispersin de la distribucin de ln(T).

  • Anlisis estadstico de datos de tiempos de fallo en R

    13

    Sus funciones de densidad y de distribucin vienen dadas respectivamente por:

    ( )2 2ln / 21( ) 02

    tf t e tt

    pi

    =

    ln( ) 0

    tF t t

    =

    donde (z) representa la funcin de distribucin de una normal estndar, cuyo clculo

    se obtiene con la integral

    ( ) ( )z

    z u du

    =

    donde (u) es la funcin de densidad de una Normal (0,1). La funcin de fiabilidad S(t) y la funcin de riesgo r(t) dependen tambin de

    (z), como se puede ver en la siguiente expresin

    ln ln ln( ) ( ) 1 ( ) 1

    T t tS t P T t F t P

    = > = = > =

    La funcin de riesgo r(t) = f(t) / S(t) tiene valor cero en t = 0, es creciente hasta

    un mximo y despus decrece muy lentamente sin llegar a 0.

    El modelo lognormal es muy fcil de utilizar si no hay censura (este concepto se

    define en secciones posteriores), pero con censura los clculos y operaciones se

    complican.

    Figura 1.5. Razones de fallo de distribuciones lognormales

    =0 y =1; y (II) =1 y =0.5

    La distribucin lognormal se ajusta a ciertos tipos de fallos (fatiga de

    componentes metlicos, vida de los aislamientos elctricos), procesos continuos

    (procesos tcnicos) y puede ser una buena representacin de la distribucin de los

  • Ana Mara Hernndez Domnguez

    14

    tiempos de reparacin.

    La distribucin lognormal es importante en la representacin de fenmenos de efectos

    proporcionales, tales como aquellos en los que un cambio en la variable en cualquier

    punto de un proceso es una proporcin aleatoria del valor previo de la variable.

    2.6. Distribucin Log-Logstica La importancia de la distribucin log-logstica, al igual que la lognormal, est en que

    proporcionan modelos para tiempos de vida que no tienen funcin de riesgo montona,

    sino que pueden (segn cmo se elijan los parmetros) presentar diferentes formas. Las

    funciones de riesgo de estas dos distribuciones con muy parecidas pero la de la log-

    logstica es mucho ms manejable.

    La funcin de supervivencia S(t) es

    1( )

    1 kS t

    e t=

    +

    La funcin de riesgo es

    1

    ( )1

    k

    k

    e ktr t

    e t

    =

    +

    para t0. El siguiente grfico representa una funcin de riesgo para un modelo log-

    logstico, que crece inicialmente y a partir de un momento determinado cambia de

    sentido y decrece.

    Figura 1.6. Funcin de riesgo de una log-logstica

    Algunas de las ventajas de esta funcin con respecto a la lognormal, es que

  • Anlisis estadstico de datos de tiempos de fallo en R

    15

    cuando t , la funcin de riesgo se aproxima a cero. Adems, la forma de su funcin

    de riesgo es muy parecida a la lognormal pero algebraicamente es mucho ms

    manejable.

    3. Tipos de datos en Fiabilidad Un ensayo clsico de Fiabilidad consiste en observar a lo largo del tiempo una muestra

    de dispositivos o piezas en funcionamiento. La variable de inters suele ser el tiempo de

    fallo del dispositivo, pero existen ocasiones en las que no es posible la observacin

    completa de esta variable porque no sea factible continuar el experimento hasta que

    fallen todos los dispositivos. Las dos causas principales son la censura y el

    truncamiento.

    En la censura destacamos dos tipos: Censura Tipo I, en la cual los dispositivos son

    observados hasta un tiempo determinado; y la Censura Tipo II, en la que los individuos

    son observados hasta que ocurran un nmero determinado de fallos. La determinacin

    del tiempo para el Tipo I y el nmero de fallos para el Tipo II deben establecerse antes

    de iniciar el experimento, y no durante el transcurso del mismo.

    Atendiendo a las causas que dan lugar a la censura o al truncamiento, se distinguen

    los siguientes tipos.

    Censura por la derecha Este tipo de censura se considera dentro de la Censura Tipo I. Se presenta cuando

    finalizado el periodo de observacin de un determinado dispositivo, an no ha

    ocurrido el evento que se desea observar (generalmente el fallo del dispositivo). Es

    decir, puesto un dispositivo en funcionamiento y fijado un cierto valor Y (duracin

    del seguimiento o periodo de observacin), se dice que una observacin T (tiempo

    de vida del dispositivo) es censurada a la derecha si se desconoce el valor de T, y

    slo se sabe que es mayor que Y.

    Censura por la izquierda Se presenta cuando el evento que se desea observar ha ocurrido antes de que el

    dispositivo o individuo se incluya en el estudio. Por tanto, se desconoce el valor

    exacto de la observacin Ti.

    Este tipo de censura suele confundirse con el truncamiento por la izquierda o la

    entrada tarda.

  • Ana Mara Hernndez Domnguez

    16

    Censura doble Se presenta cuando los datos estn censurados tanto por la izquierda como por la

    derecha.

    Censura aleatoria Se produce cuando en el transcurso de un estudio, algunas unidades experimentan

    otros sucesos independientes del de inters que provocan la salida del estudio.

    Esto puede deberse fundamentalmente a varias razones: a que hasta el momento de

    la finalizacin del estudio no haya ocurrido el evento (si es que el periodo de

    seguimiento es finito), a que el individuo abandone el estudio, o en el caso de que

    ocurra en el individuo o dispositivo otro evento que imposibilite la ocurrencia del

    evento que se desea observar.

    El modelo aleatorio de censura a la derecha se representa con el par (X; ),

    donde:

    { } { } 1 si T Ymin , y 1 0 si T > YT YX T Y

    = =

    donde es la funcin aleatoria indicadora de censura. Cada valor de la muestra ser un par (xi, i), con i=1 cuando el valor observado de X corresponde con el tiempo

    de fallo del dispositivo y i=0 cuando el valor registrado de X es un tiempo de

    censura, es decir, no se ha observado el tiempo de fallo del dispositivo porque un

    suceso aleatorio e independiente del fallo del mecanismo ha ocurrido en el tiempo

    xi interrumpiendo la observacin de la vida del mecanismo hasta su fallo. En este

    caso la informacin muestral que se registra acerca de la variable de inters es que

    sta tomara un valor superior al tiempo registrado.

    Truncamiento por la izquierda Sucede cuando los individuos entran en el estudio a edades aleatorias, por lo que el

    origen del tiempo de vida precede al origen de estudio.

    Para aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio

    sern ignorados y no entrarn a formar parte del estudio. La informacin que se

    registra se refiere por tanto no a la variable de inters tiempo de vida tal cual, sino a

    esta variable condicionada a que el individuo sobrevivi para entrar en el estudio.

    Truncamiento por la derecha Ocurre cuando slo los individuos que presentan el evento o fallo son incluidos en

    el estudio. En este caso la informacin que se registra tambin corresponde a una

  • Anlisis estadstico de datos de tiempos de fallo en R

    17

    variable condicionada a que el tiempo de fallo fue anterior a la finalizacin del

    estudio. Individuos que no cumplen esta condicin son ignorados por el

    experimento.

    Modelo de truncamiento por la izquierda y censura por la derecha Este modelo terico se recoge en problemas que presentan datos que son truncados

    y censurados al mismo tiempo.

    Sea (X,T,C) un vector aleatorio, donde X es el tiempo de truncamiento, T es el

    tiempo de fallo, y C es el tiempo de censura. Se supone que bajo un modelo de

    truncamiento por la izquierda y censura a la derecha, las observaciones muestrales

    sern observaciones del vector (X,Y,), donde Y =min{T,C} y es el indicador de

    censura, es decir, = 1{TC} si T es un tiempo de fallo 0 si T es un tiempo de

    censura. Si Y < X, no hay observaciones. Es decir, que la muestra est constituida

    por n observaciones de tipo (xi, yi , i) en los que xi yi para todo i=1, 2, , n.

    Las condiciones habituales en este modelo son:

    T es independiente de (X,C)

    X,T y C son mutuamente independientes.

    3.2. Ejemplos de tipos de datos Para poder entender mejor los diferentes tipos de experimentos muestrales que hemos

    descrito anteriormente, vamos a ver un ejemplo, que aunque no cubre todos los casos,

    refleja los ms importantes.

    EJEMPLO 1

    Imaginemos un estudio en el que se quiere analizar la supervivencia en pacientes

    con trasplante de corazn. El periodo de estudio son 52 semanas, donde el evento

    de inters es la muerte del paciente, aunque no todos los pacientes tienen por qu

    morir en ese periodo de tiempo. As que, el estudio lleva consigo el registro de

    informacin muestral incompleta en uno u otro sentido.

    En el siguiente grfico se ilustra mediante lneas de distinto tipo las

    observaciones en 6 pacientes. La lnea gruesa indica el periodo de observacin del

    individuo; el crculo grueso representa la observacin del evento; el recuadro indica

    el tiempo de censura; y el crculo vaco representa la ocurrencia del evento pero que

    no queda registrada en el estudio.

  • Ana Mara Hernndez Domnguez

    18

    Figura 1.7. Ejemplo de censura y truncamiento en 6 pacientes

    a) El sujeto 1 entra en el estudio en el momento del trasplante y muere despus de

    40 semanas. Por tanto, este dato no tiene censura, ya que el dato es observado

    desde el comienzo hasta su muerte.

    b) El sujeto 2 entra en el estudio en el momento del trasplante y sobrevive ms de

    52 semanas, por lo que deja de ser observado. A las 90 semanas fallece, sin

    embargo, esta observacin no es tenida en cuenta en el estudio ya que finaliz a

    las 52 semanas.

    ste es un ejemplo de censura a la derecha. La censura por la derecha

    suele ocurrir cuando el estudio tiene una fecha determinada para la finalizacin.

    c) El sujeto 3 entra en el estudio en el momento del trasplante, pero abandona el

    estudio en la semana 30. Por lo tanto, este es un ejemplo de censura aleatoria a

    la derecha.

    Aunque el individuo fallece en la semana 50, el dato no es observado.

    d) El sujeto 4 entra en el estudio en la semana 15 despus del trasplante y muere a

    las 35 semanas. Estamos ante el caso de una entrada tarda al estudio. Se dice

    que este dato presenta truncamiento a la izquierda.

    e) El sujeto 5 entra en el estudio en la semana 30 despus de ser trasplantado, y a la

    finalizacin del estudio en la semana 52 aun no ha experimentado el evento. Por

    lo que es un dato que presenta truncamiento a la izquierda y censura a la

  • Anlisis estadstico de datos de tiempos de fallo en R

    19

    derecha.

    f) El sujeto 6 entra en el estudio en el momento del trasplante pero abandona el

    estudio en la semana 10. La informacin se pierde hasta la semana 35 en la que

    vuelve a entrar en el estudio, para finalmente fallecer en la semana 45. Por tanto,

    este dato es un ejemplo de mltiples intervalos de observacin.

    EJEMPLO 2

    Un ejemplo de datos truncados por la derecha lo encontramos en los tiempos de

    incubacin en enfermos de SIDA. Dado que slo se registran individuos que han

    desarrollado SIDA, el tiempo de incubacin (T), que es el tiempo que transcurre

    desde el diagnstico del VIH y SIDA, slo se tendr en cuenta individuos cuyo

    tiempo de incubacin sea menor o igual que la duracin total del estudio (). Es

    decir, slo entran en estudio aquellos individuos que cumplan T , por tanto las

    observaciones son truncadas a la derecha. Un individuo que no haya desarrollado

    SIDA cuando acabe el periodo de observacin no entra en la muestra, no se puede

    registrar su tiempo de incubacin y por lo tanto es ignorada.

    EJEMPLO 3

    Para el caso de la censura a la izquierda se puede utilizar como ejemplo un estudio

    en adolescentes que empiezan a fumar mariguana (Klein & Moeschberger, 1997).

    Se selecciona una muestra de adolescentes con 16 aos que ya fuman mariguana y

    se les pregunta a qu edad comenzaron. La variable de inters es el tiempo hasta

    que fuman por primera vez (T). Algunos lo recuerdan con exactitud (a los 14 aos,

    a los 15 aos, ) por lo que proporcionan informacin completa sobre la variable

    en estudio. Sin embargo, hay otros jvenes que no recuerdan en qu momento

    fumaron por primera vez, pero dado que ahora fuman y tienen 16 aos, la

    informacin que aportan es un dato censurado a la izquierda, ya que se sabe que T

    16.

    4. Estimacin no paramtrica de las caractersticas de

    fiabilidad Los modelos no paramtricos son mtodos analticos y grficos que permiten interpretar

    los datos obtenidos sin asumir ningn tipo concreto de modelo probabilstico para los

    tiempos de fallo y las funciones bsicas (riesgo, fiabilidad), por lo que se estiman

    directamente de los datos. En ocasiones, esto puede resultar ventajoso pues no se

  • Ana Mara Hernndez Domnguez

    20

    requieren de grandes supuestos previos sobre el modelo.

    A continuacin, describiremos algunos de los mtodos no paramtricos empleados

    en la estimacin de las caractersticas en fiabilidad:

    Funcin de Fiabilidad Emprica

    Estimador de Kaplan-Meier o Estimador Producto Lmite

    Estimador de la funcin de riesgo acumulada: Estimador de Nelson-Aalen

    4.1. Funcin de Fiabilidad Emprica Supongamos n tems que son observados hasta que ocurre el fallo, y tj el tiempo de

    ocurrencia del fallo, por lo que tendremos t1 < t2 < < tk con k n; y sea dj el nmero

    de fallos ocurridos en el tiempo tj, con j = 1, 2, , k.

    Se define la funcin de fiabilidad emprica como

    n de observaciones despus de t( )nS t n

    =

    es decir,

    11( ) ,

    j

    ji

    n j j

    n dS t t t t

    n=

    +

    =

    para j = 0, 1, , k, siendo t0 = 0 y tk+1 = .

    Propiedades

    Es no creciente

    Toma valor 0 en todo t menor que el primer tiempo de fallo observado, t1.

    Toma valor 1 en todo t mayor que el ltimo tiempo de fallo observado, tk.

    Es continua a la derecha. Permanece constante entre dos observaciones

    consecutivas y presenta un salto de magnitud dj/n en la observacin j-sima.

    Si F es la funcin de distribucin que describe la variable aleatoria T, tiempo de

    vida del sistema en estudio, F = 1 - S, se tiene el conocido Teorema de Glivenko-

    Cantelli, segn el cual, si

    sup ( ) ( )n nt

    D F t F t<

  • Anlisis estadstico de datos de tiempos de fallo en R

    21

    Sin embargo, la funcin de fiabilidad estimada tiende a subestimar la funcin de

    fiabilidad, por lo que no es un buen estimador cuando en la muestra aparecen

    observaciones censuradas. Esto es as, ya que estamos entendiendo que los tems en

    cuestin fallan en el tiempo de censura, con lo cual estamos falseando la informacin

    porque lo nico que sabemos es que hasta ese instante de censura el tem no haba

    fallado, pero tras ese tiempo no se tiene informacin.

    Si la muestra procede de un plan de ensayo en el que la duracin del test est

    prefijada, es decir, es Tipo I, transcurrido un tiempo T0 no hay observaciones, por lo que

    el estimador Sn est definido nicamente en el intervalo [0,T0]. Fuera de ese intervalo

    no puede estimarse la funcin de fiabilidad ya que no hay informacin muestral.

    Si en cambio, se lleva a cabo un plan de ensayo Tipo II, es decir, se observa la

    muestra hasta la ocurrencia del r-simo fallo, construimos un estimador Sn hasta que

    alcanza el valor (n-r)/n. De esta forma, estar definida en el intervalo [0,tr].

    Cuando las muestras son multicensuradas, entonces se emplearn otros mtodos

    ms sofisticados como el estimador de Kaplan-Meier que veremos a continuacin.

    4.2. Estimador de Kaplan- Meier o Estimador Producto Lmite Las tcnicas de estimacin no paramtrica con datos censurados se inicia con los

    aportes de Kaplan y Meier (1958), quienes publicaron algunos resultados obtenidos para

    observaciones censuradas a la derecha y aaden un estudio de las propiedades bsicas

    de un nuevo estimador que se conocer con el nombre de sus autores. A partir de

    entonces, el Estimador de Kaplan-Meier o Estimador de Producto Lmite se

    convierte en uno de lo mtodos no paramtricos ms utilizados para estimar la funcin

    de fiabilidad con datos no agrupados en presencia de censura.

    Definicin

    El Estimador de Kaplan-Meier se define de la siguiente forma. Supongamos que se

    observa una muestra de n piezas en funcionamiento, de forma que de cada pieza i se

    registra o bien su tiempo de fallo o bien su tiempo de censura. El objetivo es

    estimar la funcin de fiabilidad de la variable aleatoria T, tiempo de fallo.

    Grficamente, la informacin de la muestra vendra dada en la forma:

  • Ana Mara Hernndez Domnguez

    22

    Figura 1.8. Observacin de n piezas

    Se supone que se registran un total de k (k n) distintos tiempos 0 = t0 < t1 < t2 <

    < tk en los cuales ocurren los fallos. Por tanto, decimos que se registran k fallos, con

    lo cual w = n k es el nmero de datos censurados. El mtodo de Kaplan-Meier estima

    la probabilidad de supervivencia en el tiempo tj mediante el producto de la probabilidad

    de supervivencia en el tiempo tj-1 por la probabilidad condicionada de sobrevivir al

    tiempo tj si se ha sobrevivido hasta el tiempo tj-1. A continuacin, definimos las

    siguientes cantidades:

    dj : es el nmero de piezas que han fallado en el instante tj, si no hay empates,

    dj = 1;

    wj : es el nmero de piezas censuradas en el intervalo (tj, tj+1);

    nj : es el nmero de piezas en riesgo inmediatamente antes del instante tj, y se

    calcula de la forma:

    n0 = n;

    n1 = n w0;

    n2 = n1 w1 d1;

    ........................

    nj = nj-1 wj-1 dj-1;

    ........................

    Dado que conocemos exactamente dnde ocurren los fallos, la probabilidad de

    supervivencia permanecer constante entre dos fallos consecutivos. Las censuras deben

    ser tenidas en cuenta a la hora de calcular el nmero de unidades en riesgo en cada

    punto de estimacin.

    As, el Estimador de Kaplan-Meier se define de la siguiente forma

    : :

    ( ) 1j j

    j j j

    j t t j t tj j

    n d dS t

    n n

    = =

    Si el ltimo dato registrado es un tiempo de censura t*, quiere decir que no hemos

    observado todos los fallos de las piezas en estudio, por tanto, la estimacin de la funcin

    de supervivencia no vale cero en ningn momento, de modo que no podemos estimar

    esta curva hasta +, ya que no sera una curva de supervivencia propiamente dicha. En

    este caso, construimos el estimador slo hasta este tiempo de censura, t*. El ltimo

    intervalo sera por tanto [tk, t*), y en este caso, 0kS > .

  • Anlisis estadstico de datos de tiempos de fallo en R

    23

    Propiedades

    El estimador de Kaplan-Meier es el estimador no paramtrico mximo verosmil

    de la funcin de fiabilidad por lo que presenta varias de las propiedades deseables

    en un buen estimador.

    Estas propiedades proporcionan facilidad de clculo y la ventaja de poder utilizarlo

    en problemas con datos censurados a la derecha. Adems, cuando las estimaciones

    de S(t) se hacen con datos en ausencia de censura, su expresin coincide con la del

    estimador no paramtrico de la funcin de fiabilidad, es decir la funcin de

    fiabilidad emprica definida anteriormente. Por lo tanto, este estimador tiene

    muchas de las propiedades deseables en un estimador para muestras grandes. Sin

    embargo, para muestras pequeas ya no son tan robustas. En particular, es sesgado

    para muestras finitas y la magnitud del sesgo es inversamente proporcional al

    tamao de la muestra. Por otro lado, la eficiencia asinttica del estimador de

    Kaplan-Meier es inferior a la del estimador paramtrico de mxima verosimilitud si

    el nivel de censura es alto o la supervivencia est prxima a cero.

    Varianza del Estimador

    El estimador de Kaplan-Meier de S(t) da una estimacin puntual o un nico valor

    para esta funcin en cualquier instante t. Por lo tanto, si se desea tener una medida

    de la precisin de este estimador en diferentes instantes de tiempo o sobre

    diferentes muestras, es necesario contar con un buen estimador de su varianza, el

    cual viene dado por la frmula de Greenwood (1926).

    Para calcular la varianza usaremos la aproximacin por el mtodo delta (ver

    Meeker y Escobar, 1998). El desarrollo en serie de Taylor hasta el primer sumando

    para i, considerada como funcin de iq , nos dara:

    ( )1

    ( ) ( )

    j

    i

    i i j jj j p

    SS t S t p p

    p=

    = +

    y, a partir de aqu, la varianza vendra dada, usando el mtodo delta, por

    ( ) ( )21 1

    ,

    i ii i

    i i i j kj k j k

    S SVar S E S S Cov p p

    p p= =

    = =

    Adems, cuando n es grande las q son incorreladas, esto es para ij,

  • Ana Mara Hernndez Domnguez

    24

    ( ) , 0j kCov p p = con lo cual

    ( )2

    1

    ii

    i ij j

    SVar S Var p

    p=

    =

    y, sustituyendo, se obtiene la frmula de Greenwood para la estimacin de la

    varianza

    2 2

    1 1

    ( ) ( ) ( ) ( )

    i ij j

    i i ij jj j j j j

    q dVar S t S t S t

    p n n n d= =

    =

    Intervalos de confianza

    A partir del estimador del error estndar que hemos obtenido anteriormente

    podemos construir intervalos de confianza basndonos en que la distribucin de

    ( )

    ( ) ( )

    i

    i iS

    S t

    S t S tZ

    EE

    =

    es asintticamente normal estndar, con lo que

    [ ] 1 2 / 2( ) ( ); ( ) ( ) ii i i S tS t S t S t EE Z=

    donde z/2 es el cuantil de orden 1/2 de la distribucin N(0,1).

    Cuando el tamao muestral no es grande, la ley normal puede no ser una

    aproximacin adecuada para la distribucin de SZ , particularmente en las colas de

    la distribucin, por ejemplo, es posible que S1 (t) < 0 S2 (t) > 1, resultados que

    estn fuera del rango de posibles valores de una funcin de fiabilidad. Podra

    obtenerse una mejor aproximacin usando la transformacin logit, esto es:

    log ( ) log1

    pit p

    p

    =

    y basndose en la distribucin de

  • Anlisis estadstico de datos de tiempos de fallo en R

    25

    [ ]log ( )

    log ( )

    log ( ) log ( )

    i

    i i

    it S

    it S t

    it S t it S tZ

    EE

    =

    Esta transformacin de ( )iS t , verifica

    log ( )iit S t < <

    con lo cual log ( )it SZ est ms prxima a una N(0,1). Con esto construimos el

    intervalo de confianza

    [ ] ( ) ( )1 2 ( ) ( )

    ( ); ( ) , ( ) 1 ( ) ( ) 1 ( ) /

    i ii i

    i i i i

    S t S tS t S t

    S t S t w S t S t w

    = + +

    con

    ( ) ( )

    / 2

    exp

    ( ) 1 ( )iS t

    i i

    EEw z

    S t S t

    = +

    .

    4.3. Estimador de la Funcin de Riesgo Acumulada: Estimador de

    Nelson-Aalen Dado que la funcin de supervivencia se puede expresar en trminos de la funcin de

    riesgo, R(t) = ln S(t), si se desea estimar la funcin de riesgo acumulada, entonces

    se tiene que, )(ln)( tStR = donde (t) es el estimador de Kaplan-Meier de la funcin

    de supervivencia.

    Otro posible estimador de R(t) puede obtenerse mediante las sumas acumuladas de la

    estimacin emprica de la funcin de riesgo

    ,

    ( ) ( )j

    j

    j t t j

    dR t t

    n= = % %

    donde dj representa el nmero de fallos ocurridos en el instante tj; y nj es el nmero de

    individuos en riesgo en tj (estas cantidades se definen del mismo modo que en el

  • Ana Mara Hernndez Domnguez

    26

    estimador de Kaplan-Meier, ver Seccin 1.4.2.).

    A este estimador se le llama Estimador de Nelson -Aalen y fue introducido por

    primera vez por Nelson (1969, 1972). De un modo independiente, Altshules (1970)

    redescubri el mismo estimador para procesos de conteo con animales. Posteriormente,

    adoptando la formulacin del proceso de conteo, Aalen (1978) extendi sus usos ms

    all de la superviviencia para estudiar sus propiedades usando martingalas.

    El cociente dj/nj, proporciona una estimacin de la probabilidad condicionada de

    que una unidad que sobrevive hasta el instante inmediatamente anterior a tj, falle en el

    instante tj.

    A partir de la relacin logartmica entre R(t) y S(t), se obtiene un estimador

    alternativo )(~tS , de la funcin de supervivencia, conocido como estimador de Fleming-

    Harrington, de la funcin de supervivencia, cuya relacin es:

    ,( )( )

    j

    jj j t

    d

    nR tS t e e

    = =

    %%

    Este estimador es de gran utilidad en la construccin de grficas, para evaluar la

    seleccin de una determinada familia paramtrica de distribuciones, cuando se trata de

    modelizar la distribucin del tiempo de vida de una unidad y realizar unas primeras

    estimaciones de los parmetros del modelo seleccionado.

    Cuando T es una variable continua, )(~tS y )( tS , son estimadores asintticamente

    equivalentes. En realidad, )(~tS es la aproximacin lineal de primer orden de la funcin

    )( tS , ya que

    , , ,

    ( ) ln(1 ) ( )j j j

    jj j

    j t t j t t j t t j

    dR t q q R t

    n = = = %

    5. Comparacin no paramtrica de curvas Un problema tpico en fiabilidad consiste en comparar las funciones de supervivencia

    de k ( 2) poblaciones que se diferencian en algn factor. Es decir, se trata de detectar

    posibles diferencias, en cuanto a las funciones de supervivencia, que dicho factor

    pudiese haber inducido. Aunque la representacin grfica de las curvas de supervivencia

    alerte sobre posibles diferencias, sera interesante disponer de una prueba estadstica

    que permita establecer diferencias significativas objetivas entre las curvas, lo que

    indicara que el factor considerado es determinante en el riesgo de fallo.

    Aunque existen numerosos tests no paramtricos, para comparar 2 o ms curvas

  • Anlisis estadstico de datos de tiempos de fallo en R

    27

    de supervivencia, nosotros estudiaremos el Test de Savage o Test de log-rank.

    Vamos a aplicar el procedimiento a la comparacin de la supervivencia de dos

    grupos de tems, G1 y G2, cuya funcin de supervivencia es respectivamente S1 y S2.

    Este test est indicado, y en este caso es el ms potente, cuando el cociente de las

    funciones de riesgo es aproximadamente constante, esto es, la hiptesis alternativa es la

    de riesgos proporcionales.

    Supongamos que disponemos de una muestra de cada poblacin, de tamaos

    respectivos n1 y n2. De modo que n = n1 + n2 es el nmero total de datos en la muestra

    combinada, para la que denotamos t1 < t2 < < tk, los tiempos de fallo distintos

    observados y ordenados.

    Formulamos la hiptesis nula de la siguiente forma:

    1 2: ( ) ( ) oH S t S t t =

    siendo el tiempo total de observacin de la muestra, es decir, sera el mximo de los tj.

    El test consiste en comparar el nmero de fallos observados dentro de cada grupo

    (G1 y G2) y el nmero de fallos esperado bajo la hiptesis nula.

    Definimos las siguientes cantidades:

    dj: el nmero total de fallos ocurridos en tj;

    nj: el nmero total de tems en riesgo justo antes de tj;

    dij, i =1, 2: el nmero de fallos ocurridos en el tiempo tj entre los individuos del

    grupo i;

    nij: i =1, 2: el nmero de tems en riesgo al principio de tj entre los individuos del

    grupo i.

    Si la hiptesis nula es cierta, la probabilidad condicional de fallo en tj es igual

    para los dos grupos, j, por lo tanto, la distribucin de probabilidad (d1j, d2j) sera

    ( ) ( )2 21 1

    1 1j ij j ijij ij

    n d n dij ijd d

    j j j ji iij ij

    n n

    d d

    = =

    =

    A partir de aqu definimos, para cada i, el estadstico log-rank:

    ( )1

    k

    i ij ijj

    U d e=

    = ,

  • Ana Mara Hernndez Domnguez

    28

    se tiene, por el teorema central del lmite, cuando k es suficientemente grande, que

    ( )1

    1

    1

    (0,1)( )

    ( )

    k

    ij ijji

    k

    ijj

    d nU

    NVar U

    Var d

    =

    =

    =

    y, por lo tanto

    2

    1

    (1)( )iU

    Var U .

    Basndonos en estas dos distribuciones podemos construir tests equivalentes para

    evaluar las diferencias entre los grupos.

    Este test da la misma importancia a las diferencias observadas en todos los

    tiempos de fallo, independientemente del nmero de tems en riesgo en cada caso. No

    obstante, resulta ms apropiado considerar que las diferencias registradas al principio

    del intervalo de observacin deben pesar ms en el estadstico que las diferencias que se

    registran al final, ya que las primeras cuentan con ms casos. A partir de este

    razonamiento se define una familia de tests cuyo estadstico tiene la siguiente forma:

    ( )( )

    1

    2

    1

    k

    j ij ijj

    k

    j ijj

    w d e

    U

    w d

    =

    =

    =

    donde w = (w1, w2, ,wk) es un vector de pesos que pondera las diferencias entre

    fallos observados y fallos esperados a lo largo de los tiempos observados. Este

    estadstico tiene, bajo la hiptesis nula, distribucin N(0,1). Considerando distintos

    vectores peso, se obtienen diferentes tests, para w = 1 obtenemos el test de log-rank.

    Test de Gehan, Breslow o de Wilcoxon generalizado: wj = nj.

    Test de Tarone, Tarone-Ware: j jw n=

    Test de Prentice: 1

    1

    1

    ji i

    ji i

    n dw

    n=

    +=

    +

    El problema de este grupo de tests es que nicamente detectan diferencias en las

    curvas de supervivencia cuando la situacin es una de las siguientes: S1(t) < S2(t)

    S1(t) > S2(t) para todo t, en otro caso, el numerador de U sera una suma de trminos

  • Anlisis estadstico de datos de tiempos de fallo en R

    29

    positivos y negativos que podra resultar en un valor prximo a 0 y por tanto no sera

    estadsticamente significativo. Es decir, este grupo de tests resulta especialmente eficaz

    cuando la hiptesis alternativa se corresponde con la hiptesis de riesgos

    proporcionales.

    6. Estimacin con datos truncados a la izquierda y

    censurados a la derecha En el caso de truncamiento a la izquierda y censura a la derecha, para el caso de la

    funcin de supervivencia, se produce un importante sesgo debido a la subestimacin de

    la supervivencia. Para poder entender mejor como sera un caso de este tipo, pongamos

    un ejemplo.

    Channing House es un centro de retiro de la localidad Palo Alto, California. Se

    registraron datos correspondientes (Klein & Moeschberger, 1997) a las edades en el

    momento de fallecimiento de 462 individuos que vivan en la residencia durante el

    periodo de enero de 1964 a julio de 1975. Dado que un individuo debe sobrevivir un

    tiempo suficiente (65 aos) para entrar en un centro de estas caractersticas, todos los

    individuos que fallecieron a edades tempranas no entrarn en el centro y, por lo tanto,

    quedan fuera del alcance de las investigaciones, es decir, tales individuos son excluidos

    del estudio dado que no viven el tiempo suficiente para entrar en el centro. De modo

    que si la informacin muestral se restringe a los habitantes de la residencia, no estamos

    registrando informacin sobre la variable T = tiempo de vida de un individuo de Palo

    Alto, sino de la variable T condicionada al suceso T 65.

    Los datos con trocamiento a la izquierda y censura a la derecha se presentan de la

    siguiente forma.

    Sea (X,T,C) un vector aleatorio, donde X es el tiempo de truncamiento, T es el

    tiempo de fallo, y C es el tiempo de censura. Se supone que bajo un modelo de

    truncamiento por la izquierda y censura a la derecha, las observaciones muestrales

    sern observaciones del vector (X,Y,), donde Y =min{T,C} y es el indicador de

    censura, es decir, = 1{TC} si T es un tiempo de fallo 0 si T es un tiempo de censura.

    Si Y < X, no hay observaciones. Es decir, que la muestra est constituida por n

    observaciones de tipo (xi, yi , i) en los que xi yi para todo i=1, 2, , n.

    Ahora, nuestro objetivo es obtener el estimador de la funcin de supervivencia

    S(t) = P {T > t}. Este estimador fue propuesto por Turnbull (1976) y Tsai (1987) que

    definen el estimador de la funcin de supervivencia para un modelo bajo truncamiento a

    la izquierda y censura a la derecha (TICD) de la forma

  • Ana Mara Hernndez Domnguez

    30

    { }

    { }

    , 1

    1

    1

    1( ) 1 1

    1

    i i

    i

    j i j

    nt t i

    ni t t i

    x t tj

    dS t

    n

    =

    =

    =

    = =

    donde 1A es el indicador de la funcin definida por la condicin A; di denota el nmero

    de fallos en yi; y ri el nmero de individuos en riesgo en yi.

    Esta ltima expresin da el estimador no paramtrico de mxima verosimilitud de

    la funcin de supervivencia bajo este supuesto. Se reduce al estimador de Kaplan-Meier

    cuando no hay datos truncados y a la funcin de supervivencia (o fiabilidad) emprica

    cuando no hay ni truncamiento ni censura. Adems, bajo ciertas condiciones, verifica

    propiedades deseables tales como la consistencia y la convergencia a una ley normal.

    Sin embargo, este estimador puede presentar serios problemas en caso de

    pequeas muestras o muestras grandes con algunos datos truncados en los periodos

    iniciales. En esta situacin, el estimador dado en la ltima ecuacin puede subestimar

    severamente las probabilidades de supervivencia cerca del origen. Sea y1 < y2 < < yk,

    podra ocurrir que di = ri para algn yi, con i < k. Si esta situacin ocurre, entonces

    ( ) 0S t = para algn t yi, incluso si hay supervivencias y fallos observados ms all de

    yi. Esta situacin es en parte resuelta por Pan y Chappell (1998) que introducen el

    estimador de Nelson extendido para la funcin de riesgo acumulada con datos truncados

    a la izquierda y censurados a la derecha, y constituyen, basndose en ste, un estimador

    no paramtrico para la funcin de supervivencia.

    Bajo censura a la derecha, Nelson propuso el siguiente estimador de la funcin de riesgo

    acumulada

    ( ) { }{ }

    ,1

    1

    i i

    i j

    n ny t 1 i

    ni 1 i 1 i

    y yj 1

    dH t

    r

    =

    = =

    =

    = =

    %

    %

    Basndose en esta expresin, es posible estimar la funcin de supervivencia por medio

    de ( ) ( )( )expS t H t= % % . Pan y Chappell (1998) extienden este estimador para datos truncados por la

    izquierda. Para ello, redefinen algunas cantidades involucradas en la ltima.

    Especficamente, ir% , esto es, el nmero de individuos en riesgo en el instante yi. Esta

    cantidad es obtenida mediante { }1 j i jn

    i x y yj 1

    r

    =

    = . En consecuencia, el estimador de

  • Anlisis estadstico de datos de tiempos de fallo en R

    31

    Nelson-Aalen extendido, se expresa

    ( ) { }{ }

    ,1

    1

    i i

    i

    j i j

    ny t 1 i

    e ni 1 y t i

    x y yj 1

    dH t

    r

    =

    =

    =

    = =

    %

    y, por tanto, el estimador de la funcin de supervivencia puede obtenerse

    ( ) ( )( )expe eS t H t= % % .

    7. Modelos Semiparmetricos Hasta ahora, con los modelos descritos anteriormente, lo que hemos estado estudiando

    ha sido la relacin entre la tasa de fallo (o la funcin de supervivencia) y el tiempo. Sin

    embargo, los modelos semiparamtricos permiten realizar ese mismo estudio evaluando

    el efecto de covariables sobre la funcin de riesgo. Uno de estos modelos es el Modelo

    de Riesgos Proporcionales de Cox.

    7.1. Modelo de Riesgos Proporcionales de Cox El modelo de riesgos proporcionales introducido por Cox (1972) es el modelo de

    regresin ms utilizado en anlisis de fiabilidad, pero no es a partir del desarrollo del

    enfoque basado en los procesos de recuento, que este modelo logra su completa

    madurez, este enfoque ha permitido la verificacin de los supuestos de riesgos

    proporcionales y el estudio de los residuos.

    El modelo de riesgos proporcionales permite ver la posible relacin con diferentes

    variables registradas para cada sujeto y no slo la relacin entre la tasa de fallo y el

    tiempo. Por tanto, se trata de calcular la tasa de mortalidad o de fallo, como una funcin

    del tiempo y de un determinado conjunto de variables explicativas o covariables.

    7.1.1. El modelo de Cox El modelo de riesgos proporcionales de Cox, que es un tipo de modelo semiparamtrico,

    en el que se asume la forma paramtrica nicamente para el efecto de las variables de

    prediccin o de pronstico e incluye una funcin de riesgo arbitraria de referencia r0(t)

    con forma sin especificar.

    De esta forma, el modelo de riesgos proporcionales de Cox se presenta en su

    forma ms habitual como:

  • Ana Mara Hernndez Domnguez

    32

    ppT zbzbzbZb etretrZtr

    +++==

    ...00

    2211)()();(

    donde t es la edad alcanzada por la unidad; y ZT = (z1, z2, , zp) es la traspuesta de un

    vector de covariables y b es el vector de parmetros de regresin.

    Asumiendo que r0(t) es la funcin de riesgo de una unidad con vector de

    covariables Z=0 (nivel base), en el modelo de riesgos proporcionales de Cox, la funcin

    de fiabilidad condicional para T, dado un vector de covariables Z, ser:

    [ ]0 00 0 0( ; ) ( ) ( ) 0( , ) ( )Tb Z

    t t tT Tb Z b Ze

    r u z du r u e du r u du eS t Z e e e S t

    = = = =

    donde S0 es la funcin de fiabilidad base.

    Como conclusin, cuando el objetivo es evaluar la influencia de covariables sobre

    la funcin de riesgo, una buena alternativa es el modelo de Cox. Pero cuando lo que se

    pretende es predecir futuros fallos dentro de un cierto horizonte de tiempo a largo plazo,

    es conveniente hacer una hiptesis paramtrica sobre la forma de h0(t).

    7.1.2. Modelo de Riesgos Proporcionales Estratificado Cuando se configuran grupos o estratos en funcin a algn criterio, en un conjunto de

    datos, la formulacin ms general del modelo de Cox estratificado para la funcin de

    riesgo de un sistema en el j-simo estrato (j = 1, , p), suele expresarse por

    0( ; ) ( )Tb Z

    j jh t Z h t e=

    Donde:

    las funciones de riesgo bsicas h0j(t) en cada uno de los j estratos son

    arbitrarias y distintas.

    el vector de coeficientes bT es el mismo en todos los estratos.

    Si la hiptesis de proporcionalidad no se verifica en los p estratos de un factor, se

    suele considerar este modelo. En este modelo se asume que las funciones de riesgo son

    proporcionales dentro del mismo estrato, pero no necesariamente a travs de los p

    estratos.

  • Anlisis estadstico de datos de tiempos de fallo en R

    33

    7.1.3. Residuos de Cox-Snell En este apartado y el siguiente, presentamos diversas tcnicas que permiten valorar la

    bondad del ajuste del modelo de riesgos proporcionales a un conjunto de datos.

    La primera tcnica que observamos est enfocada a valorar la bondad del ajuste del

    modelo de Cox de manera global.

    Los residuos generalizados de Cox-Snell se definen, para el caso de datos

    completos, es decir, sin censura, por

    ( )ln ; ,i ie R t Z b= donde ei es el residuo i-simo para la unidad i de la muestra; y )

    ,;( bZtR i es la

    fiabilidad estimada evaluada en ti con vector de covariables Z.

    Si el modelo de Cox es correcto y los valores estimados de los parmetros de

    regresin estn prximos a los reales, los residuos obtenidos deben ajustarse a una

    distribucin exponencial de parmetro 1.

    Estos residuos son utilizados si los parmetros de un modelo seleccionado han sido

    estimados por el mtodo de la mxima verosimilitud con datos censurados, por lo que la

    bondad del ajuste del modelo de Cox a los datos observados puede basarse en criterios

    grficos utilizando residuos.

    En observaciones con censura, Cox y Snell propusieron una correccin de primer

    orden de estos residuos. Estos son los residuos ajustados de Cox -Snell, que son de la

    forma:

    ln ( ; , ) 1i ie R t Z b= +

    7.1.4. Diagnsticos de Regresin A continuacin presentamos diversas tcnicas que permiten valorar la bondad del ajuste

    del modelo de riesgos proporcionales a un conjunto de datos. Para esto vamos a

    basarnos en anlisis de diferentes tipos de residuos generados en el ajuste.

    Los residuos se pueden utilizar para:

    1. Descubrir la forma funcional correcta de un predictor continuo.

    2. Identificar los sujetos que estn pobremente predichos por el modelo.

    3. Identificar los puntos o individuos de influencia.

    4. Verificar el supuesto de riesgo proporcional.

    Existen cuatro tipos de residuos de inters en el modelo de Cox: los residuos de

    martingala, deviance, los de puntuaje (score) y los de Schoenfeld. De estos cuatro

    residuos se pueden derivar otros dos: los residuos dfbetas y los residuos escalados de

  • Ana Mara Hernndez Domnguez

    34

    Schoenfeld.

    A continuacin explicamos brevemente cada uno de estos residuos.

    Residuos de martingala

    Los residuos de martingala se usan para estudiar la forma funcional con que una

    covariable debera ser introducida en el modelo, y se definen como

    ' ( )00

    ( ) ( ) ( ) ( ) ( ) ( , )it Z s

    i i i iM t N t E t N t Y s e dR s = =

    donde ),(0 sR es el estimador del riesgo base de Breslow (o de Nelson y Aalen) definido como

    10 0

    ' ( )

    1

    ( ) ( , )

    ( ) i

    n

    iti

    nZ s

    ii

    dN sR s

    Y s e =

    =

    =

    y estn basados en la martingala de un proceso de conteo para el i-simo individuo,

    Mi(t) = Ni(t) Ei(t) , definida mediante:

    ' ( )00

    ( ) ( ) ( ) ( )it Z s

    i i iM t N t Y s e r s ds

    =

    Los residuos de martingala son muy asimtricos y con una cola muy larga hacia la

    derecha.

    Residuos deviance

    Los residuos de desvos se utilizan para la deteccin de valores atpicos (outliers).

    Estos residuos se obtienen mediante una transformacin de normalizacin de los

    desvos de martingala.

    Los residuos de desvos se definen de la siguiente manera: si todas las covariables

    son fijas en el tiempo, los residuos toman la forma:

    ( ) ( )( ) * log /i i i id signo M M N N M N=

  • Anlisis estadstico de datos de tiempos de fallo en R

    35

    Residuos de puntajes (scores)

    Los residuos de puntajes se utilizan para verificar la influencia individual y para la

    estimacin robusta de la varianza. Se definen como:

    ( ),ij ijU U =

    donde Uij (,t), j = 1,...,p son las componentes del vector fila de longitud p obtenido

    a travs del proceso de puntaje para el i-simo individuo:

    ( )0

    ( ) ( , ) ( )t

    i i iU Z t Z t dN t =

    Residuos de Schoenfeld

    Los residuos de Schoenfeld son tiles para la verificacin del supuesto de riesgo

    proporcional en el modelo de Cox, y se definen de la forma:

    ( ) ( )( ) ,ij ij i j is Z t Z t =

    con una fila por individuo y una columna por covariable, donde i y ti son los

    individuos y el tiempo de ocurrencia del evento respectivamente.

    ( )ln ; , 1i ie S t Z b= +

  • Ana Mara Hernndez Domnguez

    36

  • Anlisis estadstico de datos de tiempos de fallo en R

    37

    Captulo II

    Anlisis Computacional de Datos de

    Tiempos de Fallo

    Una vez que hemos visto los modelos tericos ms importantes en Anlisis de

    Fiabilidad, el siguiente paso es poder calcular esas funciones mediante mtodos

    informticos que faciliten su clculo. Para ello, expondremos en este captulo las

    principales herramientas para llevar a cabo un anlisis de tiempos de vida mediante el

    uso del lenguaje de programacin R.

    El Anlisis de Supervivencia en el entorno de programacin estadstica R puede

    hacerse a travs de diferentes libreras especializadas aunque en nuestro caso nos

    centraremos en el estudio de la librera survival, que es tal vez la principal para realizar

    Anlisis de Supervivencia. Esta librera permite realizar un anlisis de datos que

    presentan caractersticas habituales en contextos de Fiabilidad y Supervivencia como

    son la censura y el truncamiento.

    A continuacin, se presentan algunas de las funciones contenidas en la librera

    survival, de las que describiremos los argumentos de su sintaxis, junto a algunos

    ejemplos con sus salidas en R, que nos ayudarn a comprender mejor su empleo.

  • Ana Mara Hernndez Domnguez

    38

    1. La funcin Surv

    Definicin

    La funcin Surv permite crear objetos de tipo survival, por lo general usando

    como una variable respuesta en la frmula del modelo.

    Sintaxis

    Surv(time, time2, event,

    type=c('right', 'left', 'interval', 'counting', 'interval2'),

    origin=0)

    is.Surv(x)

    Descripcin de los argumentos

    time. Representa el tiempo de inicio de la observacin. Para datos de

    intervalo, el primer argumento es el extremo inicial del intervalo.

    event. Representa el indicador de estado, normalmente 0 = vivo

    (censurado), 1 = muerto (no censurado). Otras opciones son

    VERDADERO/FALSO (VERDADERO = la muerte) o 1/2 (2 = muerto).

    Para datos con censura de intervalo, el indicador de estado es 0 = censura

    a la derecha, 1 = suceso ocurrido en time, 2 = censura a la izquierda, 3 =

    censura de intervalo. Este indicador puede ser omitido en el caso de que

    se asuma que todos los sujetos tienen el mismo estado.

    time2. Representa el tiempo de finalizacin de la observacin para un

    intervalo censurado o proceso de conteo. Se asume que los intervalos

    estn abiertos a la izquierda y cerrados a la derecha, (el principio, el

    final]. Para un proceso de recuento de datos event indica si un

    acontecimiento ocurri al final del intervalo.

    type. Es una cadena de caracteres que especifica el tipo de censura.

    Valores posibles son "derecha", "izquierda", "conteo", "intervalo", o

    "intervalo2". Por defecto, suele ser censura por la derecha o conteo,

    dependiendo de si el argumento time2 est ausente o presente,

    respectivamente.

    origin. Es una utilidad que permite trabajar bajo el enfoque de los

  • Anlisis estadstico de datos de tiempos de fallo en R

    39

    procesos de recuento. Esta opcin es usada en un modelo que contiene

    estratos dependientes del tiempo, para enumerar los sujetos

    correctamente que cambian de un estrato a otro. En raras ocasiones se

    suele emplear.

    x. Cualquier objeto de R.

    Ejemplo (1)

    with(lung, Surv(time, status))

    # cuando se observan longitudes de tiempo

    Surv(heart$start, heart$stop, heart$event)

    # cuando se registran tiempos de entrada y salida

    El primer conjunto de datos usado en este ejemplo lung, hace referencia a la

    superviencia de pacientes de cncer de pulmn procedentes del North Central Cancer

    Treatment Group. El conjunto de datos contiene 228 registros, cada uno de los cuales

    est compuesto por 10 variables, desde el cdigo del paciente en la institucin, el

    tiempo de observacin de cada paciente, el estado al final del estudio (vivo o fallecido),

    el sexo, la edad, el peso perdido en los ltimos 6 meses, as como cierta informacin

    indicando el grado de satisfaccin con que el individuo realiza tareas cotidianas.

    Figura 2.1. Datos de pacientes de cncer de pulmn (Loprinzi et al., 1994).

    Tras ejecutar el cdigo anterior se crea el objeto de R representado en la

    Figura 2.2, donde se indican los tiempos de participacin de cada individuo

    resaltando con el smbolo + los datos censurados.

  • Ana Mara Hernndez Domnguez

    40

    Figura 2.2. La funcin Surv para datos censurados a la derecha.

    El segundo conjunto de datos usado como ejemplo en este caso es el conjunto

    heart", contiene informacin sobre supervivencia de 172 pacientes en la lista de

    espera del programa de transplantes de corazn del hospital de Standford. El registro

    se muestra como sigue en la siguiente figura.

    Figura 2.3. Datos de pacientes de corazn (Crowley y Hu, 1977).

    En este caso cada individuo se incorpora al estudio en el instante que indica la

    variable start, y abandona el estudio en el instante indicado por stop. Es decir los

    pacientes entran en el estudio de manera escalonada, esta es la forma habitual en que

    los individuos son incorporados en estudios de Supervivencia, a diferencia de en

    estudios de Fiabilidad, donde todos los sujetos entran en estudio a la vez. No slo

    estamos interesados en la longitud del intervalo que determina el tiempo de vida si

    tambin de dnde est localizado. La variable event nos dice de cada individuo si

    est vivo o falleci al final del estudio. Adems se incluye otro tipo de informacin

    como la edad del individuo (age), si se le ha realizado un transplante o no

    (transplant) y si ha recibido otro tipo de ciruga antes (surgery). Ahora el resultado

    de la funcin Surv es el objeto que se muestra, en parte, a continuacin.

    Figura 2.4. La funcin Surv con datos con entrada escalonada.

  • Anlisis estadstico de datos de tiempos de fallo en R

    41

    2. La funcin survfit

    Definicin

    Esta funcin permite crear curvas de supervivencia utilizando el mtodo de

    Kaplan- Meier (opcin por defecto) o de Fleming y Harrington. Tambin permite

    predecir la funcin de supervivencia para modelos de Cox, o un modelo de

    tiempo de vida acelerada (ver Klein y Moeschberger (1997), por ejemplo).

    Sintaxis

    survfit(formula, ...)

    Descripcin de los argumentos

    formula. Objeto para la frmula.

    data. Los datos se enmarcan para interpretar las variables llamadas en los

    argumentos formula, subset y weights.

    weights. Pesos del caso.

    subset. Expresin que indica un subconjunto de las filas de data para ser

    usado en la estimacin. Puede ser un vector lgico (de longitud igual al

    nmero de observaciones), un vector numrico indicando el nmero de

    observaciones que deben ser incluidas (o excluidas si es negativo), o un

    vector de caracteres para incluir el nombre de las filas. Todas las

    observaciones son incluidas por defecto.

    na.action. Funcin para filtrar datos faltantes. Esto es aplicado al marco

    modelo despus de que haya sido aplicado subset. Por defecto es options

    () $na.action. Un posible valor para na.action es na.omit, que suprime las

    observaciones que contienen uno o varios valores perdidos.

    times. Vector de tiempos en el que la curva de supervivencia es evaluada.

    Por defecto, el resultado ser evaluado en cada valor diferente del vector

    de tiempos suministrados en formula.

    type. Una cadena de caracteres que especifica el tipo de curva de

  • Ana Mara Hernndez Domnguez

    42

    supervivencia. Los posibles valores son: "kaplan-meier", "fleming-

    harrington" o "fh2" si se da una formula.

    error. Una cadena de caracteres especificando el error del estimador.

    Como valores posibles se tiene "greenwood" para la formula de

    Greenwood o "tsiatis" para la frmula de Tsiatis, (es suficiente con el

    primer carcter).

    conf.type. Puede ser "none", "plain", "log" (por defecto), o "log-log". La

    primera opcin no calcula intervalos de confianza. La segunda calcula

    los intervalos estndar curve k *se(curve), donde k se determina

    conf.int. La opcin log option calcula intervalos basados en la funcin de

    riesgo acumulado o log(survival).

    start.time. Valor numrico que especifica un instante de tiempo donde

    empezar a calcular la informacin sobre la supervivencia. La curva

    resultante es la curva de supervivencia condicional a sobrevivir por

    encima de start.time.

    conf.int. El nivel para intervalos de confianza bilaterales. Por defecto es

    0.95.

    se.fit. Un valor lgico indicando si los errores estndar deben ser

    calculados. Por defecto es TRUE.

    Resultados

    El resultado es un objeto de clase survfit conteniendo una o varias curvas de

    supervivencia. Adems proporciona la informacin siguiente.

    n nmero total de sujetos en cada curva.

    time Los instantes temporales en que la curva salta.

    n.risk Nmero de sujetos en riesgo en cada tiempo t.

    n.event Nmero de sucesos ocurridos en cada tiempo t.

    n.enter Para datos de procesos de recuento solo, el nmero de sujetos que entran en el tiempo t.

    n.censor Para procesos de recuento solo, el nmero de sujetos que salen del conjunto de riesgo, sin sufrir el suceso, en el tiempo t.

    surv La supervivencia estimada en el tiempo t+0.

  • Anlisis estadstico de datos de tiempos de fallo en R

    43

    std.err El error estndar de la funcin de riesgo acumulado.

    upper Lmite superior de confianza para la curva de supervivencia.

    lower Lmite inferior de confianza para la curva de supervivencia.

    strata Si hay mltiples curvas, esta componente da el nmero de elementos de time, etc. correspondientes a la primera curva, las segunda curva etc. Los nombres de los elementos son etiquetas para las curvas.

    Ejemplo (2)

    leukemia.surv

  • Ana Mara Hernndez Domnguez

    44

    como en los 50 primeros meses de tratamiento de la enfermedad con

    quimioterapia, la supervivencia de estos pacientes aumentaba progresivamente,

    hasta mantenerse casi estable a partir de ese tiempo.

    0 50 100 150

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    3.0

    Months

    Cum

    ula

    tive

    H

    aza

    rd

    Figura 2.5. Curva de supervivencia del Ejemplo (2)

    3. La funcin survexp

    Definicin

    Devuelve la supervivencia esperada de una cohorte de sujetos, o la supervivencia

    esperada para cada sujeto de forma individual.

    Sintaxis

    survexp(formula, data, weights, subset, na.action, times, cohort=TRUE,

    conditional=FALSE, ratetable=survexp.us, scale=1, npoints,

    se.fit, model=FALSE, x=FALSE, y=FALSE)

    Descripcin de los argumentos

    Formula. Frmula o modelo antes descrito.

    . Otros argumentos al mtodo especfico.

    Ejemplo (3.1)

    # Estimador de la supervivencia condicional

  • Anlisis estadstico de datos de tiempos de fallo en R

    45

    survexp(futime ~ ratetable(sex="male", year=accept.dt,

    age=(accept.dt-birth.dt)), conditional=TRUE, data=jasa)

    El conjunto de datos empleados en este ejemplo, llamado jasa, hace tambin

    referencia a la supervivencia en pacientes que estn en lista de espera en el

    programa de transplante de corazn en Stanford. Las variables principales

    incluidas en este conjunto de datos son:

    birth.dt: fecha de nacimiento

    accept.dt: aceptacin en programa

    tx.date: fecha de trasplante

    fu.date: final de seguimiento del paciente

    fustat: estado al finalizar el seguimiento (muerto o vivo)

    surgery: ciruga previa

    age: edad (en das)

    futime: tiempo de seguimiento

    wait.time: tiempo de espera hasta el trasplante

    trasplant: indicador de trasplante

    Resultado

    Call:

    survexp(formula = futime ~ ratetable(sex = "male", year = accept.dt,

    age = (accept.dt - birth.dt)), data = jasa, conditional = TRUE)

    age ranges from 8.8 to 64.4 years

    male: 103 female: 0

    date of entry from 1967-09-13 to 1974-03-22

    Time n.risk survival

    0 102 1.000

    1 102 1.000

    2 99 1.000

    4 96 1.000

    5 94 1.000

    1321 7 0.974

  • Ana Mara Hernndez Domnguez

    46

    1386 6 0.972

    1400 5 0.972

    1407 4 0.972

    1571 3 0.969

    1586 2 0.969

    1799 1 0.967

    Ejemplo (3.2)

    # Estimador de la supervivencia condicional estratificada a priori

    survexp(futime ~ surgery + ratetable(sex="male", year=accept.dt,

    age=(accept.dt-birth.dt)), conditional=TRUE, data=jasa)

    Resultado

    Call:

    survexp(formula = futime ~ surgery + ratetable(sex = "male",

    year = accept.dt, age = (accept.dt - birth.dt)), data = jasa,

    conditional = TRUE)

    age ranges from 8.8 to 64.4 years

    male: 103 female: 0

    date of entry from 1967-09-13 to 1974-03-22

    surgery=0

    Time n.risk survival

    0 87 1.000

    1 87 1.000

    2 85 1.000

    4 82 1.000

    5 80 1.000

    1400 4 0.972

    1407 3 0.972

    1571 3 0.969

    1586 2 0.969

    1799 1 0.967

  • Anlisis estadstico de datos de tiempos de fallo en R

    47

    surgery=1

    Time n.risk survival

    0 15 1.000

    1 15 1.000

    2 14 1.000

    4 14 1.000

    5 14 1.000

    1400 1 0.971

    1407 1 0.971

    1571 0 0.971

    1586 0 0.971

    1799 0 0.971

    Ejemplo (3.3)

    #Comparacin de las curvas de supervivencia para el modelo estimado

    de #Cox

    pfit 0) ~ trt + log(bili) + log(protime) + age +

    platelet, data=pbc)

    plot(survfit(Surv(time, status>0) ~ trt, data=pbc))

    lines(survexp( ~ trt, ratetable=pfit, data=pbc), col='purple')

    Resultado

    0 1000 2000 3000 4000

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figura 2.6. Curva de Supervivencia para el Ejemplo (3)

  • Ana Mara Hernndez Domnguez

    48

    El grfico muestra como a medida que pasa el tiempo, la supervivencia de los

    pacientes que estn esperando un transplante disminuye.

    4. La funcin survdiff

    Definicin

    Esta funcin permite realizar contrastes de hiptesis para verificar si hay

    diferencia entre dos o ms curvas de supervivencia basadas en las familias de

    pruebas G de Harrington y Fleming (1982), o para una sola curva contra una

    alternativa conocida.

    Sintaxis

    survdiff(formula, data, subset, na.action, rho=0)

    Descripcin de los argumentos

    formula. Expresin de la frmula como para otros modelos de

    supervivencia, de la forma Surv (time, status) ~ predictors. Para el test de

    una muestra, los predictores deben consistir en un solo trmino offset

    (sp), donde sp es un vector que da la probabilidad de supervivencia de

    cada sujeto. Para el test de k-muestas, una combinacin nica de

    predictores definidas para un subgrupo. Un trmino strata debe ser usado

    para producir una prueba estratificada. En el caso de valores perdidos en

    las estimaciones deben ser tratados como un grupo separado, ms bien

    que omitidos, usa la funcin strata con su argumento na.group=T.

    subset. Esta expresin indica el subconjunto de filas de datos que deben

    ser usadas en la estimacin.

    rho. Parmetro escalar que controla el tipo del test.

    Resultados

    n. Nmero de sujetos en cada grupo.

    obs. Nmero observado de acontecimientos en cada grupo. Si hay

    estratos, esto ser una matriz con una columna por estrato.

  • Anlisis estadstico de datos de tiempos de fallo en R

    49

    exp. Nmero esperado de acontecimientos en cada grupo. Si hay estratos,

    esto ser una matriz con una columna por estrato.

    chisq. Estadstico chis.cuadrado para una prueba de igualdad.

    var. Matriz de varianzas de la prueba.

    strata. Nmero de sujetos contenido en cada estrato.

    Ejemplo (4.1)

    # Test para dos muestras

    survdiff(Surv(futime, fustat) ~ rx,data=ovarian)

    El conjunto de datos empleados en este ejemplo, llamado ovarian, compara la

    supervivencia en 2 grupos de pacientes con cncer de ovarios que siguen

    tratamientos diferentes. Las variables de este conjunto de datos son

    futime fustat age resid.ds rx ecog.ps

    1 59 1 72.3315 2 1 1

    2 115 1 74.4932 2 1 1

    3 156 1 66.4658 2 1 2

    4 421 0 53.3644 2 2 1

    5 431 1 50.3397 2 1 1

    22 268 1 74.5041 2 1 2

    23 329 1 43.1370 2 1 1

    24 353 1 63.2192 1 2 2

    25 365 1 64.4247 2 2 1

    26 377 0 58.3096 1 2 1

    futime: tiempo de supervivencia o censura.

    fustat: estado (censura o muerte)

    age: aos

    rx: grupo de tratamiento

  • Ana Mara Hernndez Domnguez

    50

    Resultado

    Call:

    survdiff(formula = Surv(futime, fustat) ~ rx, data = ovarian)

    N Observed Expected (O-E)^2/E (O-E)^2/V

    rx=1 13 7 5.23 0.596 1.06

    rx=2 13 5 6.77 0.461 1.06

    Chisq= 1.1 on 1 degrees of freedom, p= 0.303

    Ejemplo (4.2)

    # Test para 7 muestras estratificadas

    survdiff(Surv(time, status) ~ pat.karno + strata(inst), data=lung)

    Resultado

    Call:

    survdiff(formula = Surv(time, status) ~ pat.karno + strata(inst),

    data = lung)

    n=224, 4 observations deleted due to missingness.

    N Observed Expected (O-E)^2/E (O-E)^2/V

    pat.karno=30 2 1 0.692 0.1372 0.15752

    pat.karno=40 2 1 1.099 0.0089 0.00973

    pat.karno=50 4 4 1.166 6.8831 7.45359

    pat.karno=60 30 27 16.298 7.0279 9.57333

    pat.karno=70 41 31 26.358 0.8174 1.14774

    pat.karno=80 50 38 41.938 0.3698 0.60032

    pat.karno=90 60 38 47.242 1.8080 3.23078

    pat.karno=100 35 21 26.207 1.0345 1.44067

    Chisq= 21.4 on 7 degrees of freedom, p= 0.00326

  • Anlisis estadstico de datos de tiempos de fallo en R

    51

    Ejemplo (4.3)

    # Expectativas de supervivencia en pacientes de transplante de corazn

    expect

  • Ana Mara Hernndez Domnguez

    52

    na.action. Esta funcin, usada despus de subset, filtra los valores

    perdidos. Por defecto es opcions()$na.action.

    dist. Distribucin asumida para la variable y. Si el argumento es una

    cadena de caracteres, entonces se asume que llama a un elemento de

    survreg.distributions. Estos incluyen "weibull", "exponencial", "normal",

    "logstico", "lognormal" y "loglogistica".

    parms. Contiene una lista de parmetros fijos. Por ejemplo, para la

    distribucin de t de Student, indica los grados de libertad. La mayora de

    las distribuciones no tienen ningunos parmetros.

    INIT. Vec