View
0
Download
0
Category
Preview:
Citation preview
UMA ABORDAGEM BAYESIANA PARA MODELOS DESOBREVIVENCIA BIVARIADOS BASEADOS EM COPULAS
ARQUIMEDIANAS
Marco Antonio de OLIVEIRA1
Adriano Kamimura SUZUKI1
Erlandson Ferreira SARAIVA2
RESUMO: Neste trabalho consideramos modelos baseados nas copulas arquimedianas
de Clayton e Frank para modelar a dependencia de dados de sobrevivencia bivariados na
presenca de covariaveis e observacoes censuradas. Para fins inferenciais, realizamos uma
abordagem bayesiana usando metodos Monte Carlo em Cadeias de Markov (MCMC).
Alem disso, algumas discussoes sobre os criterios de selecao de modelos sao apresentadas.
Com o objetivo de detectar observacoes influentes nos dados analisados foi utilizado o
metodo bayesiano de analise de influencia de delecao de casos baseado na divergencia
ψ. Mostramos a aplicabilidade dos modelos propostos a conjuntos de dados simulados e
reais. Todas as implementacoes computacionais foram realizadas utilizando os sistemas
WinBUGS e R por meio do pacote BRugs.
PALAVRAS-CHAVE: Analise de sobrevivencia; copulas Arquimedianas; divergencia ψ;
inferencia Bayesiana.
1 Introducao
Na analise de sobrevivencia e de confiabilidade ocorrem situacoes em que seobserva dois tempos de vida para um mesmo equipamento ou paciente (dados desobrevivencia bivariados). Por exemplo, na area medica pode ocorrer o interesseem estudar os tempos de vida de orgaos humanos emparelhados como rins e olhos,o tempo ate a primeira e a segunda infeccao ou internacao, dentre outros. Ja emaplicacoes industriais, este tipo de dados e observado, por exemplo, em sistema cujo
1Universidade de Sao Paulo – USP, Instituto de Ciencias Matematicas e de Computacao, CEP:13566-590, Sao Carlos, Sao Paulo, Brasil. E-mail: marco.oliveira@usp.br, suzuki@icmc.usp.br
2Universidade Federal de Mato Grosso do Sul – UFMS, Instituto de Matematica, CEP: 79070-900,Campo Grande, Mato Grosso do Sul, Brasil. E-mail: erlandson.saraiva@ufms.br
390 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
o tempo de duracao depende da durabilidade de dois componentes, como o tempode vida de motores em um aviao bimotor.
Em geral, dados de sobrevivencia bivariados sao correlacionados e o estudodessa dependencia tem sido foco de muitas pesquisas.
Modelos baseados em funcoes copulas tem se tornado uma ferramenta popularpara modelar a dependencia entre dados multivariados, especialmente em areasbiologicas, ciencias atuariais e financas (ver por exemplo Embrechts et al., 2003;Cherubini et al., 2004; Trivedi & Zimmer, 2005; Nelsen, 2006; Kolev et al., 2006;Salvadori et al., 2007; Jaworski, 2010; Patton, 2012).
Uma copula e uma funcao que conecta as distribuicoes marginais univariadascom a sua distribuicao multivariada conjunta. Diferentes funcoes copulasrepresentam diferentes estruturas de dependencia entre as variaveis (Nelsen,2006). Uma outra vantagem da modelagem copula e a sua relativa simplicidadematematica. Alem disso, e possıvel construir uma variedade de estruturas dedependencia com base em modelos parametricos ou nao parametricos para asdistribuicoes marginais.
Em analise de sobrevivencia, modelos baseados em copulas sao considerados,por exemplo em Hougaard (1989), Oakes (1989), Shih & Louis (1995), Gustafson etal. (2003), Zhang et al. (2010), Boleta & Achcar (2012) e Louzada et al. (2012, 2013).Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011), realizamossob uma abordagem bayesiana uma comparacao entre modelos de sobrevivenciabivariados baseados em copulas arquimedianas, especificamente nas copulas deClayton e Frank, para modelar a dependencia de dados de sobrevivencia bivariadoscom distribuicoes marginais Weibull na presenca de covariaveis e observacoescensuradas. Alem disso, consideramos uma analise de influencia de delecao decasos baseado na divergencia ψ que possui como caso particular a divergencia deKullback-Leibler, utilizada por Louzada et al. (2012, 2013) e Suzuki et al. (2011).
2 Metodologia
O teorema de Sklar e um dos resultados mais importantes na teoria e aplicacoesde copulas. A partir deste, temos que uma copula conecta as distribuicoes marginaisunivariadas formando uma distribuicao multivariada, ou entao que uma funcaode distribuicao multivariada pode ser decomposta nas marginais univaridas e naestrutura de dependencia dada pela copula.
A representacao da copula arquimediana permite reduzir o estudo de copulamultivariada ao estudo de uma funcao univariada φ, comumente chamada degerador de uma copula arquimediana. Uma distribuicao bivariada pertence a famıliade copulas Arquimedianas se tem a seguinte representacao:
Cϕ(u;v) = φ(φ(u)−1 + φ(v)−1), 0 ≤ u, v ≤ 1 (1)
em que 0 < φ < 1, φ(0) = 1, φ′ < 0, φ′′ > 0 e ϕ e o parametro dedependencia da copula. A seguir apresentamos um breve comentario sobre ascopulas Arquimedianas de Clayton e Frank que sao estudadas neste trabalho.
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 391
Copula de Clayton
A copula arquimediana de Clayton (Clayton, 1978) tem a forma:
Cϕ(u;v) = (u−ϕ + v−ϕ − 1)−1ϕ , ϕ ∈ R+, (2)
e funcao geradora dada por φ(t) = 1ϕ (t
−ϕ − 1). O valor ϕ = 0 representa
independencia, ou seja, Cϕ(u;v) = uv.
Copula de Frank
A copula de Frank (Frank, 1979) e amplamente utilizada em aplicacoesempıricas (Meester & MacKay, 1994). Permite dependencia negativa e e simetricaem ambas as caldas. Tem a forma:
Cϕ(u;v) = logϕ
(1 +
(ϕu − 1)(ϕv − 1)
ϕ− 1
), ϕ ∈ (0;1) (3)
e funcao geradora dada por φ(t) = − ln(
1−ϕt
1−ϕ
). O valor ϕ = 1 representa
independencia, ou seja, Cϕ(u;v) = uv.
Inferencia
Seja Cϕ uma funcao distribuicao com funcao densidade cϕ sob [0;1]2 paraϕ ∈ R. Considere (T1;T2) os tempos de falhas pareados e, Sj(tj) e fj(tj),respectivamente, a funcao de sobrevivencia e a funcao densidade de Tj , j = 1, 2.Se (T1, T2) provem da copula Cϕ para algum ϕ entao as funcoes de sobrevivencia edensidade conjunta de (T1;T2) sao dadas por:
S(t1;t2) = Cϕ(S1(t1);S2(t2)), t1, t2 > 0 (4)
e
f(t1;t2) = cϕ(S1(t1);S2(t2))f1(t1)f2(t2), t1, t2 > 0, (5)
respectivamente. Note que as distribuicoes marginais e a estrutura de dependenciapodem ser visualizadas separadamente e esta estrutura de dependencia erepresentada por uma copula.
Considere (Ti1;Ti2) e (Ci1;Ci2) os i -esimos tempos de vida e de censurabivariados, para i = 1, . . . , n. Suponha que (Ti1;Ti2) e (Ci1;Ci2) sao independentes.Para cada indivıduo i, as quantidades individuais sao representadas pelas variaveisaleatorias tij = min(Tij ;Cij) e δij = I(tij = Tij), que denota o indicador de falha,j = 1, 2.
Sejam S(t1|γ1) e S(t2|γ2) as funcoes de sobrevivencia de Ti1 e Ti2,respectivamente, em que γ1 e γ2 sao vetores de parametros de q1 e q2 elementosassociados a cada uma das distribuicoes marginais.
Considerando a funcao de sobrevivencia bivariada S(t1; t2|ϕ,γ1,γ2) dadaem (4), a contribuicao do i -esimo indivıduo para a log-verossimilhanca de
392 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
θ = (ϕ,γ1,γ2) e dada por (Lawless, 2003):
ℓi(θ) = δi1δi2 log
(∂2S(t1; t2|θ)∂ti1∂ti2
)+ δi1(1− δi2) log
(−∂S(t1; t2|θ)
∂ti1
)+δi2(1− δi1) log
(−∂S(t1; t2|θ)
∂ti2
)+ (1− δi1)(1− δi2) logS(t1; t2|θ). (6)
As derivadas da funcao de sobrevivencia conjunta para os tempos de falhaspareados utilizando as copulas de Clayton e Frank estao apresentadas nos ApendicesA e B, respectivamente.
Para inferencia, por meio da metodologia bayesiana, assumimos que nao haconhecimentos previos dos parametros theta por meio das distribuicoes a priori naoinformativas.
Combinando as distribuicoes a priori independentes com a funcao deverossimilhanca, L(θ) = exp(
∑ni=1 ℓi(θ)), em que ℓi(θ) e dada em (6), obtemos
diretamente a distribuicao conjunta a posteriori de θ, π(θ|D), em queD e o conjuntode dados observados. As estimativas dos parametros sao dadas pelas medias dadistribuicao a posteriori.
Para as distribuicoes marginais consideramos modelos Weibull. Realizamosaplicacoes em conjuntos de dados simulados e reais. Todas as implementacoescomputacionais foram realizadas utilizando os sistemas WinBUGS (Lunn et al.,2000) e R (R Development Core Team, 2012) por meio do pacote BRugs (Thomaset al., 2006).
3 Criterios de comparacao de modelos
Analogamente a Louzada et al. (2012, 2013), neste trabalho utilizamos quatrocriterios de selecao de modelos: o DIC (Deviance Information Criterion), o EAIC(Expected Akaike Information Criterion), o EBIC (Expected Bayesian (ou Schwarz )Information Criterion) e o LPML (Logarithm of the Pseudo Marginal Likelihood),os quais especificamente sao usados na metodologia bayesiana em que as amostrasdas distribuicoes a posteriori para os parametros do modelo sao obtidas usandometodos MCMC.
4 Diagnostico
Na literatura, uma forma utilizada de avaliacao da influencia de umaobservacao no ajuste de um modelo e por meio da exclusao de casos (Cook &Weisberg, 1982). Atualmente, tecnicas de influencia local tem sido amplamenteutilizadas, por exemplo em Cancho et al. (2010), Vidal & Castro (2010) e Louzadaet al. (2012, 2013).
Neste trabalho vamos considerar a analise de influencia de delecao de casosbaseado na divergencia ψ. Seja Dψ(P ;P(−i)) a divergencia ψ entre P e P(−i), em
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 393
que P indica a distribuicao a posteriori de θ para os dados completos e, P(−i) adistribuicao a posteriori sem o i -esimo caso. Especificamente,
Dψ(P ;P(−i)) =
∫ψ
(π(θ|D(−i))
π(θ|D)
)π(θ|D) dθ, (7)
em que ψ e uma funcao convexa com ψ(1) = 0. Varias escolhas de ψ sao dadasem Dey & Birmiwal (1994). Por exemplo, ψ(z) = − log(z) define a divergencia deKullback-Leibler (K-L), ψ(z) = (z − 1) log(z) a distancia J (ou a versao simetricada divergencia de K-L), ψ(z) = 0,5|z − 1| a distancia variacional ou norma L1 eψ(z) = (z − 1)2 define a divergencia χ2.
Podemos calcular Dψ(P ;P(−i)) considerando uma amostra da distribuicao a
posteriori de θ via metodos MCMC. Considere θ(1), . . . ,θ(V ) uma amostra detamanho V de π(θ|D). Entao, uma estimativa Monte Carlo e dada por:
Dψ(P ;P(−i)) =1
V
V∑q=1
ψ
(π(θ(q)|D(−i))
π(θ(q)|D)
). (8)
A medida Dψ(P ;P(−i)) pode ser interpretada como a divergencia ψ do efeitoda exclusao do i-esimo caso dos dados completos na distribuicao a posteriori de θ.
Como apontado por Peng & Dey (1995) e Weiss (1996), pode ser difıcil paraum profissional (por exemplo, um medico) avaliar o ponto de corte da medida dedivergencia, de modo a determinar se uma observacao ou um pequeno subconjuntode observacoes e influente ou nao. Neste contexto, usaremos a proposta dadapor Peng & Dey (1995) e Weiss (1996). Considere uma moeda viesada comprobabilidade de sucesso p. Entao, a divergencia ψ entre a moeda viesada e anao viesada e:
Dψ(f0;f1) =
∫ψ
(f0(x)
f1(x)
)f1(x)dx, (9)
em que f0(x) = px(1− p)1−x e f1(x) = 0, 5, x = 0, 1. Se Dψ(f0, f1) = dψ(p), entaopode ser facilmente verificado que dψ satisfaz a seguinte equacao:
dψ(p) =ψ(2p) + ψ(2(1− p))
2. (10)
Nao e difıcil notar que, para as medidas de divergencia consideradas, dψaumenta a medida que p afasta-se de 0,5. Alem disso, dψ(p) e simetrica em tornode p = 0,5 e dψ atinge seu mınimo em p = 0,5. Neste ponto, dψ(0,5) = 0 e f0 = f1.Portanto, se considerarmos p > 0,80 (ou p ≤ 0,20) como uma moeda muito viciada,entao dL1(0,80) = 0,30. Esta relacao implica que o i-esimo caso e consideradoinfluente quando dL1(0,80) > 0,30.
Assim, se usarmos a divergencia de Kullback-Leibler, podemos considerar queuma observacao e influente quando dK-L > 0,223. Da mesma forma, usando adistancia J ou a divergencia χ2, uma observacao na qual dJ > 0,416 ou dχ2(0,80) >0,360 pode ser considerada influente.
394 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
5 Estudo de simulacao
Inicialmente empregamos dados simulados para estudar as propriedadesfrequentistas dos estimadores bayesianos quando os parametros do modelo saoconhecidos. O objetivo deste estudo de simulacao e mostrar o bom comportamentodas estimativas bayesianas, com base na media frequentista e nas medidas utilizadaspara comparacao de modelos: EAIC, EBIC, DIC e LPML.
Para simular n observacoes (ti1;ti2) do modelo baseado nas copulas de Frank eClayton, assumindo que as marginais Tj tem distribuicao Weibull com parametrosαj e λij = exp(β0j + β1jxi), j = 1, 2, realizamos o seguinte algoritmo:
Algoritmo
Passo 1: Gerar as covariaveis xi de uma distribuicao Bernoulli com parametro 0,5.Passo 2: Gerar os tempos de censura Cij a partir de uma distribuicao UniformeU(0; τj), com τj controlando o percentual de observacoes censuradas, j = 1, 2.
Passo 3: Gerar Ti1 = (−log(1− ui1)/λi1)1/α1 em que ui1 ∼ U(0; 1). Comparar Ti1com o valor de censura Ci1 a fim de determinar o indicador de censura δi1 e o valorobservado dado por ti1 = min(Ti1; Ci1).Passo 4: Gerar ui2 ∼ U(0; 1) e calcular:- Se for para o modelo baseado na copula Frank, calcular wi = −(1/θ) log(1 +(ui2(1− e−θ))/(ui2(e−θui1 − 1)− e−θui1)), em que θ = − log(ϕ).
- Se for o modelo baseado na copula Clayton, calcular wi = [u−ϕi1 (u−ϕ/(ϕ+1)i2 − 1) +
1](−1/ϕ).
Obter Ti2 = (−log(1− wi)/λi2)1/α2 e entao comparar Ti2 com o valor de censuraCi2 a fim de determinar o indicador de censura δi2 e o valor observado dado porti2 = min(Ti2; Ci2).
Analisamos tambem o caso sem covariavel cujo o procedimento de simulacaoe dado pelos Passos 2-4 descritos anteriormente.
Neste trabalho, simulamos os conjuntos de dados assumindo (0%; 0%) e(30%; 30%) de censuras para dois diferentes tamanhos de amostras n = 50 e 200.Para cada caso, geramos 50 conjuntos Monte Carlo de dados.
As seguintes distribuicoes a priori independentes foram consideradas para oamostrador de Gibbs: αj ∼ Gama(1; 0,001) e λj ∼ Gama(1; 0,001) (modelo semcovariavel) ou βij ∼ N(0; 1000) (modelo com covariavel), i = 0, 1 e j = 1, 2.Assumimos ϕ ∼ Gama(1; 0,001) e ϕ ∼ Beta(1; 1) para o parametro da copula deClayton e Frank, respectivamente.
Para cada conjunto de dados gerados simulamos duas cadeias de tamanho50.000 para cada parametro, desconsiderando as primeiras 10.000 iteracoes paraeliminar o efeito dos valores iniciais e, para evitar problemas de autocorrelacao,consideramos um espacamento de tamanho 20, obtendo uma amostra efetiva detamanho 4.000 sobre a qual a inferencia a posteriori e baseada. Para cada amostra,a media e o desvio padrao a posteriori dos parametros e os valores de EAIC, EBIC,
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 395
DIC e LPML sao gravados. As simulacoes foram realizadas utilizando os sistemasWinBUGS (Lunn et al., 2000) e R (R Development Core Team, 2012) por meio dopacote BRugs (Thomas et al., 2006).
A convergencia das cadeias foi monitorada de acordo com os metodosrecomendados por (Cowless & Carlin, 1996) (pacote CODA (Plummer et al.,2006)). Em todos os casos, a convergencia foi verificada por meio do diagnostico deGelman-Rubin (Gelman & Rubin, 1992) sendo muito proximo a 1 (≤ 1,01).
A Tabela 1 mostra as estatısticas resumo (Media MC e entre parenteses o DPMC) da simulacao para os parametros ajustando os modelos baseados na copulade Clayton e na de Frank para as duas configuracoes de censuras e tamanhos deamostras simuladas. Os verdadeiros valores sao dados entre parenteses, a Media MC
denota a media aritmetica das 50 estimativas dada por50∑j=1
θkj/50 e o DP MC denota
o desvio padrao medio frequentista dado por50∑j=1
DP (θkj)/50. Podemos observar
que todos os casos (com e sem a presenca de dados censurados) as estimativasobtidas estao proximas, em media, do verdadeiro valor.
A Tabela 2 apresenta a media Monte Carlo (MC) dos quatro criterios decomparacao de modelos discutidos na Secao 3 para comparar os modelos desobrevivencia bivariado baseado na copula Clayton e Frank com marginais Weibull.Podemos observar que para as duas configuracoes de censuras, o verdadeiro modelogerado supera o outro em todas as medias dos criterios considerados.
6 Diagnostico de observacoes influentes
Para examinar o desempenho da medida de diagnostico, geramos uma amostrade tamanho 300 para o modelo Frank bivariado com parametros fixos β01 = 2,5,β11 = 0,5, α1 = 2, β02 = 3,5, β12 = −1, α2 = 3 e ϕ = 0,5, e tambem uma amostra demesmo tamanho para o modelo Clayton bivariado com parametros fixos β01 = 2,5,β11 = 0,5, α1 = 2, β02 = 3,5, β12 = −1, α2 = 3 e ϕ = 0,5. Em ambas as amostrasconsideramos que 15% de cada tempo foi censurado.
Para amostra do modelo Frank bivariado, selecionamos os casos 40 e 75(ambos os tempos observados), 210 (tempo 1 observado e tempo 2 censurado)e 280 (ambos os tempos censurados) para perturbacao. Para criar observacoesartificialmente influentes no conjunto de dados, escolhemos um, dois ou tres dessescasos selecionados. Para cada caso, perturbamos um ou ambos os tempos daseguinte forma: ti = ti+5Dt, i = 1, 2, em que Dt e o desvio padrao dos ti’s. Para ocaso 75 foi perturbado apenas o tempo de vida t1, para ambos os casos 40 e 210 otempo de vida t2 e, para o caso 280, ambos os tempos de vidas foram perturbados.De forma analoga para a amostra do modelo Clayton bivariado, selecionamos oscasos 100 (ambos os tempos observados), 25 e 50 (um tempo observado e outrocensurado) e 270 (ambos os tempos censurados) para perturbacao. Para o caso 25foi perturbado apenas o tempo de vida t1, para ambos os casos 50 e 100 o tempode vida t2 e, para o caso 20, ambos os tempos de vidas foram perturbados.
396 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
Tab
ela1-Estatısticasresumodasimulacaoparaos
param
etrosajustan
doomodeloClaytonbivariadoeFrankbivariado
paraas
duas
configu
racoes
decensurasetaman
hos
deam
ostras
simuladas
N=
50N
=200
Verdadeiro
Parametro
Clayton/F
rank
Clayton/F
rank
Modelo
(0%;0%
)(30%
;30%)
(0%;0%
)(30%;30%)
r 1(1,5)
1,588(0,167)/1,702(0,176)
1,671(0,202)/1,665(0,209)
1,520(0,064)/1,621(0,099)
1,590(0,090)/1,588(0,098)
Sem
λ1(2,0)
2,141(0,400)/1,963(0,424)
1,767(0,327)/1,599(0,318)
2,044(0,155)/1,759(0,210)
1,663(0,138)/1,483(0,142)
covariavel
r 2(0,5)
0,515(0,041)/0,545(0,045)
0,545(0,051)/0,547(0,055)
0,510(0,024)/0,537(0,026)
0,527(0,034)/0,523(0,037)
λ2(3,0)
3,224(0,564)/3,004(0,617)
2,719(0,508)/2,483(0,540)
3,082(0,286)/2,675(0,376)
2,538(0,245)/2,249(0,247)
ϕ(3,0)
2,987(0,844)/0,006(0,013)
2,716(0,860)/0,027(0,033)
2,962(0,377)/0,001(0,001)
2,601(0,513)/0,004(0,004)
Clayton
r 1(2,0)
2,114(0,204)/2,238(0,240)
2,214(0,261)/2,235(0,292)
2,052(0,097)/2,194(0,193)
2,214(0,261)/2,235(0,292)
β01(-1,0)
-1,080(0,216)/-1,218(0,255)
-1,379(0,265)/-1,481(0,301)
-1,048(0,106)/-1,319(0,238)
-1,379(0,265)/-1,481(0,301)
Com
β11(0,5)
0,523(0,107)/0,559(0,214)
0,570(0,207)/0,600(0,261)
0,512(0/,056)/0,519(0,187)
0,570(0,207)/0,600(0,261)
covariavel
r 2(3,0)
3,226(0,330)/3,425(0,366)
3,391(0,410)/3,364(0,387)
3,041(0,131)/3,003(0,259)
3,391(0,410)/3,364(0,387)
β02(1,0)
1,040(0,167)/1,040(0,200)
0,846(0,190)/0,744(0,210)
1,000(0,060)/0,756(0,217)
0,846(0,190)/0,744(0,210)
β12(-0,5)
-0,540(0,129)/-0,573(0,180)
-0,543(0,168)/-0,517
(0,240)
-0,504(0,048)/-0,441(0,164)
-0,543(0,168)/-0,517(0,240)
ϕ(4,0)
4,201(0,980)/0,002(0,004)
3,637(1,237)/0,025(0,031)
4,098(0,377)/1,4.10
−4(9.10−
5)
3,637(1,237)/0,025(0,031)
r 1(1,5)
1,569(0,171)/1,578(0,171)
1,572(0,239)/1,569(0,239)
1,511(0,088)/1,513(0,087)
1,530(0,107)/1,528(0,104)
Sem
λ1(2,0)
2,099(0,385)/2,106(0,390)
1,427(0,218)/1,429(0,219)
2,033(0,143)/2,036(0,142)
1,401(0,103)/1,401(0,101)
covariavel
r 2(3,0)
3,015(0,282)/3,018(0,271)
3,179(0,435)/3,181(0,439)
3,014(0,197)/3,024(0,190)
3,054(0,203)/3,053(0,203)
λ2(1,0)
1,040(0,130)/1,035(0,130)
0,689(0,075)/0,695(0,074)
1,021(0,079)/1,019(0,081)
0,705(0.058)/0,708(0,058)
ϕ(0,5)
1,230(0,153)/0,516(0,151)
0,091(0,114)/0,577(0,123)
0,075(0,088)/0,569(0,161)
0,056
0,039)/0,610(0,109)
Frank
r 1(2,0)
2,084(0,272)/2,106(0,278)
2,061(0,223)/2,088(0,229)
2,044(0,109)/2,055(0,107)
2,077(0,288)/2,099(0,287)
β01(-1,0)
-1,466(0,300)/-1,466(0,302)
-1,077(0,255)/-1,082(0,262)
-1,056(0,134)/-1,058(0,131)
-1,438(0,294)/-1,440(0,297)
Com
β11(0,5)
0,571(0,338)/0,577(0,327)
0,569(0,273)/0,582(0,269)
0,535(0,151)/0,536(0,144)
0,528(0,371)/0,540(0,367)
covariavel
r 2(3,0)
3,086(0,502)/3,113(0,511)
3,187(0,440)/3,228(0,442)
3,028(0,170)/3,043(0,169)
3,124(0,430)/3,154(0,431)
β02(1,0)
0,606(0,286)/0,627(0,289)
1,041(0,232)/1,066(0,236)
1,013(0,119)/1,017(0,118)
0,642(0,259)/0,663(0,258)
β12(-0,5)
-0,486(0,403)/-0,486(0,407)
-0,578(0,335)/-0,580(0,341)
-0,497(0,172)/-0,490(0,170)
-0,550(0,385)/-0,549(0,381)
ϕ(0,5)
0,297(0,121)/0,589(0,108)
0,235(0,123)/0,578(0,117)
0,162(0,071)/0,547(0,153)
0,340(0,204)/0,563(0,129)
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 397
Tab
ela2-Med
iaMon
teCarlo
dos
criteriosbayesianos
baseados
sobre
as50
amostras
geradas
paraas
duas
configu
racoes
decensuras
Criterios
Bayesianos
EAIC
EBIC
DIC
LPML
Clayton/F
rank
Clayton/F
rank
Clayton/Frank
Clayton/F
rank
(0%;0%
)(30%
;30%)
(0%;0%)
(30%
;30%
)(0%;0%)
(30%
;30%)
(0%;0%)
(30%;30%
)Clayton
N=
50-130,561/-113,791
-27,338/-18,952
-121,001/-104,231
-17,778/-9,392
-135,455/-120,518
-32,188/-26,312
1,346/1,178
0,315/0,234
Sem
Frank
71,713/71,390
102,106/101,893
81,273/80,950
111,666/111,453
66,169/65,656
96,347/96,075
-0,666/-0,663
-0,967/-0,967
covariavel
Clayton
N=
200
-543,761/-476,573
-130,719/-104,460
-527,269/-460,082
-114,227/-87,968
-548,708/-477,169
-135,662/-110,165
1,372/1,193
0,338/0,273
Frank
249,399/248,182
381,759/381,063
265,891/264,673
398,250/397,554
244,068/242,758
376,196/375,544
-0,610/-0,607
-0,941/-0,939
Clayton
N=
5031,474/52,804
95,566/107,175
44,858/66,188
108,95/120,559
24,652/43,395
88,747/97,053
-0,259/-0,466
-0,904/-1,005
Com
Frank
112,277/111,828
136,446/135,970
125,661/125,212
149,830/149,354
104,612/104,068
128,743/128,100
-1,057/-1,049
-1,301/-1,291
covariavel
Clayton
N=
200
87,755/198,448
95,566/107,175
110,843/221,537
108,950/120,559
80,781/206,782
88,747/97,053
-0,203/-0,516
-0,904/-1,005
Frank
413,493/412,406
499,284/498,660
436,582/435,494
522,373/521,748
406,152/404,992
491,748/491,084
-1,016/-1,013
-1,230/-1,228
398 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
Para a implementacao do algoritmo MCMC, assim como a verificacao daconvergencia das cadeias, realizamos os mesmos procedimentos descritos na Secao 5.
As Tabelas 3 e 4 mostram que as inferencias a posteriori sao sensıveis aperturbacao do(s) caso(s) selecionado(s).
Tabela 3 - Media e desvio padrao (DP) para os parametros do modelo desobrevivencia Frank bivariado para cada conjunto de dados simulados
Nome Identificacao α1 β01 β11 α2 β02 β12 ϕdos dos casos Media Media Media Media Media Media Media
dados perturbados (DP) (DP) (DP) (DP) (DP) (DP) (DP)a Amostra original 1,858 2,205 -0,486 2,812 2,306 -0,109 0,461
(0,095) (0,136) (0,130) (0,139) (0,137) (0,127) (0,165)b 40 1,861 2,199 -0,468 2,621 2,160 -0,180 0,484
(0,090) (0,128) (0,125) (0,123) (0,125) (0,122) (0,175)c 75 1,789 2,072 -0,405 2,818 2,311 -0,110 0,475
(0,083) (0,124) (0,128) (0,139) (0,136) (0,124) (0,177)d 210 1,864 2,208 -0,481 2,498 1,955 0,006 0,469
(0,092) (0,133) (0,126) (0,113) (0,113) (0,126) (0,181)e {40, 210} 1,862 2,204 -0,478 2,372 1,868 -0,058 0,467
(0,089) (0,127) (0,125) (0,103) (0,111) (0,122) (0,179)f {75, 210} 1,790 2,075 -0,410 2,496 1,954 0,007 0,443
(0,085) (0,122) (0,125) (0,108) (0,110) (0,125) (0,173)g {40, 75, 210} 1,793 2,069 -0,404 2,372 1,870 -0,058 0,470
(0,086) (0,122) (0,124) (0,108) (0,112) (0,125) (0,186)h 280 1,793 2,082 -0,415 2,765 2,271 -0,133 0,472
(0,086) (0,122) (0,123) (0,133) (0,132) (0,126) (0,172)i {40, 280} 1,789 2,080 -0,418 2,597 2,155 -0,226 0,471
(0,087) (0,122) (0,124) (0,125) (0,132) (0,127) (0,176)
Tabela 4 - Media e desvio padrao (DP) para os parametros do modelo Claytonbivariado para cada conjunto de dados simulados
Nome Identificacao α1 β01 β11 α2 β02 β12 ϕdos dos casos Media Media Media Media Media Media Media
dados perturbados (DP) (DP) (DP) (DP) (DP) (DP) (DP)a Amostra original 2,571 2,133 -0,515 2,043 3,499 -1,071 3,864
(0,116) (0,104) (0,052) (0,088) (0,155) (0,072) (0,387)b 25 2,135 1,758 -0,402 1,883 3,221 -0,986 3,536
(0,092) (0,091) (0,055) (0,089) (0,157) (0,076) (0,390)c 50 2,311 1,898 -0,440 1,650 2,789 -0,769 3,498
(0,112) (0,104) (0,055) (0,067) (0,123) (0,062) (0,401)d 100 2,303 1,895 -0,440 1,643 2,778 -0,764 3,484
(0,110) (0,101) (0,054) (0,068) (0,123) (0,060) (0,392)e {25, 50} 2,017 1,639 -0,358 1,583 2,667 -0,741 3,319
(0,097) (0,091) (0,057) (0,072) (0,129) (0,064) (0,410)f {25, 100} 2,008 1,631 -0,358 1,574 2,648 -0,733 3,344
(0,097) (0,096) (0,056) (0,068) (0,126) (0,061) (0,426)g {25, 50, 100} 2,002 1,607 -0,339 1,463 2,414 -0,606 2,956
(0,103) (0,095) (0,060) (0,067) (0,118) (0,065) (0,383)h 270 2,386 1,937 -0,471 1,824 3,077 -0,919 4,391
(0,103) (0,095) (0,050) (0,071) (0,122) (0,061) (0,427)i {100, 270} 2,221 1,800 -0,423 1,560 2,603 -0,706 3,818
(0,110) (0,100) (0,053) (0,063) (0,113) (0,056) (0,426)
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 399
Nessas tabelas o conjunto de dados (a) denota os dados originais simuladossem perturbacao e os conjuntos de dados (b) a (i) denotam os conjuntos de dadoscom casos perturbados.
As Tabelas 5 e 6 mostram os criterios bayesianos do ajuste de diferentes casosde conjuntos de dados perturbados. Podemos observar em ambas as tabelas queo conjunto de dados (a) (conjunto dos dados originais simulados) teve o melhorajuste.
Tabela 5 - Criterios bayesianos ajustando o modelo de sobrevivencia Frankbivariado para cada conjunto de dados simulados
Nomes Criterios Bayesianosdos dados EAIC EBIC DIC LPML
a -324,742 -298,815 -331,800 0,551b -299,573 -273,646 -307,100 0,506c -309,320 -283,393 -316,600 0,524d -290,032 -264,105 -297,400 0,481e -268,413 -242,487 -276,000 0,448f -274,985 -249,058 -282,400 0,456g -252,791 -226,865 -260,100 0,420h -304,855 -278,928 -312,100 0,516i -281,996 -256,070 -289,300 0,476
Tabela 6 - Criterios bayesianos ajustando o modelo de sobrevivencia Claytonbivariado para cada conjunto de dados simulados
Nome Criterios Bayesianosdos dados EAIC EBIC DIC LPML
a -794,777 -768,851 -801,900 1,336b -697,389 -671,462 -704,400 1,147c -667,741 -641,814 -674,600 1,089d -667,130 -641,204 -674,100 1,078e -595,197 -569,270 -602,100 0,953f -594,850 -568,923 -601,700 0,963g -524,499 -498,573 -531,400 0,842h -761,130 -735,203 -768,200 1,270i -650,270 -624,344 -657,300 1,066
Vamos considerar as amostras da distribuicao a posteriori dos parametros domodelo Frank bivariado e Clayton bivariado para obter uma estimativa das quatromedidas de divergencia, cujos os resultados foram apresentados nas Tabelas 7 e 8,respectivamente. As tabelas mostram, antes da perturbacao (conjunto de dados(a)), que todos os casos selecionados nao sao influentes, com pequenas medidasde divergencia. Entretanto, apos perturbacoes (conjunto de dados (b) a (i)) asquatro medidas aumentam, indicando que os casos sao influentes. Os valores que
400 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
ultrapassam os pontos de cortes apresentados na Secao 4 estao destacados comasterisco (∗).
Tabela 7 - Medidas de divergencia para o modelo Frank bivariado
Nome Identificacao Medidas de divergenciados dados dos casos dK-L dJ dL1 dχ2
a 40 0,004 0,006 0,030 0,00675 0,004 0,005 0,028 0,005210 0,112 0,250 0,198 0,309280 0,002 0,003 0,023 0,003
b 40 1,318∗ 2,820∗ 0,613∗ 12,667∗
c 75 0,528∗ 1,231∗ 0,420∗ 3,434∗
d 210 4,209∗ 6,507∗ 0,722∗ 69,532∗
e 40 0,689∗ 1,473∗ 0,463∗ 3,561∗
210 2,873∗ 5,025∗ 0,736∗ 28,342∗
f 75 0,523∗ 1,137∗ 0,401∗ 2,836∗
210 3,963∗ 9,745∗ 0,983∗ 625,790∗
g 40 0,770∗ 1,647∗ 0,473∗ 5,901∗
75 0,522∗ 1,111∗ 0,405∗ 2,733∗
210 3,090∗ 6,463∗ 0,833∗ 83,764∗
h 280 0,760∗ 1,279∗ 0,420∗ 2,343∗
i 40 1,068∗ 2,384∗ 0,576∗ 9,093∗
280 0,649∗ 1,414∗ 0,446∗ 3,748∗
Tabela 8 - Medidas de divergencia para o modelo Clayton bivariado
Nome Identificacao Medidas de divergenciados dados dos casos dK-L dJ dL1 dχ2
a 25 0,019 0,050 0,089 0,05350 0,003 0,009 0,037 0,009100 0,002 0,006 0,030 0,006270 0,021 0,035 0,076 0,036
b 25 8,799∗ 14,421∗ 0,937∗ 735,358∗
c 50 11,206∗ 20,673∗ 1,236∗ 1067,438∗
d 100 14,535∗ 14,661∗ 0,515∗ 2,449∗
e 25 5,396∗ 7,335∗ 0,713∗ 34,800∗
50 11,079∗ 23,351∗ 1,270∗ 4618,061∗
f 25 5,669∗ 9,344∗ 0,830∗ 187,049∗
100 7,622∗ 9,801∗ 0,717∗ 76,340∗
g 25 4,716∗ 12,024∗ 1,109∗ 836,578∗
50 4,530∗ 7,270∗ 0,783∗ 64,310∗
100 5,140∗ 8,024∗ 0,795∗ 74,378∗
h 270 3,399∗ 7,546∗ 0,931∗ 113,676∗
i 100 8,523∗ 12,195∗ 0,848∗ 136,893∗
270 1,188∗ 2,590∗ 0,591∗ 11,278∗
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 401
As Figuras 1 e 2 mostram os graficos de ındices das quatro medidas dedivergencia para o conjunto de dados (b) do modelo Frank bivariado e para oconjunto de dados (d) do modelo Clayton bivariado, respectivamente. Claramente,podemos ver que as quatro medidas de divergencia detectam os pontos influentes.
Figura 1 - Graficos de ındices das me-didas de divergencia para ocaso (b) do modelo Frankbivariado.
Figura 2 - Graficos de ındices das me-didas de divergencia para ocaso (d) do modelo Claytonbivariado.
7 Aplicacao a Dados Reais
Como aplicacao a dados reais, utilizamos os dados apresentados emMcGilchrist & Aisbett (1991) que se referem a 38 pacientes com insuficencia renal.Os tempos (em dias) bivariados medidos e a respeito da recorrencia de infeccao nolocal onde foi inserido o cateter nos pacientes que utilizaram um aparelho portatil dedialise, sendo dado para cada paciente dois tempos de recorrencia. Vamos considerarcomo covariavel o sexo do paciente (0 masculino, 1 feminino).
Ajustamos os modelos Frank bivariado e Clayton bivariado considerando duascadeias de tamanho 50.000 para cada parametro, desconsiderando as primeiras10.000 iteracoes para eliminar o efeito dos valores iniciais e, para evitar problemasde autocorrelacao, foi considerado um espacamento de tamanho 20, obtendo umaamostra efetiva de tamanho 4.000 sobre a qual a inferencia a posteriori e baseada.A convergencia das cadeias foi monitorada de acordo com os metodos recomendadospor (Cowless & Carlin, 1996).
As seguintes distribuicoes a priori independentes foram consideradas pararealizar o amostrador de Gibbs: βji ∼ N(0; 1000), αj ∼ Gama(1; 0, 001), i = 0, 1,j = 1, 2. Assumimos ϕ ∼ Gama(1; 0,001) e ϕ ∼ Beta(1; 1) para o parametro da
402 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
copula de Clayton e Frank, respectivamente.Na Tabela 9 apresentamos os resumos a posteriori para os parametros do
modelo Frank bivariado e Clayton bivariado, ambos com marginais Weibull.
Tabela 9 - Media a posteriori, desvio padrao (DP) e intervalo HPD (95%) para osparametros do modelo Frank bivariado e Clayton bivariado
Parametro Clayton FrankMedia DP HPD (95%) Media DP HPD (95%)
α1 0,972 0,123 (0,735, 1,211) 0,969 0,969 (0,718, 1,210)Tempo 1 β01 -3,314 0,579 (-4,473, -2,213) -3,477 0,614 (-4,674, -2,271)
β11 -1,882 0,414 (-2,695, -1,061) -1,600 0,429 (-2,424, -0,763)α2 0,816 0,105 (0,613, 1,025) 0,807 0,107 (0,603, 1,019)
Tempo 2 β02 -3,459 0,616 (-4,707, -2,311) -3,500 0,649 (-4,798, -2,278)β12 -0,531 0,365 (-1,262, 0,169) -0,377 0,398 (-1,136, 0,403)
Copula ϕ 0,493 0,289 (0,020, 1,038) 0,572 0,246 (0,172, 0,999)
As Figuras 3 e 4 mostram, respectivamente, as curvas de Kaplan-Meier paraas variaveis T1 e T2 dicotomizadas pelo sexo do paciente juntamente com os ajustesda sobrevivencia Weibull marginal assumindo o modelo Frank bivariado e Claytonbivariado.
0 100 200 300 400 500
0.0
0.2
0.4
0.6
0.8
1.0
Tempo 1
Sobre
viv
ência
Clayton
Frank
Figura 3 - Curvas de Kaplan-Meiere curvas de sobrevivenciasWeibull estimadas para avariavel T1.
0 100 200 300 400 500
0.0
0.2
0.4
0.6
0.8
1.0
Tempo 2
Sobre
viv
ência
Clayton
Frank
Figura 4 - Curvas de Kaplan-Meiere curvas de sobrevivenciasWeibull estimadas para avariavel T2.
A Tabela 10 apresenta os criterios de comparacao de modelos para compararo modelo de sobrevivencia bivariado baseado na copula de Clayton e de Frank commarginais Weibull. Como resultado, consideramos que o modelo de Clayton comoa melhor escolha para ajustar o conjunto de dados levando em consideracao que amaioria dos criterios utilizados dao evidencias positivas a favor deste modelo.
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 403
Tabela 10 - Criterios bayesianos
Modelo Criterios BayesianosEAIC EBIC DIC LPML
Clayton 737,705 749,168 1955,380 -9,634Frank 742,030 753,493 1784,190 -9,704
Os graficos de ındices apresentamos nas Figuras 5 e 6 considerando o modelode Frank bivariado e Clayton bivariado, respectivamente. Em comparacao compontos de cortes apresentados na Secao 4, podemos observar que todas as medidasdetectam a observacao 21 como possıvel ponto influente.
0 10 20 30
01
23
4
Índice
Div
erg
ênci
a K
−L
21
0 10 20 30
02
46
8
Índice
Dis
tânci
a J 21
0 10 20 30
0.0
0.4
0.8
Índice
Dis
tânci
aL
1
21
0 10 20 30
040
80
Índice
Div
erg
ênci
a χ
2
21
Figura 5 - Graficos de ındices dasmedidas de divergenciaconsiderando o modeloFrank bivariado.
0 10 20 30
0.0
1.0
2.0
3.0
Índice
Div
erg
ênci
a K
−L
21
0 10 20 30
02
46
8
Índice
Dis
tânci
a J 21
0 10 20 30
0.0
0.4
0.8
1.2
Índice
Dis
tânci
aL
1
21
0 10 20 30
0100
200
Índice
Div
erg
ênci
a χ
2
21
Figura 6 - Graficos de ındices dasmedidas de divergenciaconsiderando o modeloClayton bivariado.
Consideracoes Finais
Neste trabalho apresentamos a modelagem de dados de sobrevivencia pormeio de copulas arquimedianas, em particular para as copulas de Clayton eFrank. Todo o procedimento inferencial foi realizado sob uma abordagem bayesianaassumindo ausencia de informacao a priori. Como aplicacao dos modelos estudadosrealizamos um amplo estudo de simulacao no qual verificamos que com diferentestamanhos amostrais e diferentes configuracoes de censura as estimativas obtidasforam proximas do verdadeiro valor.
Alem disso, realizamos comparacao de modelos por meio dos criteriosbayesianos EAIC, EBIC, DIC e LPML. Simulamos amostras a partir dos doismodelos (Frank bivariado e Clayton bivariado) e observamos que todos os criteriosindicaram o modelo no qual as amostras foram geradas.
404 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
Avaliamos a robustez do modelo relacionado as escolhas dos hiperparametrosdas distribuicoes a priori, realizando um estudo de sensibilidade no qual constatamosque as estimativas dos parametros a posteriori nao apresentaram diferencassignificativas nos resultados das aplicacoes aos dados artificiais e aos dados reais.
Tambem, estudamos o metodo bayesiano de analise de influencia de delecaode casos baseado na divergencia ψ cujo o o objetivo e detectar possıvel(is)observacao(oes) influente(s) nos dados analisados. Assumimos quatro particularesescolhas para a funcao ψ nas quais resultaram a divergencia de Kullback-Leibler(K-L), a distancia J (ou a versao simetrica da divergencia de K-L), a distanciavariacional ou norma L1 e a divergencia χ2. Para uma amostra simulada decada modelo, perturbamos uma, duas e tres observacoes. Observamos que asquatro medidas de divergencia detectaram os pontos perturbados e para o casosem perturbacao (amostra original simulada), nenhuma observacao foi detectada.Por fim, realizamos uma aplicacao a dados reais de pacientes com infeccao renal.
Uma abordagem frequentista pode ser realizada por meio de uma estimacaoem dois estagios (ver, por exemplo, Joe (1997) e Genest et al. (1995)), em que noprimeiro sao estimados os parametros das distribuicoes marginais nao levando emconsideracao a dependencia. Ja no segundo estagio, obter o estimador do parametrode dependencia maximizando uma pseudo verossimilhanca em que os estimadoresobtidos no primeiro estagio para as marginais sao fixos.
Como trabalho futuro este estudo pode ser ampliado com outras escolhaspara as distribuicoes marginais tais como distribuicao Weibull Exponenciada, adistribuicao Exponencial generalizada e a distribuicao Weibull inversa generalizada,entre outras. Tambem, para as distribuicoes marginais trabalhar com os modelosde longa duracao (Maller & Zhou, 1996; Rodrigues et al., 2009) tambem conhecidoscomo modelos com fracao de cura (ver Clayton, 1978).
Alem disso, modelos baseados em outras funcoes copulas tambem podem serexplorados, tais como as copulas arquimedianas: Ali-Mikhail-Haq, Gumbel e Joe(Nelsen, 2006).
OLIVEIRA, M. A.; SUZUKI, A. K. A Bayesian Approach to Bivariate SurvivalModels Based on Archimedean Copulas. Rev. Bras. Biom., Sao Paulo, v.32, n.3,p.390-411, 2014.
ABSTRACT: In this work we consider models based on Clayton and Frank Archimedian
copulas to model the dependence of bivariate survival data in the presence of covariates
and censored data. For inferential purposes, a Bayesian approach via Markov Chain
Monte Carlo (MCMC) were considered. Further, some discussions on the model
selection criteria are given. In order to examine outlying and influential observations,
we present a Bayesian case deletion influence diagnostics based on the divergence ψ.
The applicability of the proposed models are illustrated on artificial and real data. All
computer implementations were performed using WinBUGS and R systems through the
BRugs package.
KEYWORDS: Survival analysis; Archimedean copulas; psi-divergence; Bayesian
inference.
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 405
BOLETA, J.; ACHCAR, J. A. Distribuicao Exponencial generalizada bivariadaderivada de funcoes copulas: Uma aplicacao a dados de cancer gastrico. RevistaBrasileira de Biometria, v.30, n.4, p.401-414, 2012.
Thomas, A.; O’Hara, B.; Ligges, U.; Sturtz, S. Making BUGS open. R News, v.6,n.1, p.12-17, 2006.
CANCHO, V.; ORTEGA, E.; PAULA, G. On estimation and influence diagnosticsfor log-Birnbaum-Saunders Student-t regression models: Full Bayesian analysis.Journal of Statistical Planning and Inference, v.140, p.2486-2496, 2010.
CHERUBINI, U.; LUCIANO, E.; VECCHIATO, W. Copula methods in finance.Hoboken. 1.ed. New York: John Wiley and Sons, 2004. 310p.
CLAYTON, D. G. A model for association in bivariate life-tables and its applicationin epidemiological studies of familial tendency in chronic disease incidence.Biometrika, v.65, p.141-151, 1978.
COOK, R. D.; WEISBERG, S. Residuals and influence in regression. Boca Raton:Chapman and Hall, 1982. 230p.
COWLESS, M. K.; CARLIN, B. P. Markov chain Monte Carlo convergencediagnostics: a comparative review. Journal of the American Statistical Association,v.91, p.883-904, 1996.
DEY, D.; BIRMIWAL, L. Robust Bayesian analysis using divergence measures.Statistics and Probability Letters, v.20, p.287-294, 1994.
EMBRECHTS, P.; LINSKOG, F.; MCNIEL, A. Modelling dependence with copulasand applications to risks management. Handbook of Heavy Tailed Distributions inFinance, ed. S. Rachev, Elsevier, Chapter 8, p. 329-384, 2003.
FRANK, M. J. On the simultaneous associativity of F(x, y) and x + y - F(x, y).Aequations Mathematicae, v.19, p.194-226, 1979.
GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiplesequences. Statistical Science, v.7, p.457-511, 1992.
GENEST, C.; GHOUDI, K.; RIVEST, L. P. A semiparametric estimation procedureof dependence parameters in multivariate families of distributions. Biometrika, v.82,n.3, p.543-552, 1995.
GUSTAFSON, P.; AESCHLIMAN, D.; LEVY, A. R. A simple approach to fittingbayesian survival models. Lifetime Data Analysis, v.9, p.5-19, 2003.
HOUGAARD, P. Fitting a multivariate failure time distribution. IEEETransactions on Reliability, v.38, p.444-448, 1989.
JAWORSKI, P. Copula theory and its applications. In: Jaworski, P.; Durante,F.; Hardle; T. Rychlik, W. (Eds.). Proceedings of the Workshop Held in Warsaw.Heidelberg: Springer, 2010. v.198, p.237-261 (Lecture Notes in Statistics).
JOE, H. Multivariate models and dependence concepts. London: Chapman andHall, 1997. 424p.
406 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
KOLEV, N.; DOS ANJOS, U.; MENDES, B. V. M. Copulas: A review and recentdevelopments. Stochastic Models, v.22, n.4, p.617-660, 2006.
LAWLESS, J. F. Statistical models and methods for lifetime data. New York: Wileyand Sons, 2003. 664p.
LOUZADA, F.; SUZUKI, A. K.; CANCHO, V. G.; PRINCE F. L.; PEREIRA,G. A. The long-term bivariate survival FGM copula model: an application to abrazilian HIV data. Journal of Data Science, v.10, p.511-535, 2012.
LOUZADA, F.; SUZUKI, A. K.; CANCHO, V. G. The FGM long-termbivariate survival copula model: model, bayesian estimation, and case influencediagnostics.Communications in Statistics - Theory and Methods, v.42, n.4, p.673-691, 2013.
LUNN, D. G.; THOMAS, A.; BEST, N.; SPIEGELHALTER, D. WinBUGS – aBayesian modelling framework: concepts, structure, and extensibility. Statisticsand Computing, v.10, p.325-337, 2000.
MALLER, R. A.; ZHOU, X. Survival analysis with long-term survivors. New York:Wiley and Sons, 1996. 308p.
MCGILCHRIST C. A.; AISBETT C. W. Regression with frailty is survival analysis.Biometrics, v.47, p.461-466, 1991.
MEESTER, S.; MACKAY, J. A parametric model for cluster correlated categoricaldata. Biometrics, v.50, p.954-963, 1994.
NELSEN, R. An introduction to copulas. 2.ed. New York: Springer, 2006. 272p.
OAKES, D. Bivariate survival models induced by frailties. Journal of the AmericanStatistical Association, v.84, p.487-493, 1989.
PATTON, A. J. A review of copula models for economic time series. Journal ofMultivariate Analysis, v.110, p.4-18, 2012.
PENG, F.; DEY, D. Bayesian analysis of outlier problems using divergencemeasures. The Canadian Journal of Statistics - La Revue Canadienne deStatistique, v.23, p.199-213, 1995.
PLUMMER, M.; BEST, N.; COWLES, K.; VINES, K. Output analysis anddiagnostics for MCMC. R News, v.6, n.1, p.7-11, 2006.
R DEVELOPMENT CORE TEAM. R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing: Vienna, Austria, v.2, n.1,2012.
RODRIGUES, J.; DE CASTRO, M.; CANCHO, V. G.; LOUZADA NETO, F. Onthe unification of long-survival models. Statistics and Probabilities Letters, v.79,p.753-759, 2009.
ROMEO, J. S.; TANAKA, N. I.; PEDROSO DE LIMA, A. C. Bivariate survivalmodeling: a bayesian approach based on copulas. Lifetime Data Analysis, v.12,p.205-222, 2006.
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 407
SALVADORI, G.; DE MICHELE, C.; KOTTEGODA, N. T.; ROSSO, R. Extremesin Nature: An Approach Using Copulas. Dordrecht (NL): Springer, 2007. v.56,292p. (Series: Water Science and Technology Library).
SHIH, J. H.; LOUIS, T. A. Inferences on the association parameter in copula modelsfor bivariate survival data. Biometrics, v.51, p.1384-1399, 1995.
SUZUKI, A. K.; LOUZADA-NETO, F.; CANCHO, V. G.; BARRIGA, G. D. C.The FGM bivariate lifetime copula model: a bayesian approach. Advances andApplications in Statistics, v.21, n.1, p.55-76, 2011.
TRIVEDI, P. K.; ZIMMER, D. M. Copula modelling: an introduction forpractitioners. Foundations and Trends in Econometrics, v.1, p.1-111, 2005.
VIDAL, I.; CASTRO, L. M. Influential observations in the independent Student-t measurement error model with weak nondifferential error. Chilean Journal ofStatistics, v.1, p.17-34, 2010.
WEISS, R. An approach to Bayesian sensitivity analysis. Journal of the RoyalStatistical Society Series B, p.739-750, 1996.
ZHANG, S.; ZHANG, Y.; CHALONER, K.; STAPLETON, J. T. A copula modelfor bivariate hybrid censored survival data with application to the MACS study.Lifetime Data Analysis, v.16, p.231-249, 2010.
Recebido em 23.04.2014.
Aprovado apos revisao em 28.08.2014.
408 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
Apendice
Neste apendice vamos apresentar as derivadas da funcao de sobrevivenciaconjunta para os tempos de falhas pareados, utilizando as copulas de Clayton eFrank, que sao utilizadas na composicao da funcao de log-verosimilhanca utilizadaspara se fazer as inferencias por meio da metodologia bayesiana. Tambem, os codigosWinBUGS utilizados neste trabalho.
Apendice A
Assumindo um modelo de sobrevivencia bivariado baseado na copulade Clayton (ver Clayton, 1978) temos que S(t1;t2) = Cϕ(S1(t1);S2(t2)) =
(S1(t1)−ϕ + S2(t2)
−ϕ − 1)−1ϕ , ϕ ∈ R+.
Considere a funcao ν(t1;t2) = S1(t1)−ϕ + S2(t2)
−ϕ − 1. Pelo
fato de que −dSj(tj)dtj
= fj(tj), j = 1, 2, obtemos ∂S(t1;t2)∂t1
=
−ν(t1;t2)−1ϕ−1S1(t1)
−ϕ−1f1(t1);∂S(t1;t2)∂t2
= −ν(t1;t2)−1ϕ−1S2(t2)
−ϕ−1f2(t2) e∂2S(t1;t2)∂t1∂t2
= ν(t1;t2)− 1
ϕ−2(∏2j=1 Sj(tj)
−ϕ−1fj(tj))(1 + ϕ).
Apendice B
Assumindo um modelo de sobrevivencia bivariado baseado na copulade Frank (ver Frank (1979)) temos que S(t1;t2) = Cϕ(S1(t1);S2(t2)) =
logϕ
(1 + (ϕS1(t1)−1)(ϕS2(t2 )−1)
ϕ−1
).
Considere as funcoes: Vj(tj) = ϕSt(tj), j = 1, 2 e ν(t1;t2) = 1 +(ν1(t1)−1)(ν2(t2)−1)
ϕ−1 . Pelo fato de que −dSj(tj)dtj
= fj(tj), j = 1, 2, obtemos
∂S(t1;t2)∂t1
= − v1(t1)f1(t1)(v2(t2)−1)(ϕ−1)v(t1;t2)
; ∂S(t1;t2)∂t2
= −v2(t2)f2(t2)(v1(t1)−1)(ϕ−1)v(t1,t2)
e ∂2S(t1;t2)∂t1∂t2
=∏2j=1 vj(tj)fj(tj) lnϕ
v(t1;t2)[(ϕ+1)∏2
j=1(vj(tj)−1)].
Apendice C
Codigos WinBUGS para o modelo Clayton com marginais Weibull.
model{
for (i in 1:N){theta1[i]← exp(beta01 + beta11 ∗ x1[i])theta2[i]← exp(beta02 + beta12 ∗ x2[i])
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 409
# Funcao de sobrevivencia marginals1[i]← exp(−theta1[i] ∗ pow(t1[i], r1))s2[i]← exp(−theta2[i] ∗ pow(t2[i], r2))
# Funcao de densidade marginalf1[i]← exp(−theta1[i] ∗ pow(t1[i], r1)) ∗ theta1[i] ∗ r1 ∗ pow(t1[i], r1− 1)f2[i]← exp(−theta2[i] ∗ pow(t2[i], r2)) ∗ theta2[i] ∗ r2 ∗ pow(t2[i], r2− 1)
s[i]← pow(s1[i],−alpha) + pow(s2[i],−alpha)− 1
# Funcao de verossimilhancaL[i]← pow(1 + alpha, d1[i] ∗ d2[i]) ∗ pow(s[i],−1/alpha− d1[i]− d2[i]) ∗ pow(s1[i],−(alpha+ 1)∗d1[i]) ∗ pow(s2[i],−(alpha+ 1) ∗ d2[i]) ∗ pow(f1[i], d1[i]) ∗ pow(f2[i], d2[i])
zeros[i]← 0phi[i]← log(L[i])zeros[i] ∼ dloglik(phi[i])}
# Priorisalpha ∼ dgamma(1, 0.001)r1 ∼ dgamma(1, 0.001)r2 ∼ dgamma(1, 0.001)beta01 ∼ dnorm(0, 0.001)beta11 ∼ dnorm(0, 0.001)beta02 ∼ dnorm(0, 0.001)beta12 ∼ dnorm(0, 0.001)}
Codigos WinBUGS para o modelo Frank com marginais Weibull.
model{
for (i in 1:N){theta1[i]← exp(beta01 + beta11 ∗ x1[i])theta2[i]← exp(beta02 + beta12 ∗ x2[i])
# Funcao de sobrevivencia marginals1[i]← exp(−theta1[i] ∗ pow(t1[i], r1))s2[i]← exp(−theta2[i] ∗ pow(t2[i], r2))
# Funcao de densidade marginal
410 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014
f1[i]← exp(−theta1[i] ∗ pow(t1[i], r1)) ∗ theta1[i] ∗ r1 ∗ pow(t1[i], r1− 1)f2[i]← exp(−theta2[i] ∗ pow(t2[i], r2)) ∗ theta2[i] ∗ r2 ∗ pow(t2[i], r2− 1)
v1[i]← pow(alpha, s1[i])v2[i]← pow(alpha, s2[i])s[i]← 1 + (v1[i]− 1) ∗ (v2[i]− 1)/(alpha− 1)
# Funcao de verossimilhancaL[i]← pow(v1[i] ∗ f1[i], d1[i]) ∗ pow(v2[i] ∗ f2[i], d2[i]) ∗ pow(log(alpha), d1[i] + d2[i]− 1)∗pow(alpha− 1,−d1[i]− d2[i] + 2 ∗ d1[i] ∗ d2[i]) ∗ pow(s[i], d1[i] ∗ d2[i]− d1[i]− d2[i])∗pow(log(s[i]), (1− d1[i]) ∗ (1− d2[i])) ∗ pow(alpha− 1 + (v1[i]− 1) ∗ (v2[i]− 1),−d1[i] ∗ d2[i])∗pow(v2[i]− 1, d1[i] ∗ (1− d2[i])) ∗ pow(v1[i]− 1, d2[i] ∗ (1− d1[i]))
zeros[i]← 0phi[i]← log(L[i])zeros[i] ∼ dloglik(phi[i])}
# Priorisalpha ∼ dbeta(1, 1)r1 ∼ dgamma(1, 0.001)r2 ∼ dgamma(1, 0.001)beta01 ∼ dnorm(0, 0.001)beta11 ∼ dnorm(0, 0.001)beta02 ∼ dnorm(0, 0.001)beta12 ∼ dnorm(0, 0.001)}
Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 411
Recommended