44
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Embed Size (px)

Citation preview

Page 1: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE

ALCANCE VARIÁVEL

Denise Duarte11 de junho de 2010

Page 2: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

O banco de dadosO banco de dados foi obtido no instituto NCBI, (National

Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em

ftp://ftp.genome.jp/pub/kegg que conduz pesquisas na área de biologia computacional.

O banco consistia de arquivos com as bases nitrogenadas que formam a seqüência de DNA do genoma humano, para cada um dos 22 pares de cromossomos existentes.

Dentro de cada arquivo (ou cromossomo), existia a subdivisão em genes. Foi usada a amostragem de 100.000 bases nitrogenadas (em alguns casos chega a milhões de bases).

Page 3: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

O filamento de DNA de cada um dos genes é formado por duas seqüências de bases nitrogenadas ligadas umas as outras. São essas bases:

• Adenina =A• Citosina = C• Guanina = G• Timina = T

O arquivo continha dados de apenas um lado da seqüência, já que o outro pode ser obtido observando como as bases se ligam. A se liga exclusivamente a T, C se liga exclusivamente a G, e vice versa para os dois casos

Alfabeto

Page 4: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 5: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Seja {X_(t em T)} um processo estocástico que descreve a evolução de algum fenômeno ao longo do tempo (t), assumindo valores em S= {0, 1, 2...} (discreto). Sendo Xt o estado da cadeia no instante t, se o processo tem a propriedade de:

P(Xt = j / X0 = x0, X1= x1, ... , Xt-1= i) = P(Xt = J / Xt-1= i)

para quaisquer estados então o processo é denominado uma Cadeia de Markov de ordem 1. A distribuição condicional de qualquer estado futuro dado os vários estados passados e o estado presente é independente dos estados passados e depende unicamente desse estado presente.

Cadeias de Markov

Page 6: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Matriz de probabilidades de transição

nnnnn

n

n

n

PPPP

PPPP

PPPP

PPPP

n

P

n

210

2222120

1121110

0020100

2

1

0

2 1 0

As probabilidades de transição em uma cadeia de As probabilidades de transição em uma cadeia de Markov de ordem 1, homogênea no tempo, podem ser Markov de ordem 1, homogênea no tempo, podem ser descritas através de uma matriz estocástica da forma:descritas através de uma matriz estocástica da forma:

onde Ponde Pij ij é a probabilidade é a probabilidade de transição do estado i de transição do estado i

para o estado j em uma etapa.para o estado j em uma etapa.

Page 7: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

EMV para probabilidades de Transição em Cadeias de Markov

)...,,()( 1100 nn xXxXxXpCML

1

01100 /)(

n

iiiii xXxXpxXpCML

i

ji

nijiiPxCML

,00)(

i

ijij n

np ^

Então, o EMV para cada uma das probabilidades de transição é dado por

A função de verossimilhança para uma cadeia de Markov de ordem 1 é dada por:

Page 8: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Cadeias de Markov de ordem K

• P(Xt = Xt / X0 = x0, X1= x1, ... , Xt-1= xt-1) = P(Xt = xt / Xt-1= xt-1, Xt-2= xt-2,... , Xt-k= xt-k)

Se a ordem da cadeia é K devemos olhar k passos no passado para definir a probabilidade de ir para um estado no presente.

Page 9: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Seleção de modelos via BIC

A idéia do BIC para selecionar modelos é penalizar a Verossimilhança pelo número K, onde K é número de parâmetros independentes a serem estimados.

onde é o espaço paramétrico

correspondente ao modelo com K parâmetros.

nklk k logmax2BIC

k

Page 10: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 11: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 12: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 13: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Resultados via Cadeias de Markov

Observa-se que apenas para o cromossomo 6, houve coincidência da ordem estimada pelo BIC para os genes. A melhor ordem ajustada foi a ordem 2.

Para o cromossomo 10 observou-se ordem diferentes para os genes, sendo que um deles foi melhor ajustado pelo modelo de ordem 3.

No caso do cromossomo 11, em um dos genes não foi possível calcular o EMV e não foi possível estimar o BIC. Isso porque algumas probabilidades de transição da matriz apresentaram o valor zero, o que comprometeu uma análise da verossimilhança.

Page 14: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Ordem estimada para enzimas responsáveis pelo paladar

Proteínas Ordem testadaNº Parâmetros estimados (K)

Verossmilhança BIC

1 12 -4.661,65 -9.421,252 48 -4.615,63 -9.623,053 192 -4.500,32 -10.567,851 12 -5.093,69 -10.286,152 48 -5.042,40 -10.479,883 192 -4.918,07 -11.416,471 12 -4.275,20 -8.647,362 48 -4.220,54 -8.828,983 192 -4.124,49 -9.800,561 12 -1.344,05 -2.771,192 48 -1.319,42 -2.971,233 1921 12 -1.266,54 -2.615,442 48 -1.244,97 -2.819,403 1921 12 -2.668,84 -5.428,942 48 -2.627,75 -5.620,563 1921 12 -2.049,86 -4.187,792 48 -2.020,73 -4.393,733 192 -1.965,06 -5.339,191 12 -3.268,88 -6.631,922 48 -3.195,03 -6.766,733 192 -3.125,18 -7.757,05

83756

GRUPO 1 - Enzimas responsáveis pela transmissão dos sabores.

112

114

196883

259285

338398

6337

40

Não estimável

Não estimável

Não estimável

Page 15: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Proteínas Ordem testadaNº Parâmetros estimados (K)

Verossmilhança BIC

1 12 -4.601,08 -9.299,862 48 -4.531,48 -9.453,773 192 -4.384,14 -10.331,511 12 -3.675,63 -7.446,282 48 -3.641,03 -7.662,103 192 -3.575,60 -8.671,371 12 -3.682,80 -7.460,682 48 -3.637,39 -7.655,083 192 -3.545,37 -8.611,961 12 -1.638,36 -3.362,092 48 -1.603,81 -3.549,133 1921 12 -970,51 -2.020,312 48 -953,78 -2.224,743 1921 12 -824,68 -1.726,692 48 -803,82 -1.916,953 1921 12 -2.011,53 -4.110,722 48 -1.967,89 -4.286,433 192 -1.898,10 -5.198,80

Não estimável

Não estimável

Não estimável

GRUPO 2 - Enzimas responsáveis pela transmissão dos cheiros.

109

1179

409

5132

9626

818

22802

Ordem estimada para enzimas responsáveis pelo Olfato

Page 16: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Ordem estimada para enzimas do metabolismo da cafeína

Proteínas Ordem testadaNº Parâmetros estimados (K)

Verossmilhança BIC

1 12 -1.162,10 -2.405,472 48 -1.135,97 -2.596,983 1921 12 -2.037,98 -4.164,122 48 -1.996,75 -4.346,133 1921 12 -1.980,41 -4.048,462 48 -1.949,39 -4.249,323 1921 12 -1.974,65 -4.036,952 48 -1.940,32 -4.231,193 1921 12 -1.974,65 -4.036,952 48 -1.940,32 -4.231,193 1921 12 -5.324,83 -10.749,202 48 -5.262,47 -10.923,073 192 -5.174,63 -11.941,811 12 -1.160,11 -2.401,492 48 -1.145,47 -2.615,993 192

1544

1548Não estimável

Não estimável

Não estimável

Não estimável

1549

1553

7498

9

GRUPO 4 - Enzimas responsáveis pelo metabolismo da cafeína

10Não estimável

Não estimável

Page 17: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Modelo selecionado pelo BIC

• Observou-se que para todos os grupos de proteínas a melhor ordem apontada pelo BIC é a ordem 1.

• Observou-se também que as matrizes de probabilidade de transição estimadas eram muito semelhantes.

Page 18: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Teste da Razão de Verossimilhança para comparação das matrizes de

transição

XL

XLx

,ˆ,ˆ

)(0

1

i

ji

nij

i

ji

nij

i

ji

nij

ii

iiii

wx

qxpx

x

,00

,00

,00

)( , ou ainda:

ijij

ijijijij

wn

qnpnx

log

loglog)(

ji, algum para:

ji, todopara:

1

0

ijij

ijij

qpH

qpH

Page 19: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

TRV para comparação de matrizes de transição do grupo 1: paladar

112 114 196833 33839 6337 40 2599285 83756112 12,486 12,307 10,705 11,749 11,384 10,805 12,153114 12,486 12,331 10,696 11,761 11,385 10,785 12,201

196833 12,307 12,331 10,670 11,688 11,339 10,770 12,08833839 10,705 10,696 10,670 10,414 10,208 9,830 10,6446337 11,749 11,761 11,688 10,414 10,975 10,501 11,587

40 11,384 11,385 11,339 10,208 10,975 10,280 11,2692599285 10,805 10,785 10,770 9,830 10,501 10,280 10,754

83756 12,153 12,201 12,088 10,644 11,587 11,269 10,754

Valors do TRV para as proteínas do grupo 1 (PALADAR)

(24-12)=12 graus de liberdade, o que nos dá um valor crítico de 23,33 a 5%.

drdll 2

012

Page 20: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

TRV para comparação de matrizes de transição do grupo 2: olfato

109 409 1179 22802 9626 5132 818109 10,524 12,098 12,144 10,076 10,352 11,263409 10,524 10,941 10,972 9,612 9,820 10,426

1179 12,098 10,941 11,858 9,956 10,215 11,12522802 12,144 10,972 11,858 9,958 10,212 11,1559626 10,076 9,612 9,956 9,958 9,163 9,6795132 10,352 9,820 10,215 10,212 9,163 9,901818 11,263 10,426 11,125 11,155 9,679 9,901

Valores do TRV para proteínas do grupo 2 (OLFATO)

Page 21: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

TRV para comparação de matrizes de transição do grupo 4: metabolismo da cafeína

9 1549 10 1544 7498 1548 15539 10,635 9,570 10,159 10,589 10,078 10,083

1549 10,635 10,077 10,708 11,394 10,623 10,62910 9,570 10,077 10,154 10,583 10,071 10,077

1544 10,159 10,708 10,154 11,502 10,702 10,7087498 10,589 11,394 10,583 11,502 11,386 11,3941548 10,078 10,623 10,071 10,702 11,386 10,6231553 10,083 10,629 10,077 10,708 11,394 10,623

Valores do TRV para proteínas do grupo 4 (METABOLISMO DA CAFEÍNA)

Page 22: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Conclusões

• Adotando-se o TRV como método de comparação conclui-se que as proteínas dentro de um mesmo grupo podem possuir a mesma lei de formação, já que para nenhum dos grupos, em nenhuma das comparações foi rejeitada a hipótese nula de que as probabilidades de transições são iguais para todas as entradas das matrizes.

Page 23: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

• Seja o número fixo de parâmetros (estados) da cadeia de Markov, observe na tabela abaixo, considerando como exemplo = 4, como o número de parâmetros livres cresce quando aumentamos sua ordem.

Ordem 0 1 2 3 4 5 10

Número de Parâmetros livres 3 12 48 192 768 3072 3,1.106

Crescimento exponencial do número de parâmetros com a ordem da cadeia

Page 24: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Passados possíveis a c g T

aa Paa a Paa c Paa g 1-( Paa a + Paa c + Paa g)

ac Pac a Pac c Pac g 1-( Pac a + Pac c + Pac g)

ag Pag a Pag c Pag g 1-( Pag a + Pag c + Pag g)

at Pat a Pat c Pat g 1-( Pat a + Pat c + Pat g)

ca Pca a Pca c Pca g 1-( Pca a + Pca c + Pca g)

cc Pcc a Pcc c Pcc g 1-( Pcc a + Pcc c + Pcc g)

cg Pcg a Pcg c Pcg g 1-( Pcg a + Pcg c + Pcg g)

ct Pct a Pct c Pct g 1-( Pct a + Pct c + Pct g)

ga Pga a Pga c Pga g 1-( Pga a + Pga c + Pga g)

gc Pgc a Pgc c Pgc g 1-( Pgc a + Pgc c + Pgc g)

gg Pgg a Pgg c Pg g 1-( Pgg a + Pgg c + Pgg g)

gt Pgt a Pgt c Pgt g 1-( Pgt a + Pgt c + Pgt g)

ta Pta a Pta c Pta g 1-( Pta a + Pta c + Pta g)

tc Ptc a Ptc c Ptc g 1-( Ptc a + Ptc c + Ptc g)

tg Ptg a Ptg c Ptg g 1-( Ptg a + Ptg c + Ptg g)

tt Ptt a Ptt c Ptt g 1-( Ptt a + Ptt c + Ptt g)

Page 25: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Dizemos que o processo é uma Cadeia com Memória de Alcance Variável ( VLMC ou PCT) se as

probabilidades de transição satisfazem à seguinte propriedade:

),...,|(),...,|( 111100 ttltlttttttt xXxXxXxXxXxX

Onde 1 xcl

Se l = 0 para todo t, o processo é ndependente.

Cadeias com Memória de Alcance Variável

Page 26: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Contexto

• Para estimar o estado da cadeia não consideramos todo o seu passado, e sim apenas parte do passado que é relevante na estimação do estado presente, que chamamos contexto. Representamos o contexto observado por 0

kc

Page 27: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Árvore de contextos

• O conjunto de todos os contextos pode ser representado como uma árvore. O presente é representado pela raiz. Os galhos são os passados, quanto mais longe da raiz é o nó mais distante é o passado. Cada nó tem no máximo arestas, que é o tamanho do espaço de estados da cadeia.

Page 28: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

raiz

0 1

0 1 1

1

Contextos:

0c =

1, 0 se 1x = 1 e 2x = 0 , 3x qualquer

1, 1, 1 se 1x = 1, 2x = 1 e 3x = 1, 4x qualquer

0, 1 se 1x = 0 e 2x = 1 , 3x qualquer

Representação gráfica de uma Arvore de Contextos (PCT)

Page 29: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Exemplo de uma árvore de contextos para uma Cadeia de Markov de ordem 2:

raiz

0 1

0 1 1 0

Page 30: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Alguns algoritmos tem sido apresentadas na literatura para estimar uma árvore probabilística de contexto(PCT ou VLMC) e também as probabilidades de transição. Uma lista incompleta inclui Ron et al. (1996), Buhlmann e Wyner (1999)(VLMC) e Galves et al. (2009).

Uma abordagem diferente é proposta Csiszar e Talata (2006). Eles mostraram que uma árvore probabilística de contexto pode ser consistentemente estimada em um tempo linear usando o Critério de Informação Bayesiana (BIC)(1995).

Estimação das Árvores

Page 31: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Algoritmo G3L

• Em Galves, Galves, Garcia e Leonardi (2009) é introduzido o critério do menor maximizador (smallest maximizer criterion) para estimar uma VLMC ou PCT, como vem sido chamado. Este critério seleciona a árvore na classe das campeãs estimadas pelo BIC, para cada valor da constante

de penalização. Este algoritmo é chamado de G3L.

Onde é a verossimilhança da árvore dada a amostra e denota o número de graus de liberdade do modelo correspondente da árvore de contexto .

}log)()(logmaxarg 1

^

ndfcXL nbic

)( 1nXL

)(df

Page 32: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr6g1 :

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t c g

t

a

a

g

c g t

a c a c g t

A ordem do modelo VLMC para o primeiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 28

Page 33: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 34: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010
Page 35: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr10g3 :A ordem para o modelo VLMC para o terceiro gene do cromossomo 10 encontrado é 2, com um número de

contextos igual a 16.

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

Page 36: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr11g1 :

• A ordem máxima do modelo para o primeiro gene do cromossomo 11 não pôde ser encontrada, por limitações computacionais, pois esse gene possui uma cadeia com praticamente todos os contextos em suas ordens. Com uma ordem 4 (máxima ordem visível) obteve-se um número de contextos igual a 240, sendo inviável a reprodução de sua árvore de contextos aqui.

Page 37: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr11g2 :A ordem do modelo encontrado é 3, com um número de

contextos igual a 25.

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t c g t a a g c g t a c

Page 38: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr11g3 :A ordem do modelo encontrado é 3, com um número de contextos

igual a 22.

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t a g c g t a c

Page 39: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t c g t a a g c g t a c

t c g

t a

a

g c g t a c a c g t t c g t

a

a g

c g t

a c

t c g t a a g c g t a c a c g t

t c g a

a c g t

t c g t

a

a g

c g t

a c a c g t a c g t a c g t

Gene CR6g1

Page 40: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t c g

t

a a

g

c g t

a c a c g t

Gene Cr6g2 :A ordem do modelo VLMC para o segundo gene do cromossomo 6 encontrado é 4, com um número de contextos igual a 36.

Page 41: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Gene Cr6g3: A ordem do modelo VLMC para o terceiro gene do cromossomo 6 encontrado é 5, com um número de

contextos igual a 48.Árvore de contexto:

raiz

t a c g

t a c g c g t t a a g c g t a c

t c g t a a g c g t a c

t c g

t a

a

g c g t a c

a c g t

Page 42: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Comparação: CM x VLMC

Cromossomo 6 Cromossomo 10 Cromossomo 11

Ordem

Parâmetros estimados

Ordem Parâmetros estimados

Ordem Parâmetros estimados

Gene 1 5 28 Gene 1 5 82 Gene 1 4* 181 Gene 2 4 28 Gene 2 6 118 Gene 2 3 25

Gene 3 5 37 Gene 3 2 16 Gene 3 3 22

Cromossomo 6 Cromossomo 10 Cromossomo 11

Ordem

Parâmetros estimados

Ordem Parâmetros estimados

Ordem Parâmetros estimados

Gene 1 2 48 Gene 1 2 48 Gene 1 - não estimável Gene 2 2 48 Gene 2 3 192 Gene 2 2 48 Gene 3 2 48 Gene 3 2 48 Gene 3 2 48

Estimação via Cadeia de Markov

Estimação via Cadeia com Memória de Alcance Variável

Page 43: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

Referências bibliográficas:

1) Guttorp, P. (2001) Stochastic modelling of scientific data. Boca Raton: Chapman & Hall/CRC.

2) Schwarz, G. (1978) Estimating the dimension of a model. Annals of Statistics, v.6, p.461-464.

3) Moraes, R. (2008). Aplicação da Metodologia BIC para estimação da ordem em cadeias de

DNA.Monografia de Final de Curso.

4) Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita, K.F., I toh, M., Kawashima, S., Katayama, T., Araki, M., and Hirakawa, M.; From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res. 34, D354-357 (2006). KEGG database: ftp: / / ftp.genome.jp/pub/kegg

5) Valadão, Glaucia (2009) MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE

CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL, monografia de final de curso.

6) Galves, A., Galves, C., Garcia, N. and Leonardi, F. Context tree selection and linguistic rhythm

retrieval from written texts. ArXiv: 0902.3619v2, 2009. (Disponível em

http://www.ime.usp.br/~leonardi/artigos/galves_et_al_2009.pdf).

7) J. Rissanen. A universal data compression system. Information Theory, IEEE Transactions on, 29(5):656–664, 1983.

8) P. Bühlmann. Model selection for variable length Markov chains and tuning the context algorithm. Ann. Inst. Statist.

Math., 52(2):287–315, 2000.

9) P. Bühlmann and A. J. Wyner. Variable length Markov chains. Ann. Statist., 27:480-513, 1999.

10) I. Csisz´ar and Z. Talata. Context tree estimation for not necessarily finite memory processes, via BIC and MDL. IEEE

Trans. Inform. Theory, 52(3):1007–1016, 2006.

Page 44: MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

• Muito obrigada!