Upload
internet
View
104
Download
0
Embed Size (px)
Citation preview
Um Consenso Completamente Resolvido entre Árvores Filogenéticas Completamente Resolvidas
José Augusto Amgarten Quitzau
Organização
Introdução n-Árvores e Sistemas de Cortes Métodos de Consenso Árvore Mais Provável Um Algoritmo para Determinar as
Árvores Mais Prováveis Testes
Introdução
Introdução
Introdução
Introdução
Grafo: Acíclico Conexo Com no máximo um vértice de grau 2.
Introdução
Vértices de grau 1 são denominados folhas
Todos os demais são nós internos No máximo um vértice pode ser eleito
para ser a raiz da árvore Se houver um vértice de grau 2, ele é
obrigatoriamente a raiz Denotamos o conjunto de folhas por L
Introdução
Vértices de grau maior que três são denominados politomias
Uma árvore filogenética sem politomias é considerada completamente resolvida
n-Árvores e Sistemas de Cortes
Sistema de Classificação de Linnaeus Hierarquia de Classes Cada ser vivo pertence a exatamente
uma classe em cada nível da hierarquia Se um ser vivo de uma classe qualquer A
num nível inferior pertence a uma classe qualquer B num nível superior, então A B
Os subconjuntos de L determinados pelas classes são o que se costuma chamar de uma n-Árvore
n-Árvores e Sistemas de Cortes
Um conjunto de subgrupos (subconjuntos) de L é denominado uma n-árvore se e somente se as quatro condições abaixo forem verificadas: L {x} para todo x L AB {A, B, } para todos os
subgrupos A,B
n-Árvores e Sistemas de Cortes
Toda n-árvore determina exatamente uma árvore filogenética com raiz.
Dizemos que uma n-Árvore é completamente resolvida se e somente se a inclusão em de qualquer subgrupo não vazio que não pertença a fere a condição de que AB {A, B, } para todos os subgrupos A, B
n-Árvores e Sistemas de Cortes
Uma n-árvore é completamente resolvida se e somente se para qualquer subgrupo S com cardinalidade maior que um existirem dois subgrupos A,B tais que AB = S e AB = [Teo 2.2.3]
O número de subgrupos de uma n-árvore completamente resolvida sobre L é 2|L| - 1 [Teo 2.2.4]
n-Árvores e Sistemas de Cortes
L= {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}; {1, 2, 3, 4, 5, 6, 7, 8, 15, 16, 17, 18, 19}; Protista = {1, 2, 3, 4, 5, 6, 7, 8}; Plantae = {9, 10, 11, 12, 13, 14}; {1, 2, 3, 5, 6, 7, 8}; Animalia = {5, 16, 17, 18, 19}; {16, 17, 18, 19}; {9, 10, 11, 12}; {16, 17, 18}; {9, 10, 11}; {6, 7, 8}; {1, 3, 5}; {16, 17}; {13, 14}; {9, 11}; {6, 7}; {1, 3}; {19}; {18}; {17}; {16}; {15}; {14}; {13}; {12}; {11}; {10}; {9}; {8}; {7}; {6}; {5}; {4}; {3}; {2}; {1}
n-Árvores e Sistemas de Cortes
n-Árvores e Sistemas de Cortes
n-Árvores e Sistemas de Cortes
Um corte S={A,B} de um conjunto qualquer X é uma bipartição de X em dois subconjuntos não vazios A e B
Dois cortes S e S’ são chamados compatíveis se e somente se existem cortes AS e A’S’ tais que AA’=; caso contrário, eles são chamados incompatíveis
Um conjunto de cortes é chamado um sistema de cortes
n-Árvores e Sistemas de Cortes
A distância de cortes () entre dois sistemas de cortes é definido como o número mínimo de inserções e remoções de cortes que deve ser aplicado em um sistema para transformá-lo no outro.
(S1,S2) = |S1| + |S2| - 2|S1S2|
[Teo2.1.6]
n-Árvores e Sistemas de Cortes
A função é uma enumeração arbitrária dos elementos de L
Se R é um subgrupo de L,(R) = {(r) | r R}
Sejam R e S subgrupos de L, então R<S se e somente se: |R| < |S|, ou min((R\S)) < min((S\R))
Se A, B e C são três subgrupos distintos de L. Se A<B e B<C, então A<C[Teo 2.3.2]
n-Árvores e Sistemas de Cortes
Seja S={A,B} um corte de L tal que A<B, então chamamos A de subgrupo pequeno de S e denotamos A por Sp
Dois cortes são compatíveis se e somente se seus subgrupos pequenos são compatíveis
[Teo 2.3.3]
Seja L um conjunto de cardinalidade maior que dois e T uma árvore filogenética sem raiz com conjunto de folhas L. Então T é completamente resolvida se e somente se F(T) tiver exatamente três n-árvores maximais e estas árvores forem completamente resolvidas [Teo 2.3.5]
Métodos de Consenso
Métodos de Consenso
Consenso Estrito
Componentes Combináveis
Consenso de Nelson
Regra da Maioria
Árvore Mais Provável
Seja L um conjunto de unidades taxonômicas e T uma coleção não vazia qualquer de árvore filogenéticas completamente resolvidas e sem raiz com conjunto de folhas L
Freqüência relativa com que o corte C é encontrado numa coleção de cortes:
Peso de uma árvore:
Uma árvore que maximiza p(T,T ) é uma Árvore Mais Provável para o conjunto.
Árvore Mais Provável
Definições semelhantes para subgrupos:
Freqüência relativa com que o subgrupo C é encontrado numa coleção de cortes:
Peso de uma n-árvore:
O Algoritmo
Usa a relação entre peso de árvores e peso de n-árvores dada pelo Teorema 6.0.2:
Baseado no Teorema 2.3.5, procura encontrar pares de subgrupos para tentar resolver subgrupos maiores
O Algoritmo
Um subgrupo S é considerado resolvido se: |S| = 1, ou Há um par de subgrupos A,B associados a ele tal
que AB=S e AB=
O algoritmo usará uma estrutura composta por três tipos de sub-estruturas para representar as árvores mais prováveis
O Algoritmo
Analisa todos os possíveis pares de subgrupos pequenos encontrados na coleção de árvores
Cada par A,B de subgrupos pode se enquadrar em exatamente um dos três casos abaixo: O par é solução de um terceiro subgrupo
pequeno
O subgrupo C = L\{AB} é um subgrupo pequeno e {A, B, C} pode ser uma Árvore mais provável
Nenhum dos casos acima ocorre
O Algoritmo
Analisa todos os possíveis pares de subgrupos pequenos encontrados na coleção de árvores
Cada par A,B de subgrupos pode se enquadrar em exatamente um dos três casos abaixo: O par é solução de um terceiro subgrupo
pequeno O par é condicionalmente adicionado à lista de soluções
O subgrupo C = L\{AB} é um subgrupo pequeno e {A, B, C} pode ser uma Árvore mais provável
A tripla é condicionalmente adicionada à lista de árvores
Nenhum dos casos acima ocorre O par é descartado
O Algoritmo
O Algoritmo
O Algoritmo
Complexidade: O(l2t2lglt)
O Algoritmo
Complexidade: O(l2t2lglt)
O Algoritmo
TestesNr. Softwar
eDetalhes
1 fastMe Distâncias obtidas pelo modelo de Jukes-Cantor
2 fastMe Distâncias obtidas pelo modelo de 2 parâmetros de Kimura (K2P)
3 Mega Reconstrução por evolução mínima e distâncias por Jukes-Cantor
4 Mega Reconstrução por evolução mínima e distâncias por K2P
5 Mega Reconstrução por evolução mínima e distâncias por Tamura-Nei
6 Mega Reconstrução por maximização de parcimônia através de troca de vizinhos
7 Mega Reconstrução por Neighbor-Joining e distâncias por Jukes-Cantor
8 Mega Reconstrução por Neighbor-Joining e distâncias por K2P
9 Mega Reconstrução por Neighbor-Joining e distâncias por Tamura-Nei
10 Dnacomp Reconstrução por compatibilidade
11 Dnaml Reconstrução por probabilidade máxima
12 Dnamlk Reconstrução por probabilidade máxima assumindo a hipótese do relógio molecular
13 Dnapars Reconstrução por maximização de parcimônia
14 Neighbor Reconstrução por Neighbor-Joining e distâncias por Jukes-Cantor
15 Neighbor Reconstrução por Neighbor-Joining e distâncias por K2P
16 Neighbor Reconstrução por UPGMA e distâncias por Jukes-Cantor
17 Neighbor Reconstrução por UPGMA e distâncias por K2P
18 Weighbor Distâncias obtidas pelo modelo de Jukes-Cantor
19 Weighbor Distâncias obtidas pelo modelo K2P
TestesCD1 CD2 CD3 CD4 REAIS
C M M C M M C M M*
O 48 48 118 86 88 108 88 88 88
1 26 26 66 36 38 64 18 50 22
2 26 26 72 40 42 70 26 56 30
3 30 30 60 24 20 46 n/u 50 n/u
4 34 34 62 30 34 40 n/u 50 n/u
5 34 34 66 20 24 40 n/u 60 n/u
6 46 46 112 64 72 96 n/u 76 n/u
7 28 28 74 24 22 56 n/u 52 n/u
8 18 18 72 36 36 56 n/u 54 n/u
9 26 26 78 18 18 56 n/u 58 n/u
10 144 144 118 172 172 112 n/u 126 n/u
11 44 44 108 72 72 88 - - -
12 - - - - - - - - -
13 46 46 94 66 66 94 74 64 74
14 16 16 50 26 24 46 32 62 28
15 18 18 50 22 16 56 32 62 28
16 100 100 106 122 120 102 n/u 50 n/u
17 102 102 104 122 120 102 n/u 50 n/u
18 22 22 54 36 26 58 38 54 38
19 22 22 54 32 26 62 n/u 58 n/u
MÉDIA 43,68 43,68 77,78 53,44 52,67 69,11 36,67 60,17 36,67
EX 144 144 118 172 172 112 88 126 88
IS 16 16 50 18 16 40 18 50 22
Testes
CD1 CD2 CD3 CD4 REAIS
C M M C M M C M M*
PERDE 5 5 11 2 4 5 0 0 0
EMPATA 0 0 1 2 2 1 1 1 1
GANHA 13 13 6 14 12 12 5 16 5
% 72% 72% 33% 78% 67% 67% 83% 94% 83%