Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
PODSTAWY BIOINFORMATYKI
6 ANALIZA FILOGENETYCZNA
ANALIZA FILOGENETYCZNA
1. Wstęp - filogenetyka
2. Struktura drzewa filogenetycznego
3. Metody konstrukcji drzewa - przykłady
4. Etapy konstrukcji drzewa filogenetycznego
5. Oprogramowanie
Copyright ©2010, Joanna Szyda
KLASTROWANIA KLADYSTYCZNE
• nie uwzględnia powiązań
ewolucyjnych
• uwzględnia powiązania
ewolucyjne (mutacje)
• UPGMA - Unweighted pair
Group Method with
Arithmetic Mean
• Maximum parsimony -
Maksymalne podobieństwo
• Neighbour joining
• Maximum likelihood -
Najwyższe
prawdopodobieństwo
METODY KONSTRUKCJI DRZEW FILOGENETYCZNYCH
• UPGMA - Unweighted pair
Group Method with
Arithmetic Mean
• Maximum parsimony -
Maksymalne podobieństwo
WSTĘP - FILOGENETYKA
METODA KLASTROWANIA
METODY KONSTRUKCJI DRZEWA
METODY KONSTRUKCJI DRZEWA - UPGMA
PRZYKŁAD TWORZENIA DRZEWA METODĄ UPGMA
1. Obliczyć macierz zróżnicowania pomiędzy
osobnikami
2. Wybór najbardziej podobnych osobników = węzeł
3. Obliczenie nowej macierzy zróżnicowania
4. ... powrót do punktu 2
5.
1. Obliczyć macierz zróżnicowania pomiędzy osobnikami
ATCC ATGC TTCG TCGG
ATCC
ATGC
TTCG
TCGG
0 1 2 4
0 3 3
0 2
0
METODY KONSTRUKCJI DRZEWA - UPGMA
2. Wybór najbardziej podobnych osobników = węzeł
ATCC ATGC TTCG TCGG
ATCC
ATGC
TTCG
TCGG
0 1 2 4
0 3 3
0 2
0
METODY KONSTRUKCJI DRZEWA - UPGMA
2. Wybór najbardziej podobnych osobników = węzeł
ATCC ATGC TTCG TCGG
ATCC
ATGC
TTCG
TCGG
0 1 2 4
0 3 3
0 2
0
ATCC ATGC
0.5 0.5
METODY KONSTRUKCJI DRZEWA - UPGMA
3. Obliczenie nowej macierzy zróżnicowania
ATCC
+
ATGC TTCG TCGG
TTCG
TCGG
0 (2+3)/2=2.5 (4+3)/2=3.5
0 2
0
ATCC
+
ATGC
METODY KONSTRUKCJI DRZEWA - UPGMA
4. Wybór najbardziej podobnych osobników = węzeł
ATCC
+
ATGC TTCG TCGG
TTCG
TCGG
0 (2+3)/2=2.5 (4+3)/2=3.5
0 2
0
ATCC
+
ATGC
METODY KONSTRUKCJI DRZEWA - UPGMA
4. Wybór najbardziej podobnych osobników = węzeł
ATCC ATGC
0.5 0.5
ATCC
+
ATGC TTCG TCGG
TTCG
TCGG
0 (2+3)/2=2.5 (4+3)/2=3.5
0 2
0
ATCC
+
ATGC
TTCG TCGG
1 1
METODY KONSTRUKCJI DRZEWA - UPGMA
5. Obliczenie nowej macierzy zróżnicowania
ATCC
+
ATGC
0 (2+4+3+3)/4=3
0
ATCC
+
ATGC
TTCG
+
TCGG
ATCC
+
ATGC
METODY KONSTRUKCJI DRZEWA - UPGMA
6. Wybór najbardziej podobnych osobników = wierzchołek
ATCC ATGC
0.5 0.5
TTCG TCGG
1 1
ATCC
+
ATGC
0 (2+4+3+3)/4=3
0
ATCC
+
ATGC
TTCG
+
TCGG
ATCC
+
ATGC
1.5 1.5
METODY KONSTRUKCJI DRZEWA - UPGMA
1. Najprostsza metoda tworzenia drzew
2. Bardzo szybka
3. Przyjmuje działanie mechanizmu ZEGARA
MOLEKULARNEGO
METODY KONSTRUKCJI DRZEWA - UPGMA
1. Uwzględnia zróżnicowane tempo ewolucji
organizmów
2. Stosunkowo szybka
3. Oszacowanie długości krawędzi
4. Wyniki zależne od założonego modelu
ewolucyjnego
METODY KONSTRUKCJI DRZEWA - NEIGHBOUR JOINING
METODA KLADYSTYCZNA
METODY KONSTRUKCJI DRZEWA
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
PRZYKŁAD TWORZENIA DRZEWA METODĄ
MAKSYMALNEGO PODOBIEŃSTWA
1. Dopasowanie sekwencji kilku organizmów
2. Konstrukcja (wszystkich) możliwych drzew
3. Wybór drzewa wymagającego najmniejszej liczby
mutacji
1. Dopasowanie sekwencji kilku organizmów
sekwencja
1 A A C C G A T
2 A A C C G C A
3 A G T C G T T
4 A G T C G G A
• Jednakowe wartości → sekwencja nieinformatywna
• Różne wartości → sekwencja nieinformatywna
• Powtarzalne wartości → sekwencja informatywna
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
2. Konstrukcja (wszystkich) możliwych drzew
Liczba możliwych drzew:
• ukorzenionych (2n - 3) !!
• nieukorzenionych (2n - 5) !! n - liczba sekwencji
n !! = 1*3*5*7*...*n
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
liczba potencjalnych
topologii rośnie
wykładniczo
poszukiwanie
odpowiedniego
drzewa = duży koszt
obliczeniowy (jak
zmniejszyć koszt?)
n l.ukorzenionych l.nieukorzenionych
3 3 1
4 15 3
5 105 15
10 34 459 425 2 027 025
2. Konstrukcja (wszystkich) możliwych drzew
ACT GTT
GTA ACA
ACA GTT
ACT GTA
ACA ACT
GTA GTT
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
3. Wybór drzewa wymagającego najmniejszej liczby mutacji
ACT GTT
GTA ACA
GTT 2
GTA 2
1
ACA GTT
ACT GTA
GTT 3
GTA 3
1
ACA ACT
GTA GTT
ACT 1
GTT 1
2
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
METODY KONSTRUKCJI DRZEWA - MAKS. PODOBIEŃSTWO
Inaczej metoda największej oszczędności
wybiera drzewa z najmniejszą ilością zmian
ewolucyjnych
opiera się na zasadzie „brzytwy Ockhama
Wykorzystuje pozycje informatywne
(skrócenie czasu obliczeń)
Czy wszystkie mutacje są równocenne?
Problem przyciągania się długich gałęzi
1. Uwzględnia zróżnicowane prawdopodobieństwo
poszczególnych mutacji
2. Uwzględnia każda pozycję (nie tylko informatywne)
3. Bardzo wolna
4. Daje dokładne wyniki (małe prawdopodobieństwo
uzyskania błędnego drzewa)
5. Wykorzystuje modele substytucyjne
6. Określa prawdopodobieństwa poprawności
danego drzewa
METODY KONSTRUKCJI DRZEWA - NAJWYŻSZE PRAWDOP.
METODY KONSTRUKCJI DRZEWA
UPGMA MAKS. PODOBIEŃSTWO
• łatwa, szybka • powolna, duża liczba
możliwych drzew
• analiza dużych zbiorów
danych możliwa
• analiza dużych zbiorów
danych problematyczna
• nie uwzględnia powiązań
ewolucyjnych
• uwzględnia powiązania
ewolucyjne (mutacje)
1. Znalezienie sekwencji wybranych
organizmów
2. Dopasowanie sekwencji
3. Konstrukcja drzewa (Clustal W)
4. Prawdopodobieństwo poprawności
drzewa (bootstrap)
ETAPY KONSTRUKCJI DRZEWA FILOGENETYCZNEGO
ETAPY KONSTRUKCJI DRZEWA FILOGENETYCZNEGO
1. Znalezienie sekwencji wybranych organizmów
2. Dopasowanie sekwencji
ETAPY KONSTRUKCJI DRZEWA FILOGENETYCZNEGO
3. Konstrukcja drzewa (Clustal W)
ETAPY KONSTRUKCJI DRZEWA FILOGENETYCZNEGO
dystans
pomiędzy
sekwencjami
4. Prawdopodobieństwo poprawności drzewa
(bootstrap)
ETAPY KONSTRUKCJI DRZEWA FILOGENETYCZNEGO
STWORZENIE SZTUCZNEGO ZBIORU DANYCH
zamiana kolejności nukleotydów
STWORZENIE DRZEWA FILOGENETYCZNEGO
1000
OKREŚLENIE POWTARZALNOŚCI DANEGO
ROZGAŁĘZIENIA = PRAWDOPODOBIEŃSTWO
OPROGRAMOWANIE
PHYLIP - www.phylip.com/
PHYLIP online:
http://mobyle.pasteur.fr/cgi-bin/portal.py?form=neighbor
OPROGRAMOWANIE
MEGA - www.megasoftware.net/
OPROGRAMOWANIE
PAUP – www.paup.csit.fsu.edu/
OPROGRAMOWANIE
Treefinder - www.treefinder.de
OPROGRAMOWANIE