32
Jan Pačes Ústav molekulární genetiky [email protected] Jiří Vondrášek Ústav organické chemie a biochemie [email protected] Bioinformatika Predikce genů, Fylogenetická analýza http://bio.img.cas.cz/PrfUK2002

Bioinformatika Predikce genů, Fylogenetická analýza

  • Upload
    elvis

  • View
    43

  • Download
    1

Embed Size (px)

DESCRIPTION

Bioinformatika Predikce genů, Fylogenetická analýza. http://bio.img.cas.cz/P r fUK200 2. Jiří Vondrášek Ústav organické chemie a biochemie [email protected]. Jan Pačes Ústav molekulární genetiky [email protected]. Predikce genů. - PowerPoint PPT Presentation

Citation preview

Page 1: Bioinformatika Predikce genů, Fylogenetická analýza

Jan PačesÚstav molekulární [email protected]

Jiří VondrášekÚstav organické chemie a [email protected]

BioinformatikaPredikce genů, Fylogenetická analýza

http://bio.img.cas.cz/PrfUK2002

Page 2: Bioinformatika Predikce genů, Fylogenetická analýza

Predikce genů

Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech

(kódující potenciál).Rozdílné metody pro prokaryotní a eukaryotní

geny.Potřebujeme již existující data.

Principy metod• homologie (exofish, ..)• statistické metody (codonuse, genscan, ..)• neuronové sítě (genemark, ..)

Page 3: Bioinformatika Predikce genů, Fylogenetická analýza

Výběr kodónů

LeucinRhodobacter capsulatus

antikodón počet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3

Escherichia coli

% 4 9 52 10 11 13

Page 4: Bioinformatika Predikce genů, Fylogenetická analýza

Predikce genů - statistický výpočet

Pravděpodobnost výskytu znaku (řetězce) na pozici i:

Pi = fi / f

Pravděpodobnost výskytu určitého úseku (okna):

Pw = P1 . P2 .. Pw kde w je délka úseku = logPi kde i = 1..w

Pro daný úsek získáme šest hodnot, které normujeme, např:

CPf = CPi / CP kde i = 1..6

Page 5: Bioinformatika Predikce genů, Fylogenetická analýza

codonuse

• grafické rozhraní ke statistickému výpočtu• používá dicodon preferences• variabilní okno při prohledávání

Page 6: Bioinformatika Predikce genů, Fylogenetická analýza

CRITICA

• prokaryotické geny • hledání RBS (ribosomal binding site,

Shine-Dalgarnova sekvence)

Princip:• TBLASTP proti proteinové databázi a vytypování "jistě"

kódujících sekvencí (většinou nekompletních genů).• Vytvoření statistického modelu.• Predikce genů.• Vytvoření dalšího statistického modelu a predikce genů.

Page 7: Bioinformatika Predikce genů, Fylogenetická analýza

Genscan

• eukaryotické geny • počítá různě první, prostřední a poslední exon• promotory, terminátory, polyA• různé statistické parametry pro různé GC

www: http://genes.mit.edu/GENSCAN.html

Pravděpodobnostní rozsah

Exony Přesně Částečně Překryv Chybně

0.00 - 0.50 248 29.8% 27.8% 4.0% 38.3%

0.50 - 0.75 362 54.1% 26.2% 2.2% 17.4%

0.75 - 0.90 337 74.8% 16.0% 1.2% 8.0%

0.90 - 0.95 263 87.8% 6.1% 0.4% 5.7%

0.95 - 0.99 551 92.4% 3.4% 0.2% 4.0%

0.99 - 1.00 917 97.7% 0.9% 0.0% 1.4%

Page 8: Bioinformatika Predikce genů, Fylogenetická analýza

GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20

Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%)

Parameter matrix: HumanIso.smat

Predicted genes/exons:

Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------

1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05

2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05

3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85

4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05

Genscan - příklad

Suboptimal exons with probability > 0.100

Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr..----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------

S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47

Predicted peptide sequence(s):

Page 9: Bioinformatika Predikce genů, Fylogenetická analýza

Programy a www servery

Rozcestník:• http://www.hgc.ims.utokyo.ac.jp/

/~katsu/genefinding/programs.html

Obecné a multi:• http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html• http://bioweb.pasteur.fr/seqanal

Jednotlivé programy:• http://genes.mit.edu/GENSCAN.html• http://www.tigr.org/tdb/glimmerm/glmr_form.html• http://www.tigr.org/~salzberg/veil.html• http://www.tigr.org/~salzberg/morgan.html• http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi• http://www.fruitfly.org/~martinr/doc/genie.html• http://www.resp-sci.arizona.edu/genlab/genehunter.htm

Page 10: Bioinformatika Predikce genů, Fylogenetická analýza

Fylogenetická analýza

Odhaduje evoluční souvislosti mezi daty

Výchozí předpoklady:kumulace jednotlivých změnzměny jsou náhodnépřibližně stejná evoluční rychlost

(molekulární čas)

Page 11: Bioinformatika Predikce genů, Fylogenetická analýza

Multile alignment

Page 12: Bioinformatika Predikce genů, Fylogenetická analýza

Evoluční stromy - terminologie

• nody (uzly)• vnitřní• vnější

• větve• topologie stromu• bifurkační strom• aditivní strom• ultrametrický strom• kořen (root) stromu

• pravdivý (korektní)• odvozený

Page 13: Bioinformatika Predikce genů, Fylogenetická analýza

( ( ( ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, ( ( polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, ( polyA_99:0.052972, HERV17_19:0.041888 ):0.003257)

Evoluční stromy - příklad

Page 14: Bioinformatika Predikce genů, Fylogenetická analýza

Evoluční stromy - příklad

Evoluční strom pTR5 rodiny lidských endogenních retrovirů

Page 15: Bioinformatika Predikce genů, Fylogenetická analýza

Evoluční stromy - tvorba

Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum).

Optimalizační metody - pomalejší, ale naleznou globální optimum.

Požadavky na vstupní sekvenční data:•Alignment pouze homologních částí•Vynechat gaps

(Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

Page 16: Bioinformatika Predikce genů, Fylogenetická analýza

Algoritmické (distanční) metody

Metoda: shluková analýza Vstup: matice distancí (substituční model)

• UGPMA (Unweighted pair group method with arithmetic averages)

• WGPMA• Neighbour-joining

Page 17: Bioinformatika Predikce genů, Fylogenetická analýza

Neighbour-joining

Star decomposition method

Page 18: Bioinformatika Predikce genů, Fylogenetická analýza

Substituční modely

Pro DNA:• Jednoparametrická: Jukes-Cantor

• Dvouparametrická: KimuraTransice: purin - purinTransverze: pyrimidin - purin

Pro proteiny: • Substituční matice (Blosum etc)

Page 19: Bioinformatika Predikce genů, Fylogenetická analýza

9polyA_26 polyA_30 0.1102polyA_20 0.1144 0.1027polyA_99 0.1326 0.1100 0.1237polyA_410 0.1089 0.1009 0.1067 0.1150HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927

Matice distancí

Page 20: Bioinformatika Predikce genů, Fylogenetická analýza

Optimalizační metody

Metoda: hledání optimálního stromuVstup: multiple alignment

parsimonie (parsimony) maximální věrohodnost

(maximum likehood - ML) párové distanční metody

(pairwise distance methods).

Page 21: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A C

B D

A B

C D

A C

D B

Page 22: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie 1

A C

B D

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A B

C D

A C

D B

1

1

1

Page 23: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie 2

A C

B D

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A B

C D

A C

D B

1 + 1

1 + 2

1 + 2

Page 24: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie 3

A C

B D

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A B

C D

A C

D B

2 + 2

3 + 1

3 + 2

Page 25: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie 4

A C

B D

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A B

C D

A C

D B

4 + 1

4 + 2

5 + 2

Page 26: Bioinformatika Predikce genů, Fylogenetická analýza

Parsimonie 5

A C

B D

A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA

A B

C D

A C

D B

6

7

8

Page 27: Bioinformatika Predikce genů, Fylogenetická analýza

Optimalizační metody

Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů

Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

Page 28: Bioinformatika Predikce genů, Fylogenetická analýza

Testování topologie

Bootstrap: výběr s opakovánímJack Knife: výběr bez opakování, ale menší

počet sekvencí

Page 29: Bioinformatika Predikce genů, Fylogenetická analýza

Kořen stromu

Page 30: Bioinformatika Predikce genů, Fylogenetická analýza

Kořen stromu

Page 31: Bioinformatika Predikce genů, Fylogenetická analýza

Programy

http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.htmlhttp://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.htmlhttp://evolution.genetics.washington.edu/phylip/software.html

Page 32: Bioinformatika Predikce genů, Fylogenetická analýza

Dodatky

Pseudogeny: poměr synonymních a nesynonymních mutací