Bioinformatika: iz statisti čke perspektive

Preview:

DESCRIPTION

Bioinformatika: iz statisti čke perspektive. Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu. Bioinformatika. Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji Stručnjaci raznih područja sudjeluju u - PowerPoint PPT Presentation

Citation preview

1

Bioinformatika: iz Bioinformatika: iz statististatističke perspektivečke perspektive

Bioinformatika: iz Bioinformatika: iz statististatističke perspektivečke perspektive

Bojan BasrakBojan Basrak

PMF-Matematički odjelPMF-Matematički odjel

Sveučilište u ZagrebuSveučilište u Zagrebu

2

BioinformatikaBioinformatikaBioinformatikaBioinformatika

• Nezgrapna kovanica, nastala 1979. označava Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi znanost koja se bavi primjenom računalnih i primjenom računalnih i statističkih metoda u molekularnoj biologijistatističkih metoda u molekularnoj biologiji

• Stručnjaci raznih područja sudjeluju u Stručnjaci raznih područja sudjeluju u – izradi baza podataka (npr. human genome

project)– njihovoj analizi, odn. statističkoj i računalnoj

obradi

• Karakteristike: ogromne količine podataka, Karakteristike: ogromne količine podataka, ali i sve veći broj metoda, procedura za ali i sve veći broj metoda, procedura za njihovu obradu njihovu obradu

3

Osnovne temeOsnovne temeOsnovne temeOsnovne teme

• Sequence analysisSequence analysis• Gene findingGene finding• Computational evolutionary biologyComputational evolutionary biology• Analysis of gene expressionAnalysis of gene expression• Analysis of regulationAnalysis of regulation• Prediction of protein structurePrediction of protein structure• Modeling Modeling of of biological systemsbiological systems

itd.itd.

4

Osnove molekularne Osnove molekularne biologijebiologije

Osnove molekularne Osnove molekularne biologijebiologije

Živi organizmiSredišnja dogma mol. biologije

Biološki nizovi:

DNA - nizovi u alfabetu od 4 slova: A,C,G,T RNA - nizovi u alfabetu od 4 slova: A,C,G,U proteini - nizovi u alfabetu od 20 slova -

aminokiselina ARNDCEQGHILKMFPSTWYV

5

TranskripcijaTranskripcijaTranskripcijaTranskripcija

6

Evolucija nizovaEvolucija nizovaEvolucija nizovaEvolucija nizova

…ACGGTGCAGTTACCA…

…AC----CAGTCACCGTGTAA…

Mutation(mutacija)

Deletion (brisanje)

REARRANGEMENTSInversion

TranslocationDuplication

Insertion(ubacivanje)

7

No, mi vidimo samo…No, mi vidimo samo…No, mi vidimo samo…No, mi vidimo samo…

nnekoliko više ili manje sličnih nizova, npr.ekoliko više ili manje sličnih nizova, npr.

GCGCATGGATTGAGCGAGCGCATGGATTGAGCGA

TGCGCCATTGATGACCATGCGCCATTGATGACCA

kkoji mogu (a ne moraju) dijeliti zajedničku oji mogu (a ne moraju) dijeliti zajedničku evolucijuevoluciju (a ne moraju biti ni iste (a ne moraju biti ni iste duljine)duljine). .

8

Poravnanje (aPoravnanje (alignmentlignment))Poravnanje (aPoravnanje (alignmentlignment))

-GCGC-ATGGATTGAGCGA-GCGC-ATGGATTGAGCGA

TGCGCCATTGAT-GACC-ATGCGCCATTGAT-GACC-A

Tri skupine poravnatih slova:Tri skupine poravnatih slova:• pperfect matcheserfect matches• mmismatchesismatches• iinsertions / deletions (nsertions / deletions (indelindel))

9

Poravnanje zapravo nizovePoravnanje zapravo nizovew: …ACGGTGCAGTTACCA…w’:…ACCAGTCACCGTGTAA…

v: …ACGGTGCAGTTACC-----A…v’: …AC----CAGTCACCGTGTAA…

preslika u dulje nizove s jednim dodatnim preslika u dulje nizove s jednim dodatnim znakom: “znakom: “--””

Formalna definicija je jasna (iako Formalna definicija je jasna (iako nezgrapna).nezgrapna).

Postavlja se pitanje odabira najboljeg Postavlja se pitanje odabira najboljeg alignmenta.alignmenta.

Za to nam je potrebna funkcija skora Za to nam je potrebna funkcija skora - - score functionscore function - na alfabetu proširenim - na alfabetu proširenim znakom “znakom “--”.”.

10

Score functionScore functionScore functionScore function

11

Bliskost nizovaBliskost nizova (kvaliteta poravnanja) (kvaliteta poravnanja) ukazuje na:ukazuje na:

• (djelomičnu) (djelomičnu) zajedničku evolucijuzajedničku evoluciju kod kod DNA nizovaDNA nizova

• zajedničku evoluciju ili što je zanimljivije zajedničku evoluciju ili što je zanimljivije istu funkcijuistu funkciju kod proteinskih nizova kod proteinskih nizova

Slično, jako sačuvani podnizovi (s malo Slično, jako sačuvani podnizovi (s malo mutacija) impliciraju mutacija) impliciraju

• funkcionalno značajnefunkcionalno značajne pozicije pozicije

12

Vjerojatnosni model za Vjerojatnosni model za nizovenizove

Vjerojatnosni model za Vjerojatnosni model za nizovenizove

• Najjednostavnije je pretpostaviti da su Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog generirani kao neki njd niz iz danog alfabeta, npr.alfabeta, npr.

• Mada se ponekad koriste i složeniji Mada se ponekad koriste i složeniji modeli koju uključuju zavisnostmodeli koju uključuju zavisnost

13

Vjerojatnosni modeli za Vjerojatnosni modeli za evolucijuevoluciju

Vjerojatnosni modeli za Vjerojatnosni modeli za evolucijuevoluciju

Važno je znati i koliko su vjerojatne pojedine mutacije Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina)(nukleotida ili aminokiselina)

a prirodno je pretpostaviti da vrijedi za stacionarne a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti vjerojatnosti qqyy

• Tipično se modelira Markovljevim procesima, zadanim Tipično se modelira Markovljevim procesima, zadanim matricama intenziteta.matricama intenziteta.

14

Globalno poravnanjeGlobalno poravnanjeGlobalno poravnanjeGlobalno poravnanje

w1

wn

w1 ‘ wm

gdje maksimum tražimo po svimporavnanjima v,v’ originalnihnizova w,w’

15

Iz Kingmanovog subaditivnog ergodskog teorema Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu imaju duljinu nn koja konvergira u beskonačno koja konvergira u beskonačno

• Konstanta Konstanta ninije poznata, čak je poznata, čak nni za binarne njd i za binarne njd nizove i najjednostavniju funkciju nizove i najjednostavniju funkciju s. s. Poznato jePoznato je tek tek

(longest common subsequence problem)(longest common subsequence problem)

16

Lokalno poravnanjeLokalno poravnanjeLokalno poravnanjeLokalno poravnanje

w1

wn

w1 ‘ wm

gdje maksimum tražimo po svim podnizovima jednake duljine od originalnih nizova w,w’, koji završavaju na mjestu i,j

17

Lokalno poravnanjeLokalno poravnanjeLokalno poravnanjeLokalno poravnanje

• Povezano s Erdos-Renyievim problemomPovezano s Erdos-Renyievim problemom• Chen-Steinovom metodom može se Chen-Steinovom metodom može se

pokazati da vrijedi aproksimativni zakon pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanjerazdiobe za optimalno lokalno poravnanje

• Uočite da je testna statistika zapravo Uočite da je testna statistika zapravo maksimum od nmaksimum od n x x nn lokalnih poravnanja, a lokalnih poravnanja, a teoretski rezultat vodi računa o tome da teoretski rezultat vodi računa o tome da smo zapravo izveli nsmo zapravo izveli n x x n testova i korigira n testova i korigira za za višestruko testiranjevišestruko testiranje

18

Erdos-Renyiev problem – odrediti distribuciju najduljeg niza Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizuuspjeha u Bernoullijevom njd nizu

ekvivalentno je znati (za fiksni alignment!!) koliko je dug ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je najdulji potpuno poravnati podniz. Ako je pp vjerojatnost vjerojatnost poravnanja, poznato je da poravnanja, poznato je da

Ima približno Gumbelovu razdiobuIma približno Gumbelovu razdiobu

19

Primjer.Primjer. Ako pretpostavimo da su DNK nizovi realizacije Ako pretpostavimo da su DNK nizovi realizacije nizova nnizova njd jd slučajnih varijabli s uniformnom distribucijom i slučajnih varijabli s uniformnom distribucijom i njihova duljina je jednakanjihova duljina je jednaka n= n= 100 000, onda, ako je 100 000, onda, ako je najdulji primjećeni zajednički niz duljine 10, korištenjem najdulji primjećeni zajednički niz duljine 10, korištenjem prethodne formule dobivamo da je prethodne formule dobivamo da je

pp-vrijednost približno jednaka 0-vrijednost približno jednaka 0,,069, 069,

a ako je najdulji primjećeni zajednički segment duljine a ako je najdulji primjećeni zajednički segment duljine 12, pripadna 12, pripadna

pp-vrijednost iznosi-vrijednost iznosi približno 0približno 0,,0045. 0045.

Uočimo da je posljednjaUočimo da je posljednja p p-vrijednost manja od 0-vrijednost manja od 0,,05, što 05, što jeje uobičajena granica kod koje odbacujemo nulhipotezu uobičajena granica kod koje odbacujemo nulhipotezu (u ovom slučaju o nezavisnom podrijetlu nizova). (u ovom slučaju o nezavisnom podrijetlu nizova).

20

Dodatne napomeneDodatne napomeneDodatne napomeneDodatne napomene

• Naći optimalno lokalno ili globalno Naći optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski poravnanje zahtjevan je algoritamski problem (riješen je dinamičkim problem (riješen je dinamičkim programiranjem)programiranjem)– Needleman-Wunsch (globalno)– Smith-Waterman (lokalno)

• Postoji više načina na koji se penaliziraju Postoji više načina na koji se penaliziraju gapovigapovi u poravnanju, u poravnanju,– biološki relevantnim se smatra i afino

penaliziranje gapova.

21

Specificity determining Specificity determining residuesresidues

Specificity determining Specificity determining residuesresidues

• Pretpostavimo da su nam proteini podijeljeni u Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanjedano njihovo višestruko poravnanje

from M.Gelfand:Identification of specificity-determining positions inprotein alignments

22

20 aminokiselina20 aminokiselina20 aminokiselina20 aminokiselinaAmino Acid  1-Letter Side chain polarity Side chain charge (pH 7.4)   Hydropathy index 

AlanineAlanine A nonpolar neutral 1.8

ArginineArginine R polar positive −4.5

AsparagineAsparagine N polar neutral −3.5

Aspartic acidAspartic acid D polar negative −3.5

CysteineCysteine C nonpolar neutral 2.5

GlutamicGlutamic acid acid E polar negative −3.5

GlutamineGlutamine Q polar neutral −3.5

GlycineGlycine G nonpolar neutral −0.4

HistidineHistidine H polar positive(10%) neutral(90%)

−3.2

IsoleucineIsoleucine I nonpolar neutral 4.5

LeucineLeucine L nonpolar neutral 3.8

LysineLysine K polar positive −3.9

MethionineMethionine M nonpolar neutral 1.9

PhenylalaniPhenylalaninnee F nonpolar neutral 2.8

ProlineProline P nonpolar neutral −1.6

SerineSerine S polar neutral −0.8

ThreonineThreonine T polar neutral −0.7

TryptophanTryptophan W nonpolar neutral −0.9

TyrosineTyrosine Y polar neutral −1.3

ValineValine V nonpolar neutral 4.2

23

Struktura proteinaStruktura proteinaStruktura proteinaStruktura proteina

Primarna struktura: poznat nam je samo niz aminokiselina npr: …V H L T P E E K…

Sekundarna struktura: poznate su neki pravilni dijelovi: npr: alpha-helix, beta-sheets

Tercijarna struktura: poznat je trodimenzionalan položaj molekula

24

Evolucijski model za Evolucijski model za aminokiselineaminokiseline

Evolucijski model za Evolucijski model za aminokiselineaminokiseline

• Kao što smo vidjeli evol. modeli se određuju Kao što smo vidjeli evol. modeli se određuju preko matrica prijelaznih vjerojatnosti -preko matrica prijelaznih vjerojatnosti -> da > da bismo ih uveli koristbismo ih uveli koristit ćemo it ćemo matrice substitucijematrice substitucije

• Matrice supstitucije kao što Matrice supstitucije kao što jeje BLOSUM ( BLOSUM (Blocks Blocks Substitution MatricesSubstitution Matrices - Henikoff and Henikoff - Henikoff and Henikoff, , 1992) također sadrže informacije o 1992) također sadrže informacije o vjerojatnosti pojedinih mutacija vjerojatnosti pojedinih mutacija

• Matrice sadrže tzv. Matrice sadrže tzv. log-oddslog-odds koji se koriste koji se koriste ujedno i za izvođenje skorova tj. score functionujedno i za izvođenje skorova tj. score function

25

Log-oddsLog-odds

Gornji izraz se zapravo koristi u definicije fukcije Gornji izraz se zapravo koristi u definicije fukcije skora skora ss

26

UočimoUočimo

Ovo nam daje sljedeću ideju za modelOvo nam daje sljedeću ideju za model

27

Testne statistikeTestne statistikeTestne statistikeTestne statistike

KreKreććemoemo od poravnanja od poravnanja

Za dani stupac poravnanjaZa dani stupac poravnanja k k izračunamo testnu statistiku izračunamo testnu statistiku

28

• Trebaju nam vjerojatnosti da pod HTrebaju nam vjerojatnosti da pod H0 0 na mjestu na mjestu k k vidimo ovako ekstremnu statistiku recimo vidimo ovako ekstremnu statistiku recimo uu, , tj.tj.

gdje je gdje je HH00: : kk nije SDR tj. specificity determining nije SDR tj. specificity determining residue (funkcionalno specifična pozicija).residue (funkcionalno specifična pozicija).

• To napravimo za sve stupce, pitanje je da li To napravimo za sve stupce, pitanje je da li neki stupci (i koji?) indiciraju posebno značajna neki stupci (i koji?) indiciraju posebno značajna i i funkcionalno specifična mjestafunkcionalno specifična mjesta u poravnanju. u poravnanju.

29

• Prema poznatoj statističkoj teoriji Prema poznatoj statističkoj teoriji log-log-likelihood ratio likelihood ratio statistike poput ove koju statistike poput ove koju mi računamo imaju asimptotski chi-mi računamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu ovakvih teorijski rezultata nisu zadovoljeni)zadovoljeni)

• Mi simulacijama određujemo približnu Mi simulacijama određujemo približnu razdiobu za testnu statistiku pod nul-razdiobu za testnu statistiku pod nul-hipotezomhipotezom

• Tako određujemo približne Tako određujemo približne p-p-vrijednostivrijednosti

• No i dalje provodimo puno testova! No i dalje provodimo puno testova! Svaki nam daje svoju Svaki nam daje svoju p-p-vrijednostvrijednost

30

Stoga pitanje moramo preformulirati:Stoga pitanje moramo preformulirati:

Koliko je vjerojatno da vidimo ovako Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi male p-vrijednosti ako vrijedi HH00: niti : niti jedan jedan kk nije SDR? nije SDR?

Tj. želimo znati:Tj. želimo znati:

31

Uvijek možemo odrediti gornju granicu tzv. Uvijek možemo odrediti gornju granicu tzv. Bonferroni Bonferroni korekcijukorekciju

Stoga naše rezultate proglašavamo značajnim (i odbacujemo Stoga naše rezultate proglašavamo značajnim (i odbacujemo HH0 0 ) ako je) ako je

Kako su u stvarnosti susjedne pozicije pozitivno korelirane, Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjenapa prema tome i testne statistike ovo je vrlo gruba ocjena

Dovest će do konzervativnog testa, male jakosti.Dovest će do konzervativnog testa, male jakosti.

32

Alternativni pristupi Alternativni pristupi višestrukom testiranju hipotezavišestrukom testiranju hipoteza

Alternativni pristupi Alternativni pristupi višestrukom testiranju hipotezavišestrukom testiranju hipoteza

• Permutation test• False discovery rate - FDRukoliko je izvedeno m testova

33

Alternativni pristupi otkrivanju Alternativni pristupi otkrivanju SDR: SDR: Mutual information, Z-scores.Mutual information, Z-scores.

Alternativni pristupi otkrivanju Alternativni pristupi otkrivanju SDR: SDR: Mutual information, Z-scores.Mutual information, Z-scores.

• Between Group Analysis (BGA), Higgins, Wallace (2007.)

• Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.)

• SDPpred, Rakhmaninova et al. (2004.)

34

MIMI POTVRĐENOPOTVRĐENO SH SH SDP BGA

rank position LLR Yadav rank SH rank rank

1 212 361.86 + 3 0.07 + 1

2 73 276.58 + 12 0.13 - 5

3 105 265.46 + 4 0.09 - 14

4 82 258.63 + - - - -

5 264 257.43 + 15 0.15 - 6

6 209 252.87 + 6 0.11 - 2

7 71 243.82 + 1 0.03 - 9

8 210 225.07 + 9 0.12 - 13

9 221 224.41 - 14 0.14 - 16

10 234 210.49 - 7 0.11 - -

11 12 203.40 + - - - 24

12 86 196.85 - - - - -

13 224 190.29 - - - - 20

14 128 188.88 - 13 0.14 - 19

15 137 186.16 - 11 0.12 - 17

16 262 183.05 - 25 0.19 - -

17 265 180.88 - 21 0.17 - 4

Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%

35

Sažetak predložene Sažetak predložene procedureprocedure

Sažetak predložene Sažetak predložene procedureprocedure

• SDR predstavljaju mjesta na proteinima koja (potencijalno) specificiraju njihovu funkciju

• Odrediti ih nije jednostavno. Moramo posebno voditi računa o višestrukom testiranju.

• Procedura je implementirana online: compbio.math.hr

• Nezavršen projekt: za sada radimo samo sa dvije grupe

36

Protein clusteringProtein clusteringProtein clusteringProtein clustering

• Esencijalno isti vjerojatnosni model, Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v.klasteriranje neke familije proteina v.

Goldstein et al (2009): Goldstein et al (2009): Clustering of Clustering of protein domains for functional and protein domains for functional and evolutionary studiesevolutionary studies, BMC Bioinformatics, BMC Bioinformatics

37

Drugi primjeriDrugi primjeriDrugi primjeriDrugi primjeri

Višestruko testiranje hipoteza javlja se i uVišestruko testiranje hipoteza javlja se i u

• Mapiranju tzv QTLovaMapiranju tzv QTLova (odn. gena) (odn. gena)• Analizi DNA microarraysAnalizi DNA microarrays• Forenzičkoj DNA analiziForenzičkoj DNA analizi• Filogenetskoj analiziFilogenetskoj analizi• itd.itd.

38

LiteraturaLiteraturaLiteraturaLiteratura

“Biological sequence analysis” by Durbin, Eddy, Krogh, Mitchinson

“Introduction to computational biology” by Waterman

Vidi također http://www.cs.tau.ac.il/~bchor/CG05/CG1-alignment.pps, http://ai.stanford.edu/~serafim/CS262_2005/Slides/CS262_2005_Lecture2.ppt ,

Wikipedia za dodatne informacije o biološkoj analizi nizova

39

AcknowledgmentsAcknowledgmentsAcknowledgmentsAcknowledgments

P. Goldstein (PMF-MO)J. Žućko (PBF)I. Vujaklija (FER)D. Špoljarić (PBF)

Recommended