Upload
phil
View
53
Download
2
Embed Size (px)
DESCRIPTION
Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi . Lekciju saraksts . Aminoskābju nomaiņas . Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli: - PowerPoint PPT Presentation
Citation preview
Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi
Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi
Lekciju saraksts
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 2
N.p.k. Datums Lekcijas temats
1. 15.09.2011Ievadlekcija. Prasības kursa apgūšanai un literatūras avoti. Bioinformātikas jēdziens. Kas ir bioinformātika un kāpēc tā biologiem vajadzīga? Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi
2. 22.09.2011 Bioloģiskās informācijas veidi un apjoms. Genomu organizācija. Modernās genomu analīzes metodes3. 29.09.2011 Genomu evolūcija. Salīdzinošā genomika 4. 06.10.2011 Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas 5. 13.10.2011 Dažādu bioloģiskās informācijas datubāžu izmantošanas piemēri
6. 20.10.2011 Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Nukleīnskābju un proteīnu sekvenču pāru salīdzināšana. BLAST veidi
7. 27.10.2011 Nukleīnskābju un proteīnu daudzkārtējās salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi. Datorprogrammas nukleīnskābju un proteīnu sekvenču daudzkārtējai salīdzināšanai
8. 03.11.2011 Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar informācijas meklēšanu datu bāzēs un sekvenču homoloģijas meklēšanu
9. 10.11.2011 Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā 10. 17.11.2011 Datorprogrammas nukleīnskābju un proteīnu sekvenču filoģenētiskajai analīzei
11. 24.11.2011 Makromolekulu telpiskā struktūra un tās paredzēšana. DNS topoloģija. Proteīnu struktūras paredzēšana, modelēšana un pielietojums farmakoloģijā
12. 01.12.2011 Genoma ekspresijas analīze. Transkriptomika. DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika 13. 08.12.2011 Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa.
14. 15.12.2011Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar filoģenētisko analīzi un proteīnu sekundārās struktūras paredzēšanu. Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai
15. 22.12.2011 Eksāmens
Aminoskābju nomaiņas
• Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli: 1. aminoskābēm ir dažādas fizikāli – ķīmiskās īpašības, kas ietekmē to funkciju (piemēram, Ala -> Val nomaiņa ir varbūtīgāka nekā Ala -> Asp) 2. Kodona nomaiņai par citu aminoskābi kodējošu kodonu var būt nepieciešams atšķirīgs mutāciju skaits
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 3
Ile ATT ATC ATA
Leu TTA TTG CTT CTC CTA CTG
His CAT CAC
Aminoskābju nomaiņu matricas
• Marija Deihofa sastādīja pirmo aminoskābju nomaiņas matricu, kas bija balstīta un eksperimentāli noteiktu proteīnu grupu salīdzinājumu
• Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1979) In: Atlas of Protein Sequence and Structure, Dayhoff, M. O. Ed, pp. 345-352
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 4
Daihofas matrica
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 5
Sekvenču atšķirības mērvienības
• PAM – Percent Accepted Mutation • Piemēram, 1 PAM nozīmē, ka starp divām sekvencēm pastāv
1% atšķirību • 1 PAM matrica tiek veidota no sekvencēm, kas ir 99%
identiskas• Atšķirīgākām sekvencēm veido citas, atbilstošākas matricas,
jo pastāv iespēja, ka katrā pozīcijā notikušas vairākas nomaiņas
• PAM250 matrica ir domāta ļoti atšķirīgām sekvencēm (~20% identitāte)
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 6
BLOSUM matricas
• S. Henikovs izveidoja BLOSUM matricas, kas bija balstītas uz daudz lielāku daudzumu proteīnu sekvenču
• BLOSUM62 matrica derīga sekvencēm, kas ir vismaz par 62% identiskas
• Vairumā gadījumu sekvenču salīdzināšanas programmu standarta (default) parametri ir adekvāti
• BLOSUM62 ir standarta matrica BLASTP meklēšanā 2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas
katedra 7
Divu sekvenču salīdzinājums
• Kad izveidota salīdzinājumu novērtēšanas sistēma, iespējams meklēt optimālu salīdzinājumu – tādu, kas dod vislielāko punktu skaitu
• Ir situācijas, kad pastāv vairāki optimālie salīdzinājumi • Globāls salīdzinājums – tiek salīdzinātas divas pilna garuma
sekvences • Lokāls salīdzinājums – salīdzina vienas sekvences segmentu ar
otras sekvences segmentu • Globāls salīdzinājums var būt ārkārtīgi laikietilpīgs (ja sekvenču
garums ir n un m, tad matricas izmērs ir n x m)
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 8
Nīdlmana – Vunša algoritms
• N-W algoritms veic divu sekvenču globālu salīdzinājumu
• Needlman and Wunsch (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology 48: 443 – 453
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 9
Nīdlmana – Vunša algoritms
• Izmanto gadījumos, kad jāsalīdzina divas līdzīga garuma sekvences, kas ir savstarpēji pietiekami līdzīgas visā to garumā
• Salīdzinājuma rezultātā atrod labāko (optimālo) salīdzinājumu visā sekvenču garumā
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 10
Smita – Vatermana algoritms
• S-W algoritms veic divu sekvenču lokālu salīdzinājumu
• Smith TF, Waterman MS (1981) Identification of Common Molecular Subsequences. Journal of Molecular Biology 147: 195-197
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 11
Smita – Vatermana algoritms
• Izmanto atšķirīgu sekvenču salīdzinājumam, kuras varētu saturēt līdzīgus rajonus, vai līdzīgus sekvences motīvus kopējā sekvences kontekstā
• Atrod lokālus sekvenču rajonus, kas līdzīgi viens otram un veido optimālu salīdzinājumu konservatīvajiem domēniem
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 12
Algoritmu salīdzinājums (demonstrējums)
• Homo sapiens PAX6 un Drosophila eyeless salīdzinājums (P26367 un O18381)
• Homo sapiens distrofīna izoformu salīdzinājums (NP_004013 un NP_004014)
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 13
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 14
BLAST
• Basic Local Alignment Search Tool • Līdzīgi kā globālajā sekvenču salīdzinājumā tiek
izmantots dotplots, taču salīdzināšana notiek nevis ar pilna garuma sekvenci, bet gan tās noteikta garuma fragmentiem
• Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Basic local alignment search tool. J. Mol. Biol. 215:403-410
• Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 15
BLAST
• BLAST sadala query sekvenci noteikta garuma vārdos ar garumu k, un tad atrod visas precīzās sakritības datu bāzē
• Katras sakritības gadījumā tā tiek pagarināta uz abām pusēm
• Paplašinātās sakritības (salīdzinājumi) tiek savienoti pieļaujot nesakritības un pārtraukumus, bet tikai noteiktā dotplota diagonāles diapazonā
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 16
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 17
BLAST mehānisms
• Visam pamatā – dotplots • BLAST sadala meklēšanā izmantoto sekvenci noteikta
garuma vārdos (piemēram, k = 4), tad atrod visas sekvences datu bāzē, kuras satur precīzi tādus vārdus
• BLAST cenšas pagarināt katru no sakrītošajiem vārdiem uz abām pusēm, nepieļaujot atšķirības un pārtraukumus (mismatch, gap)
• Pēc tam pagarinātie rajoni tiek apvienoti, pieļaujot atšķirības un pārtraukumus
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 18
NCBI BLAST
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 19http://www.ncbi.nlm.nih.gov/BLAST/Blast.cgi
BLASTN
• BLASTN – nukleotīdu secība pret nukleotīdu datu bāzi Vairāki BLASTN algoritmi: BLASTN – tradicionālais algoritms nukleotīdu secībām. Lēns Megablast – ļoti līdzīgām nukleotīdu secībām (>95% identitātes). Ļoti ātrs Pārtrauktais megablast – līdzīgām nukleotīdu secībām
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 20
BLASTP
• BLASTP – aminoskābju secība pret proteīnu datu bāzi Vairāki BLASTP algoritmi: BLASTP – tradicionālais algoritms aminoskābju secībām PSI-BLAST (position specific iterated) – BLASTP variants, kurā pirmajā meklēšanā tiek izveidots daudzkārtējs sekvenču salīdzinājums, ko tālāk atkārtoti izmanto, lai meklētu datu bāzē PHI-BLAST – (pattern hit initiated) – BLASTP variants, kas meklē proteīnu motīvus proteīnu datu bāzē
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 21
BLASTX
• BLASTX – translēta nukleotīdu secība pret proteīnu datu bāzi
• Tiek plaši pielietots genomu anotācijā, ja pastāv hipotēze, ka dotais DNS rajons kodē proteīnu, bet nav zināms nolasīšanas rāmis un kodējošā rajona robežas
• Ļoti noderīga programma EST sekvenču analīze, kas satur daudz kļūdu, piemēram, nolasīšanas rāmi nobīdošas insercijas vai delēcijas
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 22
TBLASTN
• TBLASTN – aminoskābju secība pret translētu nukleotīdu datu bāzi
• Izmanto, lai nukleotīdu datu bāzē meklētu sekvences, kas potenciāli varētu kodēt aminoskābju sekvences, kas homologas kādam proteīnam
• Nukleotīdu datu bāzē ir liels daudzums neanotētu secību, galvenokārt EST un GSS
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 23
TBLASTX
• TBLASTX – translēta nukleotīdu secība pret translētu nukleotīdu datu bāzi
• Ļoti laikietilpīga metode. Īpaši piemērota jaunu gēnu meklēšanai, jo salīdzina translētas nukleotīdu secības
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 24
BLAST rezultātu interpretācija
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 25
BLAST rezultātu nozīmība – Score
• Punktu skaitu (score) iegūst novērtējot cik nukleotīdu vai aminoskābju salīdzinājumā sakrīt un piešķirot tiem papildus svaru balstoties uz (BLOSUM62) matricu Papildus jānovērtē arī cik punktu varētu iegūt nejaušības dēļ – izmanto visu meklēšanas rezultātu kopumu, no kuriem vairums ir pret nejaušām secībām Ja oriģinālā sekvence iegūst tikpat punktus, cik nejaušās secības, tad sekvenču līdzība ir nejauša
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 26
BLAST rezultātu nozīmība – E-value
• E vērtība (E value) ir varbūtība, ka novērotā homoloģija meklējot konkrētajā datu bāzē varētu parādīties nejaušības dēļ E > 1 novērotā homoloģija nejaušības dēļ E < 0.02 iespējams, ka sekvences ir homologas
• Punktu skaits un E vērtība ir matemātiski saistīti
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 27
Sekvenču salīdzinājumu parametri
• BLAST meklēšanas rezultāts – divu sekvenču salīdzinājums ar standarta parametriem inserciju/delēciju gadījumā nesanāk tāds kā gribētos
• Var mēģināt koriģēt Gap opening un Gap extension soda punktus
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 28
Specializētie BLAST veidi
• PSI – BLAST – proteīnu homoloģijas meklēšana
• Konservatīvo domēnu meklēšana (CDS) • Konservatīvas domēnu arhitektūras
meklēšana (CDART) • Vektoru sekvenču meklēšana (VECSCREEN) • Divu sekvenču salīdzināšana izmantojot BLAST
(BL2SEQ) 2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas
katedra 29
PSI-BLAST
• BLASTP meklēšana ir samērā ātra un labi darbojas, ja proteīnu homoloģija ir augsta (radniecīgu sugu, dzimtu vai pat kārtu organismu proteīni)
• Ko darīt, ja nepieciešams atrast radniecīgas sekvences ļoti attālās taksonomiskās vienībās, piemēram, proteīnus, kuru aminoskābju secības atšķiras par vairāk nekā 70%?
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 30
Cisteīna proteāžu salīdzinājums
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 31
Papaīns, aktinidīns, himopapaīns
Papaīns, aktinidīns, himopapaīns + Cys proteāze no Entamoeba histolitica , katepsīns 1 no Aedes egypti un katepsīns S no H. sapiens
Tas pats, kas otrajā salīdzinājumā + Cys proteināze no Giardia lamblia un katepsīns b no Aedes egypti
PSI – BLAST un daudzkārtēja sekvenču salīdzināšana
• Position-Sensitive Iterated BLAST • Vairāku aminoskābju secību salīdzinājums parāda sekvenču
motīvus, kas saglabājušies evolūcijas gaitā • PSI – BLAST sāk ar BLASTP, identificējot visas sekvences, kas
homologas izejas sekvencei • Izveido daudzkārtēju sekvenču salīdzinājumu un no tā iegūst
profilu • Atkārto meklēšanu proteīnu datu bāzē izmantojot profilu • Atkārto meklēšanu, kamēr vairs netiek iegūti jauni rezultāti
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 32
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 33
PSI – BLAST un daudzkārtēja sekvenču salīdzināšana
PSI – BLAST pirmais solis
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 34
PSI – BLAST 2 - 4 solis
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 35
Konservatīvo domēnu meklēšana
• Conserved domain search - tiek veikts automātiski BLASTP meklēšanas laikā
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 36
CD meklēšana ir saistīta ar citām datu bāzēm
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 37
Konservatīvas domēnu arhitektūras meklēšana
• Conserved domain architechture – vairums proteīnu sastāv no domēniem Domēns – kompakta struktūrvienība, nereti veic speciālu molekulāru funkciju
• Proteīnu evolūcija notiek domēnu līmenī • CDART atļauj meklēt proteīnus, kuriem ir
līdzīga domēnu arhitektūra
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 38
Konservatīvas domēnu arhitektūras meklēšana
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 39
VECSCREEN
• DNS sekvenēšana tradicionāli pamatojās uz genoma fragmenta klonēšanu plazmīdu vektorā un inserta sekvenēšanu izmantojot vektora praimeru saitus
• Rezultātā iegūtā sekvence satur nelielu vektora gabaliņu
• Pirms iesniegt savas sekvences GenBank, jāatbrīvojas no vektora sekvencēm un VECSCREEN ir BLAST veids, kas identificē varbūtējos vektora fragmentus
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 40
Vektora sekvences EST datu bāzē
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 41
BL2SEQ
• BL2SEQ salīdzina divas secības (nukleotīdu vai aminoskābju) izmantojot BLAST algoritmu
• Ļauj noteikt intronu – eksonu sturktūru, vai identificēt insercijas/delēcijas (piemēram, alternatīvo splaisingu)
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 42
BL2SEQ piemērs
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 43
Miežu gēna RPG1 cDNS (horizontāli) un genomiskās DNS salīdzinājums Eksoni parādās, kā homoloģijas bloki ar 100% identitāti. Atkārtojums gēna struktūrā parādās kā homoloģijas rajons ar 82% identitāti
Tīkla BLAST no lokāla datora
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 44
Tīkla BLAST
• Mūsdienās vairs nav tik plaši lietots, jo arī standarta WWW BLAST interfeiss atļauj vienlaicīgi meklēt homologus vairākām nukleotīdu un aminoskābju secībām
• ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST/ • netblast-2.2.25-ia32-win32.exe vai • netblast-2.2.25-x64-win64.exe
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 45
Lokālais BLAST un lokālās datubāzes
• NCBI BLAST servera iespējas nav neierobežotas – reizumis meklēšana var ieilgt vai vispār nedot rezultātus. Veikt BLAST homoloģijas meklējumu ar vairākiem simtiem DNS/aminoskābju secību ir ļoti laikietilpīgi, ja to mēģina darīt NCBI mājas lapā
• Ja grib salīdzināt vairākas sekvences vienu ar otru, kuras nav GenBank datu bāzē, var izmantot BL2SEQ, bet tas ļauj veikt tikai 2 sekvenču salīdzinājumu vienlaicīgi
• Iespējams uzstādīt BLAST uz lokālā datora un veidot pašam savas datu bāzes
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 46
Lokālais BLAST
• Instalē Windows BLAST programmu • Izveido savas lokālās datu bāzes ar formatdb
komandu • Veic BLAST meklēšanu uz sava datora • ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST
• blast-2.2.25-ia32-win32.exe vai • blast-2.2.25-x64-win64.exe
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 47
FASTA – alternatīva BLAST
• BLAST nav vienīgā sekvenču homoloģijas meklēšanas programma
• FASTA (FAST-All) ir nukleotīdu un aminoskābju sekvenču homoloģijas meklēšanas programma, kas tika radīta vēl pirms BLAST
• Pearson WR, Lipman DJ (1988) Improved tools for biological sequence comparison. PNAS, 85: 2444 – 2448
• http://www.ebi.ac.uk/Tools/sss/fasta/2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas
katedra 48
Vēlreiz vispārīgi par sekvenču salīdzināšanu
• Sekvenču līdzība vēl nenozīmē homoloģiju, t.i., izcelsmi no kopīga senča
• Homoloģija nenozīmē līdzīgu funkciju • Piemēri, mioglobīns un augu hemoglobīns – <25% identiski
aminoskābju atlikumi, bet līdzīga proteīnu struktūra, funkcija un izcelsme
• Cilvēka malāta un laktāta dehidrogenāzes ir homoloģiskas, bet veic atšķirīgu funkciju
• Baktēriju subtilizīns un dzīvnieku himotripsīns nav homologi, bet tiem ir līdzīgi proteāzes aktīvie saiti (Asp, His un Ser) – konverģentās evolūcijas piemērs
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 49
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 50
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 51
Himotripsīna un subtilizīna dot plots
2011. gada 27. oktobris Mikrobioloģijas un biotehnoloģijas katedra 52