9
03.05.2012 1 Nezahat Karahan DNA, RNA veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir. Biyoinformatikte birçok inceleme, iki ya da daha çok d DNA ti di i i i k l t l sayıda DNA veya protein dizisinin karşılaştırılmasına dayanmaktadır. DNA: nükleotidlerin uzun bir dizisi Protein: aminoasitlerin uzun bir dizisi Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi k blkd l ii ii k öüd veakrabalıkderecelerinin tespiti, ortak atayönünden inceleme Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin elimizde ACGCTTTGGCATAA ve ACCGGCTTCGGCCAA gibi iki dizi parçası olsun; bu dizileri AC –GCTTTGGCATAA ACCGGCTTCGGCCAA veya AC –GCTTT– GGCATAA ACCGGCTTCGGCCAAveya AC – –GC TTTGGCATAA ACC GGCTTCGGCC –AA Şeklinde hizalayabiliriz. Bir DNA dizi parçası nesilden nesile geçerken bazı durumlarda değişikliklere (mutasyonlara) uğramaktadır. En basit mutasyonlar dizi parçasındaki bir nükleotidin yerine başka bir nükleotidin gelmesi (substitution), dizi parçasından bir nükleotidin silinmesi (deletion) veya di i ükl id i idi (i i ) dizi parçasına nükleotid girmesidir (insertion). Yapılan karşılaştırmalarda insersiyon (insertion) veya delesyon (deletion) olayını anlatmak için “indel” denen “işareti kullanılmaktadır. Bir tane veya yanyana olan çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir. Fonksiyon tahmini Veritabanı arama Gen bulma

2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

Embed Size (px)

Citation preview

Page 1: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

1

Nezahat Karahan

DNA, RNA veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir.

Biyoinformatikte birçok inceleme, iki ya da daha çok d  DNA    t i  di i i i  k l t l  sayıda DNA veya protein dizisinin karşılaştırılmasına 

dayanmaktadır. 

DNA: nükleotidlerin uzun bir dizisi

Protein: aminoasitlerin uzun bir dizisi

Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi   k b l k d l i i   i i   k    ö ü d  ve akrabalık derecelerinin tespiti, ortak ata yönünden 

inceleme 

Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır.  Örneğin  elimizde ACGCTTTGGCATAA ve  ACCGGCTTCGGCCAA gibi iki dizi parçası olsun; bu dizileri 

AC –GCTTTGGCATAA

ACCGGCTTCGGCCAA

veya

AC –GCTTT– GGCATAA

ACCGGCTTCGGCCAA‐

veya

AC – –GC TTTGGCATAA

ACC GGCTTCGGCC –AA

Şeklinde hizalayabiliriz.

Bir DNA dizi parçası nesilden nesile geçerken bazıdurumlarda değişikliklere (mutasyonlara) uğramaktadır.En basit mutasyonlar dizi parçasındaki bir nükleotidinyerine başka bir nükleotidin gelmesi (substitution), diziparçasından bir nükleotidin silinmesi (deletion) veyadi i ükl id i idi (i i )dizi parçasına nükleotid girmesidir (insertion).

Yapılan karşılaştırmalarda insersiyon (insertion) veyadelesyon (deletion) olayını anlatmak için “indel” denen“‐“ işareti kullanılmaktadır. Bir tane veya yanyana olançizgilere (insersiyonlara, delesyonlara) gedik (gap) denir.

Fonksiyon tahmini

Veritabanı arama

Gen bulma

Page 2: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

2

Homoloji: Homolog iki gen, yüksek seviyede dizilimbenzerliğine ve özdeşliğine sahiptirler, bu paylaşım iledizilimler aynı soydan geldikleri hipotezini dedesteklemektedirlerdesteklemektedirler.

Dizilim homolojisi aynı zamanda ortak işlev göstergeside olabilmektedir.

Orthologous Genler: ortak bir atadan geldikleri düşünülen, benzer bir fonksiyonu olabilen, farklı türlere ait homolog diziler.

P l G l  A  tü  i i d    d lik Paralogous Genler: Aynı tür içinde gen duplikasyonusonucu oluşmuş homolog diziler.

Protein Domains: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası.

İki dizi parçası tüm olarak (global) veya bazı kısımları yerel (local) olarak hizalanabilir.

Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. 

İki di i     ikid   k di i    İki dizi parçasının veya ikiden çok dizi parçasının hizalanması söz konusu olabilir. 

DNA dizileri veya protein dizilerinin hizalanması söz konusu olabilir. 

Dizi hizalamasındaki mantık DNA veya protein dizisi açısından fark etmemektedir. 

Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. Global hizalamanın bulunması bir global optimizasyon çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını k  " l "kapsamaya "zorlar".

Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir.

Global hizalamalarda her dizideki her harfinhizalanması amaçlanır. Sorgu kümesindeki dizilerbirbirine benzer ve yaklaşık aynı uzunlukta olursaglobal hizalamalar en yararlı olur

Benzer kısa dizi motiflerinin tespitinde lokal Benzer kısa dizi motiflerinin tespitinde lokalhizalamalar kullanılır

!! Eğer diziler yeterince birbirine benziyorsa lokal veglobal hizalama sonuçları arasında bir fark olmaz.

İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyleen iyi uyuşan parçalarının (lokal veya global)hizalamasını bulmakta kullanılır.

Page 3: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

3

Nokta Matris Yöntemleri

Dinamik Programlama 

Sözcük Yöntemleri

Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikilihizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgukümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalarçoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen birgrup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Butür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel birili ki i k k i i k ll l Bö l i k di ililişkiyi ortaya koymak için kullanılır. Böylesi korunmuş diziler,yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerinkatalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizihizalamaların üretimi bakımdan zordur ve bu problemin çoğuformülasyonu NP‐tam kombinatoryal optimizasyon problemlerinedönüşür. Buna rağmen, bu hizalamaların biyoinformatiktekifaydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyançeşitli yöntemler geliştirilmiştir.

Elde edilen çoklu dizi hizalamasından homoloji olduğuçıkarımı yapılabilir ve filogenetik analiz ile dizilerinevrimsel kökenleri değerlendirilebilir. Hizalamanınsağdaki resimdeki gibi gösterimiyle noktasalmutasyonlar, hizalamadaki sütunlardan birinde farklıbi h f l k i d l l ibir harf olarak, ensersiyon ve delesyonlar isehizalamadaki satırlardan bir veya daha fazlasında tireşeklinde beliren eklemeler şeklinde mutasyon olaylarıgörülebilir. Protein bölgelerinde, ikincil veya üçüncülyapılarda ve hatta bireysel amino asit veya nükleotitlerindizi korunumunu değerlendirmek için çoklu dizihizalamaları sıkça kullanılır.

Milyonlarca nükleotidin depolanması ve organizasyonuiçin veri tabanlarının oluşturulması, araştırıcıların bubilgilere ulaşabilmeleri ve yeni veriler girebilmeleri içinilk aşamadır.

Gen bankası (GenBank), 

Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) 

DNA  Japonya veri tabanıdır (DDBJ)

Page 4: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

4

Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vbbilgiyi içeren bir tablodan oluşan tam bilgi formatıdır.

İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir  ve dizi veritabanına ilk kez girildiğinde verilir.

Accession number (GenBank): Bir dizi GenBank’akaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur.

Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456).* NT_123456 birleştirilmiş kontigler* NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)* NP_123456 proteinler* NC_123456 kromozomlar

NCBI Alt Veri TabanlarıPubMedPubMed, NCBI bunyesinde bulunan, yaklasık 20 milyon

atıflık biyomedikal literaturubarındıran, NCBI’ın makale,kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır.PubMedlinkinden, anahtar kelimeye gore bilimsel dergi,, y g g ,makale, kitap vb.aramalar yapılabilmektedir.

Dahası, NCBI da yapılan ozgun aramalarda ve cıkansonuclarda NCBI, PubMed linkineerisim sağlayanbağlantıları sunmaktadır. Ornek vermemiz gerekirse, NCBIbunyesinde gen arama islemi yapılırken, NCBI’ın sağladığıbağlantılarla, kolay bir sekilde ilgili gen ile ilgiliyayınlaraulasılması mumkundur.

OMIM (Online Mendelian Inheritance in Man)

OMIM bilinen insan genleri ve bu genlerinilişkilendirildiği hastalık fenotip bilgisini barındıranNCBI lt i t b d S kl kl ü ll kt diNCBI alt veri tabanıdır. Sıklıkla güncellenmektedir.İnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar,hastalıkların özellikleri ve bu hastalıkların molekülermekanizmaları ile ilgili birçok özet bilgiyi ve ilgilireferansları barındırır.

Nucleotide (Nukleotit Veri Tabanı)

Nükleotid veri tabanı GenBank, Refseq, TPA ve PDB gibi çeşitli kaynaklardan toplanmış ve

düzenlenmiş, DNA ve RNA dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen,

transkript dizi bilgisini barındırır.

GSS Bolumu(Genome Survey Sequence)

Bu bolümde barındırılan diziler, EST’lere benzemektedir. GSS dizileri, karakterize dil i  k   l  h li d   l   ik DNA  l  di i bil il i i edilmemiş, kısa parçalar halinde olan, genomik DNA parçalarının dizi bilgilerini belirtmektedir.

Protein

İlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bolumdur.

Unigene

Unigene bolumu, ilgili genlerin ve ifade edilen psueodogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bolumdur. 

Page 5: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

5

RefSeq

Veri tabanlarında birçok dizi birden fazla kezbelirtilmişve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığıolan gösterimleri engellemek ve bu belirtimleridüzenlemek icin NCBI, RefSeq ikincil alt veri tabanınıoluşturmuştur.

Bu amaçla RefSeq bolumu, genomik DNA, RNA veprotein dizi bilgileri için, geniş kapsamlı, düzenlenmişve gerekli olan sekans bilgilerini tekrar duzenlemistir. Birbaska deyisle, Refseq bolumu, her bir DNA, RNA veprotein dizisi için doğruluğu kanıtlanmış ve kabuledilmiş sekans bilgilerini içerir.

BLAST uygulaması sorgulatılmak istenen protein veyanükleik asit dizisini, benzerlik kıstaslarına ve kendiiçinde barındırdığı algoritmaya göre, veri tabanı içindearayan bir dizi karşılaştırma programıdır. BLAST,sorgulatılan diziyi veri tabanı içindeki diğer dizilerlesorgulatılan diziyi veri tabanı içindeki diğer dizilerlekarşılaştırabildiği gibi kullanıcı tanımlı dizileri ikiliolarak da karşılaştırabilmektedir.

Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar

Page 6: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

6

BLAST arama sonuçlarının karşılaştırılmasında önemliolan bazı parametreler vardır. Bu parametrelere ve buparametreler arasındaki ilişki incelenerek, sonuçlarıngüvenirliliği veya sorulan bilimsel soruya göre aramagüvenirliliği veya sorulan bilimsel soruya göre, aramasonuçlarını seçmek mümkündür. BLAST aramasonuçlarının karşılaştırılmasında kullanılan değişkenler;

• Maksimum Skor (Maximum Score)

• Toplam Skor (Total Score)

• Sorgulama Kapsamı (Query Coverage)

• E‐Değeri (E‐Value)

• Maksimum Benzerlik (Maximum Identity)

Global hizalama yapan Needleman‐Wunschalgoritması ile yerel hizalama yapan Smith‐Watermanalgoritması gibi yöntemler iki proteinin benzerlikskorunun hesaplanmasında kullanılmaktadırskorunun hesaplanmasında kullanılmaktadır.

İkisi de dinamik programlama temelinedayanmaktadır.

Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir. 

Tipik kullanımda, protein hizalamalarında amino asituyuşma veya uyuşmamalarına bir skor verebilmek için birsubstitusyon matrisi; bir dizideki amino asitin öbür dizide birboşlukla eşleştirilmesi için de bir boşluk ceza değerikullanılır. DNA ve RNA hizalamaları için de bir skor matrisik ll bili ik b i i if bi kkullanabilir ama pratikte basitçe pozitif bir uyuşma skoru,negatif bir uyuşmama skoru ve negatif bir boşluk cezasıverilir.Dinamik programlama yöntemi belli bir skorlama

fonksiyonu için optimal hizalamayı bulmayı garantiler.Dinamik programlara ikiden çok diziye de genelleyebilirse de,çok sayıda dizi veya çok uzun dizilerde kullanılamayacakderecede yavaş çalışır.

Page 7: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

7

3 adımda gerçekleşir ;

Initialization

Scoring

Trace back (Alignment)

Match Score = +1

Mismatch Score = ‐1

Gap penalty = ‐1

S b tit ti  M t i Substitution Matrix

Create a matrix with X +1 Rows and Y +1 Columns

The 1st row and the 1st column of the score matrix are filled as multiple of gap penalty

Final Scoring Matrix

Final Trace back

T C G

0 ‐1 ‐2 ‐3

A ‐1 ‐1 ‐2 ‐3

T ‐2 0 ‐1 ‐2

Best Alignment:A T C G|  |  |   |_ T C G

C ‐3 ‐1 1 0

G ‐4 ‐2 0 2

Initialization

Scoring

Trace back (Alignment)

Page 8: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

8

Match Score = +1

Mismatch Score = ‐1

Gap penalty = ‐1

S b tit ti  M t i Substitution Matrix

A C G T

A 1 ‐1 ‐1 ‐1

C ‐1 1 ‐1 ‐1

G ‐1 ‐1 1 ‐1

T ‐1 ‐1 ‐1 1

Example:

The calculation for the cell C(2, 2):

scorediag = C(i‐1, j‐1) + S(I, j) = 0 + ‐1 = ‐1

scoreup = C(i‐1, j) + g = 0 + ‐1 = ‐1scoreup   C(i 1, j) + g   0 +  1    1

scoreleft = C(i, j‐1) + g = 0 + ‐1 = ‐1

T C G

0 0 0 0

A 0 0

T 0

C 0

G 0

Final Scoring Matrix

T C G

0 0 0 0

A 0 0 0 0

T 0 1 0 0

Note: It is not mandatory that the last cell has the maximum alignment score!

T 0 1 0 0

C 0 0 2 1

G 0 0 1 3

Final Trace back

T C G

0 0 0 0

A 0 0 0 0

T 0 1 0 0

Best Alignment:T C G|  |   |T C G

C 0 0 2 1

G 0 0 1 3

Page 9: 2008639501 NezahatKarahan sequence alignment · tür hizalamalar ayrıca filogenetik ağaç inşaederekevrimselbir ilişki ikiyi ortaya kkkoymak iiiçin kllkullanılır. Bö l iBöylesi

03.05.2012

9

Nuran Şahin – Biyoloji Öğretmeni (tanımlar)

Kitaplar :‐ GenetikS. Yüce, G. Bilgen, İ. DemirBi i f i G  P i  C‐ Bioinformatics Genes, Proteins & Computers

C.A. Orengo, D.T. Jones, J.M. Thornton‐ Bionformatics for GeneticistsMichael R. Barnes‐ Bioinformatics Basics Application in Biological Science andMedicineHooman H. Rashidi, Lukas K. Buehler

İnternet :

www.ebi.ac.uk

www.ncbi.nlm.nih.gov

http://biyoinformatik.wordpress.com

http://iys.inonu.edu.tr/

http://tr.wikipedia.org/

http://www.acikders.org.tr/

Makaleler:

‐Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu(Barış Şenliol, Zehra Çataltepe İTÜ)

‐Neden Biyoinformatik?(Rengün Çetin ATALAY*)

‐Special Topics – Computational Biology (Pooja Anshul Saxena)

‐Genetik Kodların Uluslararası Paylaşımı(Alper Akçalı)