71
생생생생생 Bioinformatics 2014 2 학학 학학학학학학학학 학학학학학 2생 2014.9.16

생물정보학 강의 2

Embed Size (px)

DESCRIPTION

한남대학교 생명시스템공학과 생물정보학 강의 2강

Citation preview

Page 1: 생물정보학 강의 2

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

2 강2014.9.16

Page 2: 생물정보학 강의 2

강의계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

Page 3: 생물정보학 강의 2

서열 Sequence

이딴 거 말고

아미노산 서열 Protein Sequence

염기서열 Nucleotide Sequence

이런 거

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>gi|146141195:21-701 Mus musculus RIKEN cDNA 2610034B18 gene (2610034B18Rik), mRNAATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGA

Page 4: 생물정보학 강의 2

서열을 비교하는 것이 왜 중요함 ?

- 서열정보 = 생명의 펌웨어

- 서열의 유사성은 진화과정을 반영함

- 유전자의 기능 연구에 서열 비교는 필수

비슷한 기능을 가진 유전자는 비슷한 서열을 가짐유전자 내에서 중요한 부분일수록 보존되어 있음

DNA-> RNA -> ProteinDNA 에 저장된 유전정보가 결국 단백질을 만들고 , 이 단백질이 생명체의 ‘부품’ 역할을 한다

형제 > 사촌 > 팔촌 > 사돈의 팔촌 > 같은민족 > 같은인종 > 사람 > 유인원 > 포유류 > 동물

Page 5: 생물정보학 강의 2

생명의 근원

• 생명체의 다양성은 전적으로 DNA 에저장된 유전정보의 다양성에 근거함

• 유전정보의 유사성 = 개별 생명체의 유사성

Page 6: 생물정보학 강의 2
Page 7: 생물정보학 강의 2

ACGT공통조상 common ancestor

ATGT ACCT GCGT ACT

ATTT AGT GCCT ACT GCGT GCGGT ACT

진화과정중 , 서열정보는 돌연변이를 통해서 변화가능

돌연변이치환삽입삭제

C

T C

G

G

돌연변이에 의한 서열정보의 변화

Page 8: 생물정보학 강의 2

서열 정렬 Sequence Alignment

- 두 서열간의 유사성 : 유사할수록 유사한 기능

- 서열 내부에서 유사한 부분과 유사하지 않은 부분은 어디인가 ?

두 가지 다른 서열을 비교하기 위해서는 ..

A C G T A C G T A C G

A G T A C A T A C C

A C G T A C G T A C G

A - G T A C A T A C C| | | | | | | |

두 가지 다른 서열을 최대로 유사하게 맞추는 작업이 필요이를 서열 정렬 Sequence Alignment 라고 부른다

서열 정렬을 통해 얻을 수 있는 정보

- 진화적인 연관관계

Page 9: 생물정보학 강의 2

서열을 비교하는 기준

A C G T A C G

과연 이들중에서 어떤 서열이 원래의 서열과 비슷한 서열인가 ?

A G T A C A

T C G A A C C

A C G A G G G

“ 객관적인 기준” 이 필요

Page 10: 생물정보학 강의 2

정량적인 비교를 위해서는 ‘점수’ 가 필요

‘ 유사성의 정도’ 를 정량화해야함 .

Page 11: 생물정보학 강의 2

Transformation

• 글자가 틀린 경우에는 글자를 바꾸고• 순서가 밀린 경우에는 공백을 삽입• 이런 수정을 많이 하는 관계일수록 두 서열은 거리가 멀다

A C G T A C G A A T C C G

A C G A A C G T G C GA C G A A C G T G C GA C G A A C G - T G C GA C G A A C G - - T G C GA C G A A C G - - T C C G

총 4 회 ( 치환 2 번 , 공백삽입 2 번 )

T C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G - T C A T C GT C A A T C G - - T C A T C G

A C G T A C G A A T C - C GA C G T A C G A A T C - - C G

T C A A T C G T C A T C G

총 8 회 ( 치환 4 번 , 공백삽입 4 번 )

Page 12: 생물정보학 강의 2

정량화1. 글자가 틀렸을때마다 감점 Mismatch Penalty2. 공백이 추가될때마다 감점 Gap Penalty3. 서열간의 유사성을 따질때 글자가 바뀌는 것보다 공백이 추가되는 것이 더 큰 변화

A C G T A C G A A T C C G

T C A A T C G - - T C C G

치환 4 회 삽입 2 회

치환 : -1*4 = -4삽입 : -3*2 = -6 -10

A C G T A C G A A T C C G

A C G T A - - - - T C C G

치환 0 회 삽입 4 회

치환 : -1*0 = 0삽입 : -3*4 = -12

-12

Page 13: 생물정보학 강의 2

- A G C T A 10 -1 -3 -4 G -1 7 -5 -3 C -3 -5 9 0 T -4 -3 0 8

모든 서열 변화는 다 평등한가 ?

Page 14: 생물정보학 강의 2

모든 서열 변화는 다 평등한가 ?

“ 아 에서 어” 로 바뀌는 것과 “ 아 에서 뷁” 으로 바뀌는 것은 정도가 틀리다 .

“ 아미노산은 다 성질이 틀려요” + 극성 - 극성

친수성

비극성

이렇게 바뀌나

요렇게 바뀌는거는별거 아니지만 ,

이렇게 바뀌는 것은‘ 별거’ 임 .

서열 변화의 빈도를 조사하자

Page 15: 생물정보학 강의 2

치환행렬 Substitution Matrix

A->S 변화 : 1A->T 변화 : 1A->W 변화 : -6

점수값이 높을수록 변화가 일어나기 힘들며 , 점수값이 낮을수록 변화가 일어나기 힘들다

Page 16: 생물정보학 강의 2

ARWARTS|||||||ARAGQSS

ARWARTS|||||||ARYSETD

A-A : 2 R-R : 6W-A :-6 A-G : 1R-Q : 1T-S : 1S-S : 2

총점 : 7

A-A : 2R-R : 6W-Y : 0A-S : 1R-E : -1T-T : 3S-D : 0

총점 : 11

승 !

ARWARTSARAGQSSARYSETD

Page 17: 생물정보학 강의 2

두가지 서열 정렬방식Global Alignment Local Alignment

- 비교할 두 가지의 서열에 있는 모든 글자를 최대한 맞추도록 노력함

- 길이가 대개 비슷하고

- 전체적으로 유사성이 높은 서열들간의 비교에 적합함

- 예 : Needleman-Wunsch

알고리즘

- 서열의 일부분을 최대한 맞추도록 노력함

- 길이가 서로 상이하고

- 서열의 일부분에서 유사성이 나타나는 서열간의 비교에 적합함

- 예 :Smith-Waterman 알고리즘

Page 18: 생물정보학 강의 2

서열 1 TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC

서열 2

두가지 서열 정렬방식의 차이

AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC

두 가지 서열을 Global alignment 로 비교했을 경우http://www.ebi.ac.uk/Tools/psa/emboss_stretcher/nucleotide.html

두 가지 서열을 Local alignment 로 비교했을 경우

Page 19: 생물정보학 강의 2

EMBOSS_001 1 TCCCAGTTATGTCAGGGGACACGAGC-ATG-CAGAGAC 36 ..........||| |....||..||. ||| ||||. |EMBOSS_001 1 AATTGCCGCCGTC-GTTTTCAGCAGTTATGTCAGAT-C 36

TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC |||||||||||| AATTGCCGCCGTCGTTTTCAGTTATGTCAG

Global

Local

Page 20: 생물정보학 강의 2

실전>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE

인간

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

초파리

이것을 local alignment 로 분석하면 ..인간 119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||초파리 285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

인간 166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|초파리 335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

Page 21: 생물정보학 강의 2
Page 22: 생물정보학 강의 2

초파리와 사람의 특정 유전자 내의 일부에 유사성이 있음 .

유전자의 유사성 -> 기능적 유사성 ?

Page 23: 생물정보학 강의 2

용어 정리

Homologs : 서열정보에서 유사성이 있는 공통적인 유전자에서 유래된 유전자

Orthologous : 서로 다른 생물에 존재하는 유사 유전자

Paralogous genes are homologous genes in one organism that derive from gene duplication

Gene duplication: one gene is duplicated in multiple copies that therefore free to evolve and assume new functions

Page 24: 생물정보학 강의 2

비교서열 1

비교서열 2

두가지 서열을 가로세로로 일단 쓰고

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

G

A

T

T

A

C

A

Global Alignment (Needleman-Wunsch)

Page 25: 생물정보학 강의 2

비교서열 1

비교서열 2

첫 줄은 다음과 같이 채우고

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1

A -2

T -3

T -4

A -5

C -6

A -7

Page 26: 생물정보학 강의 2

비교서열 1

비교서열 2

대각선의 값 0 + G 와 G 는 동일 1 = 1

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1

A -2

T -3

T -4

A -5

C -6

A -7

-1 + -1 = -2 -1 + -1 = -2

Page 27: 생물정보학 강의 2

비교서열 1

비교서열 2

대각값 -1 + -1 = -2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0

A -2

T -3

T -4

A -5

C -6

A -7

1 + -1 = 0 -2 + -1 = -3

Page 28: 생물정보학 강의 2

비교서열 1

비교서열 2

-2 + -1 = -3

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1

A -2

T -3

T -4

A -5

C -6

A -7

0 + -1 = -1 -3+ -1 = -4

Page 29: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2

A -2

T -3

T -4

A -5

C -6

A -7

Page 30: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2

T -3

T -4

A -5

C -6

A -7

Page 31: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3

T -4

A -5

C -6

A -7

Page 32: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4

A -5

C -6

A -7

Page 33: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

Page 34: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

TA

Page 35: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

CTCA

Page 36: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

GCTACA

Page 37: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

TGCTTACA

- GCTTACA

Page 38: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

ATGCTTTCCA

- GCTTCCA

Page 39: 생물정보학 강의 2

비교서열 1

비교서열 2

GATTACA

GCATGCT

서열 정렬의 원리

G C A T G C T

0 -1 -2 -3 -4 -5 -6 -7

G -1 1 0 -1 -2 -3 -4 -5

A -2 0 0 1 0 -1 -2 -3

T -3 -1 -1 0 2 1 0 -1

T -4 -2 -2 -1 1 1 0 -1

A -5 -3 -3 -1 0 0 0 -1

C -6 -4 -2 -2 -1 -1 1 0

A -7 -5 -3 -1 -2 -2 0 0

GCAT-GCTG-ATTACA

GCATG-CTG-ATTACA

Page 40: 생물정보학 강의 2

서열 정렬을 할때 이것을 다 반복해야하나 ?

아뇨 . -.-

계산 자체는 컴퓨터가 함 .

실제로 기존에 개발된 웹사이트를 사용하면 됨 .

그렇지만 원리를 이해하는 것이 중요 !

Page 41: 생물정보학 강의 2

요약하면

• 두 개의 서열을 정량적으로 비교하는 방법이 필요 : 누가누가 더 가깝나 ?

• 염기 ( 아미노산 ) 가 변하는 경우에 감점 (Mismatch Penalty)

• 염기 ( 아미노산 ) 중간에 공백이 생기면 더 빡센 감점 (Gap Penalty)

• 이런식으로 두개의 서열을 가장 최적화된 방법으로 ‘비교’하고

• 얼마나 비슷한지를 점수화

Page 42: 생물정보학 강의 2

서열 데이터베이스 검색

일대다 비교

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

nr : nonredundant db

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

핵산 : 50,258,967, 936 bp, 19,909, 539 종아미노산 : 11,434,352,561 aa, 32,818, 767 종

이렇게 방대한 데이터베이스에서 어떻게 우리가 원하는 서열을 찾을수 있을까 ?

Page 43: 생물정보학 강의 2

내가 DNA 염기서열 결정을 해서 어떤 임의의 염기서열을 얻었음 .

1. 이게 어떤 생물 유래의2. 어떤 유전자와 비슷한가 ?3. 어떠한 기능을 수행하는가 ?

내가 연구하는 특정한 단백질과 유사한 단백질이…

1. 사람이 가지고 있는 2 만 종류의 단백질 중 존재하는가 ?2. 다른 생물에도 이와 비슷한 단백질이 존재하는가 ?

이런 물음에 답을 얻으려면 ..

기존에 알려진 DNA/ 단백질 서열 데이터베이스와 내가 관심이 있는 서열을 가지고 찾아봐야함 .

Page 44: 생물정보학 강의 2

서열 데이터베이스 검색을 위해서는 ..

정확도는 좀 떨어지더라도 빠른 방법이 필요

무지막지하게 많은 숫자의 서열을 대상으로

우리가 가지고 있는 서열정보를 가지고

그것을 일일히 비교해야 함 .

Page 45: 생물정보학 강의 2

서열 데이터베이스 검색을 위한 서열비교법

FASTA

BLAST

Original, ungapped BLAST: Altschul et al., 1990Gapped BLAST: Altschul et al., 1997

Page 46: 생물정보학 강의 2

Killer App

Page 47: 생물정보학 강의 2

BLASTBasic Local Alignment Search Tool

“ 생물정보학계의 카톡”

Page 48: 생물정보학 강의 2

BLAST 의 원리1. 찾으려는 서열을 3 글자 단위로 쪼갬

SMVSMITWVGMWSWS까지는 비슷한 것

SFV, SRV 는 아니고…

Page 49: 생물정보학 강의 2

SMV, SMI, TWV….등이 나오는 서열들을 데이터베이스에서 검색

매치되면 앞뒤로 확장

지정된 기준이 넘는 서열들을 추려내고 alignment 를 만듬

Page 50: 생물정보학 강의 2

Expected Value (E-value)

E-Value 는 “데이터베이스에서 비슷하지도 않은 서열이 우연히 찾아질 갯수”

값이 낮거나 0 에 가까울수록 예측된 서열이 ‘우연으로’ 찾아진 것이 아님

- 데이터베이스 내에 존재하는 데이터의 갯수 n 과 - 서열의 길이 m

시퀀스 데이터베이스에서 검색된 서열의 신빙성은 어떻게 확인할 수 있나 ?

Page 51: 생물정보학 강의 2

E-value 가 낮은 것부터 높은 것으로 정렬

E-value 가 낮다 : 시퀀스가 우리가 입력한 서열과 실제로 비슷한 것일 가능성이 높다 .

8 * 10-166

Page 52: 생물정보학 강의 2

226 개의 아미노산 중 200 개가 동일 .Expected Value : 5*10-148

Page 53: 생물정보학 강의 2

226 개의 아미노산 중 200 개가 동일 .Expected Value : 1*10-8

Page 54: 생물정보학 강의 2

E-value : 9.9

Page 55: 생물정보학 강의 2

“ 어느정도의 E-Value 가 되어야 우리가 상동성이 있는 서열을 찾았다고 신뢰할 수 있는가 ?”

- 정답은 없음 .

- E-value 는 우리가 넣은 검색 서열과 DB 의 크기에 따라서 틀려짐 .>sp|P38398|BRCA1_HUMAN Breast cancer type 1 susceptibility protein OS=Homo sapiens GN=BRCA1 PE=1 SV=2MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFSQLVEELLKIICAFQLDTGLEYANSYNFAKKENNSPEHLKDEVSIIQSMGYRNRAKRLLQSEPENPSLQETSLSVQLSNLGTVRTLRTKQRIQPQKTSVYIELGSDSSEDTVNKATYCSVGDQELLQITPQGTRDEISLDSAKKAACEFSETDVTNTEHHQPSNNDLNTTEKRAAERHPEKYQGSSVSNLHVEPCGTNTHASSLQHENSSLLLTKDRMNVEKAEFCNKSKQPGLARSQHNRWAGSKETCNDRRTPSTEKKVDLNADPLCERKEWNKQKLPCSENPRDTEDVPWITLNSSIQKVNEWFSRSDELLGSDDSHDGESESNAKVADVLDVLNEVDEYSGSSEKIDLLASDPHEALICKSERVHSKSVESNIEDKIFGKTYRKKASLPNLSHVTENLIIGAFVTEPQIIQERPLTNKLKRKRRPTSGLHPEDFIKKADLAVQKTPEMINQGTNQTEQNGQVMNITNSGHENKTKGDSIQNEKNPNPIESLEKESAFKTKAEPISSSISNMELELNIHNSKAPKKNRLRRKSSTRHIHALELVVSRNLSPPNCTELQIDSCSSSEEIKKKKYNQMPVRHSRNLQLMEGKEPATGAKKSNKPNEQTSKRHDSDTFPELKLTNAPGSFTKCSNTSELKEFVNPSLPREEKEEKLETVKVSNNAEDPKDLMLSGERVLQTERSVESSSISLVPGTDYGTQESISLLEVSTLGKAKTEPNKCVSQCAAFENPKGLIHGCSKDNRNDTEGFKYPLGHEVNHSRETSIEMEESELDAQYLQNTFKVSKRQSFAPFSNPGNAEEECATFSAHSGSLKKQSPKVTFECEQKEENQGKNESNIKPVQTVNITAGFPVVGQKDKPVDNAKCSIKGGSRFCLSSQFRGNETGLITPNKHGLLQNPYRIPPLFPIKSFVKTKCKKNLLEENFEEHSMSPEREMGNENIPSTVSTISRNNIRENVFKEASSSNINEVGSSTNEVGSSINEIGSSDENIQAELGRNRGPKLNAMLRLGVLQPEVYKQSLPGSNCKHPEIKKQEYEEVVQTVNTDFSPYLISDNLEQPMGSSHASQVCSETPDDLLDDGEIKEDTSFAENDIKESSAVFSKSVQKGELSRSPSPFTHTHLAQGYRRGAKKLESSEENLSSEDEELPCFQHLLFGKVNNIPSQSTRHSTVATECLSKNTEENLLSLKNSLNDCSNQVILAKASQEHHLSEETKCSASLFSSQCSELEDLTANTNTQDPFLIGSSKQMRHQSESQGVGLSDKELVSDDEERGTGLEENNQEEQSMDSNLGEAASGCESETSVSEDCSGLSSQSDILTTQQRDTMQHNLIKLQQEMAELEAVLEQHGSQPSNSYPSIISDSSALEDLRNPEQSTSEKAVLTSQKSSEYPISQNPEGLSADKFEVSADSSTSKNKEPGVERSSPSKCPSLDDRWYMHSCSGSLQNRNYPSQEELIKVVDVEEQQLEESGPHDLTETSYLPRQDLEGTPYLESGISLFSDDPESDPSEDRAPESARVGNIPSSTSALKVPQLKVAESAQSPAAAHTTDTAGYNAMEESVSREKPELTASTERVNKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLITEETTHVVMKTDAEFVCERTLKYFLGIAGGKWVVSYFWVTQSIKERKMLNEHDFEVRGDVVNGRNHQGPKRARESQDRKIFRGLEICCYGPFTNMPTDQLEWMVQLCGASVVKELSSFTLGTGVHPIVVVQPDAWTEDNGFHAIGQMCEAPVVTREWVLDSVALYQCQELDTYLIPQIPHSHY

BRCA1 : 1863bp

이를 swissprot db 에서 검색

Page 56: 생물정보학 강의 2
Page 57: 생물정보학 강의 2

동일한 단백질의 일부분 (1647-1850) 을 가지고 검색을 다시 해보도록 함

Page 58: 생물정보학 강의 2

동일한 단백질이 검색되지만 E-Value 는 낮아짐 .

NKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLITEETTH 만을 가지고 검색을 하면 ?

Page 59: 생물정보학 강의 2

검색의 대상의 길이가 짦아질수록 같은 서열이 검색되더라도 E-values 는 낮아짐‘ 우연히 매칭될’ 확률은 증가됨 /

Page 60: 생물정보학 강의 2

BLAST 의 종류

Blastn

Blastp

Blastx

Tblastp

tblastx

입력서열 검색 db

Nucleotide Nucleotide

Protein Protein

Nucleotide Protein

Protein Nucleotide (translated)

Nucleotide Nucleotide (translated)

Page 61: 생물정보학 강의 2

무슨 데이터베이스를 선택할 것인가 ?

Non-redundant protein sequence (nr) : 모든 중복되지 않는 단백질 서열

Reference proteins : 지놈 시퀀싱에서 유래된 큐레이션된 단백질 수록

UniProtKB/Swiss-Prot : 클래스에서 대표적인 단백질 수록 . 단백질 기능파악

Page 62: 생물정보학 강의 2

Non-redundant protein sequence (nr) 에서의 검색결과

현재까지 알려진 모든 단백질이 모두 등장

Page 63: 생물정보학 강의 2

UniprotKB/Swiss-prot 에서의 검색결과

가장 대표적인 몇 종류의 단백질만 등장함

상동성이 낮은 단백질의 검색 결과도 등장함

Page 64: 생물정보학 강의 2

BLAST DEMO

Page 65: 생물정보학 강의 2

http://blast.ncbi.nlm.nih.gov/Blast.cgi

특정한 생물의 지놈 내에서 찾고 싶다면

찾으려는 서열이핵산일때

찾으려는 서열이단백질일때핵산 서열을

단백질로 변환하여 단백질 db 에서

찾고싶을때

단백질 서열을 가지고 단백질로

변환된 핵산데이터베이스

를 검색

핵산 서열을 단백질로 변환하여 단백질

서열로 변환된 핵산데이터베이스에서

검색

Page 66: 생물정보학 강의 2

검색대상의 서열을 붙여넣고

검색 DB 를 선택하거나

이건 다음 시간에 설명 ..

옵션을 설정

Page 67: 생물정보학 강의 2

최대로 보여줄 결과물 갯수 . NR등과 같은 큰 데이터베이스에서 낮은 상동성을 가진 단백질을 검색하고 싶을 때는 늘리는 것이

좋음E-value 최대값

“EEEEEEDDDDDDD” 나 “ PPPPPPPPWP” 와 같은 단순반복서열은 매스킹하여 검색

Page 68: 생물정보학 강의 2

시퀀스 내에 존재하는 단백질 도메인

111 개의 유사성있는 서열이 검출됨

적색으로 갈수록

상동성이 높음

중간부분과 뒷부분에서만 상동성이

존재

Page 69: 생물정보학 강의 2

단백질 이름 [ 생물종 ]

E-value

Page 70: 생물정보학 강의 2

동일한 유전자

검색된 단백질 링크

Page 71: 생물정보학 강의 2

같은 생물 (마우스 ) 에 존재하는

유사유전자(Paralog)

두 부분에서 상동성이

있음 . 742-1202

40-517

이와 같은 경우