한남대학교 생명시스템과학과 생물정보학 강의 3강

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

3 강 2014.9.23

강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

지난 주에는 ..

- 서열 두 개를 비교하는 방법과 ..

- 여러개의 서열 정보 중에서 자신이 원하는 서열과 비슷한 서열을 찾아내는 방법을 배움

>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

BLAST 결과물

Now what? 이제 뭐하나 ?

우리의 관심단백질과 유사성을 가진 단백질을 많이 찾았음 !

이번 주에는

- 서열이 정렬되면 서열에서 보존된 부분과 그렇지 않은 부분을 파악할 수 있음 .

- 두 개 이상의 서열을 비교하기 위해서는 역시 서열 정렬이 필요하며

VSKGRSALLSDICQGTSLKKVEVNDRS

DLKGRSALLADIQQGTRLRKVTQINDRS

GGAGRGALLGDISKGMKLKKVTQVNDRS

GGGNRNALFADINKGVPKLRKAVTNDRS

EQKGRNALLGDICKGAKLKKTTGVNDRS

- 두 개 이상의 서열을 비교하는 방법에 대해서 알아보자 .

- 복수서열정렬 : Multiple Sequence Alignment (MSA)

왜 두 개 이상의 서열을 비교해야 하나 ?

- 단백질 서열 하나

YEKIGKIGEGSYGVVFKCRNRDTGQIVAIKKFLESEDDPVIKKIALREIRMLKQLKHPNLVNLLEVFRRKRRLHLVFEYCDHTVLHELDRYQRGVPEHLVKSITWQTLQAVNFCHKHNCIHRDVKPENILITKHSVIKLCDFGFARLLAGPSDYYTDYVATRWYRSPELLVGDTQYGPPVDVWAIGCVFAELLSGVPLWPGKSDVDQLYLIRKTLGDLIPRHQQVFSTNQYFSGVKIPDPEDMEPLELKFPNISYPALGLLKGCLHMDPTQRLTCEQLLHHPYF

이 서열 정보만 보고서 우리가 어떤 정보를 알 수 있는가 ?

그닥 알 수 있는 게 없다 .

단백질의 분자량 , pI 정도 ? 그렇다면 서열 두개를 비교한다면 ?

두 서열간에 어느정도 상동성이 있다 .

갭도 좀 있고 ..

…. 이정도 ?단백질의 기능과 특성 ...??

그러나 세 개 이상의 복수의 서열을 정렬하여 비교한다면…

* * * * ** * * ** * * *보존된 아미노산 잔기들 – 아마도 기능적으로 중요 ?

보존된 영역들

변화가 심한 영역들계통별 , 그룹별 분류가 가능

단백질의 2 차 구조

MSA 를 통해 얻을 수 있는 정보

• 하나 혹은 두개의 DNA/ 단백질 서열보다 복수의 서열을 정렬하면 더 많은 정보를 얻을 수 있음• 도메인 (Domain) : 복수의 단백질에 공통적으로 존재하는 단백질 내의 기능적인 구성요소

미지의 단백질 서열에서 이미 기능이 알려진 도메인이 발견되면 -> 이를 근거로 단백질의 기능을 추정가능

MSA 를 통해 알 수 있는 정보

- 서열 내에서 진화적으로 보존된 부분은 어디인가 ?

진화적으로 보존된 부분 = 단백질의 기능에 중요한 부분** * * ** * * *****

단백질의 기능은 단백질의 구조가 결정 :진화적으로 보존된 부분중의 상당수는 단백질의 구조를 결정하는 부분

단백질 구조와 MSA- 단백질의 경우 특정한 기능은 대개 특정한 입체구조와 연결되어 있음 .

- 서열 변화에 비해 구조 변화의 속도는 느림

Structure 2013 21, 1690-1697DOI: (10.1016/j.str.2013.06.020)

- 보존되어 있는 단백질 서열은 대개 구조 유지에 필수적

MSA 를 통한 구조 예측

단백질 구조가 알려져 있지 않은 단백질 서열MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSG

서열 db 검색

단백질 구조가 이미 결정된 단백질 서열 데이터베이스에서 서열 검색

MSA 를 통한 구조 예측

서열이 유사한데 이미 구조가 알려진 단백질

Multiple Sequence alignment

기존에 구조가 알려진 단백질 서열과 구조가 알려져 있지 않는 서열의 비교서열의 비교를 통해 구조를 유추

단백질의 진화 과정>gi|122412|sp|P01922|HBA_HUMAN HEMOGLOBIN ALPHA CHAINMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

>gi|122587|sp|P02112|HBB_CHICK HEMOGLOBIN BETA CHAINMVHWTAEEKQLITGLWGKVNVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHGKKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTPECQAAWQKLVRVVAHALARKYH

>gi|122407|sp|P01923|HBA_GORGO HEMOGLOBIN ALPHA CHAINVLSPADKTNVKAAWGKVGAHAGDYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

>gi|122614|sp|P02062|HBB_HORSE HEMOGLOBIN BETA CHAINVQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH

>gi|4504349|ref|NP_000509.1| hemoglobin, beta [Homo sapiens]MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

인간 alpha

닭 beta

고릴라 alpha

말 beta

인간 beta

단백질 서열의 ‘족보’ 를 알 수 있는가 ?

포유동물의 헤모글로빈은 alpha 와 beta 가 있음 .

MSA 로부터 Phylogenetic Tree 계산

인간 alpha

닭 beta

고릴라 alpha

말 beta

인간 beta

MSA 를 통해 알 수 있는 정보- 시퀀스 모티프 (Sequence Motif) : 단백질 혹은 핵산에서 특정한 의미를 가진 서열의 패턴

- “ 특정한 전사인자 (Transcription Factor) 에 붙는 DNA 서열은 ?”

- 예 : 유전자의 발현조절은 전사인자 (Transcription Factor) 가 특정한 유전자의 프로모터에- 결합하여 전사를 유도하거나 억제한다 .

MultipleSequenceAlignment

단백질구조예측

단백질의계통분류

도메인 분석 &

단백질의 기능예측

시퀀스모티프 파악

MSA 의 기본 원리

- 두 개의 서열을 비교하는 것과 동일한 방식으로 비교하기에는 MSA 에는 너무 많은 시간이 소요

- 아미노산 100 개의 서열을 2 개 비교할 떄 100^2 = 10,000 의 시간이 든다면 ,- 3 개 비교할때는 100^3 = 10,000,000 이 들고 ..- 4 개 비교한다면 100^4 = 10,000,000,000 이 든다면…

현실적으로 2-3 개 이상의 서열을 비교할 수는 없음 .

조금 더 단순한 방법이 필요함 .

MSA 의 기본 원리

Progressive global alignment

1. 각각의 서열간을 비교ABCDEF

ABCDEF

A B C D E F2. 가까운 서열끼리 그룹을 짓는다 .

A

B

C

D

E

F

3. 가장 가까운 것끼리 비교 (Gap 이 필요할때는 Gap 을 삽입 )

AE

4. 다음 가까운 것끼리 정렬

BF

5. 정렬된 서열끼리 비교 (Gap 추가 )

BF

AE

ClustalW

http://www.ebi.ac.uk/Tools/msa/clustalw2/

여러 가지 MSA 소프트웨어

- Muscle

- T-Coffee

- Promal3D

http://www.ebi.ac.uk/Tools/msa/muscle/

비교대상 서열이 많을 때 사용

http://tcoffee.crg.cat/apps/tcoffee/do:regular

- MSA 의 알고리즘에 따라서 그 결과는 틀림 . ClustalW 의 경우 가장 널리 알려진 소프트웨어이나 오래되었고 이보다 정확성이 높은 알고리즘이 많이 나옴

http://prodata.swmed.edu/promals3d/promals3d.php

>gi|122412|sp|P01922|HBA_HUMAN HEMOGLOBIN ALPHA CHAINMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

>gi|4504349|ref|NP_000509.1| hemoglobin, beta [Homo sapiens]MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

>sp|P02144|MYG_HUMAN Myoglobin OS=Homo sapiens GN=MB PE=1 SV=2MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>sp|O04986|HBL1_ORYSJ Non-symbiotic hemoglobin 1 OS=Oryza sativa subsp. japonica GN=HB1 PE=1 SV=1MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSFLRNSDVPLEKNPKLKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDAHFEVVKFALLDTIKEEVPADMWSPAMKSAWSEAYDHLVAAIKQEMKPAE

>sp|Q9NPG2|NGB_HUMAN Neuroglobin OS=Homo sapiens GN=NGB PE=1 SV=1MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVMLVIDAAVTNVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAVVQAMSRGWDGE

MSA 소프트웨어에 따른 결과의 차이

ClustalW

Muscle

Promal3DUtilize protein structure information if exists..

MSA 의 과정

• 시퀀스 데이터베이스 검색 (BLAST)• 특정 생물에서의 paralog 선택• 몇 가지 생물종에서의 ortholog 선택

Alignment 를 수행할 데이터 수집

목적 시퀀스

* 전체 혹은 일부 ?

• 용도에 따라 적절한 소프트웨어 선택 단백질 or 핵산 ?* 목적 시퀀스에 대한 구조정보가 있나 ?

MSA 수행

결과분석

관심 서열

- MSA 를 통해서 알아보고 싶은 것이 무엇인가 ?

- 전체 서열을 사용할 것인가 ?

• 단백질 / 핵산의 구조에 대한 정보 ?• 단백질 / 핵산의 기능에 대한 정보 ?• 단백질 / 핵산에 존재할 수 있는 모티프에 대한 정보 ?• 단백질 / 핵산 내부에 존재하는 보존된 잔기에 대한 정보 ?• 여러 단백질 / 핵산 서열을 이용한 진화과정의 추정 ?

• 전체 단백질 / 핵산과 유사한 서열이 복수로 존재하는 경우 : 전체 서열• 그렇지 않다면 : 상동성이 있는 영역에 대해서만

- 이런 정보를 알아보기 위해서는

일단 BLAST

서열의 준비- BLAST 등의 서열 데이터베이스를 이용하여 유사 서열을 확보 .

적절한 db 선택이 중요 !

- 만약 단일 생물에 존재하는 유사유전자 / 단백질 (Paralogs) 끼리 비교한다면 ..

사람에 존재하는 Paralogs 만 나온다

- 여러 생물에 존재하는 대표적인 단백질을 대상으로 찾고 싶다면…

<- UniprotKB/Swiss-Prot 을 선택하면

그냥 전체 서열 db (nr) 에서 찾으면 안되나 ?

그래도 된다 . 단…중복을 조심할 것 !거의 모든 서열이 거의 같은 서열일 수 있다

너무 비슷한 서열끼리의 비교는 그닥 의미가 없음

인간 , 고릴라 , 침팬지… .. 등의 헤모글로빈은 다 비슷하다 . -.-보다 유용한 정보를 얻기 위해서는 다양한 종류의 서열끼리 비교가 필요 .완전히 동일한 서열은 제거해줌 .

중복된 서열을 배제하려면 ..

UniRef90 : 최대 90% 일치하는 서열로만 중복을 배제하여 구성된 db

http://www.uniprot.org/blast/

어떤 MSA 소프트웨어를 선택할 것인가 ?

• 물론 여기에는 절대적인 기준은 없음 .• 시퀀스 간의 상동성이 90% 이 넘고 , 거의 비슷한 사이즈의 단백질 / 핵산

ClustalW

• 그렇지 않은 경우 (= 웬만하면 ClustalW 는 쓰지마라 ) MUSCLE, T-Coffee

• 실험적으로 규명된 단백질 구조가 있는 경우

PROMAL3D, 3D-Coffee

DEMO

MSA 를 다양하게 표시하는 방법

CLUSTAL

Hemoglobin_alpha/1-142 -----------MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH-F-Hemoglobin_beta/1-147 ----------MVHLTPEEKSAVTALWGKVNVD--EVGGEALGRLLVVYPWTQRFFES-FGMyoglobin/1-154 -----------MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK-FKNeuroglobin/1-151 -------------MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRRice/1-166 MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSF-LR

Hemoglobin_alpha/1-142 -----DLSHGSAQVKGHGKKVADALTNA---VAHVDDMPNALSALSDLHAHKLRVDPV--Hemoglobin_beta/1-147 DLSTPDAVMGNPKVKAHGKKVLGAFSDG---LAHLDNLKGTFATLSELHCDKLHVDPE--Myoglobin/1-154 HLKSEDEMKASEDLKKHGATVLTALGGI---LKKKGHHEAEIKPLAQSHATKHKIPVK--Neuroglobin/1-151 QFSSPEDCLSSPEFLDHIRKVMLVIDAA---VTNVEDLSSLEEYLASLGRKHRAVGVKLSRice/1-166 NSDVP--LEKNPKLKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDA

Hemoglobin_alpha/1-142 NFKLLSHCLLVTLAAHLPAE-FTPAVHASLDKFLASVSTVLTSKYR------Hemoglobin_beta/1-147 NFRLLGNVLVCVLAHHFGKE-FTPPVQAAYQKVVAGVANALAHKYH------Myoglobin/1-154 YLEFISECIIQVLQSKHPGD-FGADAQGAMNKALELFRKDMASNYKELGFQGNeuroglobin/1-151 SFSTVGESLLYMLEKCLGPA-FTPATRAAWSQLYGAVVQAMSRGWDGE----Rice/1-166 HFEVVKFALLDTIKEEVPADMWSPAMKSAWSEAYDHLVAAIKQEMKPAE---

물론 이렇게 표시할 수 있으나 , 눈에 잘 안들어온다 .

Jalview

http://www.jalview.org/

http://www.ebi.ac.uk/Tools/msa/muscle/ 의 결과 파일

이 파일을 .aln 이라는 확장자로 저장 .

Motif

- 특정한 DNA 혹은 단백질 서열 내에서 공통적으로 발견되는 짧은 연속서열의 패턴

EF-Hand Calcium bindingOct4 Binding

Promoter

www.cs.tau.ac.il/~bchor/CG06/CG7b-PSSM.ppt

유전자 발현 조절

유전자조절부위 (Regulatory Element)

RNA polymerase( 단백질 )

전사인자 ( 단백질 )

DNA

www.cs.washington.edu/homes/tompa/papers/binding.ppt

http://www.cs.washington.edu/homes/tompa/papers/binding.ppt

단백질

RNA polymerase

전사인자

조절부위 (Regulatory Element)

DNA

새로운 단백질

유전자 발현 조절

유전자의 발현 조절의 핵심은 결국 전사인자 ( 단백질 ) 이 특정한 서열의 DNA 조절부위에 결합하느냐임

Questions

1. 특정한 전사인자에 의해서 발현이 촉진되는 유전자가 10 개 있다고 하자 .

2. 이들의 Promoter 서열을 분석하여

3. 공통적으로 존재하는 서열이 있는지를 파악하여

4. 특정한 전사인자가 결합하는 서열을 찾을 수 있는가 ?

Profile and Position Specific Sequence Matrix

PSSM 이란 ? : Motif 의 MSA 를 수치적으로 표현

ATGC

12604

02000

01730

60

131

100

19

19001

21361

…..

Sequence Logo

http://weblogo.berkeley.edu/logo.cgi

PSSM 의 응용

일반적인 BLAST

>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

nr : nonredundant db







서열 하나를 가지고 , 서열 데이터베이스를 검색

PSI-BLAST

서열 프로파일

nr : nonredundant db







서열 하나 대신 , 서열 프로파일을 이용하여 서열 데이터베이스를 검색서열 하나를 이용하여 검색하는 것보다 좀 더 민감하게 검색 가능

PSI-BLAST

PSI-BLAST1 단계 검색

BLAST 결과로프로파일 만듬

프로파일로PSI-BLAST2 단계 검색

BLAST 결과로프로파일 만듬

프로파일로PSI-BLAST3 단계 검색

프로파일을 이용한 검색으로 원래 단백질과 낮은 상동성을 가진 단백질을 검색 가능하나의 서열을 가지고 검색하기 힘든 경우도 프로파일을 이용하여 검색하면 검색 가능

PSI-BLAST

일반적인 BLAST 와 마찬가지로 서열 하나를 가지고 검색을 시작

PSI-BLAST

일반적인 BLAST 와 마찬가지로 BLAST 결과가 나옴BLAST 결과를 가지고 Profile 을 만든 후 , 이 Profile 로 검색을 다시 수행이전에 발견되지 않았던 검색 결과가 출현 （하나의 시퀀스보다 프로파일을 이용한 검색이 보다 민감 )새롭게 발견된 결과를 포함하여 다시 프로파일을 만들고 , 이를 이용하여 다시 검색 수행

Pfam

Profile hidden Markov Models (HMMs) 각각의 고유한 단백질 패밀리 ( 도메인 ) 의 MSA 를 수치모델화( 예 : Protein Kinase, Phosphatase, ATPase…)

HMM 과 PSSM

PSSM 은 단순히 아미노산의 빈도만을 고려HMM 은 옆의 서열과 삽입 / 삭제를 모두 고려

http://pfam.xfam.org

Profile HMM (Hidden Markov Model)can accurately represent a MSA

D16 D17 D18 D19

M16 M17 M18 M19

I16 I19I18I17

100%

100% 100%

100%

D 0.8S 0.2

P 0.4R 0.6

T 1.0 R 0.4S 0.6

X XX X

50%

50%D R T RD R T SS - - SS P T RD R T RD P T SD - - SD - - SD - - SD - - R

16 17 18 19

Match

delete

insert

Pfam

“내가 가진 서열에 어떠한 도메인이 존재하는가 ?” “ 각각의 단백질 패밀리에 대한 MSA 를 보고싶다”

PFAM 에서 정의되어 있는 패밀리명을 검색하면 ..

해당 패밀리에 대한 정보

해당 패밀리에 대한 MSA 를 볼 수 있다 .

해당 패밀리에 대한 미리 구축된 alignment

해당 도메인을 가진 단백질의 도메인 구성

내가 가지고 있는 서열내에 어떤 공통적인 도메인이 있는가 ?

PFAM database

PFAM 에 저장되어 있는 14,831 개의

고유한 단백질 패밀리가 해당 시퀀스에 존재하는지를 검사함

http://pfam.xfam.org/search

HMMER : Basis of Pfam

1. Multiple Sequence Alignment 로부터 HMM Profile 을 작성

2. 임의의 시퀀스를 HMM Profile 데이터베이스에서 검색

도메인 검출

3. Profile 을 이용하여 시퀀스 데이터베이스로부터 검색

단백질 서열을 이용하여 단백질 서열 데이터베이스로부터 검색

= PSI-BLAST 와 유사 .

DEMO

PSI-BLAST, Pfam, Hmmer

과제

1. 다음의 단백질 서열이 있다 .

>sp|P68133|ACTS_HUMAN Actin, alpha skeletal muscle OS=Homo sapiens GN=ACTA1 PE=1 SV=1MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYPIEHGIITNWDDMEKIWHHTFYNELRVAPEEHPTLLTEAPLNPKANREKMTQIMFETFNVPAMYVAIQAVLSLYASGRTTGIVLDSGDGVTHNVPIYEGYALPHAIMRLDLAGRDLTDYLMKILTERGYSFVTTAEREIVRDIKEKLCYVALDFENEMATAASSSSLEKSYELPDGQVITIGNERFRCPETLFQPSFIGMESAGIHETTYNSIMKCDIDIRKDLYANNVMSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF

2. 이 단백질을 BLAST 등의 db 검색을 이용하여 다음 생물종에서 가장 상동성이 높은 단백질을 1 종 찾는다

- Human (Homo Sapiens)

- Fruit Fly (Drosophila melanogaster)

- Mouse ( Mus musculus)

- Rice (Oryza sativa)

- Yeast (Saccharomyces cerevisiae)

http://www.uniprot.org/taxonomy/10090



3. 해당 아미노산 서열을 MultiFasta format 으로 저장한후

• Multifasta format

> 시퀀스 _ 이름서열 1> 시퀀스 _ 이름 _2서열 2

4. Muscle, ClustalW 를 이용하여 Multiple Sequence alignment 를 수행한다 .

5. Jalview 를 통하여 Visualization 하고

6. 아미노산 서열 중에서 5 종의 생물에 보존된 잔기를 marking 한다 .

MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGM이런 식으로

7. 전체 과정을 스크린을 캡춰하여 9월 30 일 수업전까지 리포트로 제출 .

리포트는 이메일로 보낼 것[email protected]

Science

한남대학교 생명시스템과학과 생물정보학 강의 3강