Upload
suk-namgoong
View
911
Download
12
Embed Size (px)
DESCRIPTION
한남대학교 생명시스템과학과 생물정보학 강의 3강 애니메이션이 많이 삽입된 관계로, 다운로드하여 내용을 보는 것이 좋습니다.
Citation preview
생물정보학Bioinformatics
2014 2 학기생명시스템과학과
한남대학교
3 강 2014.9.23
강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )
3 주차 서열 분석의 원리 I
4 주차 서열 분석의 원리 II
5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)
9 주차 유전체 발현분석10주차
개인유전체학 I
11주차
개인유전체학 II
12주차
메타지놈
13주차
최신 연구동향
14주차
기말고사
지난 주에는 ..
- 서열 두 개를 비교하는 방법과 ..
- 여러개의 서열 정보 중에서 자신이 원하는 서열과 비슷한 서열을 찾아내는 방법을 배움
>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
BLAST 결과물
Now what? 이제 뭐하나 ?
우리의 관심단백질과 유사성을 가진 단백질을 많이 찾았음 !
이번 주에는
- 서열이 정렬되면 서열에서 보존된 부분과 그렇지 않은 부분을 파악할 수 있음 .
- 두 개 이상의 서열을 비교하기 위해서는 역시 서열 정렬이 필요하며
VSKGRSALLSDICQGTSLKKVEVNDRS
DLKGRSALLADIQQGTRLRKVTQINDRS
GGAGRGALLGDISKGMKLKKVTQVNDRS
GGGNRNALFADINKGVPKLRKAVTNDRS
EQKGRNALLGDICKGAKLKKTTGVNDRS
- 두 개 이상의 서열을 비교하는 방법에 대해서 알아보자 .
- 복수서열정렬 : Multiple Sequence Alignment (MSA)
왜 두 개 이상의 서열을 비교해야 하나 ?
- 단백질 서열 하나
YEKIGKIGEGSYGVVFKCRNRDTGQIVAIKKFLESEDDPVIKKIALREIRMLKQLKHPNLVNLLEVFRRKRRLHLVFEYCDHTVLHELDRYQRGVPEHLVKSITWQTLQAVNFCHKHNCIHRDVKPENILITKHSVIKLCDFGFARLLAGPSDYYTDYVATRWYRSPELLVGDTQYGPPVDVWAIGCVFAELLSGVPLWPGKSDVDQLYLIRKTLGDLIPRHQQVFSTNQYFSGVKIPDPEDMEPLELKFPNISYPALGLLKGCLHMDPTQRLTCEQLLHHPYF
이 서열 정보만 보고서 우리가 어떤 정보를 알 수 있는가 ?
그닥 알 수 있는 게 없다 .
단백질의 분자량 , pI 정도 ? 그렇다면 서열 두개를 비교한다면 ?
두 서열간에 어느정도 상동성이 있다 .
갭도 좀 있고 ..
…. 이정도 ?단백질의 기능과 특성 ...??
그러나 세 개 이상의 복수의 서열을 정렬하여 비교한다면…
* * * * ** * * ** * * *보존된 아미노산 잔기들 – 아마도 기능적으로 중요 ?
보존된 영역들
변화가 심한 영역들계통별 , 그룹별 분류가 가능
단백질의 2 차 구조
MSA 를 통해 얻을 수 있는 정보
• 하나 혹은 두개의 DNA/ 단백질 서열보다 복수의 서열을 정렬하면 더 많은 정보를 얻을 수 있음• 도메인 (Domain) : 복수의 단백질에 공통적으로 존재하는 단백질 내의 기능적인 구성요소
미지의 단백질 서열에서 이미 기능이 알려진 도메인이 발견되면 -> 이를 근거로 단백질의 기능을 추정가능
MSA 를 통해 알 수 있는 정보
- 서열 내에서 진화적으로 보존된 부분은 어디인가 ?
진화적으로 보존된 부분 = 단백질의 기능에 중요한 부분** * * ** * * *****
단백질의 기능은 단백질의 구조가 결정 :진화적으로 보존된 부분중의 상당수는 단백질의 구조를 결정하는 부분
단백질 구조와 MSA- 단백질의 경우 특정한 기능은 대개 특정한 입체구조와 연결되어 있음 .
- 서열 변화에 비해 구조 변화의 속도는 느림
Structure 2013 21, 1690-1697DOI: (10.1016/j.str.2013.06.020)
- 보존되어 있는 단백질 서열은 대개 구조 유지에 필수적
MSA 를 통한 구조 예측
단백질 구조가 알려져 있지 않은 단백질 서열MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSG
서열 db 검색
단백질 구조가 이미 결정된 단백질 서열 데이터베이스에서 서열 검색
MSA 를 통한 구조 예측
서열이 유사한데 이미 구조가 알려진 단백질
Multiple Sequence alignment
기존에 구조가 알려진 단백질 서열과 구조가 알려져 있지 않는 서열의 비교서열의 비교를 통해 구조를 유추
단백질의 진화 과정>gi|122412|sp|P01922|HBA_HUMAN HEMOGLOBIN ALPHA CHAINMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
>gi|122587|sp|P02112|HBB_CHICK HEMOGLOBIN BETA CHAINMVHWTAEEKQLITGLWGKVNVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHGKKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTPECQAAWQKLVRVVAHALARKYH
>gi|122407|sp|P01923|HBA_GORGO HEMOGLOBIN ALPHA CHAINVLSPADKTNVKAAWGKVGAHAGDYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
>gi|122614|sp|P02062|HBB_HORSE HEMOGLOBIN BETA CHAINVQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH
>gi|4504349|ref|NP_000509.1| hemoglobin, beta [Homo sapiens]MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
인간 alpha
닭 beta
고릴라 alpha
말 beta
인간 beta
단백질 서열의 ‘족보’ 를 알 수 있는가 ?
포유동물의 헤모글로빈은 alpha 와 beta 가 있음 .
MSA 로부터 Phylogenetic Tree 계산
인간 alpha
닭 beta
고릴라 alpha
말 beta
인간 beta
MSA 를 통해 알 수 있는 정보- 시퀀스 모티프 (Sequence Motif) : 단백질 혹은 핵산에서 특정한 의미를 가진 서열의 패턴
- “ 특정한 전사인자 (Transcription Factor) 에 붙는 DNA 서열은 ?”
- 예 : 유전자의 발현조절은 전사인자 (Transcription Factor) 가 특정한 유전자의 프로모터에- 결합하여 전사를 유도하거나 억제한다 .
MultipleSequenceAlignment
단백질구조예측
단백질의계통분류
도메인 분석 &
단백질의 기능예측
시퀀스모티프 파악
MSA 의 기본 원리
- 두 개의 서열을 비교하는 것과 동일한 방식으로 비교하기에는 MSA 에는 너무 많은 시간이 소요
- 아미노산 100 개의 서열을 2 개 비교할 떄 100^2 = 10,000 의 시간이 든다면 ,- 3 개 비교할때는 100^3 = 10,000,000 이 들고 ..- 4 개 비교한다면 100^4 = 10,000,000,000 이 든다면…
현실적으로 2-3 개 이상의 서열을 비교할 수는 없음 .
조금 더 단순한 방법이 필요함 .
MSA 의 기본 원리
Progressive global alignment
1. 각각의 서열간을 비교ABCDEF
ABCDEF
A B C D E F2. 가까운 서열끼리 그룹을 짓는다 .
A
B
C
D
E
F
3. 가장 가까운 것끼리 비교 (Gap 이 필요할때는 Gap 을 삽입 )
AE
4. 다음 가까운 것끼리 정렬
BF
5. 정렬된 서열끼리 비교 (Gap 추가 )
BF
AE
ClustalW
http://www.ebi.ac.uk/Tools/msa/clustalw2/
여러 가지 MSA 소프트웨어
- Muscle
- T-Coffee
- Promal3D
http://www.ebi.ac.uk/Tools/msa/muscle/
비교대상 서열이 많을 때 사용
http://tcoffee.crg.cat/apps/tcoffee/do:regular
- MSA 의 알고리즘에 따라서 그 결과는 틀림 . ClustalW 의 경우 가장 널리 알려진 소프트웨어이나 오래되었고 이보다 정확성이 높은 알고리즘이 많이 나옴
http://prodata.swmed.edu/promals3d/promals3d.php
>gi|122412|sp|P01922|HBA_HUMAN HEMOGLOBIN ALPHA CHAINMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
>gi|4504349|ref|NP_000509.1| hemoglobin, beta [Homo sapiens]MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
>sp|P02144|MYG_HUMAN Myoglobin OS=Homo sapiens GN=MB PE=1 SV=2MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
>sp|O04986|HBL1_ORYSJ Non-symbiotic hemoglobin 1 OS=Oryza sativa subsp. japonica GN=HB1 PE=1 SV=1MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSFLRNSDVPLEKNPKLKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDAHFEVVKFALLDTIKEEVPADMWSPAMKSAWSEAYDHLVAAIKQEMKPAE
>sp|Q9NPG2|NGB_HUMAN Neuroglobin OS=Homo sapiens GN=NGB PE=1 SV=1MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVMLVIDAAVTNVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAVVQAMSRGWDGE
MSA 소프트웨어에 따른 결과의 차이
ClustalW
Muscle
Promal3DUtilize protein structure information if exists..
MSA 의 과정
• 시퀀스 데이터베이스 검색 (BLAST)• 특정 생물에서의 paralog 선택• 몇 가지 생물종에서의 ortholog 선택
Alignment 를 수행할 데이터 수집
목적 시퀀스
* 전체 혹은 일부 ?
• 용도에 따라 적절한 소프트웨어 선택 단백질 or 핵산 ?* 목적 시퀀스에 대한 구조정보가 있나 ?
MSA 수행
결과분석
관심 서열
- MSA 를 통해서 알아보고 싶은 것이 무엇인가 ?
- 전체 서열을 사용할 것인가 ?
• 단백질 / 핵산의 구조에 대한 정보 ?• 단백질 / 핵산의 기능에 대한 정보 ?• 단백질 / 핵산에 존재할 수 있는 모티프에 대한 정보 ?• 단백질 / 핵산 내부에 존재하는 보존된 잔기에 대한 정보 ?• 여러 단백질 / 핵산 서열을 이용한 진화과정의 추정 ?
• 전체 단백질 / 핵산과 유사한 서열이 복수로 존재하는 경우 : 전체 서열• 그렇지 않다면 : 상동성이 있는 영역에 대해서만
- 이런 정보를 알아보기 위해서는
일단 BLAST
서열의 준비- BLAST 등의 서열 데이터베이스를 이용하여 유사 서열을 확보 .
적절한 db 선택이 중요 !
- 만약 단일 생물에 존재하는 유사유전자 / 단백질 (Paralogs) 끼리 비교한다면 ..
사람에 존재하는 Paralogs 만 나온다
- 여러 생물에 존재하는 대표적인 단백질을 대상으로 찾고 싶다면…
<- UniprotKB/Swiss-Prot 을 선택하면
그냥 전체 서열 db (nr) 에서 찾으면 안되나 ?
그래도 된다 . 단…중복을 조심할 것 !거의 모든 서열이 거의 같은 서열일 수 있다
너무 비슷한 서열끼리의 비교는 그닥 의미가 없음
인간 , 고릴라 , 침팬지… .. 등의 헤모글로빈은 다 비슷하다 . -.-보다 유용한 정보를 얻기 위해서는 다양한 종류의 서열끼리 비교가 필요 .완전히 동일한 서열은 제거해줌 .
중복된 서열을 배제하려면 ..
UniRef90 : 최대 90% 일치하는 서열로만 중복을 배제하여 구성된 db
http://www.uniprot.org/blast/
어떤 MSA 소프트웨어를 선택할 것인가 ?
• 물론 여기에는 절대적인 기준은 없음 .• 시퀀스 간의 상동성이 90% 이 넘고 , 거의 비슷한 사이즈의 단백질 / 핵산
ClustalW
• 그렇지 않은 경우 (= 웬만하면 ClustalW 는 쓰지마라 ) MUSCLE, T-Coffee
• 실험적으로 규명된 단백질 구조가 있는 경우
PROMAL3D, 3D-Coffee
DEMO
MSA 를 다양하게 표시하는 방법
CLUSTAL
Hemoglobin_alpha/1-142 -----------MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH-F-Hemoglobin_beta/1-147 ----------MVHLTPEEKSAVTALWGKVNVD--EVGGEALGRLLVVYPWTQRFFES-FGMyoglobin/1-154 -----------MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK-FKNeuroglobin/1-151 -------------MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRRice/1-166 MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSF-LR
Hemoglobin_alpha/1-142 -----DLSHGSAQVKGHGKKVADALTNA---VAHVDDMPNALSALSDLHAHKLRVDPV--Hemoglobin_beta/1-147 DLSTPDAVMGNPKVKAHGKKVLGAFSDG---LAHLDNLKGTFATLSELHCDKLHVDPE--Myoglobin/1-154 HLKSEDEMKASEDLKKHGATVLTALGGI---LKKKGHHEAEIKPLAQSHATKHKIPVK--Neuroglobin/1-151 QFSSPEDCLSSPEFLDHIRKVMLVIDAA---VTNVEDLSSLEEYLASLGRKHRAVGVKLSRice/1-166 NSDVP--LEKNPKLKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDA
Hemoglobin_alpha/1-142 NFKLLSHCLLVTLAAHLPAE-FTPAVHASLDKFLASVSTVLTSKYR------Hemoglobin_beta/1-147 NFRLLGNVLVCVLAHHFGKE-FTPPVQAAYQKVVAGVANALAHKYH------Myoglobin/1-154 YLEFISECIIQVLQSKHPGD-FGADAQGAMNKALELFRKDMASNYKELGFQGNeuroglobin/1-151 SFSTVGESLLYMLEKCLGPA-FTPATRAAWSQLYGAVVQAMSRGWDGE----Rice/1-166 HFEVVKFALLDTIKEEVPADMWSPAMKSAWSEAYDHLVAAIKQEMKPAE---
물론 이렇게 표시할 수 있으나 , 눈에 잘 안들어온다 .
Jalview
http://www.jalview.org/
http://www.ebi.ac.uk/Tools/msa/muscle/ 의 결과 파일
이 파일을 .aln 이라는 확장자로 저장 .
Motif
- 특정한 DNA 혹은 단백질 서열 내에서 공통적으로 발견되는 짧은 연속서열의 패턴
EF-Hand Calcium bindingOct4 Binding
Promoter
www.cs.tau.ac.il/~bchor/CG06/CG7b-PSSM.ppt
유전자 발현 조절
유전자조절부위 (Regulatory Element)
RNA polymerase( 단백질 )
전사인자 ( 단백질 )
DNA
www.cs.washington.edu/homes/tompa/papers/binding.ppt
단백질
RNA polymerase
전사인자
조절부위 (Regulatory Element)
DNA
새로운 단백질
유전자 발현 조절
유전자의 발현 조절의 핵심은 결국 전사인자 ( 단백질 ) 이 특정한 서열의 DNA 조절부위에 결합하느냐임
Questions
1. 특정한 전사인자에 의해서 발현이 촉진되는 유전자가 10 개 있다고 하자 .
2. 이들의 Promoter 서열을 분석하여
3. 공통적으로 존재하는 서열이 있는지를 파악하여
4. 특정한 전사인자가 결합하는 서열을 찾을 수 있는가 ?
Profile and Position Specific Sequence Matrix
PSSM 이란 ? : Motif 의 MSA 를 수치적으로 표현
ATGC
12604
02000
01730
60
131
100
19
19001
21361
…..
Sequence Logo
http://weblogo.berkeley.edu/logo.cgi
PSSM 의 응용
일반적인 BLAST
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
nr : nonredundant db
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
서열 하나를 가지고 , 서열 데이터베이스를 검색
PSI-BLAST
서열 프로파일
nr : nonredundant db
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
서열 하나 대신 , 서열 프로파일을 이용하여 서열 데이터베이스를 검색서열 하나를 이용하여 검색하는 것보다 좀 더 민감하게 검색 가능
PSI-BLAST
PSI-BLAST1 단계 검색
BLAST 결과로프로파일 만듬
프로파일로PSI-BLAST2 단계 검색
BLAST 결과로프로파일 만듬
프로파일로PSI-BLAST3 단계 검색
프로파일을 이용한 검색으로 원래 단백질과 낮은 상동성을 가진 단백질을 검색 가능하나의 서열을 가지고 검색하기 힘든 경우도 프로파일을 이용하여 검색하면 검색 가능
PSI-BLAST
일반적인 BLAST 와 마찬가지로 서열 하나를 가지고 검색을 시작
PSI-BLAST
일반적인 BLAST 와 마찬가지로 BLAST 결과가 나옴BLAST 결과를 가지고 Profile 을 만든 후 , 이 Profile 로 검색을 다시 수행이전에 발견되지 않았던 검색 결과가 출현 (하나의 시퀀스보다 프로파일을 이용한 검색이 보다 민감 )새롭게 발견된 결과를 포함하여 다시 프로파일을 만들고 , 이를 이용하여 다시 검색 수행
Pfam
Profile hidden Markov Models (HMMs) 각각의 고유한 단백질 패밀리 ( 도메인 ) 의 MSA 를 수치모델화( 예 : Protein Kinase, Phosphatase, ATPase…)
HMM 과 PSSM
PSSM 은 단순히 아미노산의 빈도만을 고려HMM 은 옆의 서열과 삽입 / 삭제를 모두 고려
http://pfam.xfam.org
Profile HMM (Hidden Markov Model)can accurately represent a MSA
D16 D17 D18 D19
M16 M17 M18 M19
I16 I19I18I17
100%
100% 100%
100%
D 0.8S 0.2
P 0.4R 0.6
T 1.0 R 0.4S 0.6
X XX X
50%
50%D R T RD R T SS - - SS P T RD R T RD P T SD - - SD - - SD - - SD - - R
16 17 18 19
Match
delete
insert
Pfam
“내가 가진 서열에 어떠한 도메인이 존재하는가 ?” “ 각각의 단백질 패밀리에 대한 MSA 를 보고싶다”
PFAM 에서 정의되어 있는 패밀리명을 검색하면 ..
해당 패밀리에 대한 정보
해당 패밀리에 대한 MSA 를 볼 수 있다 .
해당 패밀리에 대한 미리 구축된 alignment
해당 도메인을 가진 단백질의 도메인 구성
내가 가지고 있는 서열내에 어떤 공통적인 도메인이 있는가 ?
PFAM database
PFAM 에 저장되어 있는 14,831 개의
고유한 단백질 패밀리가 해당 시퀀스에 존재하는지를 검사함
http://pfam.xfam.org/search
HMMER : Basis of Pfam
1. Multiple Sequence Alignment 로부터 HMM Profile 을 작성
2. 임의의 시퀀스를 HMM Profile 데이터베이스에서 검색
도메인 검출
3. Profile 을 이용하여 시퀀스 데이터베이스로부터 검색
단백질 서열을 이용하여 단백질 서열 데이터베이스로부터 검색
= PSI-BLAST 와 유사 .
DEMO
PSI-BLAST, Pfam, Hmmer
과제
1. 다음의 단백질 서열이 있다 .
>sp|P68133|ACTS_HUMAN Actin, alpha skeletal muscle OS=Homo sapiens GN=ACTA1 PE=1 SV=1MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYPIEHGIITNWDDMEKIWHHTFYNELRVAPEEHPTLLTEAPLNPKANREKMTQIMFETFNVPAMYVAIQAVLSLYASGRTTGIVLDSGDGVTHNVPIYEGYALPHAIMRLDLAGRDLTDYLMKILTERGYSFVTTAEREIVRDIKEKLCYVALDFENEMATAASSSSLEKSYELPDGQVITIGNERFRCPETLFQPSFIGMESAGIHETTYNSIMKCDIDIRKDLYANNVMSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF
2. 이 단백질을 BLAST 등의 db 검색을 이용하여 다음 생물종에서 가장 상동성이 높은 단백질을 1 종 찾는다
- Human (Homo Sapiens)
- Fruit Fly (Drosophila melanogaster)
- Mouse ( Mus musculus)
- Rice (Oryza sativa)
- Yeast (Saccharomyces cerevisiae)
3. 해당 아미노산 서열을 MultiFasta format 으로 저장한후
• Multifasta format
> 시퀀스 _ 이름서열 1> 시퀀스 _ 이름 _2서열 2
4. Muscle, ClustalW 를 이용하여 Multiple Sequence alignment 를 수행한다 .
5. Jalview 를 통하여 Visualization 하고
6. 아미노산 서열 중에서 5 종의 생물에 보존된 잔기를 marking 한다 .
MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGM이런 식으로
7. 전체 과정을 스크린을 캡춰하여 9월 30 일 수업전까지 리포트로 제출 .
리포트는 이메일로 보낼 것[email protected]