70
생생생생생 Bioinformatics 2014 2 학학 학학학학학학학학 학학학학학 4생 2014.9.30

한남대학교 생명시스템과학과 생물정보학 (4강)

Embed Size (px)

DESCRIPTION

한남대학교 생명시스템과학과 생물정보학 (4강)

Citation preview

Page 1: 한남대학교 생명시스템과학과 생물정보학 (4강)

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

4 강 2014.9.30

Page 2: 한남대학교 생명시스템과학과 생물정보학 (4강)

강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

Page 3: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 부품’

복잡한 기계는

Page 4: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 부품’

다양한 부품으로 이루어지듯이

Page 5: 한남대학교 생명시스템과학과 생물정보학 (4강)

세포라는 복잡한 ‘기계’

세포라는 아주 복잡한 기계 역시 ‘ 단백질’ 이라는 다양한 부품으로 구성되어 있음

Page 6: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계의 부품 하나하나를 뜯어서

자세히 내용을 검사하는 것처럼

부품의 구조

Page 7: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 생명체의 부품’ 의 구조

Page 8: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 ( 및 RNA) 구조를 이해하는 것

- 생명체의 부품의 구조를 이해하는 것은 이들의 작동 방식의 이해를 하는 첫걸음

• 인간 유전체의 단백질 : 약 20,000 만종

• 이들의 구조와 상호작용을 이해하는 것은 생명현상 이해의 핵심

- 휴먼 지놈 프로젝트 : 인간의 유전체 DNA 서열을 규명

• 단백질의 서열 (1 차 구조 ) 에 대한 서열은 대개 확보

• “ 생체 부품의 종류와 기본 성분에 대한 정보는 이미 가지고 있다”

• 그러나 부품 각각의 구조에 대한 정보는 어디 있는가 ?

Page 9: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 1 차 구조 (Primary Structure)

단백질의 서열 정보 = 단백질의 1 차 구조

Page 10: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 2 차 구조 (Secondary Structure)

Page 11: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 3 차 구조 (Tertiary Structure)

Page 12: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 4 차 구조 (Tertiary Structure)

Page 13: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 서열 -> 구조 -> 기능

단백질의 서열은 단백질의 구조를 결정하며

단백질의 구조는 그 기능을 결정한다 .

Page 14: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 구조를 실험적으로 결정하는 방법

X 선 결정학X-ray Crystallography

NMRNuclear Magnetic Resonance

전자현미경(Electron Microscope)

고해상도 구조 ( 최대 1-2Å)

결정화된 상태의 단백질의 스냅샷

단백질을 결정화해야 함

단백질 복합체 혹은 거대분자도 가능

중해상도 구조

수용액 상태에서의 동적인 단백질 움직임의 앙상블

수용액상에서 안정적으로 고농도로 유지가능해야 함

20-30kDa 이상의 단백질은 어려움

저해상도 구조

거대단백질 복합체를직접 관찰

거대복합체가 아닌경우 어려움

Page 15: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 결정학에 의한 단백질 구조의 결정

Page 16: 한남대학교 생명시스템과학과 생물정보학 (4강)

Protein Productions

- You need to have enough (5-10mg) pure (at least 95% purity) protein

- Overexpression (Bacteria or Insect Cell or Mammalian Cell) or Natural Source

- Purification

Page 17: 한남대학교 생명시스템과학과 생물정보학 (4강)

Crystallization

- Concentrate Proteins (at least 5mg/ml)

- Crystallization happens in the boundary of soluble and precipitation

Page 18: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 19: 한남대학교 생명시스템과학과 생물정보학 (4강)

Strong X-ray generated from synchroton is essential

Page 20: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 21: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 22: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 23: 한남대학교 생명시스템과학과 생물정보학 (4강)

1 차 데이터 : 단백질 결정의 회절이미지

ComputerAnalysis

단백질의 전자밀도

Page 24: 한남대학교 생명시스템과학과 생물정보학 (4강)

Final Structure and Interpretations

Page 25: 한남대학교 생명시스템과학과 생물정보학 (4강)

실험적으로 단백질 구조를 푸는 방법을 알아야 하는가 ?

- 대개 그렇지는 않을 가능성이 많음 .

우리가 관심있는 단백질의 구조가 어떻게 생겼는지는 ?

- 알아야 한다

http://www.rcsb.org

Page 26: 한남대학교 생명시스템과학과 생물정보학 (4강)

In old days, you need very expensive workstation-level computerTo visualize Protein Structure..

Not anymore. Cheap PC or even your smartphone can do that.

Page 27: 한남대학교 생명시스템과학과 생물정보학 (4강)

Protein Visualization Software

Pymol :http://www.pymol.org

Page 28: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질을 표시하는 방법

저분자 물질의 경우에는

이런 식의 spacefilling model 로 표시해도 되지만…

단백질의 경우에는

??????

좀 더 간단한 표시방법이 필요하다 .

Page 29: 한남대학교 생명시스템과학과 생물정보학 (4강)

Line

단백질 전체의 표시에는 적절하지 않음

일부분 확대 표시에는 적절

Page 30: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ribbon

단백질의 전체 윤곽을 표시할 때 좋음

Cartoon

Alpha-Helix

Beta-Sheet

단백질의 2 차구조를 표시할때 좋음

Page 31: 한남대학교 생명시스템과학과 생물정보학 (4강)

Surface Surface with Charge

Page 32: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

Pymol, RCSB PDB

Page 33: 한남대학교 생명시스템과학과 생물정보학 (4강)

실험을 거치지 않고 미지의 단백질 서열로부터 구조정보를 얻을수 있을까 ?

기존의 단백질 구조를 참조하지 않는 방법

Ab initio modeling

기존의 단백질 구조를 참조하는 방법

Homology modeling

3 차 구조 예측2 차 구조 / 기타 예측

- 2 차 구조 예측- Coiled-Coil 예측

- Membrane Topology 예측

GFCHIKAYTRLIMVG…

An

abaen

a 7120

An

acystis nid

ulan

s

Co

nd

rus crisp

us

Desu

lfovib

rio vu

lgaris

Page 34: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 2 차 구조 예측

단백질의 1 차 구조 ( 서열 ) 단백질의 2 차 구조 예측

Alpha Helix?Beta-sheet?Loop?

Page 35: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 36: 한남대학교 생명시스템과학과 생물정보학 (4강)

아미노산에 따른 2 차 구조 선호도

- 다음의 아미노산은 alpha-Helix 에 위치되는 것을 선호함

Ala, Leu, Met, Glu, Lun, His, Lys, Arg

- 다음의 아미노산은 대개 큰 Side chain 을 가지고 있으므로 beta-sheet 에 존재하는 것을 선호함

Tyr, Trp, Phe, Ile, Val, Thr, Cys

- 다음의 아미노산이 존재할 경우 대개 2 차 구조가 깨짐

GlyProAsp, Asn, Ser

Page 37: 한남대학교 생명시스템과학과 생물정보학 (4강)

MSA 에 의한 2 차 구조 예측

Alpha Helix

I, i+3, i+4, i+7

혹은 I, i+4, i+7 의 잔기에서의 보존

소수성 잔기 및 친수성 잔기가 엇갈리게 존재하는 경우

Beta-Sheet

연속된 보존된 소수성 잔기 : 단백질 내부에 위치한 beta-sheet

I, i+2, i+4 에 보존된 소수성 잔기 : 단백질 표면에 위치한 beta-sheet

Page 38: 한남대학교 생명시스템과학과 생물정보학 (4강)

MSA 에 의한 2 차 구조 예측Loop/Disordered Region

Usually not well conservedPresence of secondary structure breakers (P, G)

Page 39: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계학습에 의한 2 차 구조 예측기계학습이란 ?

http://www.crazymind.net/28

Page 40: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계학습에 의한 2 차 구조 예측

이미 2 차구조가 알려진 MSA 를 이용하여 (Training sets)

구조예측모델을 트레이닝

Page 41: 한남대학교 생명시스템과학과 생물정보학 (4강)

2 차 구조 예측의 예

Jpred :http://www.compbio.dundee.ac.uk/www-jpred/index.html

Page 42: 한남대학교 생명시스템과학과 생물정보학 (4강)

Jpred3

예측하고자 하는 서열을 입력BLAST search in Uniref90( 상동성이 있는 서열을 부르고 이를 이용하여 MSA 를 만듬 )

복수의 알고리즘을 이용하여 2 차구조를 예측하고 이들의 consensus 에 따라 최종결정을 함

일단 단백질 구조 DB 에 해당 단백질이 있는지 확인 .완전히 동일한 단백질이 3 차 구조가 나왔는데 2 차구조를 예측할 필요는 없다 .

Page 43: 한남대학교 생명시스템과학과 생물정보학 (4강)

http://www.compbio.dundee.ac.uk/www-jpred/results/jp_q1hwsUv/jp_q1hwsUv.results.html

Secondary Structure Prediction

Confidence for predictions

Alpha-Helix Beta-Sheet

Page 44: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 45: 한남대학교 생명시스템과학과 생물정보학 (4강)

기타 구조관련 정보 예측- Coiled-Coil 예측

Page 46: 한남대학교 생명시스템과학과 생물정보학 (4강)

Namgoong et al., Nature Struct Mol Biol. 2011

Page 47: 한남대학교 생명시스템과학과 생물정보학 (4강)

Coiled-Coil 예측

http://toolkit.tuebingen.mpg.de/pcoils

Page 48: 한남대학교 생명시스템과학과 생물정보학 (4강)

Membrane Spanning Region 예측

막단백질

친수성

소수성

Page 49: 한남대학교 생명시스템과학과 생물정보학 (4강)

친수성

친수성

소수성

Membrane 을 가로지르는 영역 예측

* 막을 가로지르는 부분은 상대적으로 소수성을 띈 아미노산이 많을 것이다 .

Page 50: 한남대학교 생명시스템과학과 생물정보학 (4강)

Hydropathy plot

>sp|P08908|5HT1A_HUMAN 5-hydroxytryptamine receptor 1A OS=Homo sapiens GN=HTR1A PE=1 SV=3MDVLSPGQGNNTTSPPAPFETGGNTTGISDVTVSYQVITSLLLGTLIFCAVLGNACVVAAIALERSLQNVANYLIGSLAVTDLMVSVLVLPMAALYQVLNKWTLGQVTCDLFIALDVLCCTSSILHLCAIALDRYWAITDPIDYVNKRTPRRAAALISLTWLIGFLISIPPMLGWRTPEDRSDPDACTISKDHGYTIYSTFGAFYIPLLLMLVLYGRIFRAARFRIRKTVKKVEKTGADTRHGASPAPQPKKSVNGESGSRNWRLGVESKAGGALCANGAVRQGDDGAALEVIEVHRVGNSKEHLPLPSEAGPTPCAPASFERKNERNAEAKRKMALARERKTVKTLGIIMGTFILCWLPFFIVALVLPFCESSCHMPTLLGAIINWLGYSNSLLNPVIYAYFNKDFQNAFKKIIKCKFCRQ

막단백질의 서열

각각의 아미노산이 얼마나소수성인가를 숫자화함

소수성

친수성

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

서열을 숫자로 변환

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

10 개 값씩 평균값

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

10 개 값씩 평균값

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

Page 51: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

JPREDCoilsHydrophathy plot

Page 52: 한남대학교 생명시스템과학과 생물정보학 (4강)

기존의 단백질 구조를 참조하지 않는 방법

Ab initio modeling

GFCHIKAYTRLIMVG…

An

abaen

a 7120

An

acystis nid

ulan

s

Co

nd

rus crisp

us

Desu

lfovib

rio vu

lgaris

단백질의 3 차 구조 예측

기존의 단백질 구조를 참조하는 방법Homology modeling

Page 53: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ab initio Modeling

Ab initio : “ 처음부터”

기존에 실험적으로 알려진 단백질 구조정보를 전혀 참조하지 않고 , 물리화학적인 원리에 근거하여시퀀스로부터 단백질 구조를 예측

Anfinsen’s experiments (1973)

- Urea + mercaptoethanol 처리로 단백질의 입체 구조를 파괴

- 회복된 단백질의 입체 구조가 원상복귀될 수 있음

- 단백질의 3 차 구조를 결정하는 정보는 모두단백질 서열 안에 있음 !

Page 54: 한남대학교 생명시스템과학과 생물정보학 (4강)

따라서 단백질의 서열 정보만으로 단백질의 3 차원 구조를 예측 가능 !

Ab initio modeling

단백질은 열역학적으로 가장 안정된 상태

따라서 물리 , 화학적 시뮬레이션을 통해서 가장 안정된에너지 상태의 단백질을 찾으면 -> 그게 단백질의 3 차 구조 !

현실은 그리 간단하지 않음

Anfinsen 이 사용한 RNaseA 는 워낙 안정된 단백질이라서 그렇고 , 대개의 단백질은 일단 3 차구조가 변성되면 회복되기 힘듬

원래의 단백질보다 더 안정한 aggregate 가존재

Page 55: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ab initio modeling

따라서 현실적으로 단백질 구조를 정확하게 예측하는데는 사용하기 어려움

기존에 실험적으로 밝혀진 서열이 유사한 단백질의 구조정보를 이용하여 미지의단백질 구조를 모델링

Homology Modeling

Template-Based Modeling

Page 56: 한남대학교 생명시스템과학과 생물정보학 (4강)

Homology Modeling

단백질의 구조는 서열보다 보존되어 있음

Identity = 4.7%

RMSD=3.99이것을 이용하여 구조가 알려져 있지 ㅇ낳은 단백질의 구조를 유추 !

Page 57: 한남대학교 생명시스템과학과 생물정보학 (4강)

Steps in Homology Modeling

1. 이미 실험적으로 규명된 단백질의 구조를 검색

2. 상동성이 높은 것중 가장 ‘고퀄’ 의 구조를 선택 (Template Selection)

3. 이미 알려진 구조의 서열과 미지의 서열과의 alignment

4. 모델링

5. Loop Modeling

6. 모델 평가 (Model Assessments)

- PSI-BLAST- HHpred

Page 58: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 구조 검색

1. PSI-BLAST using PDB blast db

2. HHpred

Homology Modeling 에는 어느정도의 상동성이 필요한가 ?

~ 대략적으로 30% 정도의 상동성이 필요

Page 59: 한남대학교 생명시스템과학과 생물정보학 (4강)

가장 서열 상동성이 높은 구조가 최적의 모델링 Template 인가 ?

Template 1: 93% id, 3.5 Å vs Template 2: 90% id, 1.5 Å

Template 선택

가급적 고해상도의 구조를 선택하는 것이 필요

4 Å 2 Å3 Å 1 Å

NMR or X-ray Crystallography?

http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt

Page 60: 한남대학교 생명시스템과학과 생물정보학 (4강)

http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt

NMR 구조가 유일한 선택일때는 ..

NMR 구조에는 대개 미세한 차이가 있는 구조들이복수로 존재함 (Ensemble)

단백질 구조에서 변화가 심한 부분은 제거하고 , 고정된 부분만을 선택하는 것이 용이함

Page 61: 한남대학교 생명시스템과학과 생물정보학 (4강)

Alignment and Modeling

>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

Page 62: 한남대학교 생명시스템과학과 생물정보학 (4강)

119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

?

Page 63: 한남대학교 생명시스템과학과 생물정보학 (4강)

Homology Modeling Tool

- Swiss-Model

- Modeller

- HHPred

https://salilab.org/modeller/about_modeller.html

http://swissmodel.expasy.org

http://toolkit.tuebingen.mpg.de/hhpred

Page 64: 한남대학교 생명시스템과학과 생물정보학 (4강)

Swiss-Model

Page 65: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 66: 한남대학교 생명시스템과학과 생물정보학 (4강)

Swiss-Model : Search Template

Page 67: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 68: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 69: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 70: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

Swiss-Prot