45
생생생생생 Bioinformatics 2014 2 학학 학학학학학학학학 학학학학학 1생 2014.9.2

한남대학교 생물정보학 2014년 2학기 강의 1

Embed Size (px)

DESCRIPTION

한남대학교 생물정보학 강의 1

Citation preview

Page 1: 한남대학교 생물정보학 2014년 2학기 강의 1

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

1 강2014.9.2

Page 2: 한남대학교 생물정보학 2014년 2학기 강의 1

강의 개요

강사 : 남궁석 (Suk Namgoong)

충북대학교 농업생명과학대학 축산학과[email protected]

[email protected]

HP: 010-4103-2415

Page 3: 한남대학교 생물정보학 2014년 2학기 강의 1

교 재Main text: SlidesMost of lecture material will be provided as ppt at

http://www.slideshare.net/suknamgoong

Page 4: 한남대학교 생물정보학 2014년 2학기 강의 1

교과목 목표• “ 정보의 전달과정”으로의 생명현상 이해• 생명정보학의 세부활용분야 탐구

- 유전체학- 전사체학- 단백질체학- 네트워크 생물학

• 다량의 데이터에서 원하는 정보를 추출하기 위한 컴퓨터 활용지식 탐구

Page 5: 한남대학교 생물정보학 2014년 2학기 강의 1

강의계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

Page 6: 한남대학교 생물정보학 2014년 2학기 강의 1

성적 산정중간고사 : 25%기말고사 : 45%과제 : 30% (2 회 )

Page 7: 한남대학교 생물정보학 2014년 2학기 강의 1

생물정보학이란 ?

“ 생물학적인 문제를 수학 , 정보과학 , 통계학 , 전산학등의 방법론을 이용하여 정보전달의차원에서 해석하는 학문 및 연구방법론”

뭔말이래

Page 8: 한남대학교 생물정보학 2014년 2학기 강의 1

분자생물학의 중심원리Central Dogma

DNA

RNA

Protein

Transcriptions

생명현상의 본질 = ‘ 정보’ 의 이동

Translations

“DNA 로부터 단백질까지”

Page 9: 한남대학교 생물정보학 2014년 2학기 강의 1

DNAA,C,G,T 의 4 가지 염기로 구성

Page 10: 한남대학교 생물정보학 2014년 2학기 강의 1
Page 11: 한남대학교 생물정보학 2014년 2학기 강의 1

정보저장장치로의 DNA

* A,C,G,T 를 1 글자라고 간주하면 = 1byte

대장균 유전체 : 4Mbase = 4Mbyte

사람 유전체 : 3.2Gbase = 3.2Gbyte

사람의 세포수 : 30-100 조개 * 3.2Gbyte

왜 RNA 와 DNA 중 DNA 가 ‘정보저장장치’ 로 선택되었는가 ?

DNA half life : 521 year

RNA half life : a few minite

Why?

Page 12: 한남대학교 생물정보학 2014년 2학기 강의 1

RNA 가수분해

Page 13: 한남대학교 생물정보학 2014년 2학기 강의 1

H

H

X X

OH 와 H 의 차이

‘ 한끝발’ 의 차이로 DNA 는 몇백년간 버티나 RNA 는 몇분밖에 못 버팀 ..

Page 14: 한남대학교 생물정보학 2014년 2학기 강의 1

- DNA 의 안정성 때문에 수천년 전의 맘모스로부터도 DNA 채취 가능- 이것이 RNA 대신 DNA 를 유전정보 저장수단으로 사용하게 된 이유

Page 15: 한남대학교 생물정보학 2014년 2학기 강의 1

전사 (Transcription)

DNA 에 저장된 ‘유전정보’ 를 RNA 형태로 ‘복사’

Page 16: 한남대학교 생물정보학 2014년 2학기 강의 1

정보중간전달물질로써의 RNA

DNA : Permanently Stored Books in Bookshelf in Library

RNA : Subset of Books or Copies for Temporary Uses

Page 17: 한남대학교 생물정보학 2014년 2학기 강의 1

스플라이싱 (Splicing)

Page 18: 한남대학교 생물정보학 2014년 2학기 강의 1

유전암호

Page 19: 한남대학교 생물정보학 2014년 2학기 강의 1
Page 20: 한남대학교 생물정보학 2014년 2학기 강의 1
Page 21: 한남대학교 생물정보학 2014년 2학기 강의 1

효모 (Yeast)

대장균 (E.coli)

DNA

RNA

Protein

Transcriptions

Translations

표현형

Page 22: 한남대학교 생물정보학 2014년 2학기 강의 1

Genome

인간 지놈 : 3,200Mbyte = 3.2Gbyte = 32 조 염기쌍

Page 23: 한남대학교 생물정보학 2014년 2학기 강의 1

인간 지놈내에서 단백질을 암호화하고 있는 유전자 갯수 20,000

전체 유전체에서 단백질을 암호화하고 있는 영역의 비율 : 1.5%

Exon Exon Exon

개인간의 유전체 차이2Mb-3Mb

(0.1-0.2%)

Page 24: 한남대학교 생물정보학 2014년 2학기 강의 1

Questions?

• 인간 ( 및 타 생물 ) 의 유전체에는 어떤 유전자들이 어떻게 위치하고 있는가 ?

• 인간 개체간의 유전적인 차이의 근원은 어떻게 되는가 ?

• 다른 생물간의 차이의 유전적인 근원은 ?

Page 25: 한남대학교 생물정보학 2014년 2학기 강의 1

세포

세포 : 생명체의 기본단위다양한 종류의 세포가 생명체를 구성하고 있음

한 개체에서 유래된 모든 세포는 동일한 유전정보 (DNA) 를 공유하고 있음

Page 26: 한남대학교 생물정보학 2014년 2학기 강의 1

전사체의 다양성동일한 유전체에서 다양한 종류의 세포가 유래될 수 있는 원동력 : 전사체 (Transcriptome) 의 다양성

Different Cell

Page 27: 한남대학교 생물정보학 2014년 2학기 강의 1

이들은 모두 같은 재료를 이용하여 만들어짐그러나 다른 배합비에 따라서 다른 성질을 가진 먹거리가 됨 .

Page 28: 한남대학교 생물정보학 2014년 2학기 강의 1

전사체의 다양성에 따른 세포의 다양성

Page 29: 한남대학교 생물정보학 2014년 2학기 강의 1

Questions?

• 세포간 , 조건별로의 전사체의 발현 차이를 이용한 세포간의 특성 파악

• 유전자 발현 네트워크 구축을 통한 세포 조절기작 파악

• 전사체 정보를 이용하여 세포의 특성 ( 예 :암세포 ) 을 예측할 수 있는가 ?

Page 30: 한남대학교 생물정보학 2014년 2학기 강의 1

단백질 구조예측단백질의 기능은 그 3 차 구조에 의해서 결정되며

단백질의 3 차 구조는 2 차 구조에 의해서 결정됨

단백질의 2 차 구조는 1 차 구조 ( 아미노산 서열 ) 에 의해서 결정

단백질의 1 차 구조는 DNA 에 암호화된 유전정보에 의해 결정됨

Page 31: 한남대학교 생물정보학 2014년 2학기 강의 1

단백질체 (Proteomics)

특정 세포 / 조직내의 단백질 풀을 전부 파악

Page 32: 한남대학교 생물정보학 2014년 2학기 강의 1

Questions?

• 단백질의 1 차 구조 ( 서열정보 ) 를 이용하여 단백질의 구조와 기능을 어떻게 파악할 수 있는가 ?

• 세포별로 서로 다른 단백질의 분포를 어떻게 정량화하여 세포의 특징을 파악할 수 있는가 ?

Page 33: 한남대학교 생물정보학 2014년 2학기 강의 1

개인 유전체 (Personal Genome)

• 휴먼 지놈 프로젝트 (1990-2001) : 인간의 표준유전체에 대한 정보 획득

- 소요기간 : 약 10 여년- 소요비용 : 약 3 조원

• 차세대 시퀀싱 (Next Generation Sequencing)

”$1000 Genome”

개인유전체를 약 1 백만원 내외로 결정

Illumina HiSeq 2500

Page 34: 한남대학교 생물정보학 2014년 2학기 강의 1
Page 35: 한남대학교 생물정보학 2014년 2학기 강의 1

• 개인간의 유전변이를 파악

• 질병 & 건강에 관련된 변이를 파악 : 맞춤의학

• 동식물의 육종

Page 36: 한남대학교 생물정보학 2014년 2학기 강의 1

Questions?

• 동일종의 생물에서 특정한 형질 ( 질병감수성 , 신체적 특징 ) 에 관련된 유전적 차이를 어떻게 파악할 수 있는가 ?

• 이러한 유전적 차이를 이용하여 어떻게 맞춤의학에 이용할 수 있는가 ?

Page 37: 한남대학교 생물정보학 2014년 2학기 강의 1

Big Data

TGTTCTTTTGNGGATCAACCATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGACTCGAGCTCAAGCTTCGAATTCTGCAGTCTAGAACTATAGTGAGTCGTATTACGTAGATCCAGACATGATAAGATACATTGATGAGTTTGGACAAACCACAACTAGAATGCAGTGAAAAAAATGCTTTATTTGTGAAATTTGTGATGCTATTGCTTTATTTGTAACCATTATAAGCTGCAATAAACAAGTTAACAACAACAATTGCATTCATTTTATGTTTCAGGTTCAGGGGGAGTG

Single trace of sanger sequencing : 1kb

Bacterial Genome : 4Mb = 4,000

Human Genome : 3.2Gb = 3,200,000

Page 38: 한남대학교 생물정보학 2014년 2학기 강의 1

Transcriptome : at least 20,000 genes * 10 different conditions = 200,000

• 이러한 다량의 데이터를 분석하기 위해서는 컴퓨터의 활용이 필수적

Bioinformatics = Big Data Analysis Techniques For Modern Biology

Page 39: 한남대학교 생물정보학 2014년 2학기 강의 1

생물정보학은 ..

전산학과 생물학의 융합같은 것이 아님 .

컴퓨터는 단지 매우 큰 데이터를 다루기 위한 도구일 뿐

생물정보학은 대량의 데이터를 다루기 위한 현대생물학의 연구테크닉Bioinformatics is the Biology

물론 생물정보학을 공부하기 위해서는 전산학 , 통계학 , 프로그래밍 , 수학등의 지식이 필요할 수 있음 .

그러나 생물정보학은 결코 전산학 , 통계학 , 프로그래밍 , 수학등의 세부 분과가 아님 .

Page 40: 한남대학교 생물정보학 2014년 2학기 강의 1

• 힉스입자를 발견하기 위한 실험이 수행된 유럽입자물리연구소 (CERN) 에서도 방대한 데이터를 분석하기 위하여 복잡한 프로그래밍 , 수학 , 통계 등을 이용함 .

• 이런 사람들을 우리는 우리는 ‘물리학자’ (Physicist) 라고 부름 .

• 생물체에 얽힌 방대한 데이터를 분석하는 사람은 ‘생물학자’ (Biologist) 이며 , 이들이분석을 위해 사용하는 방법이 생물정보학 (Bioinformatics) 적인 방법임 .

Page 41: 한남대학교 생물정보학 2014년 2학기 강의 1

잘못된 생각

생물학자

데이터를 생산“ 분석은 컴퓨터 잘하는 애들이 다 해주겠지”

생물정보학자

데이터를 분석“ 이 실험결과 뭔지는 모르겠지만 대충 프로그램 돌려서 예쁜 그림 그려주면 되겠지”

이러한 연구가 제대로 되지 않은 근본적인 이유

Page 42: 한남대학교 생물정보학 2014년 2학기 강의 1

생물학 배경으로부터 온 사람이라면 ..

• 생물정보학 분석의 기본 이론의 이해

• 생물정보학 분석의 기본 개념 파악• 기초 프로그래밍 개념의 이해• 생물정보 분석은 ‘블랙박스’ 가

아니라는 것의 이해

프로그래밍 배경으로부터 온 사람이라면

• 기본 생물학 개념의 이해• 데이터가 어떻게 생산되는지에 대한

개념의 이해• 실험 데이터에는 오류가 항상 존재한다는 사실의 인지

화성에서 온 남자와 금성에서 온 여자

Page 43: 한남대학교 생물정보학 2014년 2학기 강의 1

생물학 실험과 생물정보분석

실험 프로토콜

1. 시료 1 에 시약 1 을 넣고 ..

2. 37 도에서 10 분간 반응한 후

3. PCR 반응을 수행하여

4. 전기영동을 수행하고

5. 결과를 Gel 로 분석하여

6. 안나오면 1번으로 되돌아감 -.-;;

생물정보분석

1. 데이터베이스에서 특정 조건으로 검색하여

2. 시퀀스를 추출한 후

3. 이것에 대해서 sequence alignment 를 수행한 후

4. 결과를 출력하고 ..

5. 잘못되면 1번으로 되돌아감 -.-;;;

1 줄 요약 : 둘다 노가다

Page 44: 한남대학교 생물정보학 2014년 2학기 강의 1

Some part of experiments are Commercialized And Automated..

Like some bioinformatics analysisAre well packaged..

Not always. Sometime you need to make your own tools.

Page 45: 한남대학교 생물정보학 2014년 2학기 강의 1

Do not reinvent wheel

Use already invented tools as much as you can!