Upload
suk-namgoong
View
3.475
Download
16
Embed Size (px)
DESCRIPTION
한남대학교 생물정보학 강의 1
Citation preview
생물정보학Bioinformatics
2014 2 학기생명시스템과학과
한남대학교
1 강2014.9.2
교 재Main text: SlidesMost of lecture material will be provided as ppt at
http://www.slideshare.net/suknamgoong
교과목 목표• “ 정보의 전달과정”으로의 생명현상 이해• 생명정보학의 세부활용분야 탐구
- 유전체학- 전사체학- 단백질체학- 네트워크 생물학
• 다량의 데이터에서 원하는 정보를 추출하기 위한 컴퓨터 활용지식 탐구
강의계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )
3 주차 서열 분석의 원리 I
4 주차 서열 분석의 원리 II
5 주차 단백질의 구조및 기능예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)
9 주차 유전체 발현분석10주차
개인유전체학 I
11주차
개인유전체학 II
12주차
메타지놈
13주차
최신 연구동향
14주차
기말고사
성적 산정중간고사 : 25%기말고사 : 45%과제 : 30% (2 회 )
생물정보학이란 ?
“ 생물학적인 문제를 수학 , 정보과학 , 통계학 , 전산학등의 방법론을 이용하여 정보전달의차원에서 해석하는 학문 및 연구방법론”
뭔말이래
분자생물학의 중심원리Central Dogma
DNA
RNA
Protein
Transcriptions
생명현상의 본질 = ‘ 정보’ 의 이동
Translations
“DNA 로부터 단백질까지”
DNAA,C,G,T 의 4 가지 염기로 구성
정보저장장치로의 DNA
* A,C,G,T 를 1 글자라고 간주하면 = 1byte
대장균 유전체 : 4Mbase = 4Mbyte
사람 유전체 : 3.2Gbase = 3.2Gbyte
사람의 세포수 : 30-100 조개 * 3.2Gbyte
왜 RNA 와 DNA 중 DNA 가 ‘정보저장장치’ 로 선택되었는가 ?
DNA half life : 521 year
RNA half life : a few minite
Why?
RNA 가수분해
H
H
X X
OH 와 H 의 차이
‘ 한끝발’ 의 차이로 DNA 는 몇백년간 버티나 RNA 는 몇분밖에 못 버팀 ..
- DNA 의 안정성 때문에 수천년 전의 맘모스로부터도 DNA 채취 가능- 이것이 RNA 대신 DNA 를 유전정보 저장수단으로 사용하게 된 이유
전사 (Transcription)
DNA 에 저장된 ‘유전정보’ 를 RNA 형태로 ‘복사’
정보중간전달물질로써의 RNA
DNA : Permanently Stored Books in Bookshelf in Library
RNA : Subset of Books or Copies for Temporary Uses
스플라이싱 (Splicing)
유전암호
효모 (Yeast)
대장균 (E.coli)
DNA
RNA
Protein
Transcriptions
Translations
표현형
Genome
인간 지놈 : 3,200Mbyte = 3.2Gbyte = 32 조 염기쌍
인간 지놈내에서 단백질을 암호화하고 있는 유전자 갯수 20,000
전체 유전체에서 단백질을 암호화하고 있는 영역의 비율 : 1.5%
Exon Exon Exon
개인간의 유전체 차이2Mb-3Mb
(0.1-0.2%)
Questions?
• 인간 ( 및 타 생물 ) 의 유전체에는 어떤 유전자들이 어떻게 위치하고 있는가 ?
• 인간 개체간의 유전적인 차이의 근원은 어떻게 되는가 ?
• 다른 생물간의 차이의 유전적인 근원은 ?
세포
세포 : 생명체의 기본단위다양한 종류의 세포가 생명체를 구성하고 있음
한 개체에서 유래된 모든 세포는 동일한 유전정보 (DNA) 를 공유하고 있음
전사체의 다양성동일한 유전체에서 다양한 종류의 세포가 유래될 수 있는 원동력 : 전사체 (Transcriptome) 의 다양성
Different Cell
이들은 모두 같은 재료를 이용하여 만들어짐그러나 다른 배합비에 따라서 다른 성질을 가진 먹거리가 됨 .
전사체의 다양성에 따른 세포의 다양성
Questions?
• 세포간 , 조건별로의 전사체의 발현 차이를 이용한 세포간의 특성 파악
• 유전자 발현 네트워크 구축을 통한 세포 조절기작 파악
• 전사체 정보를 이용하여 세포의 특성 ( 예 :암세포 ) 을 예측할 수 있는가 ?
단백질 구조예측단백질의 기능은 그 3 차 구조에 의해서 결정되며
단백질의 3 차 구조는 2 차 구조에 의해서 결정됨
단백질의 2 차 구조는 1 차 구조 ( 아미노산 서열 ) 에 의해서 결정
단백질의 1 차 구조는 DNA 에 암호화된 유전정보에 의해 결정됨
단백질체 (Proteomics)
특정 세포 / 조직내의 단백질 풀을 전부 파악
Questions?
• 단백질의 1 차 구조 ( 서열정보 ) 를 이용하여 단백질의 구조와 기능을 어떻게 파악할 수 있는가 ?
• 세포별로 서로 다른 단백질의 분포를 어떻게 정량화하여 세포의 특징을 파악할 수 있는가 ?
개인 유전체 (Personal Genome)
• 휴먼 지놈 프로젝트 (1990-2001) : 인간의 표준유전체에 대한 정보 획득
- 소요기간 : 약 10 여년- 소요비용 : 약 3 조원
• 차세대 시퀀싱 (Next Generation Sequencing)
”$1000 Genome”
개인유전체를 약 1 백만원 내외로 결정
Illumina HiSeq 2500
• 개인간의 유전변이를 파악
• 질병 & 건강에 관련된 변이를 파악 : 맞춤의학
• 동식물의 육종
Questions?
• 동일종의 생물에서 특정한 형질 ( 질병감수성 , 신체적 특징 ) 에 관련된 유전적 차이를 어떻게 파악할 수 있는가 ?
• 이러한 유전적 차이를 이용하여 어떻게 맞춤의학에 이용할 수 있는가 ?
Big Data
TGTTCTTTTGNGGATCAACCATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGACTCGAGCTCAAGCTTCGAATTCTGCAGTCTAGAACTATAGTGAGTCGTATTACGTAGATCCAGACATGATAAGATACATTGATGAGTTTGGACAAACCACAACTAGAATGCAGTGAAAAAAATGCTTTATTTGTGAAATTTGTGATGCTATTGCTTTATTTGTAACCATTATAAGCTGCAATAAACAAGTTAACAACAACAATTGCATTCATTTTATGTTTCAGGTTCAGGGGGAGTG
Single trace of sanger sequencing : 1kb
Bacterial Genome : 4Mb = 4,000
Human Genome : 3.2Gb = 3,200,000
Transcriptome : at least 20,000 genes * 10 different conditions = 200,000
• 이러한 다량의 데이터를 분석하기 위해서는 컴퓨터의 활용이 필수적
Bioinformatics = Big Data Analysis Techniques For Modern Biology
생물정보학은 ..
전산학과 생물학의 융합같은 것이 아님 .
컴퓨터는 단지 매우 큰 데이터를 다루기 위한 도구일 뿐
생물정보학은 대량의 데이터를 다루기 위한 현대생물학의 연구테크닉Bioinformatics is the Biology
물론 생물정보학을 공부하기 위해서는 전산학 , 통계학 , 프로그래밍 , 수학등의 지식이 필요할 수 있음 .
그러나 생물정보학은 결코 전산학 , 통계학 , 프로그래밍 , 수학등의 세부 분과가 아님 .
• 힉스입자를 발견하기 위한 실험이 수행된 유럽입자물리연구소 (CERN) 에서도 방대한 데이터를 분석하기 위하여 복잡한 프로그래밍 , 수학 , 통계 등을 이용함 .
• 이런 사람들을 우리는 우리는 ‘물리학자’ (Physicist) 라고 부름 .
• 생물체에 얽힌 방대한 데이터를 분석하는 사람은 ‘생물학자’ (Biologist) 이며 , 이들이분석을 위해 사용하는 방법이 생물정보학 (Bioinformatics) 적인 방법임 .
잘못된 생각
생물학자
데이터를 생산“ 분석은 컴퓨터 잘하는 애들이 다 해주겠지”
생물정보학자
데이터를 분석“ 이 실험결과 뭔지는 모르겠지만 대충 프로그램 돌려서 예쁜 그림 그려주면 되겠지”
이러한 연구가 제대로 되지 않은 근본적인 이유
생물학 배경으로부터 온 사람이라면 ..
• 생물정보학 분석의 기본 이론의 이해
• 생물정보학 분석의 기본 개념 파악• 기초 프로그래밍 개념의 이해• 생물정보 분석은 ‘블랙박스’ 가
아니라는 것의 이해
프로그래밍 배경으로부터 온 사람이라면
• 기본 생물학 개념의 이해• 데이터가 어떻게 생산되는지에 대한
개념의 이해• 실험 데이터에는 오류가 항상 존재한다는 사실의 인지
화성에서 온 남자와 금성에서 온 여자
생물학 실험과 생물정보분석
실험 프로토콜
1. 시료 1 에 시약 1 을 넣고 ..
2. 37 도에서 10 분간 반응한 후
3. PCR 반응을 수행하여
4. 전기영동을 수행하고
5. 결과를 Gel 로 분석하여
6. 안나오면 1번으로 되돌아감 -.-;;
생물정보분석
1. 데이터베이스에서 특정 조건으로 검색하여
2. 시퀀스를 추출한 후
3. 이것에 대해서 sequence alignment 를 수행한 후
4. 결과를 출력하고 ..
5. 잘못되면 1번으로 되돌아감 -.-;;;
1 줄 요약 : 둘다 노가다
Some part of experiments are Commercialized And Automated..
Like some bioinformatics analysisAre well packaged..
Not always. Sometime you need to make your own tools.
Do not reinvent wheel
Use already invented tools as much as you can!