Upload
urania
View
43
Download
0
Embed Size (px)
DESCRIPTION
D o I t Y ourself. bio INFORMATICS. 권병천 , 배우리 , 이태선 , 박태준. Overview. Objective BioInformatics 를 쉽고 편리하게 개발할 수 있는 방법 제시 Approach BioInformatics 사례를 통한 프로그램 개발 방법 설명 : Profile/Secondary Structure/Solvent Accessibility 를 이용한 sequence-alignment 프로그램 개발절차와 구현 예 제시 - PowerPoint PPT Presentation
Citation preview
권병천 , 배우리 , 이태선 , 박태준
DoItYourself
bioINFORMATICS
Overview Objective
BioInformatics 를 쉽고 편리하게 개발할 수 있는 방법 제시 Approach
BioInformatics 사례를 통한 프로그램 개발 방법 설명: Profile/Secondary Structure/Solvent Accessibility 를 이용한 sequence-alignment 프로그램
개발절차와 구현 예 제시 BioJava, Apache Commons 툴 소개 BioInformatics 개발 방법 제시
CASE : P.S.S. pairwise sequence alignment 겨울 학교를 통해 배웠던 alignment 방법
PAM/BLOSUM 을 이용한 linear/affine gap penalty alignment Substitution Matrix 는 Amino Acid 간 치환 확률 기반
만약 , 2 개의 sequence 를 정렬할 때 , 해당 sequence 의
Profile Secondary structure Solvent accessibility
특징을 이용하여 substitution matrix 를 구성 Match 되는 amino acid 간 profile/secondary/solvent
특성을 반영한 match score 를 계산할 수 있음 향상된 향상된 alignment alignment 결과를 기대할 수 있음결과를 기대할 수 있음
T P A R R R L M D F K R MH H H H C C C E E E H H HE E E E E E B B B B B B B
S E B R E B A E B K C E R C E I C E M C E
Yellow : Secondary StructureGreen : Solvent Accessibility
CASE : P.S.S. pairwise sequence alignment BioInformatics 실험 절차
Structure 를 알고 있는 하나의 PDB 를 target 으로 선정하고 , 나머지 PDB 파일과 TM-Align 을 사용해 structure-structure alignment
Sequence identity 가 높은순대로 protein 정렬 선정된 target 은 structure 를 모른다고 가정
: PSS sequence alignment 통한 결과와 위 TM-Align 결과의 유사도 계산 목적
Target 과 template 의 profile/secondary structure/solvent accessibility 수치 생성Purpose Targe
tTemplat
ePsiBlast
Profile (Sequence) ★ ★
PsiPred
Secondary Structure (sequence)
★
Accpro
Solvent Accessibility (sequence)
★
DSSP SS, SA (Structure) ★
CASE : P.S.S. pairwise sequence alignment BioInformatics 실험 절차 ( 계속 )
Profile/Secondary/Solvent 각각의 correlationship matrix 생성 각 matrix 에 서로 다른 가중치를 곱하여 통합된 PSS substitution
matrix 생성 Terminal gap/gap open/gap extend penalty 값 설정 Pairwise alignment 실행하여 score 계산 모든 대상 template 의 score 를 정렬하여 structure alignment
한 결과와 유사성을 계산 가중치를 변화하여 유사성이 높은 가중치 패턴 검색
Profile Correlation
Matrix
Secondary Structure Correlation
Matrix
Solvent Accessibility Correlation
MatrixWeight(I) Weight(II) Weight(III)
PSSSubstitution
Matrix
Methods : P.S.S. pairwise sequence alignment 각종 tools 실행
PsiBlast, PsiPred, DSSP, AccPro, TM-Align, PDP → Python 스크립트 PDB 파일에서 sequence 추출
Template PDB 파일인 경우 PsiBlast 에서는 Sequence DSSP 에서는 Structure coordinates 정보를 사용 하지만 , 모든 sequence 의 coordinates 가 PDB 에 있지는 않음
방법은 직접 PDB 를 읽어 coordinates 정보가 있는 amino acid 만 추출 혹은 BioJava 를 이용
PSS substitution matrix 를 이용한 Pairwise sequence alignment 직접 dynamic program 작성 혹은 BioJava 를 이용
Score 비교 및 정렬을 위한 자료구조 정의 직접 자료구조 정의 및 정렬 알고리즘 작성 혹은 Java Library(Apache Commons) 이용
BioJava, Java Library BioJava – http://www.biojava.org
BioInformatics 를 위해 잘 만들어진 open source 프레임워크 BioJava 뿐만 아니라 BioPython, BioPerl 도 있음
Java Library(Apache Commons) – http://commons.apache.org 프로그래밍에서 자주 쓰이고 구현이 까다로운 기능을 미리 구현해 놓아
재 사용 가능한 open source 프레임워크
Pros•시간 및 비용 절약•작고 빠른 속도 보장•오류 가능성 매우 적음•소스 공개로 인한 응용 가능
Cons•학습 소요 시간 높음•간단 /일회성 프로그램에서 필요 없음
And one more thing – IDE tool IDE(Integrated Development Environment)
IDE 는 프로그램 생산성을 극도로 높이기 위해 코딩 , 디버그 , 컴파일 , 배포 등 프로그램 개발에 관련된 모든 작업을 하나의 프로그램 안에서 처리하는 환경을 제공하는 소프트웨어
Java 뿐만 아니라 c/c++/python/fortran 지원
Pros•시간 및 비용 절약•프로젝트 표준 준수 용이•프로젝트 관리 용이
Cons•학습 소요 시간 높음•복잡한 IDE 의 기능은 초보프로그래머에게 적합하지 않음•프로그램 성능이나 효율성과는 무관
Conclusion 중요한 것은 idea 와 이를 효과적인 algorithm 으로 설계 설계한 algorithm 을 구현하기 위해서는
기존 훌륭한 개발자 /연구자들이 설계한 코드를 이용할 수 있어야 함 프로그래밍 언어는 하나의 도구일 뿐 자체가 중요한 개념은 아님 프로그램 작성 시간보다는 오류를 찾고 수정하는 시간이 훨씬 많이
걸림 따라서 이를 쉽고 잘 할 수 있는 도구를 선택하는 것도 중요
첨부 1) CASE : P.S.S. pairwise sequence alignment
Profile Correlation
Matrix
첨부 2) CASE : P.S.S. pairwise sequence alignment
1Z2U PsiPred result
2ESK DSSP result
DSSP CODEH = alpha helixB = residue in isolated beta-bridgeE = extended strand, participates in beta ladderG = 3-helix (3/10 helix)I = 5 helix (pi helix)T = hydrogen bonded turnS = bend
Secondary Structure
Correlation Matrix
첨부 3) CASE : P.S.S. pairwise sequence alignment
2ESK DSSP result
1Z2U AccPro result SolventAccessibility Correlation
Matrix
첨부 4) CASE : P.S.S. pairwise sequence alignment
첨부 5) CASE : P.S.S. pairwise sequence alignment