Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
5/7/2015
1
Khóa học:
Tin Sinh Học: Lắp ráp, Dự đoán,
Chú giải và Phân tích Hệ gen
Giảng viên: TS. Nguyễn Cường
TS. Dương Quốc Chính
Trợ giảng: Nguyễn Văn Lâm
Phạm Quang Huy
Nguyễn Quốc Đại
Chú giải và phân tích hệ gen
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 2
5/7/2015
2
Đặt vấn đề
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
1. Có 1 chuỗi trình tự DNA hoặc protein, làm thế nào để
biết chuỗi trình tự mang chức năng sinh học gì?
2. Có 50000 chuỗi trình tự trong tay, có những cách nào
có thể khai phá từ khối dữ liệu khổng lồ này?
3
Nội dung
• Lý thuyết: cơ chế tìm kiếm trong:
• BLAST
• InterProScan
• BLAST2GO
• Thực hành:
• BLAST
• InterProScan
• BLAST2GO
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 4
5/7/2015
3
Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 5
Trình tự DNA
(hoặc protein)
Trình tự được
chú giải bằng
BLAST
Trình tự được chú giải
bằng InterProScan
NCBI-nr
InterPro
Phần mềm
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
chức năng.
Phần mềm
BLAST2GO
Gene
Ontology
Enzyme
KEGG
Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 6
Trình tự DNA
(hoặc protein)
Trình tự được
chú giải bằng
BLAST
Trình tự được chú giải
bằng InterProScan
NCBI-nr
InterPro
Phần mềm
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
chức năng.
Phần mềm
BLAST2GO
Gene
Ontology
Enzyme
KEGG
5/7/2015
4
Sequence alignment là gì?
Alignment (Gióng hàng): So sánh 2 (pairwise) hoặc nhiều
(multiple) trình tự với nhau để tìm ra những vùng trình tự
giống hoặc tương đồng giữa chúng.
MVNLTSDEKTAVLALWNKVDVEDCGGE || || ||||| ||| || || || MVHLTPEEKTAVNALWGKVNVDAVGGE
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 7
Kết quả alignment:
8 mismatches
18 matches
Global vs. Local alignment
• Global alignment – Sắp gióng cột trên
toàn bộ chiều dài (bao gồm cả hai đầu
của mỗi trình tự).
• Local alignment – chỉ đưa ra những
vùng tương đồng nhất giữa 2 trình tự.
Global
alignment:
Áp dụng cho
so sánh các
trình tự
ortholog với
nhau (tiến hóa)
Local
alignment:
Xác định các
vùng chức
năng trong
protein.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 8
5/7/2015
5
Local alignment thích hợp với chú giải chức năng
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
3 kết quả alignment, 3 ý nghĩa khác nhau
9
1. BLAST
• Basic Local Alignment Search Tool
• Altschul và cs. 1990,1994,1997
• Là công cụ tìm kiếm tương đồng rất phổ biến, dựa trên
thuật toán Smith Waterman.
• Có thể tìm ra các đoạn local alignment tốt nhất phục vụ
chú giải chức năng.
• Được phát triển cả trên web và standalone.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 10
5/7/2015
6
MEAAVKEEISVEDEAVDKNI
MEA EAA AAV AVK VKE KEE EEI EIS ISV ...
Cắt nhỏ trình tự
query thành các
words có kích
thước là 3 Cắt nhỏ các trình
tự trong cơ sở dữ
liệu thành các
word cũng có
kích thước là 3
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 11
Trình tự query Cơ sở dữ liệu
NCBI
Cơ chế tìm kiếm trong BLAST
Dánh sách các word được cắt nhỏ trong cơ sở dữ liệu RTT AAQ
SDG KSS SRW LLN QEL RWY VKI GKG DKI NIS LFC WDV AAV KVR PFR DEI … …
Danh sách word được cắt
nhỏ của trình tự query:
MEA EAA AAV AVK VKL KEE EEI EIS ISV
?
So sánh các word
với nhau
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 12
Cơ chế tìm kiếm trong BLAST
5/7/2015
7
ELEPRRPRYRVPDVLVADPPIARLSVSGRDENSVELTMEAT
TDVRWMSETGIIDVFLLLGPSISDVFRQYASLTGTQALPPLFSLGYHQSRWNY
IWLDIEEIHADGKRYFTWDPSRFPQPRTMLERLASKRRVKLVAIVDPH
MEA EAA AAV AVK KLV KEE EEI EIS ISV
Tìm vị trí của các word giống nhau trên
các trình tự của cơ sở dữ liệu
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 13
Trình tự query Cơ sở dữ liệu
NCBI
Cơ chế tìm kiếm trong BLAST
Word được tìm thấy trên trình tự cơ sở dữ liệu sẽ được
mở rộng về 2 bên để tiếp tục tìm kiếm sự tương đồng.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Word
Mở rộng tìm kiếm
trên trình tự của
cơ sở dữ liệu
Trình tự cơ sở dữ liệu
Trình tự query
14
Cơ chế tìm kiếm trong BLAST
Độ dài mở rộng
tối đa = kết quả
BLAST
5/7/2015
8
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 15
Kết quả BLAST
Thanh đơn vị này
(Query) thể hiện độ
dài bp của toàn bộ
trình tự input
Thanh trên cùng có
các ô màu khác nhau
là thanh đơn vị đo
điểm số alignment
(Score)
Các thanh này là kết quả các trình
tự được tìm thấy trên cơ sở dữ liệu,
đi kèm là màu sắc thể hiện điểm số
alignment và vùng alignment (HSP)
tương ứng với vị trí trên trình tự
query.
Đường thẳng nhỏ
(dấu *) thể hiện có
2 vùng alignment
trên cùng một trình
tự kết quả.
Danh sách BLAST “hit”:
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 16
Max score: Điểm số (score) alignment cao nhất của vùng alignment (HSP) giữa
trình tự query và trình tự trên cơ sở dữ liệu.
Total score: Tổng điểm số (score) alignment của tất cả các vùng alignment
(HSP) cộng lại. Total score khác với max score khi xảy ra trường hợp nhiều vùng
alignment (HSP) đến từ cùng một trình tự trên cơ sở dữ liệu (dấu *).
Query coverage: Phần trăm độ dài giữa vùng alignment (HSP) và độ dài query
E-value: Độ tin cậy của kết quả, e-value càng thấp kết quả càng tin tưởng.
5/7/2015
9
Kết quả chi tiết BLAST
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 17
Bit-score:
dạng log của
score
E-value
Identity: số
base giống
hệt nhau.
Similarity (Positive):
Số base tương
đồng nhau.
Số lượng đoạn
trống (GAP)
trong alignment.
Kết luận
• Gợi ý tham số BLAST:
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 18
(Nguồn: Chapter 11 – Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins)
E-value Sequence identity
Nucleotide ≤ 1e-6 ≥ 70%
Protein ≥ 1e-3 ≥ 25%
Các tham số này chỉ mang ý nghĩa tham khảo, kết
luận chính xác nhất về một kết quả BLAST chỉ khi
đánh giá được alignment của kết quả đó.
5/7/2015
10
Bài tập 1: thực hành BLAST
I. Download toàn bộ protein của chủng E.coli DH10B trên
NCBI.
1. Vào trang NCBI BioProject và download:
http://www.ncbi.nlm.nih.gov/bioproject/20079
2. Nhấn vào con số “4126” ở mục Protein Sequence (đây chính là
tổng số protein tìm thấy trong chủng E.coli DH10B)
3. Nhấn vào nút “Send” ở góc trên cùng bên phải
4. Chọn “Destination” -> “File”-> “Format: FASTA” -> “Creat file”
5. Sau khi download file về máy, đổi tên thành “DH10B.fasta”
6. Sử dụng FileZilla để upload file DH10B.fasta lên máy chủ và cất
ở thư mục của bạn. (ví dụ: /home/hocvien1)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 19
Bài tập 1: thực hành BLAST
II. Chuẩn bị cơ sở dữ liệu:
Để có thể giúp BLAST hiểu được bạn muốn tìm kiếm trình tự trên file DH10B.fasta, bạn phải chuyển file fasta thành 1 cơ sở dữ liệu
dựa vào script “makeblastdb” có sẵn trong phần mềm BLAST+ :
makeblastdb –in DH10B.fasta –out DH10B –dbtype prot
Trong đó:
-in file được chọn để làm cơ sở dữ liệu BLAST
-out tên cơ sở dữ liệu
-dbtype dạng cơ sở dữ liệu là protein (nếu là
nucleotide thì để nucl)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 20
5/7/2015
11
Bài tập 1: thực hành BLAST III. Một nhóm nghiên cứu thiết kế mồi và muốn câu protein “30S ribosomal
subunit S1” từ E.coli DH10B, nhóm mang mẫu đi giải trình tự Sanger thu được file Sanger.fasta đặt trong thư mục:
/data/BIC15/6.annotation/Sanger.fasta
IV. Từ bộ protein của chủng E.coli DH10B đã được công bố trên NCBI (project-20079), ta sử dụng blastp để tìm kiếm trình tự Sanger.fasta trên bộ dữ liệu này:
blastp –num_thread 2 –db DH10B –query Sanger.fasta /
–out ketqua.xml –evalue 1e-6 –outfmt 5
Trong đó:
–num_thread: số lượng CPU sử dụng
-db: cơ sở dữ liệu sử dụng
-query trình tự cần kiểm tra
-out: tên file đầu ra
-evalue ngưỡng độ tin cậy e-value cao nhất
-outfmt định dạng file số 5, có dạng file là XML, định dạng file
này có thể xem bằng phần mềm EPOS – Blast Viewer.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 21
Bài tập 1: thực hành BLAST
V. Đáp án bài tập: sau khi đã tạo ra được file ketqua.xml, học viên có
thể mở ra bằng EPOS và đánh giá kêt quả BLAST. Dưới đây là các kết
quả mà học viên cần đạt được.
1. Tạo cơ sở dữ liệu DH10B.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 22
Phần mềm thông báo tạo thành công cơ sở dữ liệu
5/7/2015
12
Bài tập 1: thực hành BLAST V. Đáp án bài tập:
2. Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file ketqua.xml -> nhấn OK
Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả về “30S ribosomal subunit” S1 trên chủng E.coli DH10B.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 23
Bài tập 1: thực hành BLAST V. Đáp án bài tập:
2. Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file ketqua.xml -> nhấn OK
Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả đúng về kết quả 30S ribosomal subunit S1 trên chủng E.coli DH10B.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 24
5/7/2015
13
Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 25
Trình tự DNA
(hoặc protein)
Trình tự được
chú giải bằng
BLAST
Trình tự được chú giải
bằng InterProScan
NCBI-nr
…
InterPro
…
Phần mềm
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
chức năng.
Phần mềm
BLAST2GO
Gene
Ontology
Enzyme
KEGG
Là tập hợp của 11
ngân hàng protein lớn
nhất trên thế giới
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 26
2. InterProScan
5/7/2015
14
Database Trung tâm Cấu trúc dữ liệu Phương pháp chú giải URL
Pfam Sanger Institute Sequence alignment Family & Domain based on
conserved sequence http://pfam.sanger.ac.uk/
Gene3D UCL Structure
alignment Structural Domain
http://gene3d.biochem.ucl.ac.u
k/Gene3D/
Superfamily Uni. of Bristol Structure
alignment
Evolutionary domain
relationships http://supfam.cs.bris.ac.uk/SU
PERFAMILY/
SMART EMBL Heidelberg Sequence alignment Functional domain
annotation http://smart.embl-
heidelberg.de/
TIGRFAM J. Craig Venter Inst. Sequence alignment Microbial Functional
Family Classification
http://www.jcvi.org/cms/resear
ch/projects/tigrfams/overview/
Panther Uni. S. California Sequence alignment Family functional
classification http://www.pantherdb.org/
PIRSF PIR, Georgetown,
Washington D.C. Sequence alignment Functional classification
http://pir.georgetown.edu/pirw
ww/dbinfo/pirsf.shtml
PRINTS Uni. of Manchester Sequence alignment Family functional
classification
http://www.bioinf.manchester.
ac.uk/dbbrowser/PRINTS/inde
x.php
PROSITE SIB Sequence alignment Functional annotation http://expasy.org/prosite/
HAMAP SIB Sequence alignment Microbial protein family
classification http://expasy.org/sprot/hamap/
ProDom PRABI : Rhône-Alpes
Bioinformatics Center Sequence alignment
Conserved domain
prediction http://prodom.prabi.fr/prodom/
current/html/home.php
Limitations with Pairwise comparisons
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 28
5/7/2015
15
Protein signatures database
Multiple sequence alignment
Protein family/domain
Kết quả mới
ITWKGPVCGLDGKTYRNECALL
AVPRSPVCGSDDVTYANECELK
SVPRSPVCGSDGVTYGTECDLK
HPPPGPVCGTDGLTYDNRCELR
E-value 1e-49
E-value 3e-42
E-value 5e-39
E-value 6e-10
Protein
signature
Xây dựng lại
mô hình
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 29
1 2 3
Xây dựng mô hình Tìm kiếm
Điền trình tự protein
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Tìm kiếm trên InterPro database http://www.ebi.ac.uk/interpro/
30
Chọn cơ sở dữ liệu
5/7/2015
16
Download kết quả về máy tính
Unintegrated signatures
Family và domain
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 31
http://www.ebi.ac.uk/interpro/
Sequence feature
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 32
http://www.ebi.ac.uk/interpro/
Đường dẫn đến signature databases
Đường dẫn đến InterPro entry
5/7/2015
17
I. Tương tự với BLAST, ta sẽ phân tích trình tự Sanger.fasta để phân loại trình tự này thuộc vào họ
(family) nào và có những domain nào.
II. Truy cập www.ebi.ac.uk/interpro/sequencesearch
III. Dán trình tự vào ô “Analyse your protein sequence”
IV. Nhấn search
V. Quan sát kết quả
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 33
Bài tập 2: thực hành InterProScan
Kết quả phân tích trình tự Sanger.fasta
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 34
Bài tập 2: thực hành InterProScan
5/7/2015
18
Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 35
Trình tự DNA
(hoặc protein)
Trình tự được
chú giải bằng
BLAST
Trình tự được chú giải
bằng InterProScan
NCBI-nr
…
InterPro
…
Phần mềm
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
chức năng.
Phần mềm
BLAST2GO
Gene
Ontology
Enzyme
KEGG
Gene Ontology là gì?
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 36
Gene ontology là một quyển từ điển chứa các thuật
ngữ sinh học được liên kết với nhau và giải quyết
được 2 vấn đề lớn nhất trong chú giải chức năng:
• Từ đa nghĩa (nhiều sự vật được mô tả bởi cùng 1
thuật ngữ)
• Từ đồng nghĩa (một sự vật được mô tả bởi nhiều
thuật ngữ)
5/7/2015
19
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 37
Từ đa nghĩa
Cell
• Glucose synthesis
• Glucose biosynthesis
• Glucose formation
• Glucose anabolism
• Gluconeogenesis
Từ đồng nghĩa
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 38
5/7/2015
20
Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 39
Thông tin có được từ một protein (sản phẩm gene):
• Protein đó có chức năng gì?
• Chức năng đó thực hiện ở đâu?
• Chức năng đó thực hiện như thế nào?
1. Molecular Function
2. Biological Process
3. Cellular Component
Chức năng của protein
• protein kinase activity
• insulin receptor activity
Các quá trình mà protein tham gia
• cell division
Khu vực mà protein hoạt động
• mitochondrion
• mitochondrial matrix
• mitochondrial inner membrane
Gene Ontology
5/7/2015
21
PMID: PMC2680341
Cách tạo ra Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 41
A0A087WNN3
Bằng chứng thực nghiệm của gene ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 42
Inhibition of Btk kinase activity by IBtk
5/7/2015
22
Bằng chứng thực nghiệm của gene ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 43
Protein tyrosine kinase inhibitor activity
GO:0030292
Bằng chứng thực nghiệm của gene ontology
Các bằng chứng từ thực nghiệm khẳng định
protein Ibtk mang các mã chức năng trên và
được xếp vào nhóm IDA (thực nghiệm)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 44
Negative regulation of protein amino acid phosphorylation
GO:0001993
5/7/2015
23
GO EVIDENCE CODES
Direct Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available
ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model
http://www.geneontology.org/GO.evi
dence.shtml
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 45
Evidence codes
GO Mapping Example
NDUFAB1
GO EVIDENCE CODES
Direct Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available
Bằng chứng dạng tài liệu
(literature):
• Chi tiết
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 46
5/7/2015
24
GO Mapping Example
NDUFAB1
GO EVIDENCE CODES
Direct Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available
ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model
Bằng chứng dạng tài liệu
(literature):
• Chi tiết hơn
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)
Bằng chứng dạng máy tính
• Nhanh (computational)
• Độ chính xác thấp hơn
• Ít chi tiết hơn
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 47
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa
Biological Process (BP or P)
GO:0006633 fatty acid biosynthetic process TAS
GO:0006120 mitochondrial electron transport, NADH to ubiquinone TAS
GO:0008610 lipid biosynthetic process IEA
Cellular Component (CC or C)
GO:0005759 mitochondrial matrix IDA
GO:0005747 mitochondrial respiratory chain complex I IDA
GO:0005739 mitochondrion IEA
NDUFAB1
Molecular Function (MF or F)
GO:0005504 fatty acid binding IDA
GO:0008137 NADH dehydrogenase (ubiquinone) activity TAS
GO:0016491 oxidoreductase activity TAS
GO:0000036 acyl carrier activity IEA
Ứng dụng của Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 48
5/7/2015
25
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa
GO:ID (unique)
GO term name
GO evidence code
Ví dụ về chú giải Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 49
Ontologies
Mã số
Mô tả
thuật ngữ
Mối quan hệ
giữa các thuật
ngữ
Gene Ontology hiện có
40.000 thuật ngữ (05/05/2015)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 50
5/7/2015
26
http://www.geneontology.org/
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 51
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 52
5/7/2015
27
o Trong đó phần mềm Blast2GO (www.blast2go.com) là phần mềm được đánh giá cao nhất trong phân tích chú giải chức năng hệ gen.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 53
3. Blast2GO
Chú giải chức năng cho
những loài non-model
Xử lý dữ liệu thông lượng cao
như hệ gen.
Kết nối chặt chẽ với hầu hết các
ngân hàng dữ liệu lớn.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 54
5/7/2015
28
Lý do chọn Blast2GO?
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 55
Tổng citation (Google Scholar): 4134 (05/05/2015)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
BLAST2GO: Quy trình chú giải chức năng
Sq1
Blast Sq2
Sq3
Sq4
Sq1
Sq2
Sq3
Sq4
Hit1 Hit2 Hit3 Hit4
Hit1 Hit2 Hit3 Hit4
Hit1 Hit2 Hit3 Hit4
Sq1
Sq2
Sq3
Sq4
Hit1 Hit2 Hit3 Hit4
Hit1 Hit2 Hit3 Hit4
Hit1 Hit2 Hit3 Hit4
Hit1 Hit2
go1,go2, go3 go1,go3, go4 go3,go5, go6,go8 go1,go4
go6,go9, go8 go1,go8 go4,go1, go8,go9
go2 go2,go4, go4 go2,go5, go6 go2,go4
Sq1
Sq2
Sq3
Sq4
go1,go2, go3
go1,go3, go4
go3,go5, go6,go8
go1,go4
go6,go9, go8
go1,go8
go4,go1, go8,go9
go2
go2,go4, go4
go2,go5, go6
go2,go4
Mapping
Hit1 Hit2
Annotation
Nr
Interpro GO
56
5/7/2015
29
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Quy trình chú giải chức năng trình tự hệ gen
(tiếp)
Sq1
Sq2
Sq3
Sq4
go1,go2, go3
go1,go3, go4
go3,go5, go6,go8
go1,go4
go6,go9, go8
go1,go8
go4,go1, go8,go9
go2
go2,go4, go4
go2,go5, go6
go2,go4
Sàng lọc
57
KEGG
EC
Sq1
Sq2
Sq3
Sq4
EC1,go2,
go1,go3,
EC3,
PATHWAY1,
go8
EC8
PATHWAY8,
go2
EC2,
go2,
go2,go4
PATHWAY2
Quy tắc chú giải Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 58
Annotation Score (AS) = max i=1→n {%sim Hit i x ECw Hit i}
Mỗi một GO term sẽ được chú giải dựa trên điểm số annotation
Sq1
Hit1 go1,go2,go3
Hit2 go1,go3,go4,
Hit3 go3,go5,go6,go8
Hit4 go1,go4
Phần trăm similarity của Hit-Query
Evidence Code
Weight (ECw)
IDA 1
IMP 1
EXP 1
…
ISS 0.8
ISO 0.8
…
IEA 0.7 %sim Hit 𝑖 =
Độ 𝑑à𝑖 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐻𝑆𝑃 Độ 𝑑à𝑖 𝐴𝑙𝑖𝑔𝑛𝑚𝑒𝑛𝑡 𝐻𝑆𝑃
5/7/2015
30
Enzyme commission và KEGG
Enzyme commission: hệ thống phân loại chức năng của enzyme dựa vào các phản ứng. (www.chem.qmul.ac.uk)
KEGG: cơ sở dữ liệu lớn nhất hiện nay về hệ thống các con đường chuyển hóa sinh học. (www.genome.jp/kegg/)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 59
Nguồn: Program description: Strategies for biological annotation of mammalian systems: implementing gene
ontologies in mouse genome informatics. Genomics 74:121-128 (2001)
Gene Ontology
[Molercular function]
Enzyme
commission
năm 2001
1. Phần mềm: trong bài tập chú giải chức năng và phân tích hệ gen này, học viên sẽ sử dụng phần mềm BLAST2GO phiên bản 2.8 (phiên bản cũ, vì nhiều lý do không sử dụng bản mới nhất 3.0). Để có thể download BLAST2GO, học viên vào đường dẫn dưới đây và sử dụng trực tiếp trên Window: https://www.blast2go.com/start-blast2go-2-8
2. Dữ liệu:
/data/BIC15/5.Gene-prediction/transcript.fasta
(file trình tự transcript (cDNA) có được từ dự đoán gen vi tảo PQ6)
/data/BIC15/6.Annotation/transcript.xml
(kết quả Blastx transcript trên cơ sở dữ liệu nr-NCBI)
/data/BIC15/6.Annotation/transcript.dat
(kết quả chú giải Gene Ontology, Enzyme Commission và KEGG)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 60
Bài tập phân tích hệ gen BLAST2GO
5/7/2015
31
Download Blast2GO v2.8 (phiên bản cũ)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 61
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 62
Giao diện BLAST2GO
Bảng thao tác chính
(1) Blast (2) Mapping
(3) Annotation
Hiển thị biểu đồ GO
Thông báo quá trình phân tích
Kết quả Blast
Kết quả thống kê
Mọi thao tác
chỉ thực hiện
trên những
sequence
được select
Tin sinh học: Lắp ráp, dự
đoán, chú giải và phân tích
hệ gen | Phòng Tin sinh
học | www.tinsinhhoc.org 62
5/7/2015
32
Load sequences
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 63
Load sequences
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 64
Import kết quả blast
Import kết quả InterPro
Import trình tự fasta
Import kết quả mapping và annotation
5/7/2015
33
Load sequences
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 65
Import trình tự fasta
Bài 3: Thống kê phân bố độ dài trình tự
Bài tập:
• Thống kê phân bố độ dài trình tự trong file transcript.fasta và trích xuất dưới dạng : file ảnh
.png và file .txt
Hướng dẫn:
• Trong giao diện của BLAST2GO chọn “Statistics ->
Sequence Length Statistics”, chạy xong kết quả chọn
save theo PNG hoặc txt.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 66
5/7/2015
34
Bài 3: Thống kê phân bố độ dài trình tự
• .
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 67
Phân bố độ dài trình tự theo 2 định dạng file
Bài 4: Blast và InterPro
I. Chú giải trình tự mRNA-evidence.fasta bằng Blast và InterProScan trực tiếp trên BLAST2GO:
1. Blast: trong BLAST2GO có giao diện giúp người dùng blast trực tiếp online lên các cơ sở dữ liệu như nr-NCBI hay SwissProt. Tuy nhiên, trong khóa học này, học viên sẽ thực hành blastx dữ liệu PQ6 lên nr-NCBI trên máy chủ Lobi và Genome (tương tự như trong bài thực hành số 1).
Cách làm:
• Copy file .ncbirc về thư mục của học viên để kết nối với nr-NCBI:
cp /data/BIC15/6.Annotation/.ncbirc /home/hocvien1/
• Tiến hành blastx:
blastx -query transcript.fasta -db nr -num_threads 2 /
-max_target_seqs 20 -evalue 1e-6 -outfmt 5 / -
out transcript.xml
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 68
5/7/2015
35
Địa chỉ email BLAST (thông thường blastx)
Số lượng HITs (thường =< 20)
Hiển thị thông tin theo thuật toán
BDA (Best description annotator)
Khuyến cáo nên sử dụng XML
BLAST database (nr,…) E-Value
BLAST
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 69
Sử dụng server riêng
word size
Filter by description Minimum HSP length
Các tham số khác của BLAST
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 70
5/7/2015
36
Kết quả bài thực hành 4: BLAST
Màu đỏ
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 71
Kết quả bài thực hành 4: BLAST
Đánh giá độ tương đồng (similarity)
và e-value trong kết quả BLAST
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 72
5/7/2015
37
Kết quả bài thực hành 4: BLAST
Giao diện kết quả BLAST của trình tự
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 73
Bài 4: Blast và InterPro
I. Chú giải trình tự mRNA-evidence.fasta bằng
Blast và InterProScan trực tiếp trên
BLAST2GO:
2. InterProScan: Một điểm bất tiện của
www.ebi.ac.uk/interpro/ là không cho phép phân tích
nhiều trình tự một lúc, tuy nhiên BLAST2GO cho phép
tìm kiếm nhiều trình tự một lúc trên InterPro và online
với tốc độ rất nhanh.
Cách làm: theo hình vẽ phía sau.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 74
5/7/2015
38
Bài 4: Blast và InterPro
Kết quả được
lưu dưới dạng
file XML Một khi chú giải xong trên cơ sở dữ
liệu Interpro, các mã GO Interpro sẽ được
thêm vào kết quả GO chung.
Chạy công cụ InterProScan
trên máy chủ EBI trực tiếp
thông qua Blast2GO
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 75
Bài 4: Blast và InterPro
Kết quả InterproScan
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 76
5/7/2015
39
Bài 5: Mapping và annotation
I. Bước phân tích “mapping” và “annotation” được
BLAST2GO cho phép chạy online trên máy chủ đặt tại
Tây Ban Nha, tuy nhiên tốc độ rất chậm.
II. Ngoài cách chạy online, bước “mapping” và “annotation”
có thể chạy được local trên máy chủ Lobi và Genome tuy
nhiên lại khá phức tạp, buổi học thực hành hôm nay
chúng tôi chỉ hướng dẫn học viên cách chạy online phần
mapping và annotation (học viên sẽ thực hiện tại nhà
phần này) và đưa kết quả đầu ra để tiếp tục phân tích.
Input: transcript.xml (kết quả Blast hoặc InterPro)
Output: transcript.dat (dạng file project)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 77
Bài 5: Mapping và annotation
Xanh lá cây
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 78
Statistics -> Mapping Statistics
-> Evidence Code distribution
Statistics -> Mapping Statistics
-> DB-resource of mapping
5/7/2015
40
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 79
BLAST based annotation
Tin sinh học: Lắp ráp, dự
đoán, chú giải và phân tích
hệ gen | Phòng Tin sinh
học | www.tinsinhhoc.org 79
Bài 5: Mapping và annotation
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 80
Ngưỡng giá trị cho Annotation Score (AS)
Tin sinh học: Lắp ráp, dự
đoán, chú giải và phân tích
hệ gen | Phòng Tin sinh
học | www.tinsinhhoc.org 80
Bài 5: Mapping và annotation
5/7/2015
41
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 81
Xanh biển
Tin sinh học: Lắp ráp, dự
đoán, chú giải và phân tích
hệ gen | Phòng Tin sinh
học | www.tinsinhhoc.org 81
Bài 5: Mapping và annotation
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 82
Kết quả thực hành bài 5 Statistics -> Data Distribution
Statistics -> Annotation Statistics
-> GO annotation level distribution
Statistics -> Annotation Statistics
-> Annotation Distribution
5/7/2015
42
Bài 6: Phân loại chức năng bằng Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 83
Các mục phân loại
Tinh gọn đồ thị theo
số lượng trình tự
Dạng dữ liệu hiển thị
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 84
Bài 6: Phân loại chức năng bằng Gene Ontology
5/7/2015
43
Lưu dưới dạng ảnh và txt
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 85
Bài 6: Phân loại chức năng bằng Gene Ontology
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 86
Bài 6: Phân loại chức năng bằng Gene Ontology
5/7/2015
44
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 87
Bài 6: Phân loại chức năng bằng Gene Ontology
• Sequence Distribution/GO as Multilevel-Pie (#score or #seq cutoff)
• Sequence Distribution/GO
as Bar-Chart
• Sequence Distribution/GO
as Level-Pie (level selection)
Bài 7: Phân loại enzyme và pathway bằng EC và KEGG
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 88
Bài tập: Thống kê toàn bộ những trình tự liên quan đến
quá trình tổng hợp axit béo (fatty acid biosynthesis)
5/7/2015
45
Bài tập chú giải hệ gen vi tảo PQ6
Sau khi kết thúc phần thực hành chú giải hệ gen học
viên cần làm được những bài tập sau:
1. Thống kê phân bố độ dài trình tự hệ gen vi tảo PQ6 (transcript.fasta).
2. Thống kê có bao nhiêu trình tự: non-blast, blast, mapping,
annotation, mang mã EC (thống kê có bao nhiêu mã EC), được đưa vào KEGG pathway (transcript.dat).
3. Phân loại chức năng hệ gen theo Gene Ontology level 2 (transcript.dat).
4. Thống kê chi tiết những trình tự nào tham gia vào chu trình
tổng hợp axit béo trong KEGG (fatty acid biosynthesis).
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 89
Một vài chức năng khác
trong BLAST2GO
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 90
5/7/2015
46
Trích xuất kết quả
Lưu kết quả dưới
dạng file project để
lưu trữ
Trích xuất kết quả chú giải
dưới các định dạng khác
nhau
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 91
Định dạng trích xuất
C04018A02 glyoxalase i GO:0004462 F:lactoylglutathione lyase activity
C04018C02 metallothionein-like protein GO:0046872 F:metal ion binding
C04018G02 protein phosphatase GO:0008287 C:protein serine/threonine phosphatase complex
C04013E10 response to water deprivation; regulation of transcription; multicellular organismal development; response to abscisic acid stimulus; nucleus; transcription factor activity;
C04013A12 translation; ribosome; plastid; structural constituent of ribosome;
C04013C12 galactose metabolic process; plastid; aldose 1-epimerase activity; carbohydrate binding;
By Seq
GeneSpring Format
C04018C10 4707,9409,6979,10200,5524,169
C04018A12 16798,272,44248
C04018C12 4869,12505,8233
GoStat
C04018C10 GO:0004707 mitogen-activated protein kinase 3
C04018C10 EC:2.7.11.24
C04018A12 GO:0016798 class iv chitinase
C04018A12 GO:0000272
.annot
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 92
5/7/2015
47
Các định dạng trích xuất khác
Sequence name Sequence desc. Sequence lengthHit desc. Hit ACC E-Value Similarity Score Alignment lengthPositives
C04018C10 mitogen-activated protein kinase 3 717 gi|122894104|gb|ABM67698.1|mitogen-activated protein kinase [Citrus sinensis]ABM67698 1.35E-123 99 445.28 222 221
C04018E10 ---NA--- 706 gi|157356307|emb|CAO62459.1|unnamed protein product [Vitis vinifera]CAO62459 2.69E-036 83 155.22 119 99
C04018G10 protein 620 gi|114153154|gb|ABI52743.1|10 kDa putative secreted protein [Argas monolakensis]ABI52743 7.47E-015 63 83.57 90 57
C04018A12 class iv chitinase 715 gi|3608477|gb|AAC35981.1|chitinase CHI1 [Citrus sinensis]AAC35981 1.45E-061 78 239.2 171 134
C04018C12 cysteine proteinase inhibitor 663 gi|8099682|gb|AAF72202.1|AF265551_1cysteine protease inhibitor [Manihot esculenta]AAF72202 9.33E-025 83 116.7 99 83
C04018E12 protein phosphatase 2c 663 gi|46277128|gb|AAS86762.1|protein phosphatase 2C [Lycopersicon esculentum]AAS86762 2.76E-077 91 291.2 180 164
C04018G12 alpha beta fold family protein 578 gi|147865769|emb|CAN83251.1|hypothetical protein [Vitis vinifera] >gi|157339464|emb|CAO44005.1| unnamed protein product [Vitis vinifera]CAN83251 1.67E-084 94 314.69 179 169
C04018A02 glyoxalase i 600 gi|2213425|emb|CAB09799.1|hypothetical protein [Citrus x paradisi]CAB09799 2.16E-064 81 248.05 114 93
C04018C02 metallothionein-like protein 625 gi|3308980|dbj|BAA31561.1|metallothionein-like protein [Citrus unshiu]BAA31561 2.23E-014 100 82.03 40 40
Seq. Name Seq. Description Seq. Length #Hits min. eValuemean Similarity#GOs GOs Enzyme Codes InterProScan
C04018C12 cysteine proteinase inhibitor 663 20 25 80.00% 3 F:GO:0004869; C:GO:0012505; F:GO:0008233IPR000010; IPR018073; noIPR
C04018E12 protein phosphatase 2c 663 20 77 85.00% 2 N:GO:0015071; F:GO:0003824 IPR001932; IPR014045; IPR015655; noIPR
C04018G12 alpha beta fold family protein 578 20 84 79.00% 4 F:GO:0016787; C:GO:0005739; C:GO:0009507; P:GO:0006725noIPR
C04018A02 glyoxalase i 600 20 64 74.00% 2 P:GO:0005975; F:GO:0004462EC:4.4.1.5 IPR004360; noIPR
C04018C02 metallothionein-like protein 625 18 14 74.00% 1 F:GO:0046872 IPR000347
C04018E02 haemolysin-iii related familyexpressed 612 20 32 72.00% 1 C:GO:0016020 noIPR
C04018G02 protein phosphataseexpressed 645 20 97 81.00% 5 C:GO:0008287; N:GO:0015071; P:GO:0006470; C:GO:0009536; C:GO:0005739no IPS match
C04018C04 phosphoglycerate bisphosphoglycerate mutase family protein780 20 63 66.00% 2 P:GO:0008152; F:GO:0003824 IPR001345; IPR013078; noIPR
C04018E04 polyubiquitin 707 20 115 99.00% 2 P:GO:0006464; C:GO:0005622 IPR000626; IPR019954; IPR019955; IPR019956; noIPR
C04018G04 meiotic recombination 11 575 20 45 89.00% 21 C:GO:0019013; P:GO:0007126; F:GO:0004519; F:GO:0005509; F:GO:0004871; C:GO:0005739; F:GO:0030145; P:GO:0006302; P:GO:0045449; F:GO:0008289; P:GO:0042157; F:GO:0003677; P:GO:0006869; C:GO:0030089; P:GO:0007165; F:GO:0004527; P:GO:0015979; C:GO:0005576; F:GO:0005198; C:GO:0005634; P:GO:0006118IPR003701; IPR004843; noIPR
C04018A06 late embryogenesis-abundant protein 648 20 43 68.00% 2 P:GO:0009737; P:GO:0009409 no IPS match
Export Sequence Table
Export BestHit Data
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 93
Sequence Selection
Sequence Selection giúp
lựa chọn các sequence
mong muốn.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 94
5/7/2015
48
Sequence Selection
By Name/Description By Function
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 95
View Menu
Chức năng cho phép chọn
trình tự muốn hiện thị dựa trên
các chức năng chú giải
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 96
5/7/2015
49
Mục lục bài thực hành
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 97
Tên bài thực hành Slide số
Bài 1: Thực hành BLAST trên máy chủ với dữ liệu E.coli 19-24
Bài 2: Thực hành InterProScan trên web với dữ liệu E.coli 33-34
Bài 3: Thống kê phân bố độ dài trình tự bằng BLAST2GO 67-68
Bài 4: BLAST và InterProScan trên BLAST2GO 69-77
Bài 5: Mapping và annotation (thực hiện tại nhà) 78-83
Bài 6: Phân loại chức năng bằng Gene Ontology 84-88
Bài 7: Phân loại enzyme và pathway bằng EC và KEGG 89