25
第第第 第第第第第第第 生生生生生

第五章 多序列对位排列

  • Upload
    arwen

  • View
    103

  • Download
    0

Embed Size (px)

DESCRIPTION

生物信息学. 第五章 多序列对位排列. 多序列对位排列. Multiple Sequence Alignment (MSA). chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN - PowerPoint PPT Presentation

Citation preview

Page 1: 第五章 多序列对位排列

第五章

多序列对位排列

生物信息学

Page 2: 第五章 多序列对位排列

chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN

xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN

human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN

hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN

bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN

guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN

Bring the greatest number of similar characters into the same column of the alignment

Multiple Sequence Alignment (MSA)

多序列对位排列

Page 3: 第五章 多序列对位排列

Find out which parts “do the same thing”

为什么要做MSA?用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。

Page 4: 第五章 多序列对位排列

用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。

为什么要做MSA?

a

b

c

Gene treeA

B

C

Species tree

We often assume that gene trees give us species trees

Page 5: 第五章 多序列对位排列

为什么要做MSA?

Contig assembly

Page 6: 第五章 多序列对位排列

怎么做MSA? 动态规划算法( dynamic programming ): MSA

改进算法( heuristic algorithm ): 1. 渐进法( progressive methods ): Clustal, T-Coffee,

MUSCLE

2. 迭代法( iterative methods ): PRRP, DIALIGN

3. 其它算法: Partial Order Algorithm 、 profile HMM 、 meta-methods (MAFFT)…

http://www.ebi.ac.uk/Tools/msa/

Current Opinion in Structural Biology 2006, 16:368–373

Page 7: 第五章 多序列对位排列

Clustal :目前应用最广泛的 MSA 方法 可在线分析

可在本地计算机运行

Clustal使用方法

序列输入、输出格式

FASTANBRF/PIR EMBL/SWISSPROT

ALNGCG/MSFGCG9/RSF

GDE

ALNNBRF/PIRGCG/MSFPHYLIPNEXUS

GDE/FASTA

Input Output>sequence1ATTGCAGTTCGCA ……>sequence2ATAGCACATCGCA……>sequence3ATGCCACTCCGCC……

http://www.clustal.org/

Page 8: 第五章 多序列对位排列

两两比对构建距离矩阵

构建指导树( guide tree )

将距离最近的两条序列用动态规划的算法进行比对;

“渐进”的加上其他的序列

Clustal W/X算法基础

Page 9: 第五章 多序列对位排列

Clustal在线分析方法( ClustalW)

多序列对位排列结果

粘贴或上载序列

EBI 的 ClustalW 分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/

调整参数

http://www.ebi.ac.uk/Tools/msa/clustalw/help/

AlignmentsResult Summary

Page 10: 第五章 多序列对位排列

自带 Help 文件Using ClustalX for multiple sequence alignment by Jarno Tuimala

两种工作模式 : Multiple Alignment

Profile Alignment

Clustal离线分析方法( ClustalX)

下载安装

Page 11: 第五章 多序列对位排列

第一步:输入序列

File

Load sequences1、序列为多重 fasta格式(可进行编辑,保存为 txt文件)

2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则 ClustalX无法载入

3、为便于识别每条序列,可在 >后输入物种名称,并用空格和其它描述内容分开,如:

>Human gi|301129180|ref|NP_001180303.1| resistin [Homo sapiens]

Page 12: 第五章 多序列对位排列

第二步:设定比对参数

Page 13: 第五章 多序列对位排列

第三步:进行序列比对,得到结果

Page 14: 第五章 多序列对位排列

第四步:评价比对质量

打开比对结果 : 1、可在 ClustalX中直接输出打印

2、可用写字板打开 aln文件3、可将 aln文件以图形展示,更直观

更改参数、手动编辑,使之具有生物学意义

Page 15: 第五章 多序列对位排列

可进一步对排列好的序列进行修饰( 1) Boxshade 突出相同或相似位点( http://www.ch.embnet.org/software/BOX_form.html )

在 EBI ClustalW 结果网页复制序列比对结果

在“ Boxshade” 网页粘贴序列,在“ Input sequence format” 栏目选择“ ALN” ,在“ Output format” 栏目选择“RTF_new”

修饰过的排列结果

在结果网页点击“ here is your output number 1”

Page 16: 第五章 多序列对位排列

可进一步对排列好的序列进行修饰( 2) ESPript 多种修饰 功能,突出相同或相似位点

在 ESPript 分析网页“ Aligned Sequences” 栏上载 Alignments 文件

在“ Output layout” 和“ Output file or device” 栏选择

修饰后的比对结果

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

在 EBI ClustalW 结果网页下载“ Alignments”(CLUSTALW format)

Page 17: 第五章 多序列对位排列

GeneDochttp://www.nrbsc.org/gfx/genedoc

File – Import

修饰排列结果

选择输入文件的格式(如 ALN )

可进一步对排列好的序列进行修饰( 3)

Page 18: 第五章 多序列对位排列

ClustalW

ClustalX

Clustal工作界面

Page 19: 第五章 多序列对位排列

Clustal部分参数定义

Gap opening penalty :增大数值使 gap 数目减少 Gap extension penalty :增大数值使 gap 长度变短 Weight transition : A - G 转换或 C - T 转换( multiple DNA sequence al

ignment ) Hydrophilic gap :选择“ on” 将增加形成 gap 的机会( multiple protein s

equence alignment ) Residue-specific gap penalties :选择“ on” 将增加在某些氨基酸残基处形

成 gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会( multiple protein sequence alignment )

Page 20: 第五章 多序列对位排列
Page 21: 第五章 多序列对位排列

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

Page 22: 第五章 多序列对位排列
Page 23: 第五章 多序列对位排列
Page 24: 第五章 多序列对位排列
Page 25: 第五章 多序列对位排列