Upload
duscha
View
115
Download
7
Embed Size (px)
DESCRIPTION
计算机科学与生命科学( 10 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪 讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/. 序列两两比较. 打点法:. 序列两两比较. 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet. 序列两两比较. 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet. - PowerPoint PPT Presentation
Citation preview
计算机科学与生命科学( 10 )生物信息学基础2013 年秋季学期通选课程上课时间:周一 18:30 点 上课地点:软件园 4 区 502d主讲人:魏天迪讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/
打点法:名称 URLDotlet http://myhits.isb-sib.ch/cgi-bin/dotlet
Dnadot http://arbl.cvmbs.colostate.edu/molkit/dnadot
Dotter http://sonnhammer.sbc.su.se/Dotter.html
Dottup http://emboss.sourceforge.net
序列两两比较
dotlet.fasta
seq1
The Sequence Input Dialog
打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet
序列两两比较
比较两个长度不同的序列的方法:打点法、序列比对法序列比对( Alignment ),也叫对位排列、联配、对齐等。 运用特定的算法找出两个或多个序列之间产生最大相似性得分的空格插入和序列排列方案。序列 s 和 t 的比对:把 s 和 t 这两个字符串上下排列起来,在某些位置插入空格,然后依次比较他们在每一个位置上字符的匹配情况,从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。
序列 s : LQRHKRTHTGEKPYE-CNQCGKAFAQ-序列 t : LQRHKRTHTGEKPYMNVINMVKPLHNS
序列比对
多序列比对 双序列比对 全局比对局部比对
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
A
A
T
C
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0
A
A
T
C
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A
A
T
C
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5
A -10
T -15
C -20
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5 10
A -10
T -15
C -20
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
s(0,0) + w(1,1) = 0 + 10 = 10
s(1,1) = max s(0,1) + gap = -5 + -5 = -10
s(1,0) + gap = -5 + -5 = -10
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5 10 5
A -10
T -15
C -20
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
s(0,1) + w(1,2) = -5 + -3 = -8
s(1,2) = max s(0,2) + gap = -10 + -5 = -15
s(1,1) + gap = 10 + -5 = 5
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5 10 5 0 -5 -10
A -10 5 7 4 -1 -6
T -15 0 5 4 12 7
C -20 -5 9 4 7 21
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
s(0,0) = 0
s(0,j) = gap * j, 1<=j<=m
s(i,0) = gap * i, 1<=i<=n
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
双序列比对 --- 全局比对
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5 10 5 0 -5 -10
A -10 5 7 4 -1 -6
T -15 0 5 4 12 7
C -20 -5 9 4 7 21
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
对于:序列 p : ACGTC序列 q : AATC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
双序列比对 --- 全局比对
对于:序列 p : ACGTC序列 q : AATC
: 字符对字符 : 字符对空位,箭头指着的序列为空位 : 字符对空位,箭头指着的序列为空位
得分矩阵
A C G T C
0 -5 -10 -15 -20 -25
A -5 10 5 0 -5 -10
A -5 5 7 4 -1 -6
T -5 0 5 4 12 7
C -5 -5 9 4 7 21
0 1 2 3 4 5 序列 p
0
1
2
3
序列 q 4
序列 p : A C G T C 序列 q : A - A T C 全局序列比对结果
Needleman-Wunsch 算法, 1970 年, Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为 Needleman-Wunsch 算法。
全局比对( global alignment ):用于比较两个长度近似的序列局部比对( local alignment ):用于比较一长一短两条序列
双序列比对 --- 局部比对
全局比对 全局比对 局部比对序列 a : ASTDTPYMNVIPPCDEEFV 序列 b : ATPY-ELFFV 序列 a : PYMNVI序列 c : -----PYINVF-------- 序列 c : --PYINVF-- 序列 c : PYINVF比对得分: -46 比对得分: 8 比对得分: 24
s(0,0) = 0
s(0,j) = 0, 1<=j<=m
s(i,0) = 0, 1<=i<=n
0
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
对于:序列 p : ACGTC序列 q : TC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
s(0,0) = 0
s(0,j) = 0, 1<=j<=m
s(i,0) = 0, 1<=i<=n
0
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 0 0 0 0 0
T 0 0 0 0 8 3
C 0 0 9 4 3 17
0 1 2 3 4 5 序列 p
0
1
序列 q 2
双序列比对 --- 局部比对全局比对( global alignment ):用于比较两个长度近似的序列局部比对( local alignment ):用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman 算法。对于:序列 p : ACGTC序列 q : TC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
s(0,0) = 0
s(0,j) = 0, 1<=j<=m
s(i,0) = 0, 1<=i<=n
0
s(i-1,j-1) + w(i,j)
s(i,j) = max s(i-1,j) + gap
s(i,j-1) + gap
A G C T -
A 10 -1 -3 -4
-5G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
- -5
替换记分矩阵
得分矩阵
A C G T C
0 0 0 0 0 0
T 0 0 0 0 8 3
C 0 0 9 4 3 17
0 1 2 3 4 5 序列 p
0
1
序列 q 2
双序列比对 --- 局部比对全局比对( global alignment ):用于比较两个长度近似的序列局部比对( local alignment ):用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman 算法。对于:序列 p : ACGTC序列 q : TC
m=length(p)n=length(q)
gap = -5
s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分
得分矩阵
A C G T C
0 0 0 0 0 0
T 0 0 0 0 8 3
C 0 0 9 4 3 17
0 1 2 3 4 5 序列 p
0
1
序列 q 2
双序列比对 --- 局部比对
对于:序列 p : ACGTC序列 q : TC
: 字符对字符 : 字符对空位,箭头指着的序列为空位 : 字符对空位,箭头指着的序列为空位
序列 p : T C 序列 q : T C 局部序列比对结果: 17
序列 p : A C G T C 序列 q : - - - T C 全局序列比对结果: 2
全局比对( global alignment ):用于比较两个长度近似的序列局部比对( local alignment ):用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman 算法。
双序列比对如果两个序列长度相同:一致度( identity ) = (一致的字符的个数 / 序列长度) ×100%相似度( similarity ) = (一致的及相似的字符的个数 / 序列长度) ×100%序列 1 : CVHKA identity = (3/5)*100% = 60%序列 2 : CIHKT similarity = ((3+1)/5)*100% = 80%
如果两个序列长度不相同:一致度( identity ) = (一致的字符的个数 / 全局比对长度) ×100%相似度( similarity ) = (一致的及相似的字符的个数 / 全局比对长度) ×100%序列 1 : CVHKAT identity = (4/6)*100% = 67%序列 2 : CIHK-T similarity = ((4+1)/6)*100% = 83%
EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
小的 Gap Open +大的 Gap Extend
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
小的 Gap Open +大的 Gap Extend=分散的空位
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
大的 Gap Open +小的 Gap Extend=集中的空位
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
调整 gap open 和 gap extend 以达到期望的比对结果
Gap Open Gap Extend
在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water
在线比对工具
EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/
在线比对工具
>Seq1SEQUENCEMHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN>Seq2GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA
EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/
在线比对工具
全局与局部比对的比较:全局比对比对长度 : 186一致度 : 103/186 (55.4%)相似度 : 103/186 (55.4%)
局部比对比对长度 : 130一致度 : 103/130 (79.2%)相似度 : 103/130 (79.2%)
在线比对工具
免费的在线双序列比对工具Online Pairwise Alignment Programs
Name Alignment Type URLEMBL Global/Local http://www.ebi.ac.uk/Tools/psa
PIR Global http://pir.georgetown.edu/pirwww/search/pairwise.shtml
Lalign Global/Local http://www.ch.embnet.org/software/LALIGN_form.html
LAGAN Global http://lagan.stanford.edu/lagan_web/index.shtml
AlignMe Alignment of Membrane Proteins
http://www.bioinfo.mpg.de/AlignMe/AlignMe.html
MCALIGN alignment of non-coding DNA sequences
http://homepages.ed.ac.uk/eang33/mcalign/mcinstructions.html
在线比对工具
多序列比对( multiple alignment ),对两条以上的生物序列进行全局比对。多序列比对的主要用途:1. 确认:一个位置的序列是否属于某个家族。2. 建立:系统发生树,查看物种间或者序列间的关系3. 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段4. 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也具有该功能。5. 预测蛋白质 /RNA 二级结构6. 等等。
多序列比对
多序列比对( multiple alignment ),对两条以上的生物序列进行全局比对。对要进行多序列比对的序列的几点要求:1. 太多的序列受不了。一般 10-15 条序列,最好别超过 50 条。2. 关系太远的序列受不了。两两之间序列相似度低于 30% 的一组序列,作多序列比对会有麻烦。3. 关系太近的序列受不了。两两之间序列相似度大于 90% 的序列,有再多条都等于只有一条。4. 局部的短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。5. 有重复域的序列受不了。如果序列里包含重复域,大多数多序列比对的程序都会出错,甚至崩溃。
多序列比对
多序列比对( multiple alignment ),对两条以上的生物序列进行全局比对。序列的名字有几点建议:1.名字里不要有“空格”,用“ _”代替“空格”。
2.不要用特殊字符, ( 比如中文 , @, #, &, ^ 等 ) 。
3.名字的长度不要超过 15 个字符。
4.一组序列里,不要有重名的序列。如果不按上述几点建议命名的话,多序列比对程序会在不告知你的情况下修改你的序列名称。
多序列比对
e.g. My Seq 1 My_Seq_1
e.g. 我的序列壹 [email protected]
e.g. This_is_my_favorite_sequence_about_mouse