计算机科学与生命科学（ 10 ）生物信息学基础 2013 年秋季学期通选课程上课时间：周一 18:30 点上课地点：软件园 4 区 502d 主讲人：魏天迪

计算机科学与生命科学（ 10 ）生物信息学基础2013 年秋季学期通选课程上课时间：周一 18:30 点上课地点：软件园 4 区 502d主讲人：魏天迪讲义网址： http://www.mbtech.sdu.edu.cn/biocomp/

打点法：名称 URLDotlet http://myhits.isb-sib.ch/cgi-bin/dotlet

Dnadot http://arbl.cvmbs.colostate.edu/molkit/dnadot

Dotter http://sonnhammer.sbc.su.se/Dotter.html

Dottup http://emboss.sourceforge.net

序列两两比较

http://myhits.isb-sib.ch/cgi-bin/dotlet

http://arbl.cvmbs.colostate.edu/molkit/dnadot

http://sonnhammer.sbc.su.se/Dotter.html

http://sonnhammer.sbc.su.se/Dotter.html

http://emboss.sourceforge.net/

http://emboss.sourceforge.net/

打点法： Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet

序列两两比较


dotlet.fasta

seq1

The Sequence Input Dialog


序列两两比较



序列两两比较


比较两个长度不同的序列的方法：打点法、序列比对法序列比对（ Alignment ），也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似性得分的空格插入和序列排列方案。序列 s 和 t 的比对：把 s 和 t 这两个字符串上下排列起来，在某些位置插入空格，然后依次比较他们在每一个位置上字符的匹配情况，从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。

序列 s ： LQRHKRTHTGEKPYE-CNQCGKAFAQ-序列 t ： LQRHKRTHTGEKPYMNVINMVKPLHNS

序列比对

多序列比对双序列比对全局比对局部比对

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch 算法， 1970 年， Saul Needleman 和 Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为 Needleman-Wunsch 算法。

双序列比对 --- 全局比对

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：序列 p ： ACGTC序列 q ： AATC

m=length(p)n=length(q)

gap = -5

s(i,j) 是按照替换记分矩阵得到的前缀 q[1…i] 与 p[1…j] 最大相似性的得分。w(i,j) 是字符 q[i] 和 p[j] 按照替换记分矩阵计算的得分

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4



gap = -5



s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4



gap = -5



s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4



gap = -5




s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

s(0,0) + w(1,1) = 0 + 10 = 10

s(1,1) = max s(0,1) + gap = -5 + -5 = -10

s(1,0) + gap = -5 + -5 = -10



gap = -5



s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap




gap = -5


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

s(0,1) + w(1,2) = -5 + -3 = -8

s(1,2) = max s(0,2) + gap = -10 + -5 = -15

s(1,1) + gap = 10 + -5 = 5

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4



gap = -5



s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4



gap = -5





: 字符对字符 : 字符对空位，箭头指着的序列为空位 : 字符对空位，箭头指着的序列为空位

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -5 5 7 4 -1 -6

T -5 0 5 4 12 7

C -5 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

序列 p ： A C G T C 序列 q ： A - A T C 全局序列比对结果


全局比对（ global alignment ）：用于比较两个长度近似的序列局部比对（ local alignment ）：用于比较一长一短两条序列

双序列比对 --- 局部比对

全局比对全局比对局部比对序列 a ： ASTDTPYMNVIPPCDEEFV 序列 b ： ATPY-ELFFV 序列 a ： PYMNVI序列 c ： -----PYINVF-------- 序列 c ： --PYINVF-- 序列 c ： PYINVF比对得分： -46 比对得分： 8 比对得分： 24

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

对于：序列 p ： ACGTC序列 q ： TC


gap = -5


s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 0 0 0 0 0

T 0 0 0 0 8 3

C 0 0 9 4 3 17

0 1 2 3 4 5 序列 p

0

1

序列 q 2

双序列比对 --- 局部比对全局比对（ global alignment ）：用于比较两个长度近似的序列局部比对（ local alignment ）：用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman 算法。对于：序列 p ： ACGTC序列 q ： TC


gap = -5


s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 0 0 0 0 0

T 0 0 0 0 8 3

C 0 0 9 4 3 17

0 1 2 3 4 5 序列 p

0

1

序列 q 2

双序列比对 --- 局部比对全局比对（ global alignment ）：用于比较两个长度近似的序列局部比对（ local alignment ）：用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman 算法。对于：序列 p ： ACGTC序列 q ： TC


gap = -5


得分矩阵

A C G T C

0 0 0 0 0 0

T 0 0 0 0 8 3

C 0 0 9 4 3 17

0 1 2 3 4 5 序列 p

0

1

序列 q 2

双序列比对 --- 局部比对

对于：序列 p ： ACGTC序列 q ： TC

: 字符对字符 : 字符对空位，箭头指着的序列为空位 : 字符对空位，箭头指着的序列为空位

序列 p ： T C 序列 q ： T C 局部序列比对结果： 17

序列 p ： A C G T C 序列 q ： - - - T C 全局序列比对结果： 2

全局比对（ global alignment ）：用于比较两个长度近似的序列局部比对（ local alignment ）：用于比较一长一短两条序列1981 年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman 算法。

双序列比对如果两个序列长度相同：一致度（ identity ） = （一致的字符的个数 / 序列长度） ×100%相似度（ similarity ） = （一致的及相似的字符的个数 / 序列长度） ×100%序列 1 ： CVHKA identity = (3/5)*100% = 60%序列 2 ： CIHKT similarity = ((3+1)/5)*100% = 80%

如果两个序列长度不相同：一致度（ identity ） = （一致的字符的个数 / 全局比对长度） ×100%相似度（ similarity ） = （一致的及相似的字符的个数 / 全局比对长度） ×100%序列 1 ： CVHKAT identity = (4/6)*100% = 67%序列 2 ： CIHK-T similarity = ((4+1)/6)*100% = 83%

EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/

在线比对工具

EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/

在线比对工具

http://www.ebi.ac.uk/Tools/psa/emboss_needle/


在线比对工具

在线比对工具EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/









小的 Gap Open +大的 Gap Extend




小的 Gap Open +大的 Gap Extend=分散的空位




大的 Gap Open +小的 Gap Extend=集中的空位




调整 gap open 和 gap extend 以达到期望的比对结果

Gap Open Gap Extend




EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water

在线比对工具

http://www.ebi.ac.uk/Tools/psa/emboss_water

EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/

在线比对工具

http://www.ebi.ac.uk/Tools/psa/emboss_water/


>Seq1SEQUENCEMHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN>Seq2GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA

EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/

在线比对工具



全局与局部比对的比较：全局比对比对长度 : 186一致度 : 103/186 (55.4%)相似度 : 103/186 (55.4%)

局部比对比对长度 : 130一致度 : 103/130 (79.2%)相似度 : 103/130 (79.2%)

在线比对工具

免费的在线双序列比对工具Online Pairwise Alignment Programs

Name Alignment Type URLEMBL Global/Local http://www.ebi.ac.uk/Tools/psa

PIR Global http://pir.georgetown.edu/pirwww/search/pairwise.shtml

Lalign Global/Local http://www.ch.embnet.org/software/LALIGN_form.html

LAGAN Global http://lagan.stanford.edu/lagan_web/index.shtml

AlignMe Alignment of Membrane Proteins

http://www.bioinfo.mpg.de/AlignMe/AlignMe.html

MCALIGN alignment of non-coding DNA sequences

http://homepages.ed.ac.uk/eang33/mcalign/mcinstructions.html

在线比对工具

多序列比对（ multiple alignment ），对两条以上的生物序列进行全局比对。多序列比对

多序列比对（ multiple alignment ），对两条以上的生物序列进行全局比对。多序列比对的主要用途：1. 确认：一个位置的序列是否属于某个家族。2. 建立：系统发生树，查看物种间或者序列间的关系3. 模式识别：一些特别保守的序列片段往往对应重要的功能区域，通过多序列比对，可以找到这些保守片段4. 已知推未知：把已知有特殊功能的序列片段通过多序列比对做成模型，然后根据该模型推测未知的序列片段是否也具有该功能。5. 预测蛋白质 /RNA 二级结构6. 等等。

多序列比对

多序列比对（ multiple alignment ），对两条以上的生物序列进行全局比对。对要进行多序列比对的序列的几点要求：1. 太多的序列受不了。一般 10-15 条序列，最好别超过 50 条。2. 关系太远的序列受不了。两两之间序列相似度低于 30% 的一组序列，作多序列比对会有麻烦。3. 关系太近的序列受不了。两两之间序列相似度大于 90% 的序列，有再多条都等于只有一条。4. 局部的短序列受不了。多序列比对支持一组差不多长的序列，个别很短的序列属于捣乱分子。5. 有重复域的序列受不了。如果序列里包含重复域，大多数多序列比对的程序都会出错，甚至崩溃。

多序列比对

多序列比对（ multiple alignment ），对两条以上的生物序列进行全局比对。序列的名字有几点建议：1.名字里不要有“空格”，用“ _”代替“空格”。

2.不要用特殊字符， ( 比如中文 , @, #, &, ^ 等 ) 。

3.名字的长度不要超过 15 个字符。

4.一组序列里，不要有重名的序列。如果不按上述几点建议命名的话，多序列比对程序会在不告知你的情况下修改你的序列名称。

多序列比对

e.g. My Seq 1 My_Seq_1

e.g. 我的序列壹 [email protected]

e.g. This_is_my_favorite_sequence_about_mouse

多序列比对的算法目前说有的多序列比对工具都不是完美的，他们都使用一种近似的算法。

P Y M N V I

0 -1 -2 -3 -4 -5 -6

P -1 7 6 5 4 3 2

Y -2 6 14 13 12 11 10

E -3 5 13 12 13 12 11

L -4 4 12 15 14 14 14

F -5 3 11 14 13 13 14

3 sequences = 3D

seq1

seq2 seq2seq1

seq3

2 sequences = 2D n sequences = nD

多序列比对

Documents

计算机科学与生命科学（ 10 ） 生物信息学基础 2013 年秋季学期通选课程 上课时间：周一 18:30 点 上课地点：软件园 4 区 502d 主讲人：魏天迪

计算机科学与生命科学（ 10 ）生物信息学基础 2013 年秋季学期通选课程上课时间：周一 18:30 点上课地点：软件园 4 区 502d 主讲人：魏天迪