71
生物信息学 Bioinformatics 巩晶 癌症研究中心 山东大学 基础医学院 2017.03.03

第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

生 物 信 息 学Bioinformatics

巩晶癌症研究中心

山东大学 基础医学院2017.03.03

Page 2: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

2

Page 3: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

3

4.1 认识序列

序列(sequence)就是个字符串(string)。

s=abcdefghijklmnopqrstuvwxyz

si代表序列s的第i个字符,比如s4=d

s’=abcde,序列s’是序列s的子序列(substring)

蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。

核酸序列:由4个不同的字母(碱基)排列组合而成。(DNA序列,RNA序列)

FASTA格式:第一行:大于号加名称或其它注释第二行以后:每行60个字母(也有80的,不一定)

Page 4: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

4

在游戏麻将泰坦中,你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。

4.2 序列相似性• 数据库中的序列相似性搜索

Page 5: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

5

对于一个蛋白质或核酸序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用眼睛比较一对序列都是不可能做到的。

……

BLAST

4.2 序列相似性• 数据库中的序列相似性搜索

Page 6: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

6

• 序列相似性的重要性

相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能 ,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。

相似的序列

相似的结构 相似的功能

4.2 序列相似性

Page 7: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

7

结构相似?功能相似?

• 序列相似性的重要性

相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能 ,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。

4.2 序列相似性

Page 8: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

8

一致度:如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。

相似度:如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

问题:哪个残基与哪个残基算作相似

答:残基两两相似的量化关系被替换记分矩阵所定义。

• 序列一致度(identity)与相似度(similarity)

4.2 序列相似性

序列 1 : CLHK序列 2 : CIHL

Page 9: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

9

4.3 替换记分矩阵

替换记分矩阵(Substitution Matrix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。

DNA替换记分矩阵

蛋白质替换记分矩阵

序列 1 : CLHK序列 2 : CIHL

Page 10: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

10

1. 等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。

2. 转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环数不变,则称为转换,如A → G、C → T;如果环数发生变化,则称为颠换,如A → C、T → G等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。

3. BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。

A T C G A T C G A T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -1 1 -5 C -4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5

① ② ③

4.3.1 DNA序列的替换记分矩阵• 3种常见的DNA序列的替换记分矩阵

Page 11: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

11

1. 等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。

2. 转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A → G、C → T;如果环数发生变化,则成为颠换,如A → C、T → G等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。

3. BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。

A T C G A T C G A T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -1 1 -5 C -4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5

① ② ③

4.3.1 DNA序列的替换记分矩阵• 3种常见的DNA序列的替换记分矩阵

Page 12: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

12

1. 等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。

2. 转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A → G、C → T;如果环数发生变化,则成为颠换,如A → C、T → G等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。

3. BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。

A T C G A T C G A T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -1 1 -5 C -4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5

① ② ③

4.3.1 DNA序列的替换记分矩阵• 3种常见的DNA序列的替换记分矩阵

Page 13: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

13

1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。

3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度大于85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度≥80%的序列计算而来的,同理, BLOSUM-62是指该矩阵由一致度≥62%的序列计算而来的。

4.3.2 蛋白质序列的替换记分矩阵• 3种常见的蛋白质序列的替换记分矩阵

Page 14: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

14

1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。

3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度大于85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度≥80%的序列计算而来的,同理, BLOSUM-62是指该矩阵由一致度≥62%的序列计算而来的。

4.3.2 蛋白质序列的替换记分矩阵• 3种常见的蛋白质序列的替换记分矩阵

Page 15: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。

3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度大于85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度≥80%的序列计算而来的,同理, BLOSUM-62是指该矩阵由一致度≥62%的序列计算而来的。

PAM-250矩阵对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。

• 3种常见的蛋白质序列的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

15

Page 16: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

16

1. 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2. PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。

3. BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似度较高(>85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似度是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致度≥80%的序列计算而来,同理, 62是指该矩阵由一致度≥62%的序列计算而来。

• 3种常见的蛋白质序列的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

Page 17: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

17

BLOSUM-62

对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。

• 3种常见的蛋白质序列的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

Page 18: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

18

• 选 PAM-1 还是 PAM-250?

氨基酸差异 % PAM BLOSUM-------------------------------------------------------------------------------

1 PAM-1 BLOSUM -9910 PAM-11 BLOSUM -9020 PAM-23 BLOSUM -8030 PAM-38 BLOSUM -7040 PAM-56 BLOSUM -6050 PAM-80 BLOSUM -5060 PAM-112 BLOSUM -4070 PAM-159 BLOSUM -3080 PAM-246 BLOSUM -20

4.3.2 蛋白质序列的替换记分矩阵

Page 19: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

19

• 选 PAM-? 还是 BLOSUM-?

BLOSUM-80 BLOSUM-62 BLOSUM-45

PAM-1 PAM-120 PAM-250

亲缘关系较近的 亲缘关系较远的序列之间的比对 序列之间的比对

对于关系较远的序列之间的比较,由于PAM-250是推算而来,所以其准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。最常用的:BLOSUM-62

4.3.2 蛋白质序列的替换记分矩阵

Page 20: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

20

1. 等价矩阵(unitary matrix)

2. PAM矩阵(Dayhoff突变数据矩阵)

3. BLOSUM矩阵(blocks substitution matrix)

4. 遗传密码矩阵(genetic code matrix, GCM):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr三个密码子都要变,则代价为3。

遗传密码矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对(尤其是相似程度很低的蛋白质序列比对)中,很少被使用。

5. 疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。

• 其他2种蛋白质序列比对的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

Page 21: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

21

1. 等价矩阵(unitary matrix)

2. PAM矩阵(Dayhoff突变数据矩阵)

3. BLOSUM矩阵(blocks substitution matrix)

4. 遗传密码矩阵(genetic code matrix, GCM):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr三个密码子都要变,则代价为3。

遗传密码矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对(尤其是相似程度很低的蛋白质序列比对)中,很少被使用。

5. 疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。

• 其他2种蛋白质序列比对的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵遗传密码矩阵

Page 22: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

22

1. 等价矩阵(unitary matrix)

2. PAM矩阵(Dayhoff突变数据矩阵)

3. BLOSUM矩阵(blocks substitution matrix)

4. 遗传密码矩阵(genetic code matrix, GCM):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr三个密码子都要变,则代价为3。

5. 疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。该矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。

• 其他2种蛋白质序列比对的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

Page 23: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

23

1. 等价矩阵(unitary matrix)

2. PAM矩阵(Dayhoff突变数据矩阵)

3. BLOSUM矩阵(blocks substitution matrix)

4. 遗传密码矩阵(genetic code matrix, GCM):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr三个密码子都要变,则代价为3。

5. 疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。

• 其他2种蛋白质序列比对的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵疏水矩阵

Page 24: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

24

4.3.2 蛋白质序列的替换记分矩阵

1. 假设你有两条亲缘关系近的蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM或PAM矩阵(单选)?

A BLOSUM45或PAM250 B BLOSUM45或PAM10

C BLOSUM80或PAM25 D BLOSUM10或PAM25

2. 假设两个蛋白质序列的相似度在20%左右,那么应该采用的PAM矩阵是(单选)?

A PAM60 B PAM80 C PAM120 D PAM250

Page 25: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

25

一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。

相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

问题:哪个残基与哪个残基算作相似

答:残基两两相似的量化关系被替换记分矩阵所定义。

• 序列一致度(identity)与相似度(similarity)

4.3.3 一致度和相似度的计算

序列 1 : CLHK序列 2 : CIHL序列 2 : C?H?

一致度 = 2/4 = 50% 相似度 = ?

Page 26: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

26

• 序列一致度(identity)与相似度(similarity)

BLOSUM-62

对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。

4.3.3 一致度和相似度的计算

Page 27: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

27

一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。

相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

问题:哪个残基与哪个残基算作相似

答:残基两两相似的量化关系被替换记分矩阵所定义。

• 序列一致度(identity)与相似度(similarity)

序列 1 : CLHK序列 2 : CIHL

一致度 = 2/4 = 50% 相似度 = (2+1)/4 = 75%

4.3.3 一致度和相似度的计算

Page 28: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

28

一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。

相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

问题:哪个残基与哪个残基算作相似?

答:残基两两相似的量化关系被替换记分矩阵所定义。

• 序列一致度(identity)与相似度(similarity)

如果两个序列的长度不同怎么计算一致度与相似度?

seq 1 : CLHKAseq 2 : CIHL

4.3.3 一致度和相似度的计算

Page 29: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

29

比较两个序列的方法:打点法、序列比对法

打点法:最简单的比较两个序列的方法,理论上可以用 来完成。

Seq1: THEFASTCAT

Seq2: THEFATCAT

T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x

length(seq1) = 10length(seq2) = 910 x 9 = 90 次比较

Seq 1

Seq 2

4.4 序列两两比较:打点法

Page 30: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

30

连续的对角线及对角线的平行线代表两条序列中相同的区域1. THEFA2. TCAT3. AT

Seq1: THEFASTCAT

Seq2: THEFATCAT

T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x

Seq 1

Seq 2

4.4.1 打点法的用途

Page 31: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

31

连续的对角线及对角线的平行线代表两条序列中相同的区域1. THEFA2. TCAT3. AT

Seq1: THEFASTCAT

Seq3: EIVFHTADT

T H E F A S T C A TE xIVF xH xT x x xA xDT x x x

Seq 1

Seq 3

4.4.1 打点法的用途

Page 32: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

32

Seq1: THEFASTHESTHE

T H E F A S T H E Y T H ET x x xH x x xE x x xF xA xS xT x xH x xE x xY xT x xH x xE x x

可以用一条序列自己对自己打点,从而可以发现序列中重复的片段。这样的打点矩阵必然是对称的,并且有一条主对角线。在横向或纵向上,与主对角线平行的短平行线所对应的序列片段就是重复的部分。

4.4.1 打点法的用途

Page 33: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

33

Seq1: FASABCABCABCTHE

F S A B C A B C A B C T HF x S xA x x xB x x xC x x xA x x x B x x xC x x xA x x x B x x x C x x xT xH x

发现串联重复序列(tandem repeat)

短串联重复序列(short tandem repeat, STR)也叫做微卫星DNA,是一类广泛存在于真核生物基因组中的DNA串联重复序列。它由2-6bp的核心序列组成,重复次数通常在15-30次。STR具有高度多态性,即存在重复次数的个体间差异,而且这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律,所以它被广泛用于法医学个体识别、亲子鉴定等领域。

4.4.1 打点法的用途

Page 34: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

34

比较两个序列的方法:打点法、序列比对法

打点法:最简单的比较两个序列的方法,理论上可以用 来完成。

Seq1: THEFASTCAT

Seq2: THEFATCAT

T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x

length(seq1) = 10length(seq2) = 910 x 9 = 90 次比较

Seq 1

Seq 2

4.4.2 Dotlet在线打点工具

Page 35: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

35

打点法在线软件:

名称 网址链接

Dotlet http://myhits.isb-sib.ch/cgi-bin/dotlet

Dnadot http://arbl.cvmbs.colostate.edu/molkit/dnadot

Dotter http://sonnhammer.sbc.su.se/Dotter.html

Dottup http://emboss.sourceforge.net

4.4.2 Dotlet在线打点工具

http://myhits.isb-sib.ch/cgi-bin/dotlet

Page 36: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

36

Dotlet主界面:

参数设置区

打点图显示区 结果显示

调控区

序列信息显示区

4.4.2 Dotlet在线打点工具

Page 37: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

37

4.4.2 Dotlet在线打点工具

seq1

Page 38: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

38

以多长的输入 水平 垂直 替换记 序列为单 显示 计算序列 序列 序列 分矩阵 元打一个点 比例 按钮

可选各种Blosum矩阵和PAM矩阵,如果选了这两种矩阵,则并不是完全一致才打点,而是相似就打点。如果想严格要求,只有完全一致才打点,那就选Identity。

可选各种Blosum矩阵和PAM矩阵,如果选了这两种矩阵,则并不是完全一致才打点,而是相似就打点。如果想严格要求,只有完全一致才打点,那就选Identity。

如果选1的话,就是一次只比较一个字母。如果选15,就是一次比较15个字母。通过比较他们整体的相似度来确定打不打点。

如果选1的话,就是一次只比较一个字母。如果选15,就是一次比较15个字母。通过比较他们整体的相似度来确定打不打点。

打点结果是1:1显示,还是缩小一半,还是缩小四份之一等。

打点结果是1:1显示,还是缩小一半,还是缩小四份之一等。

参数设置参数设置

Page 39: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

39

seq1序列自己和自己比较:该序列前一半和后一般相似度极高seq1序列自己和自己比较:该序列前一半和后一般相似度极高

相似度:低 高

分值:-60 165

相似度:低 高

分值:-60 165

有一条与主对角线平行的次对角线,说明该序列的前半部分和后半部分非常的相似

有一条与主对角线平行的次对角线,说明该序列的前半部分和后半部分非常的相似

Page 40: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

40

屏蔽大多数低分值的点,让他们统统变成黑色背景

屏蔽大多数低分值的点,让他们统统变成黑色背景

seq1序列自己和自己比较:该序列前一半和后一般相似度极高seq1序列自己和自己比较:该序列前一半和后一般相似度极高

相似度:低 高

分值:-60 165

相似度:低 高

分值:-60 165

Page 41: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

41

同时,强化高分值的点,让他们以纯白色突出显示出来

同时,强化高分值的点,让他们以纯白色突出显示出来

seq1序列自己和自己比较:该序列前一半和后一般相似度极高seq1序列自己和自己比较:该序列前一半和后一般相似度极高

相似度:低 高

分值:-60 165

相似度:低 高

分值:-60 165

Page 42: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

42

有一条明显的主对角线,说明这两条序列整体上十分相似

有一条明显的主对角线,说明这两条序列整体上十分相似

seq2序列和seq3序列比较:两条序列非常相似seq2序列和seq3序列比较:两条序列非常相似

Page 43: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

43

通过调整灰度可以让主对角线清晰呈现。

通过调整灰度可以让主对角线清晰呈现。

seq2序列和seq3序列比较:两条序列非常相似seq2序列和seq3序列比较:两条序列非常相似

Page 44: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

44

除了主对角线外,还有很多次对角线。说明序列中存在串联重复序列。

除了主对角线外,还有很多次对角线。说明序列中存在串联重复序列。

seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)

Page 45: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

45

一半范围内,数数包括主对角线在内有多少条对角线,就说明重复了多少次,最短的对角线就是一个重复单元。

一半范围内,数数包括主对角线在内有多少条对角线,就说明重复了多少次,最短的对角线就是一个重复单元。

1234567

seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)

Page 46: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

46

1234567

seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)

一半范围内,数数包括主对角线在内有多少条对角线,就说明重复了多少次,最短的对角线就是一个重复单元。

一半范围内,数数包括主对角线在内有多少条对角线,就说明重复了多少次,最短的对角线就是一个重复单元。

明明重复了14次,为什么显示的只有7次,少了一半呢?

明明重复了14次,为什么显示的只有7次,少了一半呢?

Page 47: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

47

因为序列太长,窗口显示不全。把窗口显示比例调成 1:2,14个对角线就都出现了!

因为序列太长,窗口显示不全。把窗口显示比例调成 1:2,14个对角线就都出现了!

seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)seq4序列和seq4序列比较:该序列中有串联重复序列(tandem repeat)

Page 48: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

48

4.5 序列两两比较:序列比对法比较两个长度不同的序列的方法:打点法、序列比对法

序列比对(alignment),也叫对位排列、联配、对齐等。 运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。

序列s和t的比对:把s和t这两个字符串上下排列起来,在某些位置插入空格(空位,gap),然后依次比较它们在每一个位置上字符的匹配情况,从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。

序列s:LQRHKRTHTGEKPYE-CNQCGKAFAQ-序列t:LQRHKRTHTGEKPYMNVINMVKPLHNS

多序列比对 双序列比对

全局比对

局部比对

Page 49: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

49

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 50: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

50

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 51: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

51

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 52: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

52

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 53: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

53

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

s(0,0) + w(1,1) = 0 + 10 = 10

s(1,1) = max s(0,1) + gap = -5 + -5 = -10

s(1,0) + gap = -5 + -5 = -10

4.5.1 双序列全局比对及算法

Page 54: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

54

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

s(0,1) + w(1,2) = -5 + -3 = -8

s(1,2) = max s(0,2) + gap = -10 + -5 = -15

s(1,1) + gap = 10 + -5 = 5

4.5.1 双序列全局比对及算法

Page 55: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

55

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 ?

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 56: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

56

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 57: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

57

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 58: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

58

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于:

序列p:ACGTC序列q:AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

Page 59: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

59

对于:

序列p:ACGTC序列q:AATC

: 字符对字符

: 字符对空位箭头指着的序列为空位

: 字符对空位箭头指着的序列为空位

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

序列p: A C G T C序列q: A - A T C

全局序列比对结果

Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。

得分矩阵

4.5.1 双序列全局比对及算法

Page 60: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

60

全局比对 全局比对 局部比对序列a:ASTDTPYMNVIPPCDEEFV 序列b:ATPY-ELFFV 序列a:PYMNVI序列c:-----PYINVF-------- 序列c:--PYINVF-- 序列c:PYINVF比对得分:-46 比对得分:8 比对得分:24

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

对于:

序列p:ACGTC m=length(p)序列q:CG n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列

4.5.2 双序列局部比对及算法

Page 61: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

61

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 62: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

62

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 63: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

63

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 ?

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 64: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

64

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 65: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

65

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 66: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

66

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于:

序列p:ACGTC序列q:CG

m=length(p)n=length(q)gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵

4.5.2 双序列局部比对及算法

Page 67: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

67

序列p: C G序列q: C G

局部序列比对结果:16

序列p: A C G T C序列q: - C G - -

全局序列比对结果:1

全局比对(global alignment):用于比较两个长度近似的序列局部比对(local alignment) :用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。

对于:

序列p:ACGTC序列q:CG

: 字符对字符

: 字符对空位箭头指着的序列为空位

: 字符对空位箭头指着的序列为空位

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

得分矩阵

4.5.2 双序列局部比对及算法

Page 68: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

68

如果两个序列长度相同:

一致度(identity)= (一致字符的个数 / 全局比对长度)×100%

相似度(similarity)= (一致及相似的字符的个数 / 全局比对长度)×100%

序列1:CVHK-LA identity = (4/7)*100% = 57%序列2:C-HKTIA similarity = ((4+1)/7)*100% = 71%

如果两个序列长度不相同:

一致度(identity)=(一致字符的个数 / 全局比对长度)×100%

相似度(similarity)=(一致及相似的字符的个数 / 全局比对长度)×100%

序列1:CVHKAT identity = (4/6)*100% = 67%序列2:CIHK-T similarity = ((4+1)/6)*100% = 83%

无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。

4.6 一致度和相似度的正确算法

Page 69: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

69

我按照老师上课讲的方法帮老板做双序列比对,结果。。。。。。。

老板,我学会做双序列比对了!

这么快就学会了!

好吧,帮我比这两条!

Page 70: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

我按照老师上课讲的方法帮老板做双序列比对,结果。。。。。。。

老板,我学会做双序列比对了!

这么快就学会了!

好吧,帮我比这两条!

70

Page 71: 第4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

71