ç¬¬4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e

$Page 1: ç¬¬4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e$
生物信息学Bioinformatics

巩晶癌症研究中心

山东大学基础医学院2017.03.03

2

3

4.1 认识序列

序列（sequence）就是个字符串（string）。

s=abcdefghijklmnopqrstuvwxyz

si代表序列s的第i个字符，比如s4=d

s’=abcde，序列s’是序列s的子序列（substring）

蛋白质序列：由20个不同的字母（氨基酸）排列组合而成。

核酸序列：由4个不同的字母（碱基）排列组合而成。（DNA序列，RNA序列）

FASTA格式：第一行：大于号加名称或其它注释第二行以后：每行60个字母（也有80的，不一定）

4

在游戏麻将泰坦中，你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。

4.2 序列相似性• 数据库中的序列相似性搜索

5

对于一个蛋白质或核酸序列，你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列，因为数据库中有太多序列，甚至用眼睛比较一对序列都是不可能做到的。

……

BLAST

4.2 序列相似性• 数据库中的序列相似性搜索

6

• 序列相似性的重要性

相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。

相似的序列

相似的结构相似的功能

4.2 序列相似性

7

结构相似？功能相似？

• 序列相似性的重要性

相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。

4.2 序列相似性

8

一致度：如果两个序列（蛋白质或核酸）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。

相似度：如果两个序列（蛋白质或核酸）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

问题：哪个残基与哪个残基算作相似

答：残基两两相似的量化关系被替换记分矩阵所定义。

• 序列一致度（identity）与相似度（similarity）

4.2 序列相似性

序列 1 : CLHK序列 2 : CIHL

9

4.3 替换记分矩阵

替换记分矩阵（Substitution Matrix）：反映残基之间相互替换率的矩阵，它描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。

DNA替换记分矩阵

蛋白质替换记分矩阵


10

1. 等价矩阵（unitary matrix）：最简单的替换记分矩阵，其中，相同核苷酸之间的匹配得分为1，不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换，在实际的序列比较中较少使用。

2. 转换-颠换矩阵（transition-transversion matrix）：核酸的碱基按照环结构特征被划分为两类，一类是嘌呤（腺嘌呤A、鸟嘌呤G），它们有两个环；另一类是嘧啶（胞嘧啶C、胸腺嘧啶T），它们只有一个环。如果DNA碱基的替换保持环数不变，则称为转换，如A → G、C → T；如果环数发生变化，则称为颠换，如A → C、T → G等。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5。

3. BLAST矩阵：经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5，反之为-4，则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。

A T C G A T C G A T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -1 1 -5 C -4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5

① ② ③

4.3.1 DNA序列的替换记分矩阵• 3种常见的DNA序列的替换记分矩阵

11


2. 转换-颠换矩阵（transition-transversion matrix）：核酸的碱基按照环结构特征被划分为两类，一类是嘌呤（腺嘌呤A、鸟嘌呤G），它们有两个环；另一类是嘧啶（胞嘧啶C、胸腺嘧啶T），它们只有一个环。如果DNA碱基的替换保持环数不变，则成为转换，如A → G、C → T；如果环数发生变化，则成为颠换，如A → C、T → G等。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5。



① ② ③


12


2. 转换-颠换矩阵（transition-transversion matrix）：核酸的碱基按照环结构特征被划分为两类，一类是嘌呤（腺嘌呤A、鸟嘌呤G），它们有两个环；另一类是嘧啶（胞嘧啶C、胸腺嘧啶T），它们只有一个环。如果DNA碱基的替换保持环数不变，则成为转换，如A → G、C → T；如果环数发生变化，则成为颠换，如A → C、T → G等。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5。



① ② ③


13

1. 等价矩阵（unitary matrix）：与DNA等价矩阵道理相同，相同氨基酸之间的匹配得分为1，不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2. PAM矩阵（Dayhoff突变数据矩阵）：PAM矩阵基于进化原理。如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一，基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值（统计方法得到）。PAM-1自乘n次，可以得到PAM-n ，即发生了更多次突变。

3. BLOSUM矩阵（blocks substitution matrix）：BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度大于85%的序列计算产生的，那些进化距离较远的矩阵，如PAM-250，是通过PAM-1自乘得到的。即，BLOSUM矩阵的相似性是根据真实数据产生的，而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号，比如BLOSUM-80中的80，代表该矩阵是由一致度≥80%的序列计算而来的，同理， BLOSUM-62是指该矩阵由一致度≥62%的序列计算而来的。

4.3.2 蛋白质序列的替换记分矩阵• 3种常见的蛋白质序列的替换记分矩阵

14




4.3.2 蛋白质序列的替换记分矩阵• 3种常见的蛋白质序列的替换记分矩阵




PAM-250矩阵对角线上的数值为匹配氨基酸的得分；其他位置上，≥0的得分代表对应氨基酸对为相似氨基酸。

• 3种常见的蛋白质序列的替换记分矩阵

4.3.2 蛋白质序列的替换记分矩阵

15

16



3. BLOSUM矩阵（blocks substitution matrix）：BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似度较高（>85%）的序列比对，那些进化距离较远的矩阵，如PAM-250，是通过PAM-1自乘得到的。即，BLOSUM矩阵的相似度是根据真实数据产生的，而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样，BLOSUM矩阵也有不同编号，如BLOSUM-80，BLOSUM-62。80代表该矩阵是由一致度≥80%的序列计算而来，同理， 62是指该矩阵由一致度≥62%的序列计算而来。



17

BLOSUM-62

对角线上的数值为匹配氨基酸的得分；其他位置上，≥0的得分代表对应氨基酸对为相似氨基酸。



18

• 选 PAM-1 还是 PAM-250？

氨基酸差异 % PAM BLOSUM-------------------------------------------------------------------------------

1 PAM-1 BLOSUM -9910 PAM-11 BLOSUM -9020 PAM-23 BLOSUM -8030 PAM-38 BLOSUM -7040 PAM-56 BLOSUM -6050 PAM-80 BLOSUM -5060 PAM-112 BLOSUM -4070 PAM-159 BLOSUM -3080 PAM-246 BLOSUM -20


19

• 选 PAM-？还是 BLOSUM-？

BLOSUM-80 BLOSUM-62 BLOSUM-45

PAM-1 PAM-120 PAM-250

亲缘关系较近的亲缘关系较远的序列之间的比对序列之间的比对

对于关系较远的序列之间的比较，由于PAM-250是推算而来，所以其准确度受到一定限制，BLOSUM-45更具优势。对于关系较近的序列之间的比较，用PAM或BLOSUM矩阵做出的比对结果，差别不大。最常用的：BLOSUM-62


20

1. 等价矩阵（unitary matrix）

2. PAM矩阵（Dayhoff突变数据矩阵）

3. BLOSUM矩阵（blocks substitution matrix）

4. 遗传密码矩阵（genetic code matrix, GCM）：遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到，矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子，则这两个氨基酸的替换代价为1；如果需要2个碱基的改变，则替换代价为2；再比如从Met到Tyr三个密码子都要变，则代价为3。

遗传密码矩阵常用于进化距离的计算，其优点是计算结果可以直接用于绘制进化树，但是它在蛋白质序列比对（尤其是相似程度很低的蛋白质序列比对）中，很少被使用。

5. 疏水矩阵：根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化，则这种替换得分高，否则替换得分低。

• 其他2种蛋白质序列比对的替换记分矩阵


21





遗传密码矩阵常用于进化距离的计算，其优点是计算结果可以直接用于绘制进化树，但是它在蛋白质序列比对（尤其是相似程度很低的蛋白质序列比对）中，很少被使用。



4.3.2 蛋白质序列的替换记分矩阵遗传密码矩阵

22





5. 疏水矩阵：根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化，则这种替换得分高，否则替换得分低。该矩阵物理意义明确，有一定的理化性质依据，适用于偏重蛋白质功能方面的序列比对。



23







4.3.2 蛋白质序列的替换记分矩阵疏水矩阵

24


1. 假设你有两条亲缘关系近的蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM或PAM矩阵（单选）？

A BLOSUM45或PAM250 B BLOSUM45或PAM10

C BLOSUM80或PAM25 D BLOSUM10或PAM25

2. 假设两个蛋白质序列的相似度在20%左右，那么应该采用的PAM矩阵是（单选）？

A PAM60 B PAM80 C PAM120 D PAM250

25

一致度：如果两个序列（蛋白质或DNA）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。

相似度：如果两个序列（蛋白质或DNA）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。




4.3.3 一致度和相似度的计算

序列 1 : CLHK序列 2 : CIHL序列 2 : C?H?

一致度 = 2/4 = 50% 相似度 = ?

26


BLOSUM-62

对角线上的数值为匹配氨基酸的得分；其他位置上，≥0的得分代表对应氨基酸对为相似氨基酸。


27







一致度 = 2/4 = 50% 相似度 = (2+1)/4 = 75%


28



问题：哪个残基与哪个残基算作相似？



如果两个序列的长度不同怎么计算一致度与相似度？

seq 1 : CLHKAseq 2 : CIHL


29

比较两个序列的方法：打点法、序列比对法

打点法：最简单的比较两个序列的方法，理论上可以用来完成。

Seq1: THEFASTCAT

Seq2: THEFATCAT

T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x

length(seq1) = 10length(seq2) = 910 x 9 = 90 次比较

Seq 1

Seq 2

4.4 序列两两比较：打点法

30

连续的对角线及对角线的平行线代表两条序列中相同的区域1. THEFA2. TCAT3. AT

Seq1: THEFASTCAT

Seq2: THEFATCAT


Seq 1

Seq 2

4.4.1 打点法的用途

31

连续的对角线及对角线的平行线代表两条序列中相同的区域1. THEFA2. TCAT3. AT

Seq1: THEFASTCAT

Seq3: EIVFHTADT

T H E F A S T C A TE xIVF xH xT x x xA xDT x x x

Seq 1

Seq 3


32

Seq1: THEFASTHESTHE

T H E F A S T H E Y T H ET x x xH x x xE x x xF xA xS xT x xH x xE x xY xT x xH x xE x x

可以用一条序列自己对自己打点，从而可以发现序列中重复的片段。这样的打点矩阵必然是对称的，并且有一条主对角线。在横向或纵向上，与主对角线平行的短平行线所对应的序列片段就是重复的部分。


33

Seq1: FASABCABCABCTHE

F S A B C A B C A B C T HF x S xA x x xB x x xC x x xA x x x B x x xC x x xA x x x B x x x C x x xT xH x

发现串联重复序列（tandem repeat）

短串联重复序列（short tandem repeat, STR）也叫做微卫星DNA，是一类广泛存在于真核生物基因组中的DNA串联重复序列。它由2-6bp的核心序列组成，重复次数通常在15-30次。STR具有高度多态性，即存在重复次数的个体间差异，而且这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律，所以它被广泛用于法医学个体识别、亲子鉴定等领域。


34

比较两个序列的方法：打点法、序列比对法

打点法：最简单的比较两个序列的方法，理论上可以用来完成。

Seq1: THEFASTCAT

Seq2: THEFATCAT


length(seq1) = 10length(seq2) = 910 x 9 = 90 次比较

Seq 1

Seq 2

4.4.2 Dotlet在线打点工具

35

打点法在线软件：

名称网址链接

Dotlet http://myhits.isb-sib.ch/cgi-bin/dotlet

Dnadot http://arbl.cvmbs.colostate.edu/molkit/dnadot

Dotter http://sonnhammer.sbc.su.se/Dotter.html

Dottup http://emboss.sourceforge.net


http://myhits.isb-sib.ch/cgi-bin/dotlet

36

Dotlet主界面：

参数设置区

打点图显示区结果显示

调控区

序列信息显示区


37


seq1

38

以多长的输入水平垂直替换记序列为单显示计算序列序列序列分矩阵元打一个点比例按钮

可选各种Blosum矩阵和PAM矩阵，如果选了这两种矩阵，则并不是完全一致才打点，而是相似就打点。如果想严格要求，只有完全一致才打点，那就选Identity。

可选各种Blosum矩阵和PAM矩阵，如果选了这两种矩阵，则并不是完全一致才打点，而是相似就打点。如果想严格要求，只有完全一致才打点，那就选Identity。

如果选1的话，就是一次只比较一个字母。如果选15，就是一次比较15个字母。通过比较他们整体的相似度来确定打不打点。

如果选1的话，就是一次只比较一个字母。如果选15，就是一次比较15个字母。通过比较他们整体的相似度来确定打不打点。

打点结果是1:1显示，还是缩小一半，还是缩小四份之一等。

打点结果是1:1显示，还是缩小一半，还是缩小四份之一等。

参数设置参数设置

39

seq1序列自己和自己比较：该序列前一半和后一般相似度极高seq1序列自己和自己比较：该序列前一半和后一般相似度极高

相似度：低高

分值：-60 165

相似度：低高

分值：-60 165

有一条与主对角线平行的次对角线，说明该序列的前半部分和后半部分非常的相似

有一条与主对角线平行的次对角线，说明该序列的前半部分和后半部分非常的相似

40

屏蔽大多数低分值的点，让他们统统变成黑色背景

屏蔽大多数低分值的点，让他们统统变成黑色背景


相似度：低高

分值：-60 165

相似度：低高

分值：-60 165

41

同时，强化高分值的点，让他们以纯白色突出显示出来

同时，强化高分值的点，让他们以纯白色突出显示出来


相似度：低高

分值：-60 165

相似度：低高

分值：-60 165

42

有一条明显的主对角线，说明这两条序列整体上十分相似

有一条明显的主对角线，说明这两条序列整体上十分相似

seq2序列和seq3序列比较：两条序列非常相似seq2序列和seq3序列比较：两条序列非常相似

43

通过调整灰度可以让主对角线清晰呈现。

通过调整灰度可以让主对角线清晰呈现。

seq2序列和seq3序列比较：两条序列非常相似seq2序列和seq3序列比较：两条序列非常相似

44

除了主对角线外，还有很多次对角线。说明序列中存在串联重复序列。

除了主对角线外，还有很多次对角线。说明序列中存在串联重复序列。

seq4序列和seq4序列比较：该序列中有串联重复序列（tandem repeat）seq4序列和seq4序列比较：该序列中有串联重复序列（tandem repeat）

45

一半范围内，数数包括主对角线在内有多少条对角线，就说明重复了多少次，最短的对角线就是一个重复单元。


1234567


46

1234567




明明重复了14次，为什么显示的只有7次，少了一半呢？

明明重复了14次，为什么显示的只有7次，少了一半呢？

47

因为序列太长，窗口显示不全。把窗口显示比例调成 1:2，14个对角线就都出现了！

因为序列太长，窗口显示不全。把窗口显示比例调成 1:2，14个对角线就都出现了！


48

4.5 序列两两比较：序列比对法比较两个长度不同的序列的方法：打点法、序列比对法

序列比对（alignment），也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。

序列s和t的比对：把s和t这两个字符串上下排列起来，在某些位置插入空格（空位，gap），然后依次比较它们在每一个位置上字符的匹配情况，从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。

序列s：LQRHKRTHTGEKPYE-CNQCGKAFAQ-序列t：LQRHKRTHTGEKPYMNVINMVKPLHNS

多序列比对双序列比对

全局比对

局部比对

49

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)

s(i,j) = max s(i-1,j) + gap

s(i,j-1) + gap

Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：

序列p：ACGTC序列q：AATC

m=length(p)n=length(q)

gap = -5

s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。

w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分

4.5.1 双序列全局比对及算法

50

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




51

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A

A

T

C

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




52

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




53

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5



s(0,0) + w(1,1) = 0 + 10 = 10

s(1,1) = max s(0,1) + gap = -5 + -5 = -10

s(1,0) + gap = -5 + -5 = -10


54

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5

A -10

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5



s(0,1) + w(1,2) = -5 + -3 = -8

s(1,2) = max s(0,2) + gap = -10 + -5 = -15

s(1,1) + gap = 10 + -5 = 5


55

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 ？

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




56

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5

T -15

C -20

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




57

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




58

s(0,0) = 0

s(0,j) = gap * j, 1<=j<=m

s(i,0) = gap * i, 1<=i<=n

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap


A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

替换记分矩阵

得分矩阵

A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

对于：



gap = -5




59

对于：


: 字符对字符

: 字符对空位箭头指着的序列为空位


A C G T C

0 -5 -10 -15 -20 -25

A -5 10 5 0 -5 -10

A -10 5 7 4 -1 -6

T -15 0 5 4 12 7

C -20 -5 9 4 7 21

0 1 2 3 4 5 序列 p

0

1

2

3

序列 q 4

序列p： A C G T C序列q： A - A T C

全局序列比对结果


得分矩阵


60

全局比对全局比对局部比对序列a：ASTDTPYMNVIPPCDEEFV 序列b：ATPY-ELFFV 序列a：PYMNVI序列c：-----PYINVF-------- 序列c：--PYINVF-- 序列c：PYINVF比对得分：-46 比对得分：8 比对得分：24

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

对于：

序列p：ACGTC m=length(p)序列q：CG n=length(q)

gap = -5



全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列

4.5.2 双序列局部比对及算法

61

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：

序列p：ACGTC序列q：CG

m=length(p)n=length(q)gap = -5



全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman算法。

得分矩阵

替换记分矩阵


62

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：






得分矩阵

替换记分矩阵


63

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 ?

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：






得分矩阵

替换记分矩阵


64

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0

G 0

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：






得分矩阵

替换记分矩阵


65

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：






得分矩阵

替换记分矩阵


66

s(0,0) = 0

s(0,j) = 0, 1<=j<=m

s(i,0) = 0, 1<=i<=n

0

s(i-1,j-1) + w(i,j)


s(i,j-1) + gap

A G C T -

A 10 -1 -3 -4

-5G -1 7 -5 -3

C -3 -5 9 0

T -4 -3 0 8

- -5

A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

对于：






得分矩阵

替换记分矩阵


67

序列p： C G序列q： C G

局部序列比对结果：16

序列p： A C G T C序列q： - C G - -

全局序列比对结果：1


对于：


: 字符对字符



A C G T C

0 0 0 0 0 0

C 0 0 9 4 0 9

G 0 0 4 16 13 8

0 1 2 3 4 5 序列 p

0

1

序列 q 2

得分矩阵


68

如果两个序列长度相同：

一致度（identity）= （一致字符的个数 / 全局比对长度）×100%

相似度（similarity）= （一致及相似的字符的个数 / 全局比对长度）×100%

序列1：CVHK-LA identity = (4/7)*100% = 57%序列2：C-HKTIA similarity = ((4+1)/7)*100% = 71%

如果两个序列长度不相同：

一致度（identity）=（一致字符的个数 / 全局比对长度）×100%

相似度（similarity）=（一致及相似的字符的个数 / 全局比对长度）×100%

序列1：CVHKAT identity = (4/6)*100% = 67%序列2：CIHK-T similarity = ((4+1)/6)*100% = 83%

无论两个序列长度是否相同，都要先做双序列全局比对，然后根据比对结果及比对长度计算它们的一致度和相似度。

4.6 一致度和相似度的正确算法

69

我按照老师上课讲的方法帮老板做双序列比对，结果。。。。。。。

老板，我学会做双序列比对了！

这么快就学会了！

好吧，帮我比这两条！

我按照老师上课讲的方法帮老板做双序列比对，结果。。。。。。。

老板，我学会做双序列比对了！

这么快就学会了！

好吧，帮我比这两条！

70

71

Documents

ç¬¬4ç« åº å æ¯ è¾ ç¬¬1é ¨å...+i0¼29C ÉXQLWDU\ PDWUL[ Ê ÛE 0Ó+F+e Í) =M/,H < 0Å+e