第六章 连锁不平衡与基因作图

Preview:

DESCRIPTION

第六章 连锁不平衡与基因作图. 假设某一对 同源染色体上 存在 A -a , B-b 两对连锁 基因,现有两个亲本 P1 和 P2 ,它们 的基因型分别为 AABB 和 aabb ,两亲本杂交产生 AaBb 双杂 合体。 F1 在减数分裂过程中应产生 4 种类型的配子, 其中两种为亲型配子 AB 和 ab ,两种为重组型配子 Ab 和 aB 。由于 A-a 和 B -b 位于 同一染色体上,要产生重组型配子必须在这两个基因的连锁区段上发生交换。. 连锁不平衡. Coefficient of linkage disequilibrium, D. 如果 D=0 ,连锁平衡 - PowerPoint PPT Presentation

Citation preview

第六章 连锁不平衡与基因作图

假设某一对同源染色体上存在 A-a , B-b 两对连锁基因,现有两个亲本 P1 和 P2 ,它们的基因型分别为 AABB 和 aabb ,两亲本杂交产生 AaBb 双杂合体。 F1 在减数分裂过程中应产生 4 种类型的配子,其中两种为亲型配子 AB 和 ab ,两种为重组型配子 Ab 和aB 。由于 A-a 和 B-b 位于同一染色体上,要产生重组型配子必须在这两个基因的连锁区段上发生交换。

连锁不平衡

AB Ab aB ab

haplotype fAB fAb faB fab

fAfB fAfb fafB fafb

Coefficient of linkage disequilibrium, D

BAABAB fffD 如果 D=0 ,连锁平衡如果 D≠0 ,连锁不平衡

这里的平衡或不平衡,与种群是否平衡无关。

baabab

BaaBaB

bAAbAb

fffD

fffD

fffD

连锁不平衡

ABABbAbAABAbAAbAb DffffffffffD )1(

ABaBAb

abAB

DDD

DDD

Dfff

Dfff

Dfff

Dfff

baab

BaaB

bAAb

BAAB

baBA

BabA

ffffD

ffffD

,min

,min

连锁不平衡

0min

0min

,

,

'

Difffff

D

Difffff

DD

baBA

BabAD’=1 ,至少一个单倍型缺失。

bBaA ffff

Dr

22

D 的进化

大种群中,一代随机交配后, D 如何变化?

tDctD 11

5.00 c 经过 1 个世代, D 至多下降 0.5一代可到达 H-W 平衡,但达到连锁平衡则需要很多世代

D 下降的速率依赖于 c, c 越大 D 下降越快。

D 的进化

以人类基因组为例: C=0.01/one centiMorgan 1mb 7 编码蛋白基因 /1mb 每两个蛋白基因之间,平均重组率是

0.01/7=0.0142 1000generations, D 只下降 24%.

D 的进化

D’=1, 表示只有三个单倍型,当第四个单倍型出现时,或者由重组产生,或者由recurrent mutation 产生。

两个基因座的 Wahlund 效应

即使每一个种群内都连锁平衡,当考虑两个基因座时,种群分化将造成连锁不平衡。

POP1 POP2

11 BA ff 22 BA ff

111BAAB fff

21

2

1

2

1AAA fff 21

2

1

2

1BBB fff

222BAAB fff

两个基因座的 Wahlund 效应

基因座表现 LD : Wahlund 效应,自然选择或基因型错误;

如果多对基因座表现 LD : Wahlund 效应。

如果一对基因座表现 LD ,其余均 LE ,则考虑自然选择或基因型错误。

2121

21212211

4

1

2

1

2

1

2

1

2

1

2

1

2

1

BBAA

BBAABABABAAB

ffff

fffffffffffD

重组 如果没有重组,两个基因座将一直处于同一条

染色体,与哺乳动物的线粒体和 Y 染色体一样。两个基因座的谱系关系将完全相同。

重组

如果存在重组,在两条染色体上的基因座将重组到一条染色体。

祖先

现在

重组 两个基因座出现在同一染色体上的时间依赖重

组率和种群大小。

平均分离时间是 1/c generations.平均聚合时间是 2N generations.

C<<1/2N ,大部分时间两个基因座会出现在同一染色体。C>>1/2N ,大部分时间两个基因座会分离。

重组

考虑两个基因座,一种情况是由于溯祖使得它们处于一条染色体,另外一种情况是由于重组使得它们具有不同的谱系关系。

发生共祖的概率是 1/2N ,不发生重组的概率是 (1-c)2, 那么共祖前不发生重组的概率是

4Nc 代表重组和溯祖的相对重要性, 4Nc <<1, 重组相对共祖发生的频率低。

NccN

N41

1

221

21

重组

两个基因座的谱系关系与连锁不平衡系数紧密相关。

假设每一个基因座第二个等位基因由突变产生,则只有三个单倍型。

只有重组或者突变才能使得 D’ 小于 1

a b

a B

A b

a b

1' D

考虑整个染色体,连锁越紧密的位点, D’ 越大,越可能具有相似或相同的谱系关系 .

距离越远的位点, D’ 接近 0 ,谱系关系差异越大。

距离相同的位点间的 D’ 不同,由于溯祖和重组的效应。

Why ?1' D

Association mapping

现代遗传学的一个重要目标,定位调控重要性状的基因。

基因定位,确定目标基因和已知 Marker 之间的重组率。

由遗传重组测验结果推算出来的,在一条染色体上基因的排列图。

遗传图谱构建方法流程

1. 筛选数据

2. 获得单倍型

3. 计算遗传距离

4. 聚类得到连锁群

5. 基因排序

6. 其他

1 筛选数据

样本 分子标记— snp 基因序列— scaffold

2 获得单倍型和交换点

单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合;通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因性。按照某一指定基因座上基因重组发生的数量,单倍型甚至可以指至少两个基因座或整个染色体。

基因 snp 序列

s1 s2 s3 s4 s5 s6 s7 s8 s9 s10s11s12s13s14s15s16s17s18s19s20A/C A C C C A A C A C C A C C A C C C A A AA/G G A A G G G A G A A G A A G A G A A G G

亲本的单倍型:

A8

C9

C2

A1

G A G A

观测到基因型组合

A C

G A

观测数据

得到亲本单倍型

得到交换点

找到交换点后,同一序列上两个交换点之间的 snp 位点都是一起遗传的,可以把它们看做一个整体。

更多细节可以参考High-throughput genotyping by whole-genome resequencinghttp://www.ncbi.nlm.nih.gov/pubmed/19420380/

3 计算遗传距离

两基因间的遗传距离 (cM--centimorgan) :

L = 重组率 *100即 1cM 对应 1% 重组率

重组率(交换值):指同源染色体的非姊妹染色单体间有关基因的染色体片段发生交换的频率,一般利用重新组合配子数占总配子数的百分率进行估算。

重组率 (%) = ( 重新组合配子数 / 总配子数 )×100%

重组率—— >0% ,连锁强度越大,连锁的非等位基因之间交换越少;重组率—— >50% ,连锁强度越小,连锁的非等位基因之间交换越多。

s1 s2 s3 s4 s5 s6 s7 s8 s9 s10s11s12s13s14s15s16s17s18s19s20A/C A C C C A A C A C C A C C A C C C A A AA/G G A A G G G A G A A G A A G A G A A G G

A8

C9

C2

A1

G A G A

重组率 r = 3/20 = 0.15遗传距离 L = 15cM

交换干扰双交换:随着间距的增加,两个基因座之间便可能在两处同时发生遗传物质 的交换,其实际频率往往少于由单交换概率相乘所估得的理论值。交换干扰:一个位置上所发生的交换会减少其周围另一个单交换的发生。

干扰的程度可用符合系数 C 表示,符合系数 C 为实际双交换值与理论双交换值的比值。

理论双交换值是指一段染色体上发生 2次独立不相关的单交换的概率。 C 的取值范围为 [0,1] 。

当 C=0 时,表示完全干扰,没有双交换发生; 当 C=1 时,表示没有干扰,两单交换独立发生。 一般而言,两单交换的位置相距越远,则彼此干扰的程度就越低,符

合系数就越大。

作图函数 要计算两个相距较远的基因座之间的图距时,如果

中间没有其它基因座可利用,则两个基因座之间实际发生的双交换就不能被鉴别出来。

因此,采用一些数学方法进行矫正是必要的,否则,从重组率估计出的图距就会比真实图距小。这种矫正可通过作图函数来实现。

Haldane 作图函数:

x = 1/2ln(1-2r)

Haldane 作图函数的不合理之处在于假定了完全没有交叉干扰。

Kosambi 作图函数:

可以看出 Kosambi 作图函数计算出的图距比Haldane 小,该模型看似更合理,所以得到了更广泛的应用。

4.聚类得到连锁群 连锁:不同的基因一起遗传给后代的倾向,一般而言两基因位于同一条染色体上。

连锁群:倾向于一起遗传的基因的集合,一般而言就是同一条染色体上基因的集合

两点测验法:检验两个基因连锁还是不连锁。• r < 0.5 连锁• r = 0.5 不连锁

如何检验是否连锁 (r<0.5 or r=0.5) ?

LOD score (logarithm (base 10) of odds):

NR: 非重组后代个数R : 重组后代个数θ: 重组率 R/(NR+R)

一般认为 LOD>3 可以确定连锁, LOD<2 可以确定不连锁

更多http://www.pnas.org/content/93/8/3471.full.pdfLogarithm of odds (lods) for linkage in complex inheritance

通过一些聚类算法把两两连锁的基因放在一个类中,就得到了连锁群。

5. 基因排序

得到连锁群后,我们还需要对连锁群内的基因进行排序,这需要三点测验法。

三点测验法:三个基因已知两两之间的遗传距离后,就能对这三个基因确定相对位置。如基因 a,b,c , L(ac)=0.2, L(ab)=0.1, L(bc)=0.1,他们之间的相对位置应该为

a b c0.1 0.1

0.2

更多基因之间的排序都是建立在三点排序的基础上。排序算法也有很多种,比如插入排序法,是一种容易想到的算法:下图所示假设 ABCD是已经定好位置的四个基因,新的基因 E 分别尝试插入 abcde五个位置,总有一个位置使得相邻的两个基因和 E 的遗传距离的和最小。

E

DCBAa b c d e

DCBAa b c d eE f

遗传图距与物理距离对应关系的估计

不同生物的 1cM 图距所对应的实际物理距离(碱基对数

量)存在很大差异。一般而言,生物越低等或越简单, 1cM 图距平均对应的碱基对数量就越少(表 3.1 )。表 3.1 中给出的各种生物中遗传图距与物理距离之间的对应关系只是一个大约的平均值,实际上它变化很大。在一条染色体上,由于不同区域上发生交换的频率存在差异,因而遗传图距与物理距离之间的对应关系可以有很大的变化。例如,在着丝粒附近,染色体交换受到抑制,因而所估计的遗传图距小于平均对应的物理距离。在同一种生物中,两个特定基因座之间的遗传图距会因遗传背景的不同而改变,甚至有时由同一对亲本所产生的遗传背景相同的不同群体间也存在很大差异。

Recommended