第二节 DNA序列进化的主要模型_分子流行病学和分子进化流行病学-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

第二节　DNA序列进化的主要模型

一、DNA序列核苷酸差异及其测量

同一条祖先序列的两条后裔，它们的核苷酸差异会随时间累积，部分差异由自发突变引起。

（一）自发突变率

自发突变指自然发生的突然变异，为诱发突变的对应词。在营养条件好的情况下，自发突变主要由于DNA错误复制，或是自然发生的DNA损伤。基因突变的自发突变率是指在自然状态下，某一基因在一定的群体中，发生突变的频率。基因突变是小概率事件。人类基因的自发突变率为10 ^-6～10 ^-4/生殖细胞/代。

（二）序列核苷酸差异的测定

描述序列核苷酸差异大小的指标是不同核苷酸位点的比例，公式为

n _d和 n分别为所检测的两序列间不同核苷酸数和配对总数，用此估计核苷酸间的 p距离。

二、DNA序列进化模型

当序列亲缘关系较近时， p距离可用来估计每位点上的核苷酸替代数，但当 p较大时，由于没考虑回复和平行突变，会低估替代数，因此有学者提出了不同的核苷酸替代的数学模型。考虑到六种不同的替换与四个核苷酸的不同使用频率，理论上有203种不同的核苷酸替换模型，而在实际的应用中，仅仅使用其中几个比较简单的模型，比如JC69和K80等。

（一）JC69模型（Jukes-Cantor模型）

JC69模型是Jukes和Cantor于1969年提出来的，这种模型只有一个未知量，该模型假设任意一个核苷酸都以同样的速率 λ转化其他三个核苷酸（ λ为每年每个位点的核苷酸替换率），如果用 q _ij来表示核苷酸 i变成核苷酸 j时的速率（ i， j=T、C、A和G），那么就可以得到式（8-2）的替换率矩阵（substitution-rate matrix）：

其中，核苷酸按照T、C、A和G的顺序进行排列，矩阵中的每一行的总和为零，同时也可以看出每一个核苷酸的总替换率为3 λ。由于已经假设每对核苷酸的替换率相同，所以A、T、C、G的期望频率是0.25。

（二）K80模型（Kimura两参数法）

以上介绍的JC69模型是最简单的核苷酸替换模型，在此模型中仅仅考虑一个未知参数，但是在实际过程中，会发现还有其他很多可变因素影响核苷酸的替换，例如转换和颠换存在不一样的速率，一般而言下，转换替换速率高于颠换速率。因此，在继JC69模型之后，Kimura在1980年在JC69模型的基础上考虑了转换与颠换的不同替换率提出了K80模型。模型认为：同类碱基即同时为两个嘌呤（A←→G）或者两个嘧啶（T←→C）之间的替换为转换（transition），而不同类碱基即一个嘧啶和一个嘌呤（T, C←→A, G）之间的替换为颠换（transversion），如图8-1所示：

图8-1　四个碱基之间的置换

在K80模型中，假设转换率为 α，颠换率为 β，得到的速率矩阵如式（8-3）：

其中，核苷酸按照T、C、A和G的顺序进行排列，矩阵中的每一行的总和为零，同时也可以看出每一个核苷酸的总替换率为 α+2 β。Kimura模型假设每个核苷酸的平衡频率为0.25。因此，无论核苷酸的初始频率为何，均可应用。这一点与Jukes-Cantor模型类似，使得这两个模型被广泛使用。

（三）Γ距离

JC69和K80模型都假设所有核苷酸位点的替代速率相同，实际上核苷酸的替代速率在不同的核苷酸位点可以不相同。例如，在蛋白质编码基因中密码子的第1、第2和第3位上的替换率是不同的。在RNA编码基因中也观察到替换速率存在差异的现象，这主要是由于RNA功能限制及RNA二级结构的影响造成的。研究表明，不同位点替换速率的分布近似的符合Γ分布。鉴于上述原因，已经开发出适合核苷酸替换的Γ距离，并应用于JC69和K80模型。

（李广林编，高　洁审）