分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第三节 宏观适应性进化的检验方法

一、宏观适应性进化的 ω检验
氨基酸编码区的核苷酸具有不同替代速率,从而导致分子进化的速率是不均衡的,不同基因之间会有差异,同一个基因的不同部分之间也会有所不同,并且对于每一个密码子,1、2和3位的核苷酸替换也不尽相同。由于4种不同的核苷酸构成64种三联体密码子,仅有61个密码子能够编码氨基酸,但是由于密码子的简并性,最后总共编码了20种不同的氨基酸。由此可以看出有部分氨基酸可能会有两个或者两个以上的密码子来编码。这种情况下,有些核苷酸的替换不会引起氨基酸的改变,这样的替换称为同义替换(synonymous substitution),例如甘氨酸(GGG, GGA, GGU, GGC)。相应地,同义替换率(K s)是指所有同义替换数目与所有同义位点数目的比值。如果核苷酸的替换引起氨基酸的改变,这样的替换称为异义替换,也称作非同义替换(nonsynonymous substitution),例如甘氨酸(GGG)的第二位点突变成C成为丙氨酸(GCG)。相应地,异义替换率(K a)表示所有异义替换数目与所有异义位点数目的比值。同义替换由于其不影响编码的氨基酸,所以不受自然选择的影响,而异义替换常常受到自然选择的压力。因此在很多的分析中都会发现,基因编码区序列更容易发生同义替换。
理论上,如果一个基因没有受到外界的任何选择压力时,一般认为它的同义替换率等于异义替换率,这种情况叫中性选择,因此同义替换率K s能够较好的反应基因突变的实际速率。然而,大多数基因都会受到净化选择的压力,所以其异义替换率比同义替换率低很多,也可能有很少一部分基因的异义替换率比同义替换率高,造成这种现象的原因可能是该基因的功能正在发生或者已经发生了大的变化,这种情况称作基因受到了达尔文正选择。目前,经常使用比率ω(=K a/K s)作为基因序列在进化过程中受到的约束力,进而说明进化过程中三种不同的选择情况:K a>K s(ω>1)、K a=K s(ω=1)和K a<K s(ω<1),基因分别受正选择(positive selection)、中性选择(neutral selection)和负选择(purify selection)的作用。因此,K a和K s对重建系统发育以及揭示编码蛋白的进化过程有着非常重要的作用。
二、同义替换率Ks和异义替换率Ka的计算方法
随着大数据技术的发展以及DNA测序的不断完成,同义替换和异义替换之间的比较就作为基因在蛋白质水平上受到选择压力大小的指标。
常用的计算同义替换率和异义替换率的计数方法是NG86方法。它的计算过程类似于JC69等一系列核苷酸置换模型下的距离计算。分为三个步骤:第一是计算同义位点数和异义位点数,第二是计算同义替换数以及异义替换数,第三是计算替换比例同时对多重替换进行校正。其具体过程如下:
给出如下两条序列:
序列1:CCG CGA CCT
序列2:CCG CTA CAG
第一步:位点计数即计算同义位点数和异义位点数。
例如在计算密码子CCG的同义与异义位点时,有九种可能的替换结果,而在九种结果中有三个是同义替换,有六个是异义替换,因此,对于这个密码子而言,发生同义替换的概率是3/9,发生异义替换的概率为6/9,从而求出同义位点数为3×3/9=1个,异义位点数为3×6/9=2个。将该方法运用于序列一的所有密码子,并将计算结果相加来获得序列同义与异义位点的总数。然后,对于第二条序列重复以上过程即可,然后计算得出这两条序列的平均位点数目,分别记作S和N,有S+N=3×L c,其中L c为序列所包含的密码子数目。
第二步:变异计数即计算同义替换数与异义替换数。
首先由CGA(Arg)替换为CTA(Leu)有一种途径,即将第二位点的G替换为T。因此异义替换数为1,同义替换数为0。
再考虑由CCT(Pro)替换为CAG(Gln)有两种可以选择的途径(表9-1),分别为途径1:CCT(Pro)-CAT(His)-CAG(Gln);途径2:CCT(Pro)-CCG(Pro)-CAG(Gln),在四次替换中,发生了3次异义替换,发生了1次同义替换,如果将两条途径赋予相同的权重,则这两个密码子之间有0.5个同义变异,有1.5个异义变异。对于后面的几个密码子方法类似,然后总和整条基因序列中的同义替换数和异义替换数即可,分别记为 S dN d。如果两个相互比较的密码子在2到3个位置上都存在差异,那么将会有4到6个进化途径使得从一个密码子变为另一个密码子。在多条途径中,可能涉及的同义与异义差异数不同,但是大多数的计数方法对其赋予等同的权重。由于事先不知道K a/K s的比率和两条序列的分歧度,所以将会很难对不同的进化途径赋予合适的权重。不过后来Nei和Gojobori进行计算机模拟发现加权对估计值的影响很小,特别是当序列间的分歧度并不是很大时。
表9-1 密码子CCT和CAG间的两条途径
第三步:计算替换比例同时多重替换校正。
现在得到 d s=S d/S, d n=N d/N分别为同义和异义位点上的差异比例。然后利用与JC69核苷酸替换模型中对多重替换相似的校正方法,得到
这个方法称为NG86方法。
(李广林编,高 洁审)