分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第六节 系统树的评估和常用分子进化分析软件

一、系统树的评估
当用距离法、最大简约法或最大似然法构建出一棵系统发生树后,接下来需要对进化树进行可靠性评估,即推论所得的进化树与真实进化树之间的相似性。目前最为常见的进化树评估方法是一种非参数的引导检测法——自展检验(bootstrap)。自展检验方法是首先利用一种建树方法,将多重序列比对的结果作为产生系统发生树的输入数据。之后从该数据集中重新抽样构建一个与原始数据集大小完全相等的伪数据集(自展样本)。然后用伪数据集构建进化树(自展树)。重复上述过程就可以产生大量的自展树(一般100~1 000棵),最后将这些自展树与原始数据构建出的进化树做比较,计算出原始进化树中每个分支的出现频率或者支持率(自展值)。一般来说,自展值越高表示对相关分支的支持越强。
二、常用分子进化分析软件
(一)MEGA
1.软件简介
MEGA(molecular evolutionary genetics analysis)软件是目前流行的分析核酸和蛋白序列进化的最好免费软件包之一,它是由美国亚利桑那州立大学的Kumar教授团队进行开发和维护的,MEGA的最新版本为MEGA7,其下载网址为:http://www.megasoftware.net/,研究者在具体下载时,可以针对各自使用的操作系统(windows、Mac OS X、Debian、Redhat、other linux)进行选择。如果选择windows操作系统,则有图形的Graphical(GUI)和命令行操作的Command Line(CC)两种分析界面可供选择。
MEGA7的主要三个模块是:序列分析、统计学方法和可视化工具。序列分析模块可以进行进化推断、模型选择、进化时间推断和分子种分析、溯祖分析、选择及其检验,序列比对等分析;统计学方法主要包括最大似然法、距离法、最小二乘法、最大简约法、复合似然法、贝叶斯法;可视化工具主要包括:序列比对编辑器、tree展示、数据展示、图注产生、基因加倍以及时间树展示。MEGA的主要优点是采用菜单化的操作方式,使用起来十分方便。
2.实例与练习
下面以细菌萜类合成酶(terpenoid synthase, TPS)为例,利用MEGA软件进行分子系统进化树的构建。
(1)序列的获得:
10个细菌TPS的蛋白序列来自NCBI的蛋白序列数据库,其检索登录号见表10-2:
表10-2 来自10种细菌的萜类合成酶序列的检索登录号
通过在NCBI中进行上述序列号的检索,可以得到10条细菌TPS序列,将它们以FASTA格式保存到文本文件中,并命名为“Bac_TPS.fasta”。
(2)多序列比对:
利用MEGA软件的“File->Open a File”选项打开上述的“Bac_TPS.fasta”文件,会出现“Alignment Explorer”对话框,如图10-5所示。
图10-5 “Alignment Explorer”对话框
在“Alignment Explorer”对话框中选择“Alignment->Align by Clustal W”或者“Alignment->Align by Muscle”选项。本例中选择的是“Alignment->Align by Clustal W”,选择后即弹出图10-6所示的对话框,参数一般选择默认即可进行多序列比对。等多序列比对结束后,可以利用“Data->Export Alignment->Mega format”命令,将多序列比对的结果输出,文件命名为“Bac_TPS.meg”。
图10-6 ClustalW的参数设置
(3)进化树构建树:
利用MEGA软件打开“Bac_TPS.meg”文件,首先得到如图10-7所示的对话框,然后选择“Phylogeny”下提供的五种进化树构建方法[最大似然法(Maximum Likelihood),邻接法(Neighbor-Joining),最小进化法(Minimum-Evolution),无加权组内平均法(UPGMA),最大简约法(Maximum Parsimony)]中的一种,进行进化树构建。本例选择“Phylogeny->Construct/Test Neighbor-Joining”选项后,出现如图10-8所示的对话框,可以在此框中进行系统进化树相关参数的设置,一般将选项“Test of Phylogeny”设为“Bootstrap method”,“No. of Bootstrap Replication”选项设置一般为100~1 000次,次数越大进化树的构建时间相对来说会长些,准确度也会稍高些,可以根据需要进行选择,一般设置500次就可以。计算序列之间距离的氨基酸替换模型“Substitution Model”可以根据需要选择,一般选择JTT(Jones-Taylor-Thornton)模型。“Rates among Sites”选择G(Gamma Distributed)分布。设置完成后,点击“Compute”,即可获得如图10-9所示的结果窗口,显示在Bootstrap consensus tree窗口的进化树即为最终的进化树,树枝上方的数字表示该枝的支持率,可以将该树保存为“Bac_TPS.mega.tree”,或者利用“File->Save current session”选项保存,文件命名为“Bac_TPS.mts”。
图10-7 多序列比对结果
图10-8 进化树构建的参数设置
图10-9 构建的进化树
(二)PhyML
1.软件简介
PhyML(PHYlogeny inference using Maximum-Likelihood)是由St é phane Guindon开发的利用最大似然法构建进化树的软件,已经编译好的可执行程序可以在各种各样的Windows、Mac以及Linux操作系统运行,目前PhyML的最新版本为3.1,具体下载地址为:http://www.atgc-montpellier.fr/phyml/。为了方便用户使用PhyML, PhyML也有网络版的运行方式可供选择。
2.实例与练习
将上述多序列比对文件Bac_TPS.meg存为phylip格式的文件Bac_TPS.phy,然后用PhyML软件打开,并进行如图10-10的参数设置,则可以构建进化树,并生成两个文件:Bac_TPS.phy_phyml_stats.txt和Bac_TPS.phy_phyml_tree.txt。其中Bac_TPS.phy_phyml_stats.txt为构建进化树的参数文件,其内容如下:
Best model:LG +G+I+F
Substitution model:LG
Equilibrium frequencies:Empirical
Proportion of invariable sites:estimated(0.031)
Number of substitution rate categories:4
Gamma shape parameter:estimated(3.078)
Bac_TPS.phy_phyml_tree.txt为PhyML构建的进化树文件,可以用TreeView软件查看进化树,如图10-11所示。TreeView软件可以从以下网址下载:http://taxonomy.zoology.gla.ac.uk/rod/treeview.html。
图10-10 利用PhyML构建进化树的参数设置
图10-11 利用PhyML构建的进化树
(三)PHYLIP软件简介
PHYLIP(the PHY Logeny Inference Package)是由许多程序组成的构建进化树的软件包,它是由美国西雅图华盛顿大学的Joseph Felsenstein教授开发的,主要以源代码(用C语言编写)和可执行两种方式进行发布。已经编译好的可执行程序可以在Windows(95/98/NT/2000/me/xp/Vista),Mac OSX以及Linux操作系统运行,目前PHYLIP的最新源代码版本为3.697,可执行版本为3.695,具体下载地址为:http://evolution.genetics.washington.edu/phylip.html。按照分析数据的类型,PHYLIP程序包可以进行8个方面的分析,见表10-3。
表10-3 PHYLIP程序数据分析类型子程序表
(四)MrBayes软件简介
MrBayes是一种综合贝叶斯推断和模型选择的进化树构建软件,它利用马尔科夫链蒙特卡洛方法(MCMC)进行模型的参数估计。MrBayes主要以源代码(用C语言编写)和可执行两种方式进行发布。已经编译好的可执行程序可以在微软Windows(32bit和64bit)和苹果Macintosh(64bit)操作系统运行,目前MrBayes的最新源版本为3.2.6,但是Windows操作系统下只有MrBayes串行安装程序,但Macintosh操作系统下有MrBayes的串行和并行(MPI)安装程序,用户可以根据需要选择串行还是并行程序,具体下载地址为:http://mrbayes.sourceforge.net/。
除进行进化树构建外,MrBayes还可以进行正选择位点的估计,以及利用BEST算法进行多个物种的溯祖分析。
(高 洁 李广林 王 波编,李广林 高 洁审)