分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第六节 组学技术

一、基因编辑
基因组编辑(genome editing),或工程核酸基因组编辑(GEEN)是通过特定核酸酶的作用,对细胞基因组中目的基因的一段核苷酸序列甚至是单个核苷酸进行替换、切除,增加或者是插入外源的DNA序列,使之产生可遗传的改变,又称为“分子剪刀”。这些核酸酶在基因组特定所需位置产生双链断裂(DSBs),再通过非同源末端连接(NHEJ)和同源重组(HR)修复断裂的双链,从而形成特定的突变。
目前常见的工程核酸有:ZFN(zinc finger nucleases,锌指核酸酶),TALEN(transcription activator-like effector-based nucleases,转录激活因子样效应为基础的核酸酶),CRISPR(the clustered regularly interspaced short palindromic repeats,集群定期间隔短回文重复)和Meganucleases系统。
(一)ZFN
ZFN是人工核酸酶,是利用ⅡS型核酸内切酶特点组件的原理而构建。这种锌指核酸酶就是由一系列锌指结构单元与 FokⅠ的核酸酶切活性区域组合而成的。它具有对特定的DNA序列进行识别和切割的能力。ZFN对不同DNA序列识别的机制在于组成其锌指蛋白基元(motif)的种类及排列方式。研究显示FZN基因编辑效率约为30%,一个突出的问题是所谓的脱靶效应,即合成的核酸并没有对预先设定的目标DNA序列进行识别和切割。
(二)TALEN
TALEN也是利用一种对DNA分子特异识别的蛋白结构与 FokⅠ的酶切活性结构域组合形成的。TALEN识别模块一般由34个氨基酸组成,其组成的氨基酸除了第12和13位外其余都是保守的,因此第12/13位氨基酸被称为可变的双氨基酸残基,正是这两个氨基酸决定了TALEN结合DNA上核苷酸的种类。TALEN原理简单、并且理论上说对任意的核苷酸序列,都能以它为靶标构建一个特异的TALEN核酸酶。在编辑效率方面,TALEN也还没有达到理想的程度。
(三)CRISPR
CRISPR序列由众多短而保守的重复序列区(repeat)和间隔区(spacer)组成。重复序列区含有回文序列,可以形成发卡结构。而间隔区比较特殊,它们是被细菌俘获的外源DNA序列。这就相当于细菌免疫系统的“黑名单”,当这些外源遗传物质再次入侵时,CRISPR/Cas系统就会予以精确打击。而在上游的前导区(leader)被认为是CRISPR序列的启动子。另外,在上游还有一个多态性的家族基因,该基因编码的蛋白均可与CRISPR序列区域共同发生作用。因此,该基因被命名为CRISPR关联基因(CRISPR associated, Cas)。目前已经发现了Cas1-Cas10等多种类型的Cas基因。Cas基因与CRISPR序列共同进化,形成了在细菌中高度保守的CRISPR/Cas系统。
CRISPR-Cas系统的种类及组成成分较多,但一个来自产脓链球菌、由Cas9蛋白组成的CRISPR系统只有三个必需的组成部分,即tracrRNA, crRNA和Cas9核酸酶。CRISPR/Cas9系统发挥作用的基本过程可分为三个阶段,即间隔序列获得期、CRISPR/Cas表达期和DNA干扰期。CRISPR/Cas9有两个的优势:操作过程简单,只要根据序列合成spacer并将其整合进载体,体外编辑载体的过程就即完成;特异性高,CRISPR/Cas9系统对DNA序列的识别则是RNA和DNA按照碱基互补配对原则进行的。此外CRISPR不仅有更高的效率,适应范围也更加广泛。
CRISPR/Cas可以对基因进行定点的精确编辑。在向导RNA(guide RNA, gRNA)和Cas9蛋白的参与下,待编辑的细胞基因组DNA将被看作病毒或外源DNA,被精确剪切。有两种CRISPR/Cas9技术应用,最基础的技术就是基因敲除。如果在基因的上下游各设计一条向导RNA(向导RNA1,向导RNA2),将其与含有Cas9蛋白编码基因的质粒一同转入细胞中,向导RNA通过碱基互补配对可以靶向PAM附近的目标序列,Cas9蛋白会使该基因上下游的DNA双链断裂。而生物体自身存在着DNA损伤修复的应答机制,会将断裂上下游两端的序列连接起来,从而实现了细胞中目标基因的敲除。如果在此基础上为细胞引入一个修复的模板质粒(供体DNA分子),这样细胞就会按照提供的模板在修复过程中引入片段插入或定点突变。这样就可以实现基因的替换或者突变。对受精卵细胞进行基因编辑,并将其导入代孕母体中,可以实现基因编辑动物模型的构建。随着研究的深入,CRISPR/Cas技术已经被广泛地应用。除了基因敲除,基因替换等基础编辑方式,它还可以被用于基因激活,疾病模型构建,甚至是基因治疗。
二、基因组学
基因组学(genomics)是研究生物基因组的组成,组内各基因的精确结构、相互关系及表达调控的科学,其主要内容包含生物信息学、遗传分析、基因表达测量和基因功能鉴定。有学者将其划分成以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)或后基因组(postgenome)。基因组学与转录组学、蛋白组学和代谢组学等共同构成系统生物学的组学(omics)。
(一)功能基因组学
功能基因组学利用从基因和转录组产生的大量数据来描述基因和蛋白质功能和相互作用。功能基因组学侧重于动态方面,如基因转录,翻译,基因表达调控和蛋白质-蛋白质相互作用,其目标是了解生物体的基因组与其表型之间的关系。功能基因组学研究可解释生物体如何把基因组中编码的信息完整地表现出来,理解特定突变如何导致表型改变并引发遗传疾病,有助于发现治疗或治愈的方向和方法。功能基因组学研究的主要方法是全基因组方法。
1.DNA水平
遗传交互作图(genetic interaction mapping):删除两个配对基因或抑制基因表达的以鉴定该基因具有的相关功能。当两个基因同时被抑制时产生表型可能与单个敲除的影响不同。
ENCODE(encyclopedia of DNA elements):ENCODE(DNA元素集合)是深入分析人类基因组的编码和非编码区域中DNA的所有功能元件。
2.RNA水平
微阵列(microarrays)测量:将探针序列固定在固体表面上,并与荧光标记的“靶”mRNA杂交。斑点的荧光强度与该斑点杂交的靶序列的量成比例,因此与样品中该mRNA序列的丰度成比例。
SAGE(serial analysis of gene expression,基因表达的连续分析)是基于RNA测序的方法,它可对每个细胞中的转录数量进行无偏差的测量。
小RNA测序(small RNA sequencing):小RNA是一类非编码RNA分子,它多是转录和转录后基因沉默或RNA沉默的关键调节因素。
3.蛋白质水平
酵母双杂交系统(yeast two-hybrid system):酵母双杂交系统是将待研究的两种蛋白质的基因分别克隆到酵母表达质粒的转录激活因子(如GAL4等)的DNA结合结构域基因,构建成融合表达载体,从表达产物分析两种蛋白质相互作用的系统。在酵母双杂交系统中,“诱饵”蛋白X克隆至DNA-BD载体中,表达DNA-BD/X融合蛋白;待测试蛋白Y克隆至AD载体中,表达AD/Y融合蛋白。一旦X与Y蛋白间有相互作用,则DNA-BD和AD也随之被牵拉靠近,恢复行使功能,激活报告重组体中 LacZHIS3基因的表达。
亲和纯化/质谱(affinity purification and mass spectrometry, AP/MS):能够鉴定复合物中彼此相互作用的蛋白质。使用抗体或重组标签诱饵蛋白质,将能与其形成复合物的任何蛋白质一起提取,然后将蛋白质消化成短肽片段,使用质谱法鉴定这些蛋白质片段。
4.功能丧失技术(loss-of-function techniques)
诱变(mutagenesis):这是通过删除基因或破坏功能(例如通过插入诱变)基因完成的,观察突变基因所引起的表型变化,推断该基因的特定功能。
RNA干扰(RNA interference, RNAi):是指一种分子生物学上由双链RNA诱发的基因沉默现象,其机制是通过阻碍特定基因的转录来抑制基因表达。当细胞中导入与内源性mRNA编码区同源的双链RNA时,该mRNA发生降解而导致基因表达沉默。与其他基因沉默现象不同的是,在植物和线虫中,RNAi具有传递性,可在细胞之间传播,此现象被称作系统性RNA干扰(systemic RNAi)。双链小分子RNA或siRNA已被用于临床疾病治疗试验,如老年视黄斑退化、肌肉萎缩性侧索硬化症、类风湿性关节炎、肥胖症、帕金森病等神经系统疾病和肿瘤等。
5.基因功能注释(functional annotations for genes)
基因组注释(genome annotation)是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,其研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全序列中所有基因的确切位置。
Rosetta stone approach:Rosetta stone法是一种从头预测蛋白质功能的计算方法。
6.生物信息学(functional genomics and bioinformatics)
生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。
(二)结构基因组学
结构基因组学(structural genomics)是以全基因组测序为目标,确定基因组的组织结构、基因组成及基因定位的基因组学的一个分支。它代表基因组分析的早期阶段,以建立具有高分辨率的生物体基因组的遗传图谱、物理图谱及转录图谱为主要内容,以及研究蛋白质组成和结构的学科。结构基因组学研究方法多以利用完成的基因组序列来确定蛋白质结构。常用的有:
1.从头法(de novo methods)
将基因片段中所有可能具有可读框(ORF)的基因表达成蛋白质,再用X射线晶体学和核磁共振(NMR)分析这些纯化和结晶蛋白质。这种方法可以一次性表达基因组编码的所有蛋白质。
2.ab initio modeling
这种方法使用蛋白质序列数据和编码氨基酸的化学和物理相互作用来预测没有同源性蛋白质结构的3-D结构。
3.基于序列的建模(sequence-based modeling)
该建模技术将未知蛋白质的基因序列与已知结构的蛋白质序列进行比较。根据序列之间的相似程度,已知蛋白质的结构可用作解决未知蛋白质结构的模型。要达到高精度建模需要未知蛋白质与解决结构之间至少50%的氨基酸序列相似性。
4.线程(threading)
线程依据蛋白质的折叠相似性而不非序列进行结构建模。该方法可能有助于识别看似无关的蛋白质之间的关系,并推断其分子功能。
5.蛋白质结构数据库
PDB数据库:
蛋白质序列和结构信息的数据库。
UniProt数据库:
提供序列和功能信息。
SCOP数据库:
等级为基础的方法。
CATH数据库:
CATH(Class, Architecture, Topology and Homologous superfamily)是与SPOC类似的一个数据库。
(三)拷贝数变异
拷贝数变异(copy number variation, CNV)是指在人类基因组中某一段基因重复拷贝数在不同个体中存在差异的现象(38,39)。拷贝数变异是结构水平的变异,可以是基因片段的多拷贝的重复,或是基因的缺失。这种变异在人群中普遍存在,也是人类基因多样性的主因。人类全基因组中有三分之二的基因是重复的,有4.8%~9.5%的人类基因组是属于拷贝数变异。实际上这种现象出现在多种生物体中。
依据拷贝数变化通常可以分为:短重复和长重复。短重复主要包括双核苷酸重复(两个重复核苷酸,例如A-C-A-C-A-C ...)和三核苷酸重复。长重复包括整个基因的重复。基因结构的变化可能影响基因的表型。单核苷酸改变(称为SNP)在DNA中是遗传变异最流行和最重要的形式,而目前的研究显示拷贝数变异可能比单核苷酸改变涉及的核酸碱基数量多三倍。
许多患有罕见疾病的患者携带拷贝数变异(序列变体或拷贝数变体),异常基因表达而导致疾病。人们对拷贝数变异与疾病的关系的认识过程中,发现许多时候拷贝数变异形式是新颖的或非常罕见的,无法明确基因型-表型之间的相关性,增加了临床解释的困难。找出具有类似基因或疾病中拷贝数变异的共同点,对于确定基因型-表型之间的相关性具有重要的意义,也有助于了解特定基因在发育和疾病中的作用。此外,分析基因组变体的类型及其后果(例如功能的丧失或功能的增加)能帮助发现疾病机制和潜在治疗靶点。目前发现拷贝数变异与许多疾病的遗传易感性有关,例如各种癌症,自身免疫性疾病,精神分裂症,自闭症,克罗恩病,类风湿性关节炎和糖尿病等。还有目前国内外研究热点的人类多聚谷氨酰胺疾病(Huntington病)就与人类精原干细胞的DNA的3个字母的第一位氨基的过度重复有关系。还有研究证明,唾液淀粉酶(AMY1)编码基因的拷贝数就与该酶的功能有很大关系,这种重复程度就与不同特定人群对膳食中淀粉的消化能力呈现一定的相关性。所以研究人类基因组中特定基因拷贝数的变异有助于了解疾病的发病机制,精确诊断,并采取适当的干预措施。
拷贝数变异已经产生了巨量的生物信息学资源,已经有几个数据库。DECIPHER(DatabasE of genomiC varIation and Phenotype in Humans using Ensembl Resources,使用Ensembl资源的人类基因组变异和表型的数据库,https://decipher.sanger.ac.uk/)是一个互动Web数据库,其中包含一套旨在帮助解释基因组变体的方法和工具。DECIPHER通过综合分析与患者中变体相关的各种生物信息资源信息,来提高临床诊断。华盛顿大学基因组建立了人类基因组结构变异项目网站(http://hgsv.washington.edu/)提供了CNV和大型结构变体的详细地图。莱顿大学医学中心的人类和临床遗传学中心的遗传变异数据库(http://www.humgen.nl/SNP_databases.html)包括CNV数据库。
早期认为拷贝数变异通常仅与小串联重复序列或特异性遗传疾病相关,因此,拷贝数变异最初只是检查特定基因位点。荧光原位杂交(fluorescent in situ hybridization FISH)是早期应用技术之一,采用与特定基因组片段高度互补性荧光探针进行。比较基因组杂交(comparative genomic hybridization)也通过杂交荧光团可视化来检测拷贝数变异,然后染色体的长度比较。这些早期技术的主要缺点是基因组分辨率相对较低,仅可用于检测到大的重复,例如全基因重复等。
随着高基因组分辨率生物技术方法的进展,发现的基因组中拷贝数的变化越来越多。细菌人造染色体芯片技术(bacterial artificial chromosome BAC array),是一种基于功能性生育质粒(或F-质粒)的DNA构建体,BAC通常用于对基因组计划中生物体的基因组进行排序,例如人类基因组计划。BAC还可以检测重排热点中的拷贝数变异。阵列比较基因组杂交(array comparative genomic hybridization, aCGH)十多年前就用于CNV检测,但微阵列平台具有许多固有的局限性。
近年来高通量基因组测序(high throughput genomic sequencing)已经广泛用于检测基因组中的拷贝数变异。这种检测技术可以分辨基因组中重复序列高基因组和精确位置,并且还可以检测其他类型的结构变异。
单核苷酸多态性(single nucleotide polymorphism, SNP)也被用于检测基因中的拷贝数变异现象。在国际HapMap项目中就应用了这种技术。通过把不同四个大陆(亚洲、欧洲、非洲和北美洲)人群之间常见SNP的排序和定位,比较后可发现基因组重组的热点特定区域,结合连锁不平衡分析(linkage disequilibrium),可以将拷贝数变异与特定单体型SNP相关联。这些关联的SNP可作为标记来识别基因组中的拷贝数变异。该方法适合于用于检测拷贝数具有较大变化的基因。
霰弹枪测序(whole-genome shot-gun sequencing)是用于测序长DNA链的方法。它以类似于霰弹枪迅速扩大的准随机射击模式命名。在这种方法中,霰弹枪测序法的思想是将基因组打断为数百万个DNA片段,然后用一定的算法将片段的序列信息重新整合在一起,从而得到整个基因组序列。这种方法已经成功用于比较两种人类基因组之间的拷贝数变异评估结果。
采用基因组测序技术(NGS)检测循环肿瘤细胞异质性的拷贝数变异。血液中的循环肿瘤细胞分析是用于实时监测疾病状态的非侵入性方法,其异质性检测对于靶向治疗具有重要指导意义。但常规方法多用抗体标记的方式收集和分析其异质性。研究者将计较了从2个健康供体血液样品中分离的细胞和3个前列腺癌细胞系。细胞在经过CD45/CK/R检测后,经分离裂解,全基因组扩增,并建条码库(barcoded shotgun libraries)。所有处理的细胞产生成功的文库,其平均阅读长度(mean read lengths)>150bp,比对(alignment of)>94%和AQ20>80%。重复样品和测序的细胞在CNV谱中表现出良好的相关性(r=0.90-0.95)。LNCaP细胞与VCaP(r=0.62)和PC3(r=0.63)之间的相关性最低,而VCaP与PC3之间的相关性较高(r=0.88)。在所有测试样品中,AR扩增(VCaP),PTEN缺失(VCaP, LNCaP, PC3)和Y chr(PC3)无效状态都得到证实(44)。
人类类固醇代谢基因 UGT2B17UGT2B28的拷贝数变异及其与 UGT2B15功能多态性的关联分析。 UGT2B17UGT2B28编码尿苷二磷酸(UDP)-葡糖醛酸转移酶2B(UGT2B)亚族的成员,与UGT2B15一起参与性类固醇激素的分解代谢。它们是人类中最常删除的基因之一。尽管人们对人类群体内 UGT2B17UGT2B28拷贝数变异有兴趣,但由于缺乏对染色体4上高同源序列区域内常见的缺失断点的精确分子鉴定,无法确定其基因剂量的影响因素。作者研究了白种人中两个基因序列和 UGT2B15的p.D85Y(rs1902023:G>T)功能多态性。发现含有多重复嘌呤重组位点的 UGT2B17 4.9kb片段和 UGT2B28 6.8kb的片段,分别位于基因缺失两端的117kb和108kb处。在白种人中 UGT2B17UGT2B28的CNV分别为27%和13.5%。43%人群中,两个基因都具有两个拷贝,但57%人群中至少具有一个缺失。在5%染色体上产生了225-kb的基因组间隙。依据 UGT2B17UGT2B28的CNV,以及与 UGT2B15 p.D85Y存在否,可分类产生七种不同的单倍型。这些结果提示对于每种基因的在生理条件或疾病状态下的影响分析需要谨慎进行。
三、代谢组学
代谢产物通常指在生命体内实现代谢过程的小分子有机化合物。一级代谢物直接参与细胞的正常生长、发展和繁殖。二级代谢物不直接参与这些过程,但是通常具备重要的生态功能,比如说抗生素和色素。代谢组学是研究生命体中所有代谢产物(小分子化合物)变化规律的科学,通过比较实验组和对照组中内源性代谢产物的系统性差异来研究生命现象,并揭示其内在规律。代谢物组是一个生命体内所有代谢物的总和,其整体构成一张巨大的代谢反应网络:一个酶化学反应的产物往往是另一个反应的反应物。这些反应系统可以用超循环系统来描述。代谢组水平上的差异与生物体在生理、病理、营养、用药等各种生命过程紧密相关。
代谢组学是研究生物体内源性代谢物质的整体及其随内因和外因变化的科学,是系统生物学的一个重要组成部分。代谢组学是继基因组学、蛋白组学之后又一热点学科。代谢组学的研究思路主要有:代谢物靶标分析、代谢轮廓谱分析、代谢指纹分析和生物标志物分析。
代谢组学最核心的手段是磁共振波谱和质谱两大分析技术,它们也通常和色谱联用以提高灵敏度和准确度。质谱技术可以用来测量样品或者分子的元素组成、阐明分子的化学结构,比如说表征多肽以及其他化合物。
目前代谢组分析已经产生了大量的生物信息数据(Big Data),例如Human Metabolome Database(人类代谢组数据库),Metlin(Scripps Center for Metabolomics),KEGG(Kyoto Encyclopedia of Genes and Genomes),Metabolic&Genetic Information Center, The Golm Metabolome Database(GMD),BiGG Models, HumanCyc等等。代谢数据库的开发对于归纳总结这些大数据、方便后续的代谢组学数据分析、揭示隐藏在大数据背后的生物学机制具有十分重要的作用。
疾病导致机体病理生理过程变化,最终引起代谢产物发生相应的改变,通过对某些代谢产物进行分析,并与正常人的代谢产物比较,寻找疾病的生物标记物,将提供一种较好的疾病诊断方法。通过代谢分析(特别是尿液或血浆样本)的毒性评估/毒理学检测由化学物质(或化学物质混合物)的毒性损伤引起的生理变化。对于功能基因组学,代谢组学可以是确定基因操作引起的表型的优秀工具,如基因的删除或插入。代谢组学也越来越多的应用在环境科学领域,从理解有机体对非生物压力的反应到调查生物对其他生物群的反应。
通过跟踪代谢途径中各个底物流量的变化,有助于发现代谢作用和激素作用的详细机制,揭示基因型与表型之间的关系。例如,使用气相色谱/质谱(MS)和同位素[1,2-13C2]葡萄糖作为示踪剂的大分子合成模式和底物流量测量显示,GLP-1诱导细胞中的棕榈酸酯从头合成,并且利用葡萄糖作为主要底物诱导了棕榈酸酯链伸长成硬脂酸酯的显著增加,而细胞内核酸核糖合成,谷氨酸氧化或乳酸生产速率没有变化。该研究表明,GLP-1诱导的细胞表型改变过程中,其特征变化包括以葡萄糖为原料,选择性增加脂肪酸从头合成和随后的链延长,进而增加的膜形成,有利于胰岛素的释放。
人体代谢过程中产生小分子代谢物,称为可挥发性有机物(volatile organic compounds, VOCs),会随着呼吸气体呼出体外,目前已经鉴定出的大致有200~400种。近年来,通过检测这些气体成分,可以应用于疾病诊断。例如,有研究收集63例病理确诊的肺癌患者(研究组)和72例健康人(对照组)的呼出气体,应用电子鼻对呼出气体中的VOCs进行检测。采用Mann-Whitney U检验对2组的VOCs进行比较,二分类logistic回归及逐步法筛选变量,建立预测模型,并应用受试者工作特征(receiver operating characteristic, ROC)曲线评价预测模型的诊断能力。结果发现研究组与对照组的二甲基甲烷、乙醇、甲烷、己烷、2,2,4,6,6-五甲基庚烷、篙属酮、侧柏醇、十二烷和1,2,6-三甲基萘这9种VOCs成分浓度的差异有统计学意义。呼出气体中VOCs的组成和浓度可以反映机体的代谢状态和特定的疾病状态。建立和开发呼出气体中VOCs的数据库,对疾病诊断具有重要的理论和实践意义。
(赵小宁 惠宏襄编,张 本 张 毅审)