分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第一节 设计要点

分子流行病学研究应涵盖从提出问题、验证假说到得出结论等全过程,其基本程序包括:提出科学问题和假说、制定研究设计方案、研究项目实施、归纳和总结研究结果、研究报告撰写以及成果转化等。研究设计是第一步,分子流行病学研究设计与传统流行病学研究设计既有共性,又有其特点,要体现人群和生物群体中医学相关的生物学标志的分布及其与疾病及健康的关系和影响因素,在此基础上研究并评价防治疾病、促进健康的策略与措施,实现以人群研究为基础,以生物学标志为核心,以生物学标志对疾病与健康作用机制及其发生发展为落脚点的流行病学研究。可见,分子流行病学研究中,研究假设、研究设计的模式、生物学标志选择、测量和分析构成了分子流行病学研究设计中的基本要素,而依据研究假设确定研究内容和预期分析指标,以及控制偏倚等问题是必须考虑的。
一、建立研究假设及明确研究内容
一项研究设计是否具有创新性、科学性、可行性及实用性,最重要的是建立明确的研究假设。研究假设的提出是在广泛了解国内外研究现状及发展动态,国内外尚未解决或者亟待解决的重要科学问题,以及疾病防制和临床实践中发现的、具有重大意义的科学问题,并经过反复凝练提出的,既要有充分的依据体现其创新性、科学性和应用价值,又是在缜密的研究思路、慎重选择的研究方法和技术手段、重点解决的关键科学问题等反复推敲的基础上提出的。人群和生物群体中医学相关的生物标志的研究涉及诸多领域的新进展新方法,其研究假设的凝练极具挑战性,绝不是生物学标志检测的简单堆砌,也不是包罗万象,科学上及技术上言之无据的“海市蜃楼”。
研究内容是对研究假设和目标的深层次诠释,或者说是对研究目标的具体说明。研究内容要围绕研究目标逐层、逐次展开,强调为了实现研究目标,研究分几个步骤进行,拟从何处入手,重点研究哪个方面,主攻什么方向,达到什么样的预期效果以及有哪些具体的考核和衡量指标等。研究内容要具体适当、重点要突出、层次分明,切忌内容过多或内容分散。
二、确定研究类型
分子流行病学研究设计应根据不同研究目的选择适宜的流行病学研究方法,进行群体生物学标志的分布及其与疾病及健康的关系和影响因素研究,揭示其在预防和控制疾病,促进健康方面的流行病学意义。另外,生物学标志的研究进展日新月异,研究手段和方法不断创新,其研究经费耗费较大,因而大样本的描述性研究和队列研究等分子流行病学研究受到一定限制,初期的分子流行病学研究一般以病例对照研究作为常用方法,随着流行病学理论与方法的进展,新型的研究方法不断应用于分子流行病学研究,如巢式病例对照研究、病例-队列研究、病例-病例研究等,而随着精准医学和大数据浪潮的到来,生物医学大数据有效利用对扩展分子流行病学的研究内容提供了更大的平台,使较大样本的分子流行病学研究成为可能。
三、选择适宜生物学标志
合理恰当地选择生物学标志往往是分子流行病学研究成败的关键,以下几个方面可予考虑。
(一)生物学标志的选择必须服从于研究假设或研究目标
根据分子流行病学的研究目标可以考虑以下几种情况:
1.外暴露与内暴露、生物学有效剂量标志关系的探讨。
2.筛检及诊断试验相关生物学标志的探讨。
3.各类型暴露标志与疾病及健康的相关性研究,以及与早期生物效应(early biological effect)标志、结构和/或功能改变(altered structure and function)标志和疾病(clinical disease)标志关联研究。
4.选用易感性生物学标志(susceptibility biomarker),可从功能、表型、DNA等方面的生物学标志进行遗传易感性在疾病发生发展中作用的研究。
5.从暴露到结局选用暴露标志、效应标志、易感性标志等生物学标志,进行疾病病因学研究。
6.利用生物学标志评价干预措施对疾病发生危险度的影响及其效果。
7.评价外环境暴露和遗传易感性及其交互作用。
8.应用生物标志物确定某病的高危人群。
9.了解一般人群或健康人群某个(些)生命过程中生物学标志的分布特点。
(二)了解生物学标志特性,选择适当的生物学标志
了解生物学标志本身的特点及其存在和变化的规律,以及生物学标志间可能的复杂的生物学联系是非常重要的。生物学标志特性的研究本身具有极其丰富的内容,如分子特性、时相特性及动态变化特性、变异性、敏感性和特异性、关联性、分布特性等。所选择的生物学标志具有较高的灵敏度和特异度、生物材料获取便利、有先进成熟的检测方法,且检测费用可以承受。
四、明确测量方法
生物学技术的飞速发展带来了生物学标志测量方法的不断创新,新技术新方法层出不穷,一方面新的方法显示了反映生物学事件的优越性,某些生物学标志测试费用较高限制了群体研究的样本量,但这些年测试成本有所降低,使样本量较大的分子流行病学研究成为可能;另一方面,研究者根据研究目的权衡利弊,选择适合的检测方法,不必刻意追求“高、大、上”的新方法和新技术,在达到研究目标的前提下,应考虑灵敏度和特异度高、重复性好,便捷、收益较大的检测方法与手段,当然也需要考虑生物材料易获得等问题。
五、确定研究对象及样本量
研究类型确定之后,选择研究对象及进行样本含量估计是分子流行病学需要考虑的。适当大小研究样本的选择,是分子流行病学研究设计中面临的一个现实问题。其原理和方法同一般流行病学研究设计,但就分子流行病学研究而言,其特点在于虽然β及 α值可以预先给定,但各种生物学标志在不同人群中的流行率、暴露在不同人群中效应强度的差异等方面的情况则较难估计。当前研究趋向于多标志发展,且研究设计有多种类型,又使样本估计更为复杂化。
从理论上讲,如果样本足够大,则可检出组间生物学标志的细微差别,获得有统计意义的结果,但不一定有实际意义,且势必导致人力财力的大量消耗。而从实际上看,如果分子流行病学研究样本偏小,假阴性结果较多。据估计,如果某种分子生物学标志在对照组中的流行率为15%,给定α=0.05,β=0.20,估计OR值为1.61,如采用病例对照研究设计,则病例组,对照组各需494例。这自然是一个不小的数目,对于分子流行病学研究来说,确有一定难度。目前有学者针对这一现象进行了研究,探索在保证检验效能的基础上,适当缩小分子流行病学研究样本量的方法,如在综合考虑检验效能及经费预算的基础上,寻找观察单位个数和重复测量次数的最优组合;又如在进行环境-遗传交互作用研究时,综合比较相同检验效能时不同研究设计所需样本量大小,选择最优的研究设计等。
遗传因素与环境因素的交互作用,已成为当代流行病学病因学研究的热点之一,也是分子流行病学研究的重要领域。计算基因-环境、基因-基因及环境-环境因素交互作用研究的样本量和检验效能,目前可以用QUANTO软件来实现,该软件是由美国南加利福尼亚州大学医学院的W. James Gauderman和John Morrison共同开发的,只需将研究设计、参数及检验水准输入程序,就可以根据预定检验效能计算出所需样本量,或根据样本量计算出研究的检验效能。
近年来在表观遗传学技术发展的基础上形成了表观基因组关联研究(epigenome-wide association study, EWAS),EWAS的两种常用研究设计分别是病例对照研究和疾病表型不同的同卵双胞胎(disease-discordant monozygotic twins)设计,EWAS常用于DNA甲基化与衰老、环境暴露相关疾病及复杂疾病等的关联研究。其样本量同样与检验效能、研究设计类型、效应强度及重复测量校正方法等多个因素有关;不同于其他研究的是,在EWAS中至少还需考虑两个因素对检验效能的影响:表观遗传标志物的长期稳定性和同一生物样本中表观遗传学标志物的差异,需要采用一定的统计学方法加以校正,这也给EWAS研究的样本量估计增加了难度。Tsai等采用同卵双胞胎设计和病例对照设计模拟EWAS研究,设置一定的假设条件模拟出80%检验效能下所需的样本量,同时模拟出给定样本量时所能达到的检验效能(表3-1、表3-2)。表3-1结果显示,当要达到80%检验效能时,同卵双胞胎设计较病例对照设计更节省样本量;相同检验水准下,组间差异越大,所需样本量越小。当组间平均甲基化率差值为7%时,同卵双胞胎设计需要178对样本,而病例对照设计则需要211对才能检验出差异。从表3-2可以看出,以DNA甲基化OR值(methylation odds ratio, methOR)作为效应强度指标,效应强度相同时,样本量越大,所能达到的检验效能越高;样本量相同时,效应强度越大,检验效能越高。500对病例对照可检测到的最小methOR为1.15,而50对时methOR必须达到1.45以上才能检验出常规显著性( P<0.05)。而当methOR至少为1.8时,要辨别出基因组水平的差异显著性( P<1×10 -6),则至少需要100对病例对照。
表3-1 给定80%检验效能的EWAS研究不同研究设计所需最小样本量(对)
a指暴露组与非暴露组间平均甲基化率差值;
b1×10 -6为表观基因组学研究显著性水平。
表3-2 1∶1匹配病例对照设计EWAS研究检验效能(使用methOR反映效应强度)
续表
methOR/diff:平均甲基化OR与组间差异设定范围;N:病例对照的对数,总人数需×2;Mean diff:组间平均甲基化差值;T:两样本 t检验;W:Wilcoxon秩和检验。
六、确定分析方法
传统流行病学的资料分析方法和思路均可用于分子流行病学,如常用的频率测量指标、效应测量指标及其他分析方法,如可替宁作为主动及被动吸烟者的烟草的内暴露生物学标志,可分析孕妇中可替宁的分布不同人群特征、不同地区及近年的内暴露频率及其变化情况,平均内暴露水平,外暴露和内暴露的关系,以及可替宁暴露对母儿妊娠不良结局的效应。
环境-遗传、遗传-遗传、环境-环境因素相关的生物学标志对疾病和健康的影响及其交互作用是近些年分子流行病学的研究热点,相应的分析方法也日臻完善。聚类分析、核酸突变热点分析、序列一致性分析、遗传多态性分析、分子进化分析相关的基因/核酸序列数据库检索、序列同源性分析等越来越多地应用于分子流行病学研究中,为疾病病因学及发病机制研究、生物学标志作为诊断和筛检试验价值的研究、干预措施效果的评价等方面的深入研究提供了有效的手段。具体分析策略和方法详见相关章节。
资料分析时注意将宏观的人群特征及环境因素暴露资料结合相应的生物学标志测量结果,绝不能以生物学标志研究结果取代或弱化宏观资料的分析,两者结合才能提高研究的精确度和深度,才能打开一个个从暴露到疾病(结局)的“黑箱”。
七、明确预期分析指标
预期分析指标是与研究目标及研究内容相吻合的一些预期结果,要体现研究特色和创新点,预期结果即可以是揭示某一或某些生物学标志的群体分布特征、病因学价值、筛检与诊断价值、预防性干预及治疗性干预措施评价、疾病预后研究、健康状态研究等也可以是理论方面的建树或在某项关键技术、方法学上的创新。
八、关注其他生物群体研究,辅以动物实验研究
分子流行病学是阐明人群和生物群体中医学相关的生物学标志的分布及其与疾病和健康的关系和影响因素,研究并制定防治疾病、促进健康的策略与措施的学科,其研究对象来自人群,如果偏倚控制较好,研究结果及结论可为疾病预防和控制及健康促进提供科学依据,但其他生物群体的相关研究以及体外试验和动物实验研究在分子流行病学研究中常常需要涉及,主要原因有三个方面:
1.生物群体中相关的生物学标志及其与疾病和健康的关系是分子流行病学的研究范畴。生物群体与人类疾病关系密不可分,有些作为人类疾病病原体的储存宿主及传染源,如旱獭为人类鼠疫传染源,有些为传播媒介或生物富集体,有些为人类长期摄入会增加相关疾病发病风险,如海洋类生物的过量摄入会增加痛风的罹患风险等。
2.为了进一步验证人群研究中的某些发现,探讨某些疾病生物过程的分子生物学机制,需采集组织及细胞进行相关生物学标志的分析。
3.探讨环境暴露对机体作用的机制及其干预效果的生物学基础,其时序关系的动态观察常常需要连续进行组织细胞学等方面的生物学标志的检测。
上述有些研究无法在人群中进行,只有进行动物体内实验及体外试验研究来佐证人群研究结果,另外为了避免在人群中进行有创标本采集等可行性问题以及伦理学问题,辅以动物实验及体外试验有时也是必须的。值得提出的是在分子流行病学研究中,动物实验和体外试验只是作为人群研究的补充,决不能替代人群研究,更不能以其他生物群体的研究反馈于人群。
九、偏倚控制
分子流行病学研究设计时,对研究过程中出现的误差及偏倚应予特别的关注,传统流行病学研究特别注重对调查研究中误差和偏倚的控制,而检测生物学标志的实验室技术也同样要做好诸多误差、偏倚的控制和评估。常见的误差主要来源于实验方法本身的敏感性和特异性;所使用仪器、试剂等在检测过程中的误差;同一受检者不同时间的生物学指标的变化;人群中存在的生物学差异等。因此,在分子流行病学研究中,要特别重视实验对照的设计,并且需要客观评估生物学标志及其检测方法的真实性、可靠性。
流行病学研究中偏倚的控制同样要给予足够的重视,并且要注意其内涵的特殊性。
1.选择偏倚
分子流行病学研究同样要注意研究对象选择所形成的偏倚。人群生物学标志受到许多因素的影响,不同地区、不同特征人群检出频率可能有很大差别,其动态变化特征也非常复杂,而且环境因素与遗传因素之间的作用以及罹患疾病对生物学标志的影响人们知之甚少,所以在选择研究对象时要尽可能注意选择偏倚的控制,如乳腺癌具有家族聚集性已成为共识,如果进行病例对照研究时选择相同家族的乳腺癌病人作为研究对象,可能会高估易感基因与乳腺癌发生的关联强度。因此,在此类研究中要收集散发病例及新发病例作为研究对象,而在其他研究类型研究中,流行病学所提出的选择偏倚控制的原则仍然适用于分子流行病学研究,如果只注重检测生物学标志过程中的测量误差的控制,揭示生物学标志的流行病学意义将成为空话,而夸大的、低估的甚至是虚假的关联将会出现。
2.测量偏倚
生物学标志测量的系统误差控制是分子流行病学的重要问题。虽然生物学技术日新月异,在揭示人类生物学特征的精准程度令人惊叹,但群体研究中任何生物学标志的测量都可能存在随机误差和系统误差,没有误差的检测几乎不可能。随机误差能作出估计,但在测量生物标志物过程中形成的系统误差属于信息偏倚,也称测量偏倚,一旦形成,会对研究结果的真实性产生致命的影响。这种偏倚至少可来源于:①测量所涉及的仪器、试剂、环境条件、检测人员等因素形成的误差,常规的仪器校准、试剂统一、条件恒定、检测人员固定且严格培训都是必须的,如果是多中心的研究或历时较长的研究,更要严格把关。②要了解生物学标志本身的特性对其测量的影响。其特性至少应考虑储存介质及稳定性等因素相关的分子特性、时相特性及动态变化特性、变异性(个体变异、个体间及群组间变异)、敏感性和特异性、与疾病或医学事件关联的可能性、不同生物材料的分布特性等。只有在广泛查阅资料,深刻了解生物学标志特性的前提下,对所选用的生物学标志及其测量方法的适宜条件进行反复探索,被检生物材料的收集、处理、保存等方法与条件核实,以及对生物学标志测量的真实性和可靠性进行评估,发现影响测量偏倚的相关因素,予以控制,这样才能正确把握和控制各种因素对测量结果的影响,使生物学标志测量结果真实性和可靠性均佳。否则,一项科研工作只能是浪费人力物力财力的活动,甚至是对生物学标志与疾病及健康关系的歪曲。
3.混杂偏倚
在设计阶段和分析阶段均应重视混杂偏倚的控制。在资料分析阶段选择正确的分析方法控制可能的混杂偏移,以客观阐释生物学标志与疾病和健康的关系。详见相关章节。
十、注意点
分子流行病学研究设计,有以下几点需要注意:
1.要有严密的分子流行病学研究设计,足够的样本量,鼓励多中心联合研究,结合我国及世界范围精准医学相关研究,在专病队列和自然人群队列中寻找契合点。
2.选择有价值的生物学标志进行研究,最好能筛选和发现新的具有功能意义的生物学标志,尤其是中国人群遗传及环境暴露特点生物学标志。
3.注重环境-环境、遗传-遗传、遗传-环境相关各类生物标志与疾病及健康的关联及其交互作用的研究。
4.同一通路中或相关通路的多生物学标志的联合研究,克服单一生物学标志或单一通路生物学标志研究的缺陷。
5.注重宏观与微观相结合,任何生物学标志都有环境因素的烙印,一味在微观世界遨游,片面追求生物学标志的研究,不但对疾病防制与健康促进意义有限,而且也背离了分子流行病学研究的初衷。