第三节 队列研究
一、概 念
(一)基本原理
队列研究(cohort study)是用来检验病因假设,确定疾病危险因素的一种非常重要的流行病学研究方法,在肿瘤流行病学研究中扮演着重要角色。基本原理是从一个未患所研究疾病的人群中选择和确定两个队列,一个队列暴露于某一可疑致病因素(如X线、联苯胺)或者具有某种研究特征或行为(吸烟),称为暴露组,另一个队列则是不暴露于该可疑因素或者不具有该特征,称为非暴露组。按照研究设计要求对两个队列进行随访,收集预期结局的发生情况(如发病或者死亡),分别计算两组所研究疾病的发生率或者死亡率,并进行比较。如果两组的发病率或者死亡率确实存在差异,则可以认为该研究因素或者特征与疾病之间存在关联。排除可能的偏倚和混杂,借助因果推断技术,可以得到暴露因素和目标疾病之间的因果关联。下图是前瞻性队列研究的示意图12-4。
图12-4 前瞻性队列研究原理示意图
(二)研究特点
1.属于观察法,暴露客观存在,不受研究者影响。
2.研究设计阶段设立均衡可比对照组,对照组可以和暴露组来自同一个人群,也可以是来自不同人群。
3.暴露因素与研究结局先后顺序明确,研究方向由因及果。
4.可以获取疾病发病资料且资料均为一手资料可信度高,能进一步证实暴露和疾病之间的关联,因此在肿瘤病因研究中因果论证强度高。
5.可以同时研究某种因素与多种疾病之间的关系。
(三)研究目的及用途
1.检验病因假设,确定危险因素 这是流行病学研究在肿瘤领域的重要应用,也是队列研究的主要用途和目的。通常在队列研究中只能检验一种暴露与一种疾病之间的关系,但是在大型队列研究中也可以同时检验一种暴露和多种疾病之间的关联如Doll&Hill吸烟队列研究。
2.评价预防效果 在进行人群肿瘤预防控制研究中,某种暴露可以减少某些肿瘤的发生率,如戒烟可以减少肺癌发生率。这种预防措施或暴露是自发采取的,不是外界施加干预的。所以此类研究又称为人群自然实验(population nature experimental)。
3.研究疾病的自然史 队列研究则可以观察人群早期暴露到疾病逐渐发生发展直到结局的出现全过程,进而不仅了解个体的疾病自然史,也可以了解人群的疾病自然史。
4.新药上市后的监测 在肿瘤研究中,新药上市后监测是主要是为了发现新药物在长期使用的过程中是否会产生一些致癌作用。在此处,新药的使用往往是自发的选择,不是研究人员施加的。
5.研究某种肿瘤发生发展的长期变动趋势,为制定新的预防规划或者治疗方案以及设置新的医疗服务设施提供依据。
二、类 型
按照研究对象进入队列的时间以及终止观察的时间不同,可以将队列研究分为前瞻性队列研究(prospective cohort sudy)、历史性队列研究(historical cohort study)和双向性队列研究(ambispective cohort study)三种。
(一)前瞻性队列研究
研究对象的确定与分组是根据研究开始时的状态,研究结局需要随访一段时间才可以得到,这种研究设计又称作为同步性队列研究(concurrent cohort study)。
此研究类型资料为一手资料,偏性较小,但是需要随访才能获取结局资料,不适合罕见疾病如阴道腺癌的研究。
(二)历史性队列研究
研究对象的确定和分组是根据研究人员所掌握的关于研究对象在过去某时刻的暴露情况而进行的。资料的收集形式是回溯性,但是研究设计类型依旧是由因到果。资料可以在较短时间内收集,但是资料准确性和可靠性会因为难以受控制而欠佳。因此此研究类型适于特殊暴露或者职业暴露(如X线照射和白血病之间关系)的研究。
(三)双向性队列研究
此研究结合了历史性队列研究和前瞻性队列研究的特点,在开展历史性队列研究之后,继续进行一段时间的前瞻性队列研究,因此在一定程度上弥补了前两者的一些缺点。下图为队列研究三种类型的示意图12-5。
三、研究人群的选择
(一)暴露组的选择
暴露组的选择通常可以从以下人群选择:
1.特殊暴露人群或职业人群
指的是暴露于一些特殊暴露因素如X射线或从事部分职业工作如染料作业。选择这种人群主要是因为其肿瘤的发生率或死亡率可能比一般的人群要高,这将有利于探讨因素与疾病之间存在的关联性。所以在研究某种因素和肿瘤之间的关系时,需要选择这样的人群作为暴露组。如在研究照射线辐射与白血病之间关系时,常常选择在胎儿时间接受过X线照射的婴儿或放射科医生作为暴露组;研究联苯胺与膀胱癌关系时,选择从事染料作业的工人为暴露组。
图12-5 前瞻性、回顾性、双向性队列研究示意图
上述这种暴露情况,一般选用的是历史性队列研究,因为这种情况下研究对象会采取相关措施减少相应的暴露,进而会使得在前瞻性队列研究中低估暴露因素的作用而影响研究结果正确性。
2.有组织团体的人群
属于这种人群的有医学会成员、工会成员、社会团体、学校或部队成员。选择这种类型的研究对象主要是利用其人员组织便利,资料比较好收集,在职业和经历上相近,可以保证队列研究比较组之间的可比性。如Doll和Hill选择英国医师协会会员开展吸烟和肺癌的研究就是这种例证。
3.一般人群
主要是选择某行政区域或者地理自然区域内居住的一般人群如某城市市区人口或某县城全部人口。选择此种人群主要是因为研究因素为比较常见因素,主要关注于一般人群中疾病的防治。
(二)对照人群选择
对照的设立体现了流行病学研究的核心,主要为了增加比较组间可比性。常用的对照人群有以下几种:
1.内对照
以暴露于待研究因素的人群作为暴露组,将同一人群中没有暴露该研究因素的人群作为对照组。选定暴露组的同时也就在人群内部确定了对照组,不需要另外去寻找。例如Doll和Hill在吸烟和肺癌关系的研究中,选择的是英国医师协会男性医生,然后根据调查结果将吸烟的男性医生作为暴露组,不吸烟的男性医生作为非暴露组,不需另外寻找对照。
2.外对照
这种对照主要是比较适合于特殊暴露和职业人群暴露研究中,因其研究因素对结果会产生干扰,所以需要选择其他人群作为对照组。比如研究放射线照射和白血病关系的时候,就需要选择没有从事放射工作的内科医生或者眼科医生作为对照。
3.总人口对照
这种对照的出现主要是为了满足进行特殊暴露研究时所获得目标结局如肿瘤病例数较少的情况的需要。此时不需要选择对照组作比较,而是与总人口的相应的发病率和死亡率作比较。比较的方法是根据总人口相应的年龄别发病率或者死亡率计算出暴露组预期发病人数或死亡人数,计算标准化死亡比(SMR)或标准化比例死亡比 (SPMR)。
4.多重对照
主要是为了减少只用一种对照方式所带来的偏倚,最好采用的是在与内对照或者外对照比较之后进行总人口对照。但是多重对照的选择无疑增加了研究的工作量,所以需要根据实际情况进行抉择。
四、样本大小的确定
(一)确定样本量需要考虑的问题 1.暴露组与对照组的比例问题
通常而言,对照组例数要大于或者等于暴露组例数。
2.失访率
队列研究中一般需要进行随访,所以需要考虑失访率,失访率过大不仅会减少样本量而且会使得研究效能下降。
(二)样本量大小的决定因素
1.对照人群的估计发病率 p 0在与暴露组发病率 p 1差值一定的前提下, p 0越接近0.5,所需要的样本量越大。
2.暴露人群发病率与对照人群发病率差值d,差值d越小,所需要的样本量越大。
3.所要求的显著性水平即Ⅰ类错误。通常α=0.05或0.01;α越小所需样本例数越多,样本量越大。
4.把握度(power)即检验效力1 -β,β越小,所要求的样本量越大,β通常取0.10。
(三)样本量计算
样本量的具体计算通常可以查表和选择公式计算,下面着重讲述公式计算:
:两个发病率的平均值
p 1:暴露组预期发病率
p 0:对照组预期发病率
注意:本公式为要求比较组样本数量相等情况下的计算公式。其他的研究设计样本量计算参见相应统计学教材。
例如:已知HbsAg阴性者PHCC(原发性肝癌)的发病率为 p 0= 0.007,HbsAg阳性者发生PHCC(原发性肝癌)的 RR =2.5,设α=0.05(双侧),β=0.1,求需要调查的样本量为多少?
根据上述条件Z α/2=1.96,Z β=1.282,q 0=0.993
p1= p0×RR =0.0175,q1=0.9825
代入公式得:N =2310
考虑到失访,实际上每组需扩大10%,最终人数为2541人。
五、调查表制定
在队列研究中,资料很大一部分需要通过问卷调查获取,因此需要对调查表进行严密设计。制定调查表有以下一些原则:
(1)项目应该完整,严格按照研究目的进行制定,能够满足调查研究目的和资料分析需要。
(2)结果的记录要详细,应该尽可能的采用定量记录。
(3)项目的定义应该明确,记录方式应该简便易懂。
(4)项目的排列应该符合逻辑顺序。
(5)记录结果应该可以直接录入到计算机中,建立相应数据库。
六、资料收集和随访
(一)资料收集
队列研究中需要收集的资料有人口学特征、暴露信息等基线资料或基线信息(baseline information)和研究结局资料。获取基线资料的方式有:第一,查阅医院、工厂或者单位的记录档案;第二,访问研究对象或者其他可以提供研究资料的人;第三,对研究对象进行体检和实验室检查;第四,环境检查与检测。例如在研究乙肝病毒与原发性肝癌的关系的队列研究中,需要收集的基线资料主要为血清中HbsAg,研究对象既往肝病史,PHCC家族史,职业、吸烟、饮酒、主要食物种类等其他可能的危险因素以及年龄、性别等人口学特征资料。研究结局资料主要是在随访中收集。
(二)随访
在队列研究中,进行随访是必不可少的一个重要组成部分,需要注意的是明确随访时间及间隔、明确随访内容及随访对象、随访过程中采用的调查方式及态度需要在组间保持一致。
七、资料整理
在对资料进行分析之前需要对资料进行审查,了解资料的正确性和完整性。根据研究的需要,队列研究的资料整理基本模式如表12-9及表12-10所示
表12-9 队列研究资料整理模式(1)
注:暴露组发病率 I e= a/n 1;非暴露组发病率 I 0= c/n 0
表12-10 队列研究资料整理模式(2)
注:暴露组发病率 I e= A 1 /T 1,非暴露组发病率 I 0= A 0 /T 0
在后续的资料分析部分,采用的研究实例为乙型肝炎病毒感染与PHCC关系的队列研究(王兰萍、唐景高等,2005)。以下两组表是乙型肝炎病毒感染与PHCC关系的队列研究的资料归纳整理如表12-11和表12-12。
表12-11
表12-12
八、资料分析
(一)率指标的计算
在肿瘤流行病学研究中,肿瘤的发生率的计算是队列研究资料分析的关键,根据观察资料的特点可以选择计算不同的指标。
1.累积发病率(cumulative incidence rate,CIR)
指某一固定人群在一定时期内某病新发生例数与观察开始时总人数之比。这个指标的使用条件是参与队列研究的人群数量比较大,而且比较稳定。
其计算公式为:
设观察期限为n年,K为比例系数,取1000‰或(100 000/10万)
累积发病率的大小范围是0到1,报告时候需要注明累积时间的长短,否则意义不明。
在本研究实例中暴露组10年累积发病率为75.25%,非暴露组为5.10%,详见整理表12-11。
2.发病密度(incidence density)
指一定时期内的平均发病率。其分子仍是一个人群在观察期内新发生的病例数,分母则是该人群每一成员所贡献的人时总和。所谓人时(person-time, PT)是观察人数乘以随访单位时间的积。时间单位常用年,故又称人年数(person-year)。
其计算公式为:
式中K为比例常数,如100 000/10万。理论上发病密度的大小为0到无穷大。本研究实例中暴露组发病密度为774.93/10万人年;非暴露组为49.58/10万人年。详见表12-12。
(二)人年计算
队列研究中由于所跨时间比较长,观察对象经常处于动态变化中,所以在计算时需要采用人时进行相应计算。常用的人时计算有以下几种方法。
1.以个人为单位计算暴露人年(精确法)
这种计算方法比较准确,但是资料处理比较麻烦,特别是在手工计算时。此方法要求知道每一个成员进入队列和退出队列的具体时间。
2.用近似法进行计算暴露人年
当队列成员没有关于进入及退出队列精确的时间时,此时可以采用平均人口数乘以观察年数得到总的人年数,其中平均人口数一般采用相邻的两年的年初人口平均数。这种方法比较简单,但是精确性不如精确法。
3.寿命表法
利用简易寿命表法可以计算人年,这种方法比较简单,有一定的精确度。常用的方式是规定观察当年进入队列的个人作为1/2人年,失访或出现终点结局的个人也作为1/2人年计算。计算式如下:
Lx= Ix+(Nx- Dx- Wx)/2
Ix+1 = Ix+ Nx- Dx- Wx
其中L x为x时间内暴露人年数,I x为x时间开始时的观察人年数,N x为x时间内进入队列的人数,D x为x时间内出现终点结局的人数,W x为x时间内失访的人数。
(三)率差别的显著性检验
由于队列研究多为抽样研究,所以当发现两组率之间存在差别时,首先需要考虑是否存在抽样误差的可能性,需要进行统计学显著性检验。
1. Z检验
当样本量比较大的时候,p和1 - p都不是太小,如np和n(1 - p)均大于5时,可以采用近似正态性检验,其检验公式为:
其中p
1为暴露组的率,p
0为非暴露组的率,n
1为暴露组人数,n
0为非暴露组的人数。p
c为合并的样本率,
,其中x
1、x
2为暴露组和非暴露组结局事件发生数。
2.其他的检验方法
当样本例数不是很多的时候或不满足 Z检验条件时,需要按照两样本的二项分布率的比较进行,详见统计学教材。
(四)标化比
在队列研究中当研究对象数目较少,结局事件的发生率较低时,无论观察的事件长短,都不宜直接计算率,需要采用全人口发病或者死亡率作为标准,计算出该人群理论发病人数或者死亡人数,再求观察人群实际发病或者死亡人数与理论数的比值,得到标准化比。常用的指标有 SMR(标准化死亡比),其实际意义类似与后面所要讲到的 RR(相对危险度)值。如果SMR>1,则暴露人群的死亡风险大于一般人群。
同样计算出来的SMR为样本估计值,需要进行假设检验,其相应的假设检验详见统计学教材。
(五)效应估计
队列研究中,尤其是肿瘤流行病学研究中,通常需要测定相应的结局效应,采用的指标有相对危险度,归因危险度,归因危险度百分比,人群归因危险度和人群归因危险度百分比。
1.相对危险度(relativerisk,RR)或率比(rate ratio)是指暴露组发病率(Ie)
与非暴露组发病率( I0)之比,它反映了暴露与疾病的关联强度。计算公式:
其中I e为暴露组发病率,I 0为非暴露组发病率。
RR的意义: RR说明暴露组的发病危险是非暴露组的多少倍。相对危险度( RR)无单位,比值范围在0至∞之间。 RR =1,表明暴露与疾病无联系; RR<1,表明存在负联系(提示暴露是保护因子);反之 RR>1时,表明两者存在正联系(提示暴露是危险因子)。比值越大,联系越强。表12-13列出了 RR值与关联的强度判断标准。
表12-13 RR值与关联的强度
通常情况下所求得的 RR值为样本值,需要进行假设检验。检验的方法主要采用置信区间法Woolf和Miettinen法。
RR 95%CI:
本研究实例采用Woolf法计算得到95%可信区间为(13.12,16.60),说明所求RR值具有统计学意义。
2.归因危险度(attributable risk,AR)或率差(rate difference)
是指暴露组发病率与非暴露组发病率之差,它反映发病归因于暴露因素的程度。
计算公式:
其中相应的字母代表基本整理表格相应的数值。
AR表示暴露可使人群比未暴露时增加的超额发病的数量,如果暴露去除,则可使发病率减少多少(AR的值),与RR相比,其在疾病预防和公共卫生领域有着很大的意义。
3.暴露组归因危险度百分比(AR%)或病因分值(etiologic fraction,EF)
AR%是指暴露人群中由暴露因素引起的发病在所有发病中所占的百分比。计算公式如下:
当AR%>75%时,即可认为找到了主要病因。从研究实例中计算出PHCC的AR%=(75.25 -5.10)/75.25×100%=93.2%。说明HBV感染者中发生PHCC有93.2%可以归因于HBV感染。
4.人群归因危险度(population attributable risk,PAR)
与人群归因危险度百分比( PAR%) PAR表示在全人群中由于暴露而导致的发病率增加。计算式如下:
PAR = Ie- I0
I t:全人群发病率。
PAR%表示全人群中由暴露引起的发病在全部发病中的比例。计算式如下:
在乙肝病毒感染和PHCC关系中,非HBV病毒感染者PHCC的死亡率为0.51% ( I 0),全人群的PHCC死亡率为1.625%( I t),则:
PAR = Ie- I0=1.625%-0.51%=1.115%
从计算结果可以得知,虽然HBV导致PHCC的AR%达到了93.2%,但是人群中只有部分人感染了HBV,其PAR%仅为68.6%。
5.剂量反应关系分析
如果暴露与某种肿瘤之间存在剂量反应关系,也就是说暴露剂量或者强度越大,效应越大,则这种暴露成为病因的可能性越大。分析的时候主要先计算出不同的暴露水平下肿瘤的发生率,然后以最低剂量水平组作为参照组,计算各级暴露水平下的 RR和 AR值,必要的时候需要进行 RR值变化的趋势检验。相应计算可参考统计学教材。
九、偏 倚
常见偏倚主要有以下几种
1.选择偏倚(selection bias)
在队列研究中如果暴露组和对照组在一些影响研究结果的主要特征上不一致就会产生选择偏倚。虽然队列研究中在研究开始会采取各种措施保证暴露组和对照组间均衡性,但是由于最初选定参加研究的人群由于一些原因会退出队列或者在历史性队列研究时,部分研究对象的资料丢失,就会破坏比较组间的均衡性,产生选择偏倚。
2.失访偏倚(lost to follow-up)
在队列研究随访过程中,部分研究对象因为各种原因会脱离队列或无法完成剩余调查而出现失访,产生失访偏倚。一般失访率不应超过10%,否则研究的有效性将受到很大影响。
3.信息偏倚(information bias)
肿瘤研究中队列研究信息偏倚的产生主要由于使用的仪器不准确、检验技术不熟练、诊断标准定义不明确或掌握不当、询问技巧欠佳造成结果不真实等所造成的。
4.健康工人效应(health worker effect)
指被随访的队列成员的健康状况优于一般人群,从而导致暴露组的发病率或死亡率低于或者接近一般人群。健康工人效应趋于低估暴露与疾病的关联。比如,某工种工人全死因的 SMR为80,恶性肿瘤的 SMR为97,很有可能肿瘤的死亡率和职业有关,这在职业流行病学研究中比较常见。
5.混杂偏倚(confounding bias)
当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有关又与所研究的暴露因素有联系的另一个因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象或影响叫混杂(confouding),其所带来的偏倚叫混杂偏倚(confounding bias)。关于上述偏倚的控制可以参考流行病学专著。
十、研究实施步骤
队列研究实施过程如图12-6所示。
图12-6 前瞻性、回顾性、双向性队列研究实施框架图
(罗凯 许群)