现场流行病学
上QQ阅读APP看书,第一时间看更新

第二节 病例对照研究

一、基本原理
病例对照研究是分析性研究的另外一种方法,其基本原理是以现在确诊的患有某特定疾病的患者作为病例组,以不患有该病但具有可比性的个体作为对照组,通过询问、实验室检查或复查病史,搜集既往各种可能危险因素的暴露史,测量并比较病例组与对照组中各种因素的暴露比例,经统计学检验,若两组差别有意义,则可认为因素与疾病之间存在统计学关联,在评估了各种偏倚后,再借助于因果推断的技术,推断出某个或某些暴露因素是疾病的危险因素,从而达到探索和检验疾病病因假说的目的。这是一种在疾病发生之后回顾性追溯病因因素的研究方法(图5-3)。
图5-3 病例对照研究设计的原理示意图
根据上述设计原理可知病例对照研究的基本特点:①属于观察性研究方法,回顾性调查获得的暴露资料是客观存在的;②研究必须设立对照组;③从果到因的研究;④一次病例对照研究可以研究多个因素。
二、研究类型
根据病例和对照是否采用匹配,以及匹配方式的不同进行分类。
(一)不匹配的病例对照研究
在研究的目标人群中,分别选择一定的研究对象,组成病例组和对照组,一般对照数目应等于或多于病例人数,此外没有其他限制与规定。这种类型适合于广泛地搜寻可能的危险因素,实施起来也比较方便,获得的信息比较多。
(二)匹配的病例对照研究
在病例对照研究中,为让病例和对照具有很好的可比性,常采用匹配(matching)的方式,即要求对照在某些因素或特征上与病例保持一致。匹配分为频数匹配(frequency matching)与个体匹配(individual matching)。
1.频数匹配
即匹配因素所占比例在对照组与病例组一致。例如,病例组中男女各半,60岁以上者占1/3,则对照组中也如此。
2.个体匹配
即以个体为单位进行匹配,这时每个(或几个)对照的选择都要求与相应的病例在匹配因素上相同或相近,一般一个病例匹配一个对照(1∶1匹配,也称配对),也可选择多个对照与之匹配(1∶M,M不宜超过4)。
在病例对照研究中采用匹配的目的,首先在于提高研究效率,表现为每一研究对象提供的信息量增加,因此特别适合于可供研究的病例数很少的情况下;其次在于控制混杂因素的混杂作用。匹配的特征或变量必须是已知的混杂因子,或有充分的理由怀疑其为混杂因子,否则不应该匹配。匹配的同时也增加了选择对照的难度,而一旦某个因素做了匹配,不但使它与疾病的关系不能分析,而且使它与其他因素的交互作用也不能得到充分分析。把不应该匹配的因素列入匹配,企图使病例组与对照组做到尽量一致,则就可能会徒然丢失信息,同时增加了工作的难度,结果反而降低了研究效率,严重时还可引进混杂。这种情况称为匹配过度(over-matching),在现场工作中尤应注意避免。
三、设计与实施
(一)提出假设
根据现场初步调查的情况及疾病分布的特点和已知的相关因素,在广泛查阅文献的基础上,提出本次研究的假设。
(二)选择适宜的对照形式
一般是根据研究目的来选择适宜的对照。如果研究目的是广泛地探索疾病的危险因素,对照可以采用不匹配或频数匹配的方法。如果所研究的是罕见病,或所能得到的符合规定的病例数很少时,则选择个体匹配方法,因为匹配比不匹配的统计学检验效率高。在进行个体匹配时,还需要进一步考虑能否以较小的样本获得较高的检验效率。在1∶M匹配时,M越大效率越高。但当M值大于4时,效率增加就非常有限,而工作量却增大了,因此M值不宜超过4,否则将得不偿失。对于小样本研究以及因为病例的某种构成(如年龄、性别构成)特殊,随机抽取的对照很难与病例组均衡可比,此时个体匹配特别有用。
(三)选择病例和对照
1.病例的选择
首先明确病例的定义相当重要,病例定义是一套标准,借此决定是否应将某一个体纳入研究的病例组。病例定义包括临床标准,尤其在暴发调查时还应有时间、地点和人群分布的限制。临床标准应当是简单而客观的,但还需注意以下几点:①应当尽量采用国际通用或国内统一的诊断标准,以便于与他人的工作比较。②需要自订标准时,注意均衡诊断标准的假阳性率及假阴性率的高低,使宽严适度。如果有定量指标,一般要求诊断标准落在患者与非患者分布曲线的交叉点上。③注意对病例其他特征的规定,如性别、年龄等,其目的是控制外部因素即非研究因素,以增强两组的可比性。④确诊病例的保证措施,如要求通过某一级医院或实验室的诊断,或患者必须经过某项检查等。有时需要另组织专家对病例复查,以保证符合规定的标准。
选择病例时有3种不同情况,即新发病例、现患病例和死亡病例,以选择新发病例为好,其提供的信息较为可靠。
2.对照的选择
在病例对照研究中,对照的选择往往比病例的选择更复杂,更困难。其基本原则:①代表性,即选择的对照要能代表病例来源的总体;②可比性,即除研究因素外,其他有关因素在病例组与对照组间的分布应尽可能一致等。
在实际研究中,选择对照的方法很多,这要取决于所研究的问题、调查的紧急性、调查的可操作性、调查的财力人力等因素。对照主要来源于:
(1)处于危险的全体人群:
当一次暴发只有少数病例时,可以将处于危险的所有人作为对照,例如一次医院感染暴发中住入同一医院病房的所有其他患者。
(2)社区人群:
可以从整个社区随机抽取对照,这是一种比较好的对照,避免了一些选择偏倚,也避免了用相识者作对照的潜在偏倚,获得信息的方法有入户调查、信访或电话调查。随机选择社区人群时要尽量争取他们的合作与支持。
(3)朋友、亲属和邻居:
可要求病例认定的一些亲属或邻居作为可能的对照。这种方法适用于研究不同地区中发生的罕见疾病,在研究中这类对照通常乐于参加。其缺点是这些朋友、亲属和邻居可能与病例有着同样的个人习惯和其他暴露。与病例的既往暴露相似的对照就难以鉴别暴露与疾病的联系,这时也可能出现匹配过度。
(4)医院患者:
可以是同一所医院收治的其他患者,或同一个保健机构登记的其他患者。这种对照选择比较方便,且能保证病例与对照在享受医疗服务条件上的可比性。其缺点是有些疾病可能与所要研究的疾病有相同的危险因素,因此在选择此种对照时应将可能有相同病因的疾病患者排除在外。
(四)估算样本量
病例组和对照组选择方法确定后,可以根据病例对照研究类型及相关参数选择合适的方法估算样本量,具体可参照第三章进行估算。但需要注意的是:①所估计的样本量并非绝对精确的数值,设定的条件不一样,估计的样本量也不一样;②样本量越大,结果的精确度越好,但是样本量过大,常会影响调查工作的质量,增加负担和费用。实际工作中应当权衡利弊;③总样本量相同的情况下,病例组和对照组样本量相等时统计学效率最高。
(五)获取研究因素的信息
主要是获得所研究的因素、其他可疑的因素以及可能的混杂因素等。获取的主要方式是调查表,通过询问调查对象填写问卷收集信息资料,有时需辅以查阅档案、采样化验、实地查看或从有关方面咨询获得。病例与对照的信息来源及收集方法应一致,即使用相同的调查表,询问和回答同样的问题。在制订调查表和获取信息过程中,应注意以下内容。
1.变量的选择
在调查中确定调查变量的数目和每一个变量的具体定义是首要问题,它完全取决于研究的目的或具体目标。与目的有关的变量不但不能少,而且应当尽量细致和深入,即从多个侧面反映该变量的特点,以获得较多的信息。反之,与目的无关的变量一个也不能要。周密合理的设计使变量细化,可以得到较多的信息。至于总的数目,视具体研究目的而定。
2.变量的规定
每项变量要有明确的定义,尽可能地采用国际或国内统一的标准,以便交流和比较。例如,规定吸烟者为每天吸烟至少1支且持续1年以上者,否则不视为吸烟。又如,规定年龄为实足年龄,而不是虚岁。
3.变量的测量
测量是一个广义的概念,定性的指标可通过询问而获得是与否,经常、偶尔和不接触,常吃、偶尔吃和从不吃等信息。口头询问中也可以采用半定量的测量。通过询问、仪器或实验室检查可获得定量的资料。研究中尽可能地采用定量或半定量的量度。
4.如何做到研究变量符合规定
主要是以客观的手段和证据为准绳,以及重复询问加以判定。如询问疾病史时,需要医疗档案如门诊病历、住院病历、检验报告单来核对。询问职业史时,需查工厂的档案。对污染因素的暴露需靠仪器的测量等。
(六)质量控制
质量控制应贯穿于整个研究过程,包括研究目的的确定、疾病与暴露的定义、病例与对照的来源和诊断、调查表内容完整明确、调查员培训等,各环节都可能会出现差错,导致偏倚的出现。常用的质量控制措施有以下几种。
1.调查员选择与培训
选择的调查员应有严谨的工作作风和科学态度,具有调查所需的专业知识。诚实可靠是调查员应具备的基本品质。在资料收集前,应对所有参加调查者进行严格的培训,掌握统一的方法和技巧,并进行考核。有必要时可编制调查员手册。
2.结果核查
现场调查后,首先应对资料进行审查,了解资料的正确性与完整性。对有明显错误的资料应重新进行调查修正或剔除,对不完整的资料要设法补齐。另外,某一调查员的调查结果也可由另一名调查员进行抽样重复调查进行监督。
四、资料整理与分析
经过核查无误的现场原始资料一般通过软件(如EpiData 3.1)录入计算机,建立电子数据库。在录入时尽可能用专业人员双轨录入数据,并利用软件中的数据录入核查功能,以确保数据的准确性,随后进行相关分析。
(一)病例对照研究资料分析步骤
1.统计描述
(1)描述研究对象一般特征:
如性别、年龄、职业、居住地、疾病类型的分布等。另外,应简单描述病例对照研究资料的概况、特点,包括病例及对照的来源、选择方法,病例组占总研究例数的比例,调查工作的质量,无应答者的比例,回忆内容的可信程度等方面。频数匹配时应描述匹配因素的频数比例,个体匹配时应描述匹配的因素。
(2)均衡性检验:
比较病例组和对照组的某些基本特征(主要指可能影响结果的混杂因素,如性别、年龄等)是否相似或齐同,检验两组的可比性。对确有统计学差异的因素,在分析时应考虑其对研究结果可能产生的影响。
2.统计推断
在病例对照研究中,统计推断就是对可疑的暴露因素进行一系列分析。首先进行统计学检验,判断其与疾病之间是否有统计学关联;然后再定量评价该因素与疾病之间的效应值,主要计算指标有比值比(OR)、归因危险百分比(ARP)和人群归因危险度百分比(PARP)等。其中OR是最主要的指标,也是病例对照研究中最核心的指标,常用来评价疾病与暴露关联程度及方向;ARP用来评价有暴露因素的人群其发病有多大程度是该暴露因素引起的;PARP则是用来评价人群中由于暴露或接触某因素所引起的发病占整个人群发病的比例。相关计算过程详见第二章。除进行单因素分析外,还可以通过统计建模进行多因素分析。
下面就病例对照研究资料的分析类型进行详细介绍。
(二)不匹配或频数匹配资料的分析
1.资料的表格整理
每个暴露因素与疾病的关系可整理成表5-4的格式。
表5-4 不匹配和频数匹配病例对照研究资料归纳表
2.统计学检验
可用Pearson χ 2检验或 Z检验。
(1)Pearson χ 2检验的计算公式为:
(公式5-11)
或:
(公式5-12)
一般认为理论频数( T)较小时(如1≤ T < 5),且总例数( n)不太小(如 n > 40)时则需要进行连续性校正,即采用校正的 χ 2检验公式。
(2) Z检验(有些统计书籍称为 u检验):
用Woolf的Logit近似法计算Z值如下:
(公式5-13)
Z > 1.96, P < 0.05; Z > 2.58, P < 0.01。理论上该检验结果与 χ 2检验的结果一致。
3.OR值的计算
(公式5-14)
4.OR置信区间的计算
由样本资料计算出的OR是点估计值,若要估计其总体范围,应考虑到抽样误差的存在,则需计算其置信区间,通常用95%置信区间(95%CI),计算方法有2种。
(1)Woolf法:
OR的自然对数呈近似正态分布,所以lnOR 95%CI为:
(公式5-15)
lnOR的方差:
(公式5-16)
将公式(5-15)取反对数,则可得OR的95%CI。
(2)Miettinen法
(公式5-17)
式中 χ 2为用Mantel-Haenszel法求得的非校正卡方值。该方法计算的OR值范围比用Woolf法求得的更窄些。
5.实例分析
1988年上海甲型肝炎暴发,研究者为了探讨暴发原因,调查了91名甲型肝炎患者与864名对照者既往食用毛蚶的情况,资料如表5-5所示。
表5-5 食毛蚶与甲型肝炎发生与否的关系
因篇幅原因,在此省略有关的统计描述的步骤,以下实例分析均相同。(
1)统计学检验
H 0:食毛蚶与甲型肝炎发病没有关联。
H 1:食毛蚶与甲型肝炎发病有关联。
α = 0.05
χ 2 > 3.84, P < 0.05,拒绝H 0,接受H 1,即食毛蚶与甲型肝炎发病存在关联。
(2)OR值的计算
OR =(83 × 460)/(404 × 8)= 11.81
结果表明,病例组食用毛蚶的比值是对照组的11.81倍,可近似地认为食用毛蚶者发生甲型肝炎的危险性是未食用者的11.81倍。
(三)不匹配分层资料的分析
为了控制混杂因素以及分析混杂效应,常需对资料按可疑混杂因素分层后再进行分析,如性别分为男女,年龄分为不同年龄段等,然后分别分析各层中暴露与疾病的关联。
1.资料的表格整理
每一层的暴露因素与疾病的关系可整理成表5-6的格式。
表5-6 不匹配分层病例对照研究资料归纳表
i表示第i层
2.OR值的计算
对分层资料进行OR值分析,需计算各层的OR值和总的OR值。各层间的OR值计算方法与前述相同,利用各层的四格表数据即可。总OR值的计算则视层间的OR值而定,如果层间的OR值比较接近,说明层间的资料是同质的(可用Woolf的齐性检验法进行检验),则可计算总的OR值,一般采用Mantel-Haenszel法计算,此时计算出来的总的OR计为OR MH,也称为调整后的OR(adjusted OR,aOR)。
(公式5-18)
3.统计学检验
采用Mantel-Haenszel法计算 χ 2
(公式5-19)
(公式5-20)
其中, Ea i)为 a i的理论值:
(公式5-21)
Va i)为 a i的方差:
(公式5-22)
4.总OR值置信区间的计算
(1)Woolf法
(公式5-23)
式中 W i为各层的权重,即:
(公式5-24)
对公式5-23取反对数后,即可得到总OR值的95%CI。
(2)Miettinen法:
OR MH的95%CI的计算可参见公式5-17。
5.分层资料的齐性检验
分层资料是否同质,须进行各层OR的齐性检验。凡是各层间的性别、年龄构成很不一致或各层间的比值比相差很大,提示分层资料之间可能是异质的(non homogeneous),如果统计学检验确认各层间是非同质,用以上公式计算 χ 2 MHOR MH值就没有意义。
(1)计算各层的权重 W i
计算公式同5-24。
(2)进行 χ 2检验:
(公式5-25)
(公式5-26)
其中 n为层数,自由度为 n - 1。
6.计算标准化OR
当分层资料各层间的OR相差较大时,经检验证实存在异质性,或者虽然没有达到统计学差异,但异质性的可能性很大时,不宜计算总的OR值和 χ 2值。此时,可以计算每层的OR,并将每一层看着性质完全不同的总体,或根据暴露、未暴露对象控制变量的分布,将各层OR进行加权计算标化的OR,还可以通过计算标化死亡比(SMR)或标化率比(standard rate ratio,SRR),用以说明暴露组与非暴露组死亡率或发病率的比值。
(公式5-27)
(公式5-28)
SMR是对病例组有暴露史进行标准化,SRR是对病例组无暴露史者进行标化。
7.实例分析
一项关于口服避孕药与心肌梗死的病例对照研究,考虑到年龄与口服避孕药的行为有关,也与心肌梗死的发生有关,可能是个混杂因素,故可按年龄将研究对象分为< 40岁和≥40岁两层(表5-7)。
表5-7 口服避孕药与心肌梗死的病例对照研究
(1)各层的OR计算:
根据公式5-14计算即可,结果如表中所示。
(2)齐性检验:
根据公式5-24计算每一层的权重 W i,两层的权重分别为6.19和4.54。
P > 0.05,经同质性检验两层OR差异无统计学意义。
(3)计算总的OR
如果不进行分层,则根据原始总数据计算的粗OR值(crude OR,cOR)为:
(4)统计学检验
自由度 df = 1, P < 0.001。
将资料按可疑混杂因素年龄进行分层,经过Mantel-Haenszel法调整后计算 aOR为2.79,Mantel-Haenszel法 χ 2检验显示差别有统计学意义,说明口服避孕药与心肌梗死之间有关联。如果未分层,则计算的 cOR为2.20, aORcOR,说明年龄在口服避孕药与心肌梗死之间关系起到了混杂作用,混杂偏倚的大小= = = -21.14%,说明由于年龄的混杂作用,使口服避孕药与心肌梗死的关联低估了21.14%。
(5)OR置信区间的计算
(四)分级暴露资料的分析
病例对照研究中,为了增强判断暴露与疾病之间的因果关系,将危险因素分等级。此时需作趋势检验,分析疾病与暴露是否有剂量反应关系。
1.分级暴露资料表格的整理
如表5-8。
表5-8 分级暴露病例对照研究资料归纳表
a 0、b 0分别相当于四格表的c和d,即不同暴露水平的分级与无暴露史或最低水平的暴露比较
2.计算各分级的OR值
一般以没有暴露或最低水平的暴露为参照,计算各级相对于最低水平的OR值,计算方法同公式5-14。
3.趋势性 χ 2检验
进行自由度 df = 1的趋势性 χ 2检验公式为:
(公式5-29)
其中
T 3 = n i x i 2x i为暴露剂量的等级值。如是数值变量资料,评分的原则是与分组间隔相适应。如是分类变量资料,评分的原则是1、2、3……
4.实例分析
为研究妇女妊娠期吸烟与胎儿发生先天性畸形的关系,某调查组调查了1369名病例及2968名对照,资料整理如表5-9。
表5-9 妊娠期吸烟与胎儿先天性畸形的病例对照研究
(1)各级OR值的计算:
以吸烟量为0支/天组作为对照,第二级(吸烟量1~10支/天)的OR值计算如下:
其他各级计算如此类推。
(2)趋势性 χ 2检验:
暴露因素吸烟量是按“支/天”来分级的,故根据分组间隔,分别给予评分0、5、15、25、35,将表5-9中资料代入公式计算得:
T 1 = 889 × 0 + 182 × 5 + 203 × 15 + 55 × 25 + 40 × 35 = 6730
T 2 = 2877 × 0 + 608 × 5 + 623 × 15 + 141 × 25 + 88 × 35 = 18 990
T 3 = 2877 × 0 2 + 608 × 5 2 + 623 × 15 2 + 141 × 25 2 + 88 × 35 2 = 351 300
自由度 df = 1,故 P < 0.05。检验结果表明,随着妊娠妇女吸烟量的增加,胎儿发生先天性畸形的机会也增加。
(五)1∶1匹配资料
1.1∶1匹配资料的表格整理
如表5-10。
表5-10 1∶1匹配病例对照研究资料归纳表
a、b、c、d的数值分别代表匹配病例对照的对子数
2.统计学检验 用McNemar χ 2计算 χ 2值,以检验有关暴露史与疾病的联系。
(公式5-30)
(公式5-31)
b + c≥40时用公式5-30计算检验统计量;当20≤ b + c < 40时用公式5-31计算检验统计量;当 b + c < 20时直接计算确切概率。
3.OR值及其置信区间的计算
(公式5-32)
OR 95%置信区间的计算如式5-17,或用公式:
(公式5-33)
4.实例分析
如上例分析上海地区甲型肝炎暴发与食毛蚶关系的例子,现采用1∶1匹配病例对照研究,获得数据如表5-11。
表5-11 上海市某区急性肝炎病例与健康对照的配对研究
(1)统计学检验
χ 2 = 9.58 > 3.84, P < 0.05,则可认为食毛蚶与急性甲型肝炎之间有关联。
(2)OR值及其置信区间的计算
OR的95%置信区间为2.83,即(1.92~5.45)。
OR值为2.83,说明食毛蚶得急性甲型肝炎的危险性是不食毛蚶者的2.83倍。
(六)1∶2匹配病例对照研究
1.1∶2匹配资料的表格整理
如表5-12。
表5-12 1∶2匹配简化法资料归纳表
+:表示暴露;-:表示非暴露
2.统计学检验
(公式5-34)
式中 b的期望值为: Eb)= b + d
b的方差为: Varb)= b + d
c的期望值为: Ec)= c + e
c的方差为: Varc)= c + e
3.OR值及其置信区间的计算
(公式5-35)
OR的95%置信区间的计算仍然采用Miettinen法,见公式5-17。
4.实例分析
某研究者为了寻找导致婚宴食客发生食物中毒的原因,重点对咸蛋黄焗肉蟹与副溶血性弧菌食物中毒的关系进行研究,采用1∶2匹配的病例对照研究进行分析,数据见表5-13。
表5-13 食用咸蛋黄焗肉蟹与副溶血性弧菌食物中毒的关系
+:食用咸蛋黄焗肉蟹;-:未食用咸蛋黄焗肉蟹
(1)统计学检验
b的期望值为: Eb)= b + d)= (42 + 11)= 35.333
b的方差为: Varb)= b + d)= (42 + 11)= 11.778
c的期望值为: Ec)= c + e)= (17 + 23)= 13.333
c的方差为: Varc)= c + e)= (17 + 23)= 8.889
自由度 df = 1,故 P < 0.05,可认为咸蛋黄焗肉蟹与副溶血性弧菌食物中毒有关系。
(2)OR值及其置信区间的计算
OR的95%置信区间为 OR = 1.69 ,即(1.08~2.66)。
OR值为1.69,说明食用咸蛋黄焗肉蟹发生食物中毒的风险是不食用者的1.69倍,其95%的置信区间为(1.08~2.66)。
(七)统计建模的应用
病例对照研究的优势之一就是可以同时研究多个因素,但上述分析方法一般只能进行单个因素的分析,效率相对较低。另外,病例对照研究在探讨某因素效应时,常受到研究因素以外的其他因素(混杂因素)的干扰。虽然分层分析是控制混杂的经典方法,但也存在一定的局限性。如:①只能将因素分成2个或几个水平,对定量资料需先分组后再进行分析,这就损失了部分信息;②只能控制2~3个混杂因素的干扰,并且各因素各水平的组合(每一层)中均需足够的观察人数;③只能判断研究因素对发病的影响是否存在,不能对危险因素的效应值进行定量分析,难以对几个危险因素的作用大小及交互作用进行比较和分析。因此,需要借助于一些统计模型来分析每个因素与疾病的关联强度及它们之间的相互关系。这些统计模型中使用最多的是Logistic回归(Logistic regression)模型,一般以疾病发生与否作为应变量,影响疾病发生的因素为自变量。根据病例对照研究设计不同,可以分为针对非匹配或频数匹配病例对照研究的非条件Logistic回归分析和针对个体匹配病例对照研究的条件Logistic回归分析。
在进行Logsitic回归模型建立与分析时,一般还是应从详细的各变量的单因素分析开始,然后再对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间必要的一些变量变换。再在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选。任何在单变量检验中 P值< α者,以及被认为是具有生物学重要意义的变量(无论在单因素分析时是否有统计学意义)均应成为多变量模型的候选变量。最后在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。也有学者认为,不管单变量分析结果如何,都应将所有相关的变量纳入多因素模型。这取决于数据集的大小,当研究变量较少,观察对象较多(样本含量较大),并且缺失值不多时,这种方法是有效的。当资料不支持这种分析时,所得估计系数就不稳定,或很大,同时标准误也很大。所以,在建模时,除了从统计学角度考察变量的重要性,更要结合专业知识考虑最终纳入模型的多因素。具体方法可以参照相关书籍。
五、偏倚及其控制
病例对照研究是一种回顾性观察研究,比较容易产生偏倚,常见的偏倚有选择偏倚、信息偏倚和混杂偏倚。
(一)选择偏倚
由于选入的研究对象与未选入的研究对象在某些特征上存在差异而引起的系统误差。这种偏倚常发生在研究的设计阶段。如因各种疾病的入院率不同导致病例组与对照组某些特征上出现系统差异(入院率偏倚);现患病例和新发病例之间存在的系统差异(现患病例-新发病例偏倚)等。
要减少选择偏倚则需要在设计阶段尽量随机选择研究对象,且在多个医院选择;另外调查时应明确规定纳入标准为新发病例。
(二)信息偏倚
信息偏倚是指在收集资料过程中由于测量暴露或结局的方法有缺陷造成的系统误差。如病例和对照回忆既往暴露情况时,由于暴露事件发生久远,回忆起来难免记忆不清,影响资料的真实而带来偏倚(回忆偏倚);病例与对照的调查环境与条件不同,或者调查技术与质量不高或出差错,以及仪器设备的问题等均可产生调查偏倚。
要减少信息偏倚需重视问卷的提问方式和调查技术,调查项目应易于理解和回答;调查员需经过严格培训,采取复查等方法做好质量控制,使用仪器前应校准,严格掌握试剂的使用要求等。
(三)混杂偏倚
当研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象或影响称为混杂,其所带来的偏倚称为混杂偏倚。
在设计时利用限制、匹配的方法;资料分析阶段采用标准化、分层分析或多因素统计分析模型处理,可适当控制混杂偏倚。
六、病例对照研究的衍生类型
近年来,随着流行病学研究工作的发展与深入,要求流行病学研究方法有所提高和改进,因而在病例对照研究中衍生了多种改进的、非上述传统意义的病例对照研究方法。
1.巢式病例对照研究(nested case-control study)
将队列研究与病例对照研究相结合的一种双向研究设计,是在进行队列研究的基础上,收集队列成员的暴露信息以及有关的资料,确认随访期内发生的病例数,然后以队列中发现的病例作为病例组,对照组来自同一个队列,进行病例对照研究分析。巢式病例对照研究兼具病例对照研究与队列研究的优势,其优点是:①病例与对照的暴露资料均在发病或死亡之前获得,暴露与疾病的时间先后顺序清楚,没有回忆偏倚;②病例组与对照组可比性好;③可提高检验效率,因为队列人群研究因素的暴露率一般较高,并且队列人群均有共同的开始暴露时间,而一般病例对照研究设计通常只取整个暴露期的一个断面。
2.病例-队列研究(case-cohort study)
也是一种队列研究与病例对照研究结合的设计形式。队列研究开始时,在队列中按一定比例随机抽样选出一个有代表性的样本作为对照组,观察结束时,队列中出现所研究疾病的全部病例作为病例组,与上述随机对照组进行比较。病例-队列研究与巢式病例对照研究的不同之处在于:①对照是随机选取,不与病例进行匹配。②随机对照组中的成员如发生所研究的疾病,既作为对照,又同时作为病例。由于病例和对照组的重叠,如果想达到同样的统计效力,病例-队列研究通常需要比同样病例数的病例对照研究选择更多的对照。当然,如果疾病是不常见的,病例-队列研究需要的额外对照数将很少。③可以同时研究几种疾病,不同的疾病有不同的病例组,但对照组都是同一组随机样本。
3.单纯病例研究(case only study)
也称病例-病例研究(case-case study)或病例系列研究(case series study)。单纯病例研究是近年来被广泛应用于疾病病因研究中评价基因与环境交互作用的一种方法,由于比较的两组(一般按基因型分组)均为病例,故称为病例-病例研究。该方法仅通过某一疾病患者群体来评价基因型与环境暴露的交互作用,这种设计可以免除从无病的对照组收集资料特别是生物标本的麻烦,适用于研究两组病因的差异部分,而其相同或近似的危险因素则将被掩盖或低估。
4.病例交叉研究(case-crossover study)
其基本思想就是比较相同研究对象在急性事件发生前一段时间的暴露情况与未发生事件的某段时间内的暴露情况,即疾病发生时病例的暴露状态与同一个体较早阶段暴露状态的分布相比较,如果暴露与少见的事件(或疾病)有关,那么刚好在事件发生前一段时间内的暴露频率应该高于更早时间内的暴露频率,该研究比较适合于罕见的急性事件。