上QQ阅读APP看书,第一时间看更新
第二节 研究对象的选择
能否根据研究目的正确选择研究对象,直接关系到研究结果的真实性,因此在设计中要对研究对象做出明确的规定。虽然不同的研究目的和流行病学研究类型不同,研究对象的要求不同,但都有其共同之处。我们通常考虑选择流动性小、居住地相对稳定和交通方便的研究对象,以便于研究的实施;研究对象生活和居住的社区内有较好的医疗卫生设施,便于进行体格检查和实验室检测;研究对象在人口学和其他特征上对目标人群具有良好的代表性;研究对象具有较高的拟研究疾病的患病率或发病率、具有较高的拟研究的暴露因素的流行率,这样易于得到结局变量;同时要求研究对象能够认真遵循研究的要求,配合研究工作。在选择研究对象时要注意以下几个问题。
一、研究对象的纳入和排除标准
在现场流行病学调查中,如果明确了研究对象的特征(年龄、性别、职业等)、发病时间、发病地点及临床表现后,则可为确定调查对象提供足够的信息。例如,有些疾病首先侵犯一定年龄组或种族;患某种疾病与某类职业有关;有些疾病只发生在居住同一社区、拥有同一供水系统或空调系统的人群中,或只有学校中某些学生、工厂中某些工人、接触水田的某些农民发病,或许只有那些到餐馆就餐的人发病。但有时要确定谁是高危人群或易感人群非常困难,尤其是在流行区域大和疾病累及多个年龄组又没有明显特征的情况下,如确定预防接种或预防服药的对象有时难以判断。
为了确保选择到符合设计要求的研究对象,不仅要制订详细的研究对象纳入标准,还要有排除标准。纳入标准规定了符合的条件,如果具备这些条件则可以作为研究对象;排除标准规定了在纳入条件基础上的不符合条件,如果具备这些特征则需要剔除这些研究对象,通过这样的程序即可保障选择到合适的研究对象。在确定纳入和排除标准时,首先要对研究对象的人口学特征做出明确的规定,然后规定其他特征或条件,例如疾病及其合并症、可能的禁忌证、危险因素的暴露情况、知情同意书(informed consent)的签署情况、研究对象的依从性等。所有的标准都要采用国际通用或国内统一的、规范和标准化的诊断或方法,以便与他人的工作做比较。但要注意,被排除的对象愈多,结果推广的面愈窄,因此在设计时要综合考虑,慎重制订排除标准。
二、抽样调查方法
将所有研究对象都纳入到调查中时,才能取得总体参数,没有抽样误差。但实际工作中往往受到人力、物力、资源和时间等条件的限制,无法对所有研究对象进行调查,因而采用从研究对象总体中通过抽样的方法选取一定数量的对象构成样本(本次研究的调查对象),然后从样本推论总体,用样本的指标估计总体参数。
(一)普查
针对一定目的,在一定时间内对特定范围的人群内所有对象进行调查,称为普查(census)。在现场流行病学中可用于了解慢性病的患病及急性传染性疾病的疫情分布,如现场调查中针对疫区开展普查;也可用于高发病率疾病的筛检,如妇女宫颈癌普查。
(二)抽样调查
使用抽样调查(sampling study)的原因是实际调查工作中,一方面常不需查出人群中某病的全部患者或可疑患者,只需了解某种疾病流行水平和有关因素;另一方面因普查工作量大,力不能及,就从该人群中有计划地抽出必要数量的人进行调查。抽样可分为非随机抽样和随机抽样,前者如典型调查。随机抽样的样本获得须遵循随机化原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究对象,以保证样本的代表性。常见的随机抽样方法有单纯随机抽样、系统抽样、分层抽样、整群抽样和多阶段抽样。
1.单纯随机抽样(simple random sampling)
也称简单随机抽样,是最简单、最基本的抽样方法。从总体N个对象中,利用抽签或其他随机方法(如随机数字)抽取n个,构成一个样本。它的最重要原则是总体中每个对象被抽到的概率相等。当总体和样本含量较大时,实际操作比较困难,故单纯随机抽样在现场流行病学调查中很少单独使用。但单纯随机抽样是理解随机抽样的基础,在多阶段抽样中也常用到,而且后面估计样本大小的方法也多基于这种抽样方法。
2.系统抽样(systematic sampling)
即按一定比例或一定间隔抽取调查单位(如1个人或1户)的方法。例如某乡有5000户,2万人口,欲抽样1/5家庭做家庭健康调查,则可每5户抽1户,抽到的户即作为调查单位。抽样起点应是随机的。
3.分层抽样(stratif i ed sampling)
是把总体按若干标志(如年龄、性别、居住条件、文化水平等)分成若干层,然后在每层内抽取调查单位。由于各层中观察值变异度小,其抽样误差较其他抽样为小,代表性能亦较好。分层抽样又分为两类:一类叫按比例分配(proportional allocation)分层随机抽样,即各层内抽样比例相同;另一类叫最优分配(optimum allocation)分层随机抽样,即各层抽样比例不同,内部变异小的层抽样比例小,内部变异大的层抽样比例大。
4.整群抽样(cluster sampling)
是将总体分成若干群组,抽取其中部分群组作为观察单位组成样本。若被抽到的群组中的全部个体均作为调查对象,称为单纯整群抽样(simple cluster sampling);若通过再次抽样后调查部分个体,称为二阶段抽样(two stage sampling)。例如,调查20所中学约20 000名学生的近视患病率,拟抽查1/5的学生,随机抽取4所学校进行全体调查(假定每所学校有1000名学生左右)即可满足样本大小,并且实行起来方便。整群抽样要求各“群”内变异和总体内变异相似。
5.多阶段抽样(multistage sampling)
是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将以上抽样方法结合使用,其在大型流行病学调查中常用。其实施过程为:先从总体中抽取范围较大的单元,称为一级抽样单位(primary sampling unit,PSU)(如省、自治区、直辖市),再在每个抽到的一级单元中抽取范围较小的二级单元(县、乡、镇、街道),依此类推,最后抽取其中范围最小的单位(如村、居委会)作为调查单位。多阶段抽样可以充分利用各种抽样方法的优势,克服各自的不足,并能节省人力、物力;其缺点是在抽样之前要掌握各级调查单位的人口资料及特点。
按容量比例概率抽样(probability proportionate to size sampling,PPS)是一种常用的不等概率抽样方法。它是一种使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式,也称“概率与元素的规模大小成比例的抽样”。在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的概率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大。PPS抽样在大型现况研究中使用较多,是世界卫生组织(World Health Organization,WHO)推荐的现已被发展中国家广泛采用的调查免疫接种率的常规方法(详见相关专著)。
三、样本含量的估计
样本含量(sample size)是在保证研究结论具有一定可靠性的前提下所需要的最小观察单位数,常需在研究设计阶段对样本含量进行科学的估计。样本含量过小、过大都有其弊端:样本量过大,诚然会降低抽样误差,但同时会增加实际工作的困难,导致人力、物力和时间上的浪费;过多观察对象的引入,可能影响调查数据的质量;另外,过大的样本量虽可得到统计学上的差异,但缺乏实际推广意义。样本含量过小,抽样误差则会较大,所得研究指标不稳定,用以推断总体的精密度和准确度较差;此外,样本含量越小,检验功效亦越低,会使应有的差别不能显示出来,出现“假阴性”结果。因此,正确地估计样本含量是现场流行病学调查设计中的一个重要环节。
但是,样本含量的估算又是个比较复杂的问题。从样本含量的估算方法上看,有3种途径:一种是经验法,即根据前人研究结果总结的经验或者咨询同行专家而确定样本例数,该方法较为粗略;一种是查表法,是根据已知的条件查样本例数估计表确定样本含量,但该方法易受列表的限制;再一种计算法,即根据确定的条件代入专用公式计算确定样本含量,此种方法便于掌握,也最为常用。本节从实际应用的需要出发,分别介绍描述性研究和分析性研究或干预性研究中的样本量估计方法。
(一)影响样本含量估计的因素
1.第一类错误的概率
即 α检验水准。 α越小所需样本含量越多。对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大。 α通常取0.05或0.01。
2.检验功效
即1 - β或第二类错误的概率 β。检验功效越大,所需样本含量越多。一般要求检验功效在0.80及以上。
3.研究因素对研究事件的效应大小
即总体参数间的差值 δ(容许误差)。 δ越大,所需样本含量愈小。 δ可通过预试验估计,或根据专业要求由研究者规定。在分析性流行病学研究中, δ与发病率(或暴露率)和RR(或OR)有关,发病率越低或RR越接近1,所需样本含量越大。
4.总体标准差
即 σ或总体概率 π。 σ反映研究指标的变异度, σ愈大,所需样本含量自然愈多。总体概率 π越接近0.5,则所需样本含量愈多。 σ或 π一般未知,多由预试验、查阅文献、经验估计获得。
5.研究中比较组的多少
研究中比较的组别越多,则样本含量越大。
6.拟分析变量的多少
如果一项研究有多个研究变量,根据不同变量估计出的样本含量通常不等,此时应以最大样本量为研究样本。如果因条件限制不能满足多个研究变量所需的样本量,应分清主要指标和次要指标,并尽量满足主要指标所要求的样本量。
7.研究所采用的抽样调查方法
一般而言,整群抽样>单纯随机抽样>系统抽样>分层抽样的抽样误差,因此各种抽样方法所需样本量也不同,整群抽样一般需要更大的样本量,而分层抽样所需样本量则较少。如果采用多阶段抽样,还要考虑复杂抽样设计(complex sampling survey)的抽样权重,样本含量的计算更为复杂。后面介绍的样本含量的计算都是基于单纯随机抽样,该种方法抽样误差计算简便,也是其他抽样方法的基础。
(二)不同流行病学研究类型的样本含量估计方法
1.描述性研究中样本含量的估计
描述性研究的主要目的是估计总体参数,在估算样本含量时主要考虑 α、 δ、 σ或 π,根据研究指标类型的不同可以分为:
(1)单样本均数的样本含量估计:
通过抽样调查了解人群某些指标(如血压、身高、总胆固醇等)的平均水平时,其样本含量可通过下式估算:
(公式3-1)
(公式3-2)
式中N为样本含量, δ为容许误差,即样本均数与总体均数之差, σ为总体标准差,该指标通常未知,常以 S(样本标准差)来代替。 Z α是检验水准 α下的正态临界值, α有单双侧之分,当取双侧 α = 0.05时, Z α/2 = 1.96。公式3-2为有限总体的校正公式,需要将公式3-1中计算得到的 N代入公式3-2做校正,求得样本量 N C。若 N/ N 总很小,如小于0.05,这种校正也可以省去。另外为了实际应用方便,公式3-1也可简写为 。
【例3-1】 欲调查成年男性血清胆固醇含量,根据以往的经验,血清胆固醇含量的标准差为60mg/dl,要求误差不超过10mg/dl,若 α取0.05(双侧),需调查多少人?
(2)单样本频率的样本含量估计:
通过抽样调查了解人群某种疾病的发病水平时,其样本含量可通过二项分布的原理估算:
(公式3-3)
上式中 π估计的总体患病率,其他指标含义同前。当 α取0.05(双侧)时,上式可简写为 。
【例3-2】 某疾病预防控制中心为了制订驱蛔虫计划,编制经费、药品预算,需要抽样调查当地儿童的蛔虫感染率。根据以往的经验,儿童蛔虫感染率为30%左右,若规定容许误差 δ = 0.1 π(即± 3%), α取0.05(双侧),则样本含量至少应为多少人?
样本含量应有896人。
2.分析性研究或干预性研究中样本含量的估计
这两类研究的主要目的在于推断病因假设或者验证病因假设,即推断欲比较的效应间有无差别,因此估算样本含量时除了考虑 α、 δ、 σ或 π外,还需考虑检验效能1 - β。根据资料类型和统计设计类型的不同,从以下4个方面介绍样本含量的估算。
(1)配对设计两样本均数或单样本均数的检验:
主要目的在于了解治疗前后或不同处理方案作用后某项指标有无差异,或样本来自的未知总体均数是否与已知总体均数相同,其样本含量的估算采用公式3-4。
(公式3-4)
式中, Z β是β所对应的正态临界值,使用时只取单侧,其他指标含义同前。
【例3-3】 为了解汽车司机的脉搏数是否高于一般人群,某研究者随机抽取了15名汽车司机作预试验,测得其标准差为S = 7.2次/分。假如汽车司机的脉搏数高于一般人群3.0次/分才有专业意义,问 α = 0.05, β = 0.10时,需要多大样本含量?
本例 S = 7.2次/分, δ = 3.0次/分, α和 β均取单侧,查 Z界值表,得Z α = 1.645,Z β = 1.282,代入公式3-4:
如果为配对设计,则 σ取 σ d, N为对子数。
(2)完全随机设计两样本均数的检验:
其样本含量的计算采用公式3-5。
(公式3-5)
Q 1和 Q 2为两组的抽样比,即 Q 1 = n 1/ N, Q 2 = n 2/ N。当两组观察例数相等时, Q 1 = Q 2 = 0.5, N为两组样本量之和。
【例3-4】 欲比较A、B两种降压药对高血压患者的疗效有无差别。现以收缩压为例,据文献报道:服用A药后血压平均下降26.2mmHg,服用B药后血压平均下降23.7mmHg,若 σ = 5.0mmHg, α取双侧0.05, β取0.20,如果两组例数相等,每组需要多少病例?如A药组样本含量占整个样本含量的60%,则每组又各需多少病例?
已知 σ = 5.0mmHg, δ = 2.5mmHg, α取双侧0.05, β 取单侧 0.20,查 Z界值表,得 Z α = 1.96, Z β = 0.842。
当两组样本含量相等时, Q 1 = Q 2 = 0.5,代入公式3-5,可算得:
n 1 = n 2 = 2/ N = 63,即每组均需病例63例。
当A药组样本含量占整个样本含量的60%时, Q 1 = 0.6, Q 2 = 0.4,代入公式3-5,可算得:
则A药组样本含量 n 1 = 131 × 0.6 = 79,B药组样本含量 n 2 = 131 × 0.4 = 52。由上可见,当其他条件不变时,如果两组观察单位数相等,会节约样本含量。
(3)完全随机设计两样本频率检验
(公式3-6)
式中 π 1和 π 2为两样本来自的总体率(在队列研究和实验研究中, π 1和 π 2分别指两组的发病率或阳性率,若总体率未知,也可用样本率代替) π c为两总体合计概率, π c = Q 1 π 1 + Q 2 π 2;其他指标含义同前, N为两组样本量之和。
【例3-5】 拟进行一项实验研究,研究某镇痛药的不同剂量镇痛效果有无差别。预实验中,2.5mg剂量组的有效率为55%,5.0mg剂量组的有效率为65%。若取 α = 0.05(单侧), β = 0.20,如果两组例数相等,每组需要多少例?
已知 π 1 = 0.55, π 2 = 0.65, π c = 0.55 × 0.5 + 0.65 × 0.5 = 0.60
故每组各需296例,共需592例。
病例对照研究设计样本含量的计算方法和队列研究及实验研究相同,只是由于病例对照研究不能计算发病率,而只能计算暴露率,因此 π 1和 π 2分别指病例组和对照组的暴露率,两者间有如下关系:
,π c为合计率。
【例3-6】 拟进行一项病例对照研究,研究吸烟与肺癌的关系。估计吸烟者的相对危险度为2.0,人群吸烟率为20%,设 α = 0.05(双侧) ,β = 0.10(单侧)。估算当病例和对照比例为1∶1,以及1∶1.5时需要的样本含量。
已知 π 2 = 0.20,则
π c = 0.333 × 0.5 + 0.20 × 0.5 = 0.267
即病例组和对照组各需调查231例。
将 π c = 0.333 × 0.4 + 0.20 × 0.6 = 0.2532,Q 1 = 0.4,Q 2 = 0.6代入公式3-6,得
病例组 n 1 = 477 × 0.4 = 191
对照组 n 2 = 477 × 0.6 = 286
(4)配对设计两样本频率的比较:
如病例和对照采用1∶1匹配时,样本含量的计算可采用Schlesselman推荐的公式。
(公式3-7)
式中, π = OR/(1 + O R), m为结果不一致的对子数。
则需要的总对子数为:
(公式3-8)
【例3-7】 研究口服避孕药与先天性心脏病的关系,设 α = 0.05(双侧), β = 0.10(单侧),对照组暴露比例 π 2 = 0.3,估计的 OR = 2,若采用病例和对照采用1∶1匹配的方式,问需调查多少例。
已知 π 2 = 0.30, OR = 2,则 π 1 = = = 0.46
即需调查186对。
(三)样本含量估计软件
1.R语言
是一种统计运算和图形制作的语言环境,是一款自由软件,并不是专业的样本含量估计软件,但由于其开源的特点,开发了大量拓展程序包,应用范围几乎涵盖了自然科学和社会科学的各个领域。其中包含有众多计算样本含量的程序包、例如,epiR包可进行流行病学分析;pwr分析包可进行power分析和样本含量估计;Piface包提供了一个与R交互的Java图形用户界面,包含各个计算样本量的方法,在探索样本大小、效应值、显著性水平和预期功效水平的改变对其他参数的影响时非常有用;Power SurvEpi包主要运用流行病学研究的生存分析中功效与样本量的计算;gap提供了一些病例队列研究设计中功效与样本量的计算。由于是自由软件,以上的程序包及软件均可从相关网站上自由下载(CRAN:http://cran.r-project.org)。
2.Query Advisor
是由Statistical Solutions公司开发的专业样本含量估算软件,提供绝大多数研究设计类型的样本量估计及把握度的估算,以及符合FDA/ICH指导原则的样本含量估算报告。
3.Sample Power
是SPSS公司开发的专业样本含量估算软件,该软件内容丰富,专业性强,可以在置信水平、统计功效、效果大小及样本含量大小间取得最佳的平衡。
4.PASS(power analysis and sample size)
是Jerry开发的专业样本含量估计和效能分析软件,该软件内容丰富,专业性很强,能对数十种统计学检验条件下的检验效能和样本含量进行估计,主要包括均数间比较、方差分析、相关和回归分析、计数资料的假设检验和病例随访资料分析等。该软件界面友好,操作简单,通过动态计算控制,实现及时对检验效能做出预测。
感兴趣的研究者可自行查找相关资料学习使用。
四、知情同意书的签署
在进行研究前,研究对象必须对他们参加的研究所涉及的问题知情,并同意参加此项研究,研究者要要求其签订知情同意书,知情同意书的内容主要包括:①说明研究范围、研究目的、预期的治疗结果等;②描述潜在的危险因素及可预知的危害以及可能或预期的益处;③陈述如何保密;④指出研究对象可以自愿选择参与或不参与研究,并且任何时候均可退出研究等。知情同意体现了医学伦理学中的“尊重”原则,即研究对象有权了解该研究对健康的危害性及可获得的结果。