第一节 统计学的几组基本概念
应用统计分析有几组较为重要的基本概念,掌握它们可以全面地理解什么是统计学。
一、指标与变量
指标(index)即观察指标,是由研究目的确定的观察对象的内在属性特征或其相关的影响因素。例如,需要研究某地区饮用和不饮用早餐奶等对小学生身体生长发育(如身高、体重等)的影响,那么身高、体重反映了小学生身体生长发育的特征,分别称为研究的身高指标、体重指标,影响身高体重的性别、年龄等因素,称为研究的性别指标、年龄指标等。
变量(variable)即观察变量,也称变化的量,实际上就是观察指标,一般特指用于数学、统计或软件计算的分析指标。例如,反映小学生身体生长发育的身高、体重指标,在统计计算时,分别称为身高变量、体重变量。
某一变量的观察值或测量结果即为变量值,如测得某个小学生的身高1.20m、体重30kg,可分别称该小学生身高的变量值为1.20m、体重的变量值为30kg。
笼统地讲,统计学是一门关于变量(实际上是变量值)分析的科学。
二、影响变量与结果变量
变量按是否影响其他变量,或是否受到其他变量的影响分为影响变量和结果变量。影响变量(affect variable),也称自变量(independent variable),是指自身变化并影响结果变量变化的量;结果变量(outcome variable)又称因变量(dependent variable)或反应变量(response variable),是指受到影响变量的影响而变化的量,看作影响变量变化的结果。如果分析某地小学生体重依赖于年龄的变化规律,那么年龄可看作是影响变量,体重则为结果变量;如果分析不同性别之间身高是否存在统计学差异,那么性别是影响变量,身高是结果变量。
分清楚变量特征,即分清楚结果变量与影响变量,是选择统计分析方法的重要步骤。一般而言,那些相对固有的、不易改变的指标(如性别、籍贯等),或易于被人控制的处理因素(如实验分组、疫苗接种与否等)作为影响变量或影响因素;而那些容易变化,或较难确定的观察效应或结局指标(如疗效、患病与否等)作为结果变量,看成是最后观察或反应的结果。但影响变量和结果变量的划分是相对的,视研究目的和具体情况而定,有时甚至不加区分。
可以讲,统计学是一门关于结果变量与影响变量(简称变量与变量)间关系分析的科学。
三、总体与样本
总体(population)是根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察对象某变量值的集合。笼统地讲,总体可以是一个社区、一个特定的人群、一组血样、一群细胞等;具体而言,总体是所有观察对象的某个观察指标(即变量)的全部观察值。例如,在饮用和不饮用早餐奶对某地区小学生身体生长发育影响的研究中,该地区符合条件的所有小学生常常被认为是该研究的总体,实际上还要具体区分不同指标的总体,该研究的身高总体是所有研究对象的身高值,该研究的体重总体是所有研究对象的体重值。研究的总体中,有的研究对象(或变量值)的个数是可数的,称为有限总体,有的是不可数的,称为无限总体。
在实际应用中,由于往往无法或者没有必要得到总体中每个变量的值,所以常常应用随机抽样的方法研究其中的某一部分。所谓随机抽样,就是一种从总体中随机抽取具有代表性的部分个体进行统计分析并用来研究总体的方法。从总体中随机抽样获得的部分观察对象的变量值称为样本(sample),样本中变量值的个数称为样本含量(sample size)。
已经证明,一定样本含量的样本信息可以推断其总体的相关特征。从这个意义上讲,统计学是一门研究样本,推论总体的科学。
四、同质与变异
同质(homogeneity)是指研究对象具有相同或相近的性质、条件或影响因素。在上述早餐奶对某地区小学生身高体重影响的研究中,该地区全体小学生可认为是同质的,因为这些研究对象具有相同的地域、相同的身份、相近的年龄……许多研究中常常给出筛选对象的诊断标准、纳入标准和排除标准,目的就是为了保证研究对象的同质性。
同质研究对象的某些研究特征又具有差异性,这种现象称为变异(variation)。在早餐奶的研究中,该地区全体小学生具有同质性,但他们的身高有高有矮、体重有轻有重……表现为变异。
同质总体中个体间的变异是绝对的,这是统计学赖以存在的基础。从这个角度来看,统计学是一门研究变异的科学。
五、参数和统计量
参数(parameter)是描述研究总体特征的指标。用希腊字母代表,如:总体均数μ、总体率π、总体标准差σ等。
统计量(statistic)是根据样本的变量值计算的、描述样本特征的指标。用拉丁字母代表,如:样本均数、样本率p、样本标准差S等。
在总体参数未知时,常常通过样本的统计量对总体参数进行估计或假设检验。所以,统计学是一门研究样本统计量估计总体参数的科学。
六、本质差异和抽样误差
不同样本的统计量或分布存在不同程度的差异,常有两个原因:一是本质差异,二是抽样误差。
本质差异(essential difference)是指不同的研究因素影响或作用于不同的研究总体,导致不同总体参数之间或相应样本统计量之间存在的差异。例如,饮用和不饮用早餐奶可引起两组身高体重的不同,视为研究因素导致的本质差异。
抽样误差(sampling error)是指由于随机抽样的原因引起的样本统计量与总体参数或不同样本统计量之间的差异。例如,饮用同量早餐奶的全部小学生平均身高1.20m,随机抽取了其中10名小学生的平均身高为1.19m,这两个平均身高不等视为抽样误差。又如,饮用同量早餐奶的小学生如果用随机分组方法分成两组,一般来讲两组的平均体重不完全相同,也可看作是抽样误差。
引起抽样误差的直接原因是随机抽样,内在原因是总体中个体间的变异。因为个体变异的绝对性,所以抽样误差不可避免,但抽样误差的大小可用统计学方法予以估算。从此意义来理解,统计学则是一门研究抽样误差的科学。
七、正态分布与偏态分布
正态分布(normal distribution),又称为高斯分布(Gaussian distribution),是一种常见的、具有以均数为中心、左右两侧基本对称、钟形、两头低中间高等特征的连续型分布。统计学上把以均数为μ、方差为σ2的正态分布记作N(μ,σ2),其中μ=0,σ2=1的正态分布称为标准正态分布,记作N(0,1)。大多数医学数据呈正态分布或近似正态分布,有的数据尽管不呈正态分布,但经适当的变量变换,可使变换后的数据服从正态分布或近似正态分布。
偏态分布(skewed distribution),是一种较为常见的、没有或缺少正态分布曲线特征的连续型分布,表现为分布曲线的峰值与平均值不相等,即不以均数为中心,左右两侧明显不对称。根据曲线峰值小于或大于平均值可分为正偏态分布或负偏态分布。
在某种程度上来讲,统计学是一门研究数据分布的科学。
八、频率与概率
一枚硬币,投掷10次,如果观察出现正面的次数,可能为1次、2次、3次……10次或0次,计算这10次投掷中出现正面次数与总投掷次数之比,就是计算投掷10次硬币出现正面的频率。一般认为,频率(frequency)是在有限少量次数如几次或几十次试验中,某现象出现的次数与总试验次数的比值。
当投掷硬币的次数不断增加,正反面出现的次数与总次数的比值将逐渐接近50%。可以设想的是,当投掷无限多次时,正面或反面出现的频率就是50%,此即为投掷硬币出现正面或反面的概率。
可见,概率(probability)是在无限多次试验中,某现象出现的次数与总试验次数的比值,或者说是频率的极限值。它反映某一事件发生的可能性大小,常以符号P表示,P越接近1表示该事件发生的可能性越大,P越接近0表示该事件发生的可能性越小。其取值范围在0到1之间,可以用小数或百分数表示。
所以,统计学也是一门研究概率大小的科学。