第2章 数据的搜集
2.1 知识要点总结
一、数据的来源
1.数据的间接来源
(1)间接来源的数据(二手资料)
如果与研究内容有关的原信息已经存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。
(2)二手资料的优点
搜集比较容易,采集数据的成本低,并且能很快得到。
(3)二手资料的局限性
相关性不够,口径可能不一致,数据也许不准确,也许过时等。
(4)对二手资料进行评估的内容
①资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。
②为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。
③数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的生产过程。
④什么时候搜集的?对于过时的数据,其说服力自然会受到质疑。
使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
2.数据的直接来源
通过调查和实验的方法直接获得一手资料,即数据的直接来源。我们把通过调查方法获得的数据称为调查数据,把通过实验方法得到的数据称为实验数据。
(1)调查数据
它是通过调查方法获得的数据。调查数据通常取自有限总体,即总体所包含的个体单位是有限的。
普查是对总体中所有个体单位进行的调查,普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是,当总体较大时,进行普查将是一项很大的工程,由于普查涉及的范围广,接受调查的单位多,所以耗时、费力,调查的成本也非常高,因此普查是不可能经常进行的。
(2)实验数据
通过在实验中控制实验对象而收集到的数据,它是在对事物进行人为控制的条件下得到的。自然科学领域的大多数数据都为实验数据。
二、调查数据
1.概率抽样和非概率抽样
(1)概率抽样
概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
①特点
a.抽样时是按一定的概率以随机原则抽取样本。
所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中。
b.每个单位被抽中的概率是已知的,或是可以计算出来的。
c.当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
概率抽样与等概率抽样的区别:概率抽样是指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也可以不等。若各单位被抽中的概率相等,则称为等概率抽样。
②概率抽样方式的类型
a.简单随机抽样
从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。这样的抽样方法称为简单随机抽样。
简单随机抽样的抽样框通常包括所有总体单位的信息,其作用是不仅在于提供了备选单位的名单以供抽选,还是计算各个单位入样概率的依据。
简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。其突出特点是简单、直观。但是在实际应用中也有一些局限:
第一,它要求包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易;
第二,根据这种方法抽出的单位很分散,给实施调查增加了困难;
第三,没有利用其他辅助信息以提高估计的效率。
b.分层抽样
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。这样的抽样方法称为分层抽样。
优点:
第一,保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;
第二,在一定条件下为组织实施调查提供了方便(当层的划分是按行业或行政区划进行时);
第三,既可以对总体参数进行估计,也可以对各层的目标量进行估计。
c.整群抽样
将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。
优点:与简单随机抽样相比,整群抽样的特点在于简化了编制抽样框的工作量,并且调查的地点相对集中,从而节省了调查费用,方便了调查的实施。
缺点:整群抽样的主要弱点是估计的精度较差。
d.系统抽样
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。
主要优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
缺点:对估计量方差的估计比较困难。
e.多阶段抽样
二阶段抽样是指采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。
优点:
第一,保证了样本相对集中,从而节约了调查费用;
第二,不需要包含所有低阶段抽样单位的抽样框;
第三,由于实行了再抽样,使调查单位在更广泛的范围内展开。
在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。
概率抽样最主要的优点是可以依据调查结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。从另一个方面讲,也可以按照要求的精确度,计算必要的样本单位数目。
(2)非概率抽样
指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样方式的类型:
①方便抽样
调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。
方便抽样的最大特点是容易实施,调查的成本低,但是由于方便样本无法代表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。
②判断抽样
指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本。实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。
重点抽样:从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位的数量虽然不多,但在总体中占有重要地位。
典型抽样:从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律。因此,选择的典型单位应该具有研究问题的本质或特征。
代表抽样:通过分析,选择具有代表性的单位作为样本,它在某种程度上也具有典型抽样的含义。
判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。这种方式的抽样成本比较低,也容易操作;但由于样本是人为确定的,没有依据随机的原则,因而调查结果不能用于对总体有关参数进行估计。
③自愿样本
指被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。
④滚雪球抽样
往往使用于对稀少群体的调查中。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。
滚雪球抽样的主要优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。它适合对特定群体进行研究的资料搜集。
⑤配额抽样
首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。它类似于概率抽样中的分层抽样,二者的区别在于是否依据随机原则从各类中抽取样本。
这种抽样方式操作比较简单,而且可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似。
(3)概率抽样与非概率抽样的比较
非概率抽样适合探索性的研究和市场调查中的概念测试,其特点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。
如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用概率抽样的方法。概率抽样的技术含量更高,无论抽选样本和对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本也比非概率抽样的调查成本高。
2.搜集数据的基本方法
(1)自填式
指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷的调查方式。
①优点
调查组织者对自填式方法的管理相对容易,它也有利于被调查者,在一定程度上可以减小被调查者回答敏感性问题的压力;自填式的调查成本也是最低的,增大样本量对调查费用的影响很小。
②弱点
a.问卷的回收率比较低;
b.自填式方法不适合结构复杂的问卷;
c.自填式方法的调查周期通常都比较长,调查人员也需要对问卷的递送和回收方法进行仔细的研究和选择;
d.对于在数据搜集过程中出现的问题,一般难以及时采取调改措施。
(2)面访式
指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答的调查方式。
①主要优点
a.可以提高调查的回答率;
b.可以提高调查数据的质量,并且可以对识字率低的群体实施调查;
c.在问卷设计中可以采用更多的技术手段,使得调查问题的组合更为科学、合理;
d.在面访调查中,还可以借助其他调查工具(图片、照片、卡片、实物等)丰富调查内容;
e.能对数据搜集所花费的时间进行调节。
②主要弱点
a.调查的成本比较高;
b.面访这种搜集数据的方式对调查过程的质量控制有一定难度;
c.对于敏感性问题,在面对面条件下,被调查者通常不会像自填式方法下那样放松,也不愿意回答。
(3)电话式
指调查人员通过打电话的方式向被调查者实施调查。
①电话调查的优点
a.速度快,能够在很短的时间内完成调查;
b.适合样本单位十分分散的情况,由于不需要支付调查员的交通费,数据搜集的成本大大下降;
c.对调查员也是安全的;
d.在电话调查中,对访问过程的控制也比较容易。
②电话调查的局限
a.在电话拥有率不高的地区,电话调查这种方式就受到限制;
b.使用电话进行访问的时间不能太长;
c.问卷答案的选项过长、过多,不仅造成调查进度的延缓,被调查者还很容易挂断电话;
d.在被访者不愿意接受调查时,要说服他们就更为困难。
此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息。
(4)数据搜集方法的选择
选择数据搜集方法时需要考虑的问题有:①抽样框中的有关信息;②目标总体的特征;③调查问题的内容;④有形辅助物的使用;⑤实施调查的资源;⑥管理与控制;⑦质量要求。
三、实验数据
指在实验中控制实验对象而搜集到的变量的数据。
1.实验组和对照组
实验法的基本逻辑:有意识地改变某个变量的情况(设为A项),然后看另一个变量变化的情况(设为B项)。如果B项随着A项的变化而变化,就说明A项对B项有影响。
实验组:指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的处理。
对照组:每个单位不接受实验组成员所接受的某种特别的处理。
匹配:指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组。
实验组和对照组的产生应遵循随机原则,即将实验单位随机地分配到实验组和随机组。
一个好的实验,随机组和对照组的产生不仅应该是随机的,而且应该是匹配的。
2.实验中的若干问题
实验法的逻辑严密,是证明假设、分析事物因果关系的一个良好方式。但在实验过程中也会遇到一些问题:(1)人的意愿;(2)心理问题;(3)道德问题。
3.实验中的统计
(1)统计在实验的过程中的作用
①确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果;
②将统计的思想融入实验设计,使实验设计符合统计分析的标准;
③提供尽可能最有效地同时研究几个变量影响的方法。
(2)一个好的实验,应该在两个方面都有效:
①内部的有效性
内部的有效性意味着实验测量的准确性。实验的目的是要考察自变量和因变量之间的因果关系,而如果实验观察结果受到其他无关变量的影响,就很难推断自变量与因变量之间的因果关系。
②外部的有效性
外部的有效性决定是否可以将实验中发现的因果关系进行推广,即能否将结果推广到实验环境以外的情况。
四、数据的误差
指通过调查搜集到的数据与研究对象真实结果之间的差异。
1.抽样误差
这是由于抽样的随机性引起的样本结果与总体真值之间的误差。它描述的是所有样本可能的结果与总体真值之间的平均性差异。并且是一种随机性误差,只存在于概率抽样中。
影响抽样误差大小的因素:
(1)样本量的大小
样本量越大,抽样误差就越小。
(2)总体的变异性
总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大;反之,总体的变异性越小,各单位之间越相似,抽样误差也就越小。
(3)抽样方法。例如,一般而言分层抽样所产生的抽样误差小于简单随机抽样。
(4)抽样调查的组织形式。在其他条件相同的情况下,重复抽样比不重复抽样误差要大些。
2.非抽样误差
指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。
非抽样误差的类型:
(1)抽样框误差
由于抽样框的不完善造成的误差称为抽样框误差。一个好的抽样框应该是抽样框中的单位和研究总体中的单位有一一对应的关系。
(2)回答误差
指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有:
①理解误差
不同的被调查者对调查问题的理解不同,每个人都按自己的理解回答,大家的标准不一致,由此造成理解误差。
②记忆误差
需要回忆的时间间隔越久,回忆的数据可能就越不准确。所以,缩短调查所涉及的时间范围可以减小记忆误差。
③有意识误差
当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。
产生有意识误差的动因大致有两种:一种是调查问题涉及个人隐私,被调查者不愿意告诉,所以造假;另一种是受利益驱动,进行数字造假。有意识误差比记忆误差危害要大。
(3)无回答误差
指被调查者拒绝接受调查,调查人员得到的是一份空白的答卷。
无回答误差有时是随机的,有时是系统性的。如果无回答的产生与调查的内容无关,在随机状态下,被访者如果回答,其结果可能高于平均值,可能低于平均值,高低相互抵消,不会产生有偏估计。但当无回答的产生与调查内容有关时,就可能产生系统性误差。
如果无回答误差是随机的,可以通过增大样本量的方式解决。
解决无回答的系统性误差的途径主要有:
①预防:即在调查进行前做好各方面的准备工作,尽量把无回答降到最低程度;
②补救:当无回答出现后,分析无回答产生的原因,采取一些补救措施。
(4)调查员误差
指由于调查员的原因而产生的调查误差。
(5)测量误差
指由于测量工具产生的误差。
3.误差的控制
抽样误差是由于抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。控制抽样误差的主要方法是改变样本量,要求的抽样误差越小,所需要的样本量就越大。
非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽样中存在)。有很多的原因造成非抽样误差,因此控制起来比较困难。
非抽样误差控制的重要方面是调查过程的质量控制。这包括:调查员的挑选,调查员的培训,督导员的调查专业水平,对调查过程进行控制的具体措施,对调查结果进行检验、评估,对现场调查人员进行奖惩的制度等。