三 调查方法与数据说明
本书的研究和分析,依据中国社会科学院社会学研究所于2006年4~7月之间进行的中国社会状况综合调查(CGSS2006, CASS)。这是一项全国范围内的大型连续性抽样调查项目,目的是通过长期纵贯调查,获取转型时期中国社会变迁的数据资料,从而为社会科学研究和政府决策提供翔实而科学的基础信息。2006年调查的主题是“社会和谐与稳定”,共回收成功访问问卷7061份。现将调查设计及实施步骤说明如下。
1.抽样设计及抽样过程
我们将全国年满18~69周岁的住户人口作为本调查最终推断的总体。全国调查采用了多阶段复合抽样(Multi-stage Composed Sampling)的方法,即分县/市/区、乡/镇/街道、居委会/村委会、居民户、居民五个阶段抽样,每个阶段采取不同的抽样方法(见表1-4)。
表1-4 全国分阶段抽样样本单位分布及抽样方法设计
第一阶段PSU县/市/区的抽取,是以2000年全国第五次人口普查的《2000年人口普查分县资料》为数据基础,将全国2797个县/市/区作为抽样框进行分层比例抽样。其具体做法是,首先采用城镇人口比例、居民年龄、教育程度和产业比例4大类指标7个变量对2797个县/市/区做聚类分层,共划分37个层(见表1-5)。而后再按照PPS(Probability proportional to size,与单位大小成比例的概率抽样)的抽样方式,在每一个分层中,抽取相应数目的县/市/区。共抽取130个市/县/区,覆盖全国28个省/自治区/直辖市(见图1-7)。
表1-5 全国各层抽样单位及样本量分布
图1-7 全国抽样框130个区/市/县分布图
第二阶段PSU乡/镇/街道的抽取,是以从上一级抽中的县/市/区的相关部门获得的乡/镇/街道户数、人数统计名册作为抽样框,以PPS的方法在每一个PSU内抽取出2个乡/镇/街道,全国共抽取了260个。
第三阶段PSU村委会/居委会的抽取,是根据从上一级抽中的县/市/区的乡/镇/街道相关部门获得的村委会/居委会户数、人数统计名册作为抽样框,以PPS的方法在每一个PSU内抽取出2个居委会/村委会,全国共抽取520个。在此阶段的抽样中,国家民政部基层政权和社区建设司给予我们极大帮助,使得我们能够顺利地派遣抽样员到每一个抽中的村委会/居委会登录常住人口与外来人口的资料,最终汇总成了一个涵盖47万户、160余万人的抽样框数据库。
第四阶段居民户的抽取相对较为简单,只要根据居委会/村委会中的住户名册以及居住在该居民区/村中的外来人口清单制作出抽样框,进行等距抽样即可。为了防备下一阶段入户访问的不成功,除规定样本量外,我们还另外抽取了2倍于设计样本量的备访户以供替换。
最后一阶段的入户选取被访人的工作由调查员在访问现场进行。调查员入户后首先将家中所有人员的状况填写在“家庭人口情况表”中,而后将符合访问条件的人口(调查中的界定是年龄在18~69周岁,在此家中居住1周或将要居住1周以上的人口)按性别和年龄排序填入“选样表”。我们采用的入户“选样表”是国际调查界通用的“Kish选样表”,它共有8种类型,对应着当家中有多位符合调查条件的被访成员时,分别应该采用的选取被访人的随机方法(见表1-6)。
表1-6 调查使用的家庭现住人口登记表及KISH选样表
2.督导员/调查员培训
为了保证现场调查的质量,我们特意委托了专业的调查机构来进行调查的实施及调查员队伍的管理。共计有367名调查员、80余名督导员、12名巡视员参与了调查的访问、管理和监督工作。为了能够在规范流程的控制下采集调查资料,我们参照美国密执根大学社会调查中心的调查员培训手册,制定了6个单元约2~3天的培训课程,包括项目背景及操作方案讲解、《调查员手册》学习、现场入户登记表记录、入户抽样、问卷试填及讲解、编码、模拟访问练习、试点调查等方面的内容。对所有参加调查工作的调查员和现场督导员都进行了集中培训,目的是使他们能够规范地履行调查实施方案所赋予的角色。
对于调查员而言,培训的要求是让他们学会如何完成入户选样、现场访问、核查问卷、事后编码四项工作。为此我们为调查员提供了4万余字的《调查员手册》,细致地讲解了入户选样工具的使用;问卷中可能有产生理解偏差的用语、解释口径;特殊题目的询问和填答方式;编码的标准;等等。
督导员的工作主要是负责调查中的技术指导和质量控制,其主要职责是完成住户抽样、分配问卷、更换被访家庭及被访人、查核问卷、组织编码等工作。除通过调查员所接受的培训外,督导员还接受了住户抽样、样本户和被访人更换、问卷查验等方面的专门培训。
巡视员的职责是全面观察和监督督导员、调查员是否按照调查方案的流程规范来实施调查。按照要求,巡视员必须每天以《工作日志》的形式记录调查的全过程,并逐日向课题组汇报调查进展状况。为保证监督职能的独立性,巡视员均由和调查机构无关联的社科院和高校的硕士生和博士生来担任。
调查培训采用两级培训的方式,先由课题组成员在北京对调查督导员、巡视员进行项目总培训,而后再由督导员至各地对调查员进行培训。所有经过培训并且考核通过的调查员、督导员,须佩戴中国社会科学院的调查员胸卡方能上岗工作。
3.实施访问
为了保证实地调查各流程的质量控制,调查采用了“现场小组”的工作方法,即每个居委会/村委会调查点由1~2名督导员和5~10名调查员共同完成。每组2~7天完成一个居/村委会的调查;调查员平均1~1.5小时访问1份问卷。完成一个调查点的工作后,“现场小组”再移向下一个调查点。这种操作方式的目的,便是要把问卷调查可能发生的问题,在第一时间、第一地点解决。另外,由于督导员和调查员共同工作,最大程度地消除了违反规程的访问。实施访问的具体流程如下。
第一步,督导员根据该居委会/村委会的抽样名单给调查员分配问卷。为控制访问质量,正式调查问卷是在调查现场才发放给调查员的,并且逐份发放、调查、回收、再发放。这样就可以使一旦出现的访问误差不至于扩大。第二步,调查员持抽样名单、选样表和问卷进入被调查户选择被访人。如果选样顺利,则继续进行访问;如果选样失败,则需要告知督导员,由后者向课题组值班中心报告,并领取备访户名单进行更换,再度入户选样。第三步,调查员确认被访对象合适的访问时间、进行访问环境控制之后,开始一对一的问卷调查(Face to face interview)。问卷采用念读访问方式,即问卷始终掌握在调查员手中,调查员逐题发问并记录答案,被访人逐题回答。被访人不能自填问卷,而且除个别题目外,他们也是不能看到问卷的。第四步,访问完成后,调查员在现场全面检查问卷的回答有无漏答、误答、意义含混、逻辑相悖等情况,确认无疑后,向被访人致谢,并签名上交问卷。第五步,督导员在现场回收调查员交来的问卷,并立即审阅。如果没有问题,就发放下一份住户地址和问卷;发现问题,则令调查员立即返回访问家庭再度补充。所有调查问卷均经过调查员和督导员的双重审阅后,再进入编码流程。
为加强现场的控制,保证访问质量,调查中还采取了下列措施:①限定访问时间。为保证被访家庭中成员均能入选,城镇居民调查时间安排在周末或下班以后(晚6∶00~9∶30),乡村区域居民大都没有上下班的时间限制,则不对入户时间做具体要求。②督导员对调查员进行陪访。为保证调查员正确执行访问规程,督导员对每一位调查员的访问总量的10%进行陪同访问,以便发现问题及时纠正。③采用回执信来复核调查员的访问情况。在调查结束时,调查员必须将一封贴好邮票的回执信交给被访人,回执信中询问了访问的一些主要环节,由被访人填好后寄回课题组。④课题组进行技术支持。在调查执行期间课题组设立了总值班室,通过电话为全国各地的调查进行技术指导和管理协调。其中主要工作是对各地样本更换情况进行审核。按照调查规程,样本更换必须由总值班室提供备选户名单,而不能由调查员或督导员自己更换。
4.资料复核
调查中采用了多次复核的方式来保证问卷信息的准确性。①调查员现场检查问卷是否合格;②督导员在现场进行2次100%的问卷审阅;③地方执行机构抽查30%的完成问卷进行电话复核和实地复核;④课题组在北京独立进行10%的问卷复核。复核内容包括:被访者是否被抽中的地址户;事实性数据,如年龄、职业等事实性问题回答是否一致;是否访问中提问了某些方面的问题;访问完成所需的大致时间;是否赠送礼品,派发回执信。
复核统计结果表明,调查结束后共对2565份问卷进行了回访,占全部回收问卷7063份的36.9%。经复核合格的问卷占87.4%,其余12.6%的不合格问卷问题主要出现在选样错误(“被访者有误”,占3.37%)和家庭人数存疑(占3.26%)。经过再度回访补做,这些问题都一一得以纠正。
随7061份有效问卷发放7061封回执信,最终收到5395封,回收率为76.41%。其中仅有3.8%的回执出现被访人姓名不一致等情况。经过电话复核和再度回访,这些问题也都得到解决。
在回收的7061个有效访问中,有5810户按原地址住户访问成功,其余1251户为更换户,占总样本量的17.7%。以此推算,回收率为82.3%。
5.数据处理与加权
7061份合格调查问卷采用双录入的方式,形成调查数据库。而后先后两次采用频数分析和变量关联的逻辑校验方式对所有完成的数据进行校验、清理;并以国家统计局2005年1%人口抽样调查的结果和调查数据进行比照,并进行了加权处理。
第一,城乡居民人口加权。调查在抽样设计时最初的样本分配中,因考虑到城镇社会构成较为复杂,而农村社会构成同质性较高,以及调查便利的原因,我们加大了城镇样本比例(城镇样本占50.6%,农村样本占49.4%)。换言之,城乡人口是不等概率的抽样设计,因此要根据2005年1%人口抽样调查结果对我们的调查数据进行事后加权(见表1-7)。
表1-7 CGSS调查与2005年1%人口抽样调查的城乡人口分布比较及加权结果
续表
续表
第二,分年龄段、分性别人口的比较。根据上述城乡居民人口比例加权后的CGSS数据,就可以和2005年1%人口抽样调查数据进行基本变量的比较。分年龄段、分性别人口分布的比较显示,和1%人口抽样调查相比,CGSS数据在18~34岁组的人口比例偏低,而在50岁以上组的比例偏高(见表1-8);女性的比例偏高,男性比例偏低(见表1-8)。
表1-8 CGSS2006与2005年1%人口抽样调查的年龄段、性别分布比较
图1-8 CGSS2006调查与2005年1%人口抽样调查的年龄分布比较
此类原因一方面由于我们是在固定时间周期内进行入户调查(一般在一个调查点的访问日程不会超过7天),因此实际的调查总体是在调查期间居住在家中的人口,一般而言年轻人比老年人、男性比女性更有可能不在家中,因而入选的概率就会偏低。另一方面,是由于1%人口抽样调查的数据获得方式与我们调查不同所致。1%人口抽样调查中的家庭人口信息,来自被访家庭中某位成员的代答,因此并不表示其他被调查者在调查时点均在家中。而我们的调查获得的是实际在场的个人信息数据,二者之间必然存在差距。低年龄段、男性人口比例偏低,是所有在规定时点进行入户调查的普遍情况,因此我们视之为系统偏误(system error),也需要以加权的方式来予以校正。
第三,综合加权。根据上述比较分析,按2005年1%人口抽样调查的城乡人口、性别和年龄三个变量的交互分类为加权标准,对CGSS调查数据进行了综合加权。加权后的比照结果如下(见表1-8)。
表1-9 加权后的CGSS2006调查与2005年1%人口抽样调查的人口特征比较
由此可见,经过加权调整的数据在城乡、性别、年龄等人口特征上和2005年1%人口抽样调查的结果非常吻合。受教育程度中除初中文化程度的比例相差近8个百分点外,其余分类也极为近似。因此,此次调查数据可以用来推断全国居民总体。