第二章 抽样设计
随着全球化的发展和城镇化进程的推进,我国城市社会治理面临着越来越多的问题,上海既是中国经济发展的“引擎”,也是长三角城市群的“龙头”,更是改革开放和社会革新的“排头兵”,在全国城市发展、社区治理格局中具有独一无二的重要性。“上海都市社区调查”是由上海大学“数据科学与都市研究中心”(Center for Data and Urban Science, CENDUS)开展的有关城市社区研究的地区性的大型调查,旨在通过对上海城乡家庭进行社会调查,搜集个体、家庭、社区三个层面的具有社会变动趋势的追踪研究资料,为学术研究和政策决策提供数据支撑。
本章主要对本次调查的抽样设计,以及调查样本的一些基本特征做一个描述性介绍。
一 抽样设计
(一)调查总体设定
目前上海市行政级别为市—区—街道(乡镇)—居(村)委会,此次调查的目标总体设定为上海市所有区县的城镇、农村家庭户。
调查于2016年正式启动,2017年全部完成,历时一年。由于闸北区和静安区于2016年合并,崇明县于2016年改制成区,因此,“上海都市社区调查”项目覆盖上海黄浦、徐汇、长宁、静安、闸北、普陀、虹口、杨浦、闵行、宝山、嘉定、浦东、金山、松江、青浦、奉贤、崇明17个区县的所有城镇、农村常住居民家庭户,具体包括以下三种类型。
(1)户籍登记在被选中社区/村庄且家庭成员也居住在该社区/村庄的家庭户;
(2)户籍登记在被选中社区/村庄但家庭成员离开该社区/村庄不满6个月的家庭户;
(3)户籍登记在被选中社区/村庄以外但家庭成员居住在该社区/村庄6个月以上的家庭户。
(二)样本总量
在抽样调查中,样本量是影响调查质量的重要因素之一。样本量过少,会严重影响样本代表性;样本量过多,则会影响调查进度并给已定的调查经费带来挑战。因而,样本总量的确定对于调查至关重要。
由于调查的结果主要是用于估计各种比例数据以及比例数据之间的比较,所以确定调查样本量是以估计简单随机抽样的总体比例P时的样本量为基础。在95%的置信度下,按抽样绝对误差不超过1.5%的要求进行计算的抽取样本量结果如下:
这里,d为抽样绝对误差取0.015, uα在置信度为0.95时为1.96, p(1-p)最大取0.25。由于采用多阶段的复杂抽样,设计效应精确度在1.3左右,再综合考虑抽样总体差异性程度、费用调查、实施的可行性等因素,以及以往上海市若干社会调查的经验,我们把调查总体的样本量确定为5700个左右。这5700个家庭户样本不仅能满足对总体的估计,而且能满足对各区县总体的估计,所以是比较合适的样本量,具有非常高的代表性,不仅能够有效地代表整个上海市,而且对于各个区县也有较高的代表性。
(三)样本量
“上海都市社区调查”采用隐分层的多阶段概率与规模成比例(PPS)的随机抽样方法,以街道、居(村)委及家庭户分别作为初级、二级、三级抽样单元。各阶段的抽样单位如下。
第一阶段:以街道、乡镇为初级抽样单位。
第二阶段:以居民委员会、村民委员会为二级抽样单位。
第三阶段:以家庭住户为三级抽样单位。
在被抽中的家庭户中,满足调查条件的所有家庭成员都将成为被调查者。
(四)样本分配
为保证调查的结果能在各区县具有代表性,我们在各区县分别抽取样本,同时保证各区县的样本家庭户数不少于300户,人口数量大的区县如浦东新区、闵行区等适当地加大了设计样本量。
在样本抽取过程中,我们首先按照市中心区、新市区、郊县,以及各街道社会经济发展水平和外来人口比例,对上海所有街道、乡、镇进行排序,形成隐分层,以街道、居(村)委及家庭户分别作为初级、二级、三级抽样单元,按照系统抽样法抽取抽样单元。每个区县抽取不少于5个乡镇/街道作为初级抽样单位(PSU),每个抽中的乡镇/街道各抽取2个居(村)委作为二级抽样单位,每个抽中的居(村)委中抽取30户进行家庭和个人层面的调查,最终共抽取了95个乡镇/街道,190个居(村)委会,5700个家庭户。最终样本将在各区县分别加权,汇总成上海全市数据(各区县样本分布情况见表2-1)。
表2-1 各区县样本数分布情况
二 样本代表性
(一)家庭分布
项目实施时,闸北区和静安区没有合并,崇明县没有改制成区,因此区县仍然按照项目进行时的情况进行描述。外部数据来源包括2010年上海市普查数据、2015年上海市1%人口抽样调查数据。
在此调查中,家庭户是最基本载体和抽样单位,因而根据科学抽样方法计划抽取家庭样本5700个。然而在实地调查中遇到各种各样的复杂情况和困难,例如受访者不配合、房屋拆迁以及村/居委阻挠等,此次调查共完成家庭样本5102个,完成率达89%;样本总共涵括上海市17区县,每个区县平均样本数300个。由于不同区面积和人口总数大小不一,家庭样本数也存在一定出入,但是总体上保证了每个区至少有10个村居委,每个村居委家庭样本数为30个,即每个区县300个家庭样本。由于在项目开展过程中,静安区和闸北区已经合并,因此两个区样本算作一个区样本数300个。由表2-2可知,每个区样本完成情况良好,完成率均超过80%,有些区高达90%,完成度比较高。
表2-2 各区县家庭样本分布情况
(二)家庭规模
由表2-3可知,在上海17个区县中,家庭平均人数均不超过2.7人,区家庭平均户规模最大为2.69人,分别为闵行区和奉贤区;家庭平均人数最少的为长宁区,为2.12人。总体而言,一方面,在家庭平均人数上各区差距不大(上海市家庭平均人数为2.5人);另一方面,上海市平均家庭户规模偏小,不足3人。
表2-3 家庭户规模分布
如图2-1所示,SUNS与上海市2010年普查数据相比较,各区家庭平均人数差异在0.3人以内,属正常范畴。根据上海市2010年普查数据可知,上海市家庭平均人数为2.5人,就家庭规模数据方面而言,样本代表性偏误非常小。只有个别区偏误超过0.3人,这可能是以下两个原因所造成:一是2010年人口普查与SUNS调查,相距已经超过六年,由于时间原因可能造成误差;二是“三怕”心理导致受访者对于家庭人数故意瞒报、假报等。
图2-1 SUNS和2010年上海市人口普查数据各区家庭户规模比较
家庭规模的变迁反映社会发展程度的变化。自古以来,中国人的生活就以家庭和家族为核心,这是中国传统的社会特征,自从工业社会以来,社会结构发生了显著变化,这种变化在家庭层面表现为家庭规模变小,由传统大家庭转向现代小家庭,逐渐转变为核心家庭,即由父母与未成年或者未婚子女所构成的家庭,一般人数为3人。通过数据分析可知,此次调查所抽取的家庭样本中,家庭平均人数为2.5人。就人数而言,非常符合现代家庭规模人数。这与上海市的现代化程度密不可分。
(三)家庭结构
就家庭户规模而言,此次调查共有家庭样本5102个,其中1~2人户所占比例为56.30%, 3~4人户所占比例为34.58%, 5人户及以上所占比例为9.12%(见表2-4)。显而易见,1~2人户家庭规模是目前上海市家庭主流。
表2-4 各区县家庭规模情况
由表2-4可知,根据调查结果,上海市家庭户规模分布情况规律性较强,在所有区县中,1~2人户所占比例远远高于其他组。在奉贤区和闸北区这两个区县,1~2人户规模与3~4人户规模较为接近,其他区相差较大。这可能是在调查中,受访者多为外来务工人员和单人租户较多所致。
(四)性别比例
在SUNS调查数据中男性人数所占比例为49.47%,女性人数所占比例为50.53%(见表2-5)。根据2015年上海市1%人口抽样数据可知,2015年上海市男性人数所占比例为51.50%,女性人数所占比例为48.50%。在性别比例方面,SUNS调查数据与2015年上海市1%人口抽样数据相差不大,仅为2%,在正常值内。SUNS调查数据中,女性总人数所占比例高于2015年上海市1%人口抽样数据,可能是由于上海市女性在家时间更长和更易于打交道,以至于她们更容易接受访问。
表2-5 SUNS和2015年上海市1%人口抽样数据性别分布
(五)年龄分布
根据普查和统计数据标准我们将人口年龄分为三个组:0~14岁、15~64岁、65岁及以上。由表2-6可知,0~14岁人数所占比例为17.88%, 15~64岁人数所占比例为64.08%, 65岁及以上人数所占比例为18.04%。人口结构呈现出“纺锤形”,老年人口所占比例略微偏高。根据上海市统计局2015年1%人口抽样调查数据可知,2015年上海市65岁及以上老年人口比例为12.30%,两者相差5.74个百分点,在正常差异范围内。在实地调查过程中,老年人口赋闲在家,更愿意配合问卷调查,这是导致SUNS数据65岁及以上老年人口比例偏高的最主要原因。
表2-6 SUNS和2015年上海市1%人口抽样数据不同年龄段人数占比分布状况
由表2-6可知,SUNS数据和2015年1%人口抽样调查数据不同年龄阶段人数所占比结构总体为“纺锤形”。SUNS数据中0~14岁人数所占比例高于1%人口抽样调查数据,在15~64岁阶段,2015年1%人口抽样数据高于SUNS数据14.62个百分点,这主要是由于在SUNS问卷设计中,有部分不在上海与父母同住的儿童也生成了问卷,因而导致SUNS数据中0~14岁这一阶段人数所占比例较高。但是总体上这两者在结构上相似,若考虑到实际情况数据偏差并不大。
(六)户籍
根据表2-7可知,在上海市户籍常住人口方面,SUNS调查数据中户籍常住人口比例为65.80%, 2015年上海市1%人口抽样数据的比例为59.30%; SUNS调查数据中外来常住人口所占比例为34.20%, 2015年上海市1%人口抽样数据的比例为40.70%。两者之间存在6.50个百分点的出入,SUNS数据中户籍常住人口比例更高。由于此次分析数据仅仅是SUNS数据中接受问卷访问的受访者的数据,并没有拒绝访问的人员的数据;同时,外来常住人口一般多为上班族,早出晚归,而且外来人员出于“三怕”心理对调查抵制心理较强,因此难以对外来常住人口家庭成员进行全面调查。以上两者都是导致SUNS数据和2015年上海市1%人口抽样数据存在差异的主要原因。
表2-7 SUNS和上海市2015年1%人口抽样数据常住人口比例分布
根据上海市2010年普查数据和2015年上海市1%人口抽样数据可知,浦东、嘉定、宝山等区是上海市外来人口比例高、人数多的区。其中,静安、黄浦、长宁、闸北和虹口区外来常住人口所占比例相对较少,均低于户籍常住人口(见图2-2)。松江、青浦等区,在SUNS数据中外来常住人口比例均低于户籍常住人口比例,与1%人口抽样数据存在出入,这可能是由于调查是在白天开展,而外来常住人口白天大多在工厂或者公司上班,未能进行问卷访谈。但是总体而言,SUNS调查数据与2015年上海市1%人口抽样数据差异不大,处在合理范围之内。
图2-2 各区县外来常住人口和户籍常住人口分布
(七)受教育程度
近十年以来,上海市出台了各项政策以吸引和挽留各类高学历的人才。当然,上海自身发展水平也吸引了来自全球范围内的高学历人才。通过图2-3可见,此次受访者中研究生和本科生学历人数所占比例接近20%,初高中人数所占比例偏大。这主要是因为在此次调查中,城市调查入户困难,导致外来务工人员和农村户籍人口比例偏大。
图2-3 受教育程度分布
在受教育程度层面,通过与2015年上海市1%人口抽样数据对比(见图2-4),发现SUNS数据中大专及以上学历样本所占比例为29.25%,比1%人口抽样数据高2.15个百分点;在普通高中/职高/技校/中专学历人数所占比例方面,SUNS数据比1%人口抽样调查数据高2.67个百分点;在初中学历层次方面,SUNS数据低4.42个百分点;在小学及以下学历层次方面,两者仅相差0.41个百分点。总体而言,在学历变量方面,SUNS数据和1%人口抽样数据高相似和吻合,差异在5个百分点以内,属于正常范畴之内。
图2-4 SUNS与2015年上海市1%人口抽样数据受教育程度分布情况
(八)少儿
现代家庭关系主要呈三角关系:夫-妻-子。但是随着子女抚养成本快速上升以及人们观念的开放,现代“丁克”家庭越来越多。此次调查中,总共收集到1870份少儿问卷数据。其中有1159人出生在上海,所占比例达61.98%; 699人出生在外省,所占比例为37.38%;还有0.64%的少儿出生在境外(包括港、澳、台)。但是通过对少儿户籍所在地进行分析发现,拥有上海市户籍的少儿比例为40.68%,拥有外省市户籍的少儿比例为56.70%。
通过对少儿出生地和少儿户籍所在地的对比分析发现,在所有少儿样本中,有61.98%的少儿出生在上海,而只有40.68%的少儿有上海户籍,即有超过20%的少儿出生在上海,但是没有上海户籍;有37.38%的少儿出生在外地,却有56.70%的少儿拥有外省市户籍。
三 小结
目前,我国正处于社会结构转型期和社会结构转轨期,城镇化进程不断加快,截至2016年,我国城镇化水平已经超过57%,在不到20年的时间里,城镇化水平提升了20%多。社会发展和社会变迁带给整个社会和人们生活的变化,一直以来都是学界关注的热点所在。SUNS调查是针对上海市在社区、家庭和个人三个层面开展的一项全方面、宽领域和多层次的大型社会调查,调查主题包括收入、住房、交通出行、医疗、社区和迁移以及老年人等社会热点。通过对SUNS样本数据与上海市2010年普查数据和2015年1%人口抽样调查数据进行对比,发现SUNS数据总体代表性较高,数据质量较为稳定。
首先,就家庭样本层面而言,发现上海市家庭平均人数为2.5人,从各区65岁及以上老年人家庭所占比例来看中心城区高于郊区区县,与上海市2010年普查数据存在一定差异,但差距均在合理范围之内。
其次,从个人层面出发,男女性别比例与2015年上海市1%人口抽样数据基本吻合,误差在2%以内;由于受到外来常住人口工作情况的影响,户籍常住人口和外来常住人口的比例存在误差,但是误差在5%左右,属正常范围;年龄方面,SUNS调查数据与2015年上海市统计局数据对比发现,误差也在10%以内。
总体而言,在与上海市2010年普查数据和2015年1%人口抽样数据就家庭规模、性别、年龄、外来常住人口比例、学历等方面进行对比之后发现,SUNS数据与上海市2010年普查数据和2015年1%人口抽样数据差异较小,并且所有差异均在合理范围之内。尽管尚未对SUNS数据进行加权校正,上述对比还比较粗略,但还是可以发现此次调查样本偏误较小,样本代表性较高。