第三节 研究方法
一 DEA模型
国内在旅游效率研究方面使用最多的方法是数据包络分析方法(Data Envelopment Analysis,DEA)。该方法从投入产出角度以决策单元的输入、输出数据组成生产有效前沿面,通过衡量决策单元离此前沿面的远近来判断生产的合理性,是评价多输入和输出决策单元效率(Decision Making Units,DMU)的有效工具。它巧妙地通过构造目标函数及变换,将分式规划问题转为线性规划问题,并且无须为各指标统一量纲及赋予权重,因此,对决策单元的评价更加客观。其基本原理是通过构造所有DMU的生产前沿,然后根据各个DMU与生产前沿的相对位置来判断各自的效率,不位于生产前沿面上的DMU就是无效率的,其效率值介于0—1之间;相反,就是有效率的,其效率值为1。其中CCR模型和BCC模型是DEA两个最常用的模型。
(一)CCR模型
CCR模型是基于规模收益不变的数据包络模型。CCR是三位运筹学家查尼斯、库珀和罗德斯(Rhodes)于1978年首先提出的评价生产效率的重要的非参数方法,由三位学家名字的缩写获得模型名称。在此,我们用基于CCR模型的综合效率表示旅游产业资源配置和规模集聚的综合水平。其模型如下:
其中,θ(0≤θ≤1)为综合效率,θ 值越大,旅游产业综合效率越高,并且当θ=1时,旅游产业综合效率达到最优。ε为非阿基米德无穷小量;S-为松弛变量;S+为剩余变量;由于存在p个区域,表示第p个区域第q种资源的投入,表示第p个区域第l种产出量;λp为权重变量。
(二)BCC模型
通过放弃规模收益不变的假设,即将约束条件引入模型(2.1)中,从而得到规模报酬可变的BCC模型。在此可将综合效率进一步分解为纯技术效率和规模效率。纯技术效率是指当规模收益可变时,决策单元与生产前沿之间的距离,距离越近则技术效率越高;规模效率是指规模收益不变的生产前沿与可变规模收益的生产前沿之间的距离,越靠近可变规模收益的生产前沿则规模经济性的发挥程度越高。用基于BBC 模型的纯技术效率和规模效率分别表示行业要素资源配置利用水平和规模集聚水平。其表达式如下:
其中,θ=θPE×θSE,表示区域旅游产业的综合效率θ等于纯技术效率θPE与规模效率θSE的乘积。当两者皆为1时,表示该区域旅游产业的纯技术效率和规模效率均达到最优,越接近于1则越接近于最优。当θSE小于1时,此时应该区分规模无效率的原因,有可能是规模过大,也有可能是规模过小,即产业是处于规模报酬递减阶段还是规模报酬递增阶段。
二 组合赋权法
目前国内旅游产业效率研究在方法上多沿用DEA法,但是存在两个问题:一方面DEA模型要求决策单元个数要大于等于投入产出要素总和的两倍,这在一定程度上限制了投入产出要素的数量,而旅游产业由于关联性强、相关要素多等原因,很难将投入产出要素用很少的指标就能全面准确地表征出来;另一方面投入产出指标过多又可能会造成主次不分,从而不能很好地反映被评价地区的产业效率的真实情况,使之与地区产业发展的实际水平有较大差异。正是考虑到旅游产业其复杂性和综合性的产业特点,使投入产出指标难以全面准确地确定,因此,除对DEA模型本身进行改进之外,在中宏观尺度的旅游效率研究中,很多学者都尝试将其他方法与 DEA 方法相融合,对于旅游产业效率的判定主要是基于客观方法的评价研究,如因子分析法、熵权法、灰色关联度法等。可见,现有研究中存在的主要问题是定量方法较为单一,综合性不强,且采用比较“专业”的统计方法,评价结果差异较大,难以客观、准确地反映我国旅游产业发展的实际情况,缺乏能反映指标对比差异、综合考虑主客观信息的方法——组合赋权法。旅游产业综合性很强,一般以旅游吸引物为核心,相关产业提供配套服务和设施,以多个单一产品组合形式构成整体旅游产品网络,为旅游者提供完整的旅游经历和体验。另外,旅游产业自身所特有的季节性、网络性、信息性、产品特殊性、消费无形性和连贯性的特点,又使旅游产业不同于其他一般的服务业、制造业和高新技术产业,它显现出自身特有的特征和规律。因此,一般的单一的定量方法不能准确地反映旅游产业发展的实力和相互间力量强弱对比的变化。组合赋权法避免了客观赋权方法和主观赋权方法各自的弊端。主观赋权方法容易受主观因素干扰,尤其是当测量指标过多时,各指标之间关系的真实性问题往往会受到质疑。客观赋权方法因为完全按照数学方法进行严密的推理,缺乏灵活性。组合赋权方法将主观赋权法和客观赋权法进行集成或综合将更趋合理,在运用主观赋权法进行评价时,可以充分利用专家的知识;而在运用客观赋权法进行评价时,可以充分利用指标决策矩阵提供的信息,是适于进行旅游产业效率分析的综合性方法。因此,将主观赋权法和客观赋权法进行集成或综合的组合赋权法将更趋合理。本书采用组合赋权法和DEA方法相结合的研究思路,即将多种评价方法进行综合,实现两者的优势互补,以得到更合理、科学的评价结果。
国内采用组合赋权法的研究中,主观赋权法使用最多的是层次分析法、德尔菲法等;客观赋权法使用最多的是熵值法、因子分析法等。除此之外,使用到的还有GL法、三角模糊法、标准离差法、变异系数法、均方差法、范数关联度法等。鉴于此,为了解决评价方法的一致性和科学性问题,为了充分挖掘决策者主观信息的同时又不失客观逻辑性,本书针对各级指标特征选择熵值法和层次分析法分别赋权。具体思路如下:考虑到测量旅游产业效率测评体系中低层次指标种类较多,难以准确把握指标权重的关系,对最低层次指标层采用客观熵值法赋权;上级指标数量较少,指标之间的逻辑关系往往由经济发展规律、产业结构关系所决定,因此,通过专家打分的形式确定高级指标的相对重要性,通过层次分析法赋权,最终得到投入和产出要素的综合值,代入DEA模型中进行计算并最终得到旅游产业效率值。另外,在层次分析法的应用中,将群体决策引入其中,进一步提高其科学性和合理性。
(一)熵权法
熵权法是根据各项指标的观测值提供的信息量的大小来确定权重的大小。在进行多指标体系下的综合评价时,如果某个指标的熵值越小,则说明其指标值的变异程度越大,提供的信息量也就越大。相应地,指标所占的权重值也越大;反之亦然。因此,根据熵值得到的指标权重能够客观地反映指标间变异程度的差异性,从而对地区间的差异程度进行更为清晰的量化表达,使评价结果更具有客观性。其计算过程如下:
1.原始数据的标准化
当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。原始数据的标准化是通过一定的数学变换来消除指标类型与量纲、数量级影响的过程,通过标准化可以将不同量纲和数量级的指标进行统一的综合评价。其中,指标类型的转换指的是指标同趋势化处理,即将逆向指标都转化为正向指标,即指标值均是越大越好。由于本书采用的所有的投入、产出数据均为正向数据,不存在逆向化的过程,即指标数值越大评价值也就越好,因此无须对指标进行类型处理,只需进行无量纲化处理。
无量纲化处理方法目前主要有极差正规化法,标准化法和均值化法等。本书选取极差标准化法进行原始数据的处理。设评价指标的原始数据矩阵A=(Xij)m×n,矩阵A的第i行是第i个评价指标的指标值向量,记为:Xi=(Xi1,Xi2,…,Xin),(i=1,2,…,m);第j列是第j个被评价区域的各个指标值向量,记为:Xj=(X1j,X2j,…,Xnj),(j=1,2,…,n),Xij是第j个被评价对象的第i项指标值。设 Xminj和 Xmaxj分别为第j 列的最小值和最大值(j=1,2,…,n),将矩阵 A 的一个原始值 X 通过最大—最小(max-min)标准化映射成在区间[0,1]中的值X′ij,其计算公式为:
2.计算各指标的熵值
将矩阵A经标准化后形成的新的矩阵记为A′,首先对经过标准化处理后的指标值做比重化变化,计算第j个地区的第i项指标值所占比重Vij,其计算公式为:
其次,计算第i项指标的熵值ei,其计算公式为:
其中,k=1/lnVij; 0≤ei≤1; k﹥0; i=1,2,…,m; j=1,2,…,n。对于给定的指标,X′ij的差异性越小,ei越大;当指标值相差越大时,ei越小,该项指标所起的作用越大。
接下来,确定第i项指标的变异系数,其计算公式为:
最后,确定第i项指标的权重Wi,其计算公式为:
其中,0≤Wi≤1,;通过计算可以得到熵权系数向量w=(w1,w2,…,wn)。
(二)基于群体决策的层次分析法
层次分析法是一种将定量与定性相结合的系统分析方法。但是这种方法的缺点是在建立判断矩阵时存在着一定的主观性。为了解决这个问题,在此将群体决策引入到层次分析法中。基于群体决策的层次分析法在处理不同专家给出的判断矩阵时,一般有两种常见的方法。
第一种方法是根据不同的专家给出的判断矩阵,利用几何平均法分别计算矩阵所对应元素的值,构造成平均判断矩阵,即群体决策判断矩阵,这种方法的优点是:只需进行简单的矩阵加总求和,不增加矩阵特征根的计算;缺点是:很难保持矩阵的一致性,如果一致性检验通不过,还需要与专家进行讨论和进行矩阵调整。
第二种方法是在最终结果中引入群体决策,即判断矩阵由单个专家做出后,进行一系列的计算并对最终结果进行加权求和。这样虽然需要对多个矩阵的特征根进行计算,工作量稍大,但更容易保证各判断矩阵的一致性。
本书选取第二种方法进行权重的计算。其计算过程如下:
1.单一专家指标权重的确定
首先建立旅游产业效率投入产出模型的指标体系(具体见本章第二节),然后根据每个专家的评判结果建立两两比较判断矩阵Ak(k=1,2,…,m,代表专家数量)。在此采用1—9标度法获得判断矩阵。对判断矩阵进行计算,获得单一专家情况下的指标权重(k=1,2,…,m),并进行矩阵的一致性检验。由于层次分析法算法比较成熟,应用广泛,基于单一专家的指标权重的计算过程在此不再叙述,着重介绍群体决策时专家相对权重的确定以及最后综合权重的确定的计算过程。
2.群体决策时专家相对权重的确定
由于专家的知识结构、知识水平及对要评价内容的认识程度不同,他们的判断矩阵的可信程度及真实程度具有一定的差异性,因此,需要对各专家赋予一定的权重。利用上一步得到的判断矩阵 Ak及进行一致性检验得到的一致性比率,其中,来自同阶矩阵平均一致性表),通过计算可得专家的权重Pk,其计算公式为:
将PK做归一化处理之后得到专家权重P′K:
其中,参数a是为了起到调节器的作用,一般取值为10。
3.指标综合权重的确定
根据每位专家得出的指标权重和专家的权重P′K,将两项相乘并求和就可得到这个指标的组合权重,所以第i个指标的权重为:
归一化处理后得到的该指标的综合权重公式为:
这种方法在计算过程中,首先将多个专家对指标的评价进行权重计算并进行检验,既避免了因为单一专家评判而产生的误差,又因在计算过程中为不同的专家赋予权重而使更专业、知识水平更高的专家的评判结果被更多地采纳,从而保证结果的真实性。
(三)组合权重的确定
利用群体决策的层次分析法得到的主观权重向量 W′j=(W′1,W′2,…,W′n)和熵权法得到的熵权系数向量 w=(w1,w2,…,wn),根据公式:
可以得到综合考虑主客观因素的各项评价指标组合熵权系数 ,其中,权重平衡系数为α(0≤α≤1),可以根据实际情况和评价需要来确定α的值,在此选取α=0.5。
三 重心坐标法
空间中心常用一对坐标值来表达,它是指一个空间分布整体在二维空间的相对位置。在此引入算术平均中心(也叫重心)来解决旅游效率的空间变迁问题,涉及旅游效率重心、旅游效率空间结构均衡测度等。用此方法来刻画空间属性的集聚特征及偏移轨迹。其计算公式为:
其中,Xi、Yi为第i个区域中心位置的经纬度坐标(为了便于统一,在此均用各区域的几何中心位置来表示),Pi为该区域某行业旅游效率的分值,n为被评价的区域个数,j表示年份。利用该公式可以计算所有被评价区域的几何中心及使用旅游效率分值加权后得到的算术平均重心。
四 标准差椭圆
现实中,很多地理现象的空间分布在各个方向上的离散程度是不同的,使用标准差椭圆法可以反映我国旅游产业效率在空间分布上的方向性。标准差椭圆法有指向tanθ、最大标准差距离和最小标准差距离三个主要要素。在此通过椭圆的长轴方向表示旅游产业效率高的区域的主要分布方向,短轴为要素空间分布最少的方向。另外,可以用标准差椭圆的长短轴之比来描述一个空间分布接近于圆的程度,椭圆的面积表征离散程度。其计算公式为:
其中,(ai,bi)为第i个区域几何中心的坐标,(,)表示整个研究区域的几何中心位置,δ长为标准差椭圆长轴,δ短为标准差椭圆短轴,通过长轴和短轴可以计算椭圆的面积为:
五 空间自相关分析
探索性空间数据分析方法(Exploratory Spatial Data Analysis,ESDA),是一种将统计学和现代图形计算技术结合起来的分析方法。一般来说,事物之间是距离越近联系越强,区域经济活动也不同程度地表现了空间相关性或自相关性,ESDA方法就是将这种空间集聚和空间异常量化表达出来,从而解释研究对象间的空间相互作用机制。本书用最主要的全局空间自相关来分析基于旅游产业效率的省域单元间的空间相互作用和分布规律。
(一)空间权重矩阵的确定
要进行空间自相关分析首先必须要确定空间权重,在此用空间权重矩阵来表示研究各区域单元间的邻近关系。地理单元间的相邻关系可以表示为鲁克(Rook)相邻、毕晓普(Bishop)相邻和奎恩(Queen)相邻三种。鲁克相邻是两个地理单元有共同边界;毕晓普相邻是顶点相邻,即两个地理单元有共同顶点;奎恩相邻是边界或顶点相邻,即两个地理单元有共同边界或相同的顶点。选定了邻近关系之后就可以建立空间权重矩阵,它是一个二维矩阵,表达了各空间单元间的邻近关系,表示如下:
根据相邻标准,W中的元素Wij为:
除邻接关系外,空间权重矩阵的元素还可以根据各单元间的距离来确定。一种方式为根据门槛距离d来确定两单元之间是否相邻。区域之间的距离根据各区域间的质心距离来确定。当两区域间距离在d之内,则称为相邻;若距离超过d,则称为不相邻。除此之外,还有一种方式为K个最近邻居空间权重矩阵,即将地理距离最近的K个单元设为自己的邻居,每个单元都有K个邻居。为了平衡邻近矩阵结构,本书选定4个最近邻居空间权重矩阵来表示区域单元间的空间关系。
(二)全域空间自相关
全域空间自相关用来表示整个研究区域上所有空间单元间的平均关联程度及其显著性,常用的方法有莫兰指数(Moran's I)、吉尔里(Geary)C等方法,在此选用应用非常广泛的莫兰指数来反映空间关系,其计算公式如下:
其中,,ai表示i地区的旅游产业效率值,m为地区数,W为空间权重矩阵。莫兰指数的取值范围在-1—1之间,越接近于1,空间正相关越强;越接近于-1,空间负相关性越强;接近于0表示不存在空间自相关性。
六 面板数据回归模型
对旅游产业效率影响因素问题的研究使用回归模型进行分析是合适的,也是必要的,而选取适用的回归模型是研究的关键。从时空维度来看,计量经济学中用于分析的数据可以分为横截面数据、时间序列数据和面板数据。其中,横截面数据是指在某一时点收集的关于对象的数据,突出对象的空间差异,其特点是离散性高;时间序列数据是指对同一对象在不同时间连续观测所得的数据,突出对象的历时发展规律,着眼于研究对象在时间序列上的变化;面板数据可以称为“时间序列—截面数据”,是截面数据与时间序列综合起来的数据资源,它既可以分析个体之间的差异,也可以描述个体的动态变化特征,即既有对象的空间差异,也有对象的历时发展变化规律。本书力图揭示我国旅游产业效率时空双维度上的演变规律及影响因素,因此,简单的横截面数据和时间序列数据均无法满足书研究的需要,面板数据则可综合反映时空双维度下旅游产业效率的变化规律及深层次的影响因素和驱动机制,因此,本书研究中选取了2002—2013年的面板数据作为研究数据。相应地,计量经济学中单一的时间序列模型和横截面数据模型无法满足本书研究的需要。单一的时间序列模型只能反映同质的非时变不可观测因素,不能揭示不可观测的非时变异质因素对模型参数的估计因素及对被解释变量的影响;单一的横截面模型忽略了不可观测的异质性因素,容易影响参数估计的有效性和异质性。因此,本书采用面板数据模型进行我国旅游产业效率的影响因素分析,既可体现时变不可观测的同质因素,又可体现非时变不可观测的异质因素,使参数估计更为准确。
(一)数据平稳性检验
根据进行面板数据模型分析的要求,在进行回归分析之前首先需要检验数据的平稳性。这主要是为了剔除虚假回归或伪回归,也就是一些非平稳的经济事件序列虽然会表现出共同的变化趋势,但不一定本身有直接的关联,对这些数据进行回归是没有意义的。要剔除这种情况就要进行平稳性检验,而检验平稳性最常用的办法就是单位根检验。
对于面板数据:
其中,Xit代表外生变量,包括截面成员的固定效应或者个体趋势;N表示截面成员的个数,Ti表示第i个截面成员的样本观测时期数,ρi是自回归系数;假定随机误差项εit满足独立同分布的建设。如果假定各截面序列有相同的单位根过程,即ρi=ρ,可以用LLC检验、Breitung检验和Hadri检验,其中,LLC检验的原假设是“各截面序列有一个相同的单位根”;如果假定各截面序列具有不同大单位根过程,即参数ρi跨截面自由地变化,可以用IPS检验、费希尔(Fisher)—ADF检验和费希尔—PP检验,这三种检验方法的基本原理都是先对不同的截面序列分别进行单位根检验,然后综合这些截面序列的检验结果构造面板数据的检验统计量。LLC检验使用的是ADF检验形式:
其中,假定α=ρ-1; Pi是第i个截面成员滞后项的阶数,允许其在不同的截面成员上发生变化。原假设和备择假设写为:H0∶α=0; H1∶α﹤0,其检验统计量渐进地服从标准正态分布。
IPS、费希尔—ADF和费希尔—PP检验的原假设为:H0∶α=0,对于所有的i,备择假设为:
IPS检验统计量渐进地服从标准正态分布。费希尔—ADF 和费希尔—PP检验渐进地服从χ2分布和标准正态分布。
在此,对我国旅游产业效率影响因素分析的相关面板数据同时进行相同根单位根检验LLC和不同根单位根检验IPS、费希尔—ADF和费希尔—PP检验,在这几种检验中,如果均拒绝存在原单位根的原假设,则认为序列是平稳的;如果不能拒绝原假设,则认为序列不平稳,在此情况下,对序列进行一阶差分后继续检验,检验序列是否平稳。在此,记I(0)为零阶单整,I(1)为一阶单整。
(二)数据协整检验
基于单位根检验的结果发现变量之间是同阶单整的,那么就可以进行面板数据的协整检验。协整检验是考察变量间长期均衡关系的方法。所谓协整,是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性,此时称这些变量序列间有协整关系存在。因此,协整的要求或前提是同阶单整。通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此,可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
协整关系的检验主要有两类:一类是建立在约翰森协整检验基础上的费希尔检验,通过联合单个截面个体JJ检验的结果获得对应于面板数据的检验统计量;另一类是建立在恩格尔和格兰杰(Engle and Granger)二步法检验基础上的Pedroni检验和Kao检验。在2003年的时候,Gutierrez用蒙特卡洛模拟检验对Kao检验、Pedroni检验和larsson检验三种方法进行了比较,得出如下结论:当T值比较大时,这三种检验的功效都很高;当T值比较小时,面板数据这三种的检验功效开始降低。他还发现,当T固定等于10时,随着N的变大,Kao检验一直都会比拉森Pedroni检验功效高。但是,当T增大时,Pedroni检验比Kao检验功效更好。它们两者的检验功效都会比拉森(Larsson)好。本书的时间跨度为2002—2013年共11年(不包括2011年),T值刚刚大于10,因此,采用Kao 检验对相关面板数据间是否存在协整关系进行分析。Kao检验过程如下:
对于面板回归模型:
其中,eit是非协整的I(1)过程。Zit是任何固定效应(可以取0、1固定效应μi)或面板固定时间趋势的外生变量。对于Zit={μi},Kao利用DF和ADF型单位根检验,检验没有协整的零假设。DF型统计量可以从固定效应模型的残差检验式计算得到:
其中,,。
零假设写成H0∶ρ=1。ρ的组内OLS估计和t统计量分别是:
其中,,Kao 提出了下列四种 DF型检验:
其中,,。
DFρ和DFt检验适用于解释变量和误差项具有严外生性的情形;和是为了检验解释变量和误差项具有内生关系的协整。
对于ADF检验,用下述回归:
构造检验没有协整零假设的ADF统计量:
其中,tADF是模型Pedroni检验中联合组内尺度四个统计量参数 ρ的 t统计量。DFρ、DFt、、和ADF 依序贯极限收敛于标准正态分布N(0,1)。
(三)面板数据模型选择
面板数据的一般形式为:
i=1,2,…,N t=1,2,…,Ti
其中,yit是因变量,xkit是 k个揭示变量,N 是横截面个体成员的个数,T表示样本观测时期数,参数 αi表示面板数据模型的截距项,β1i,…,βki表示对应于k个解释变量的系数。通常假定随机误差项uit之间相互独立,且满足均值为零、方差同为的假设。
根据对截距项和解释变量系数的不同限制,可以将面板数据模型分为混合回归模型、变截距模型和变系数模型三种类型。
1.混合回归模型
混合回归模型(Pooled Regression Model)假设截距项αi和解释变量系数β1i,…,βki对于所有的截面个体成员都是相同的,即假设在个体成员上既无个体影响,也无结构变化。混合回归模型可以写成如下形式:
从时间上看,不同个体之间不存在显著差异;从截面上看,不同截面之间也不存在显著差异的话,就可以使用混合回归模型。在许多现实问题的研究中,由于混合回归模型限定条件较少以及数据样本很难没有个体差异,所以,混合回归模型适用的不多,而各省域旅游产业效率由于产业环境差异性较大,个体成员不可能没有结构变化,因此混合回归模型适用的可能性不大,在此不对混合回归模型做详细讨论。
2.变截距模型
对于混合回归模型(2.36),可以将所有截面个体成员的时间序列数据混合在一起作为样本数据,然后使用 OLS对模型参数进行估计,这就是变截距模型。变截距模型假定在截面个体成员上截距项αi不同,解释变量系数,β1i,…,βki相同,即假设在个体成员上存在个体影响而结构系数变化,具有如下回归形式:
根据个体影响的不同形式,变截距模型又可分为固定效应模型和随机效应模型。
(1)固定效应变截距模型。固定效应变截距模型假定截距项 ,该模型具有如下形式:
其中,表示均值截距项,其在各个截面成员方程中都是相同的;表示截面个体截距项,其在各截面成员方程中是不同的,表示截面成员对均值的偏离。对于所有的个体成员,它们对均值的偏离之和应该为零,即。
其实,固定效应变截距模型是一个有参数约束限制的模型。若随机误差项uit满足之间相互独立、方差同为的假设,则可以适用最小二乘虚拟变量(LSDV)估计方法得到上述模型各参数的最优线性无偏估计量。如果随机误差项uit不满足独立或者同方差的假设,则需要使用GLS方法对模型进行估计。固定效应变截距模型的GLS估计主要考虑如下四种基本的方差结构:个体成员截面异方差、时期异方差、同期相关协方差和时期间相关协方差。对于前两种异方差结构,可以分别使用截面加权和时期加权的GLS估计;对于后两种异方差结构,可以分别使用截面加权和时期加权的SUR估计。若随机误差项之间既不存在异方差,也不存在同期相关,但是,随机误差项与解释变量存在相关时,则需要使用TSLS估计方法对模型进行估计,因为模型参数的OLS估计量或者GLS估计量都是有偏的且非一致的。
(2)随机效应变截距模型。随机效应变截距模型把变截距模型中用来反映个体差异的截距项 αi分解为常数项和随机变量项两部分。随机变量项表示模型中被忽略的、反映个体差异的解释变量的影响,该模型的形式如下:
其中,α是截距中的常数项部分,vi是截距中的随机变量部分,它代表了截面成员的随机影响。从上式可以看到,随机效应变截距模型的随机误差项是两种随机误差之和,即vi+uit。
尽管可以假定上式中随机误差项与解释变量不相关,但是,在同一个截面成员、不同时期的随机误差项之间存在一定的相关性,它们之间的相关系数为:
其中,wit=vi+uit,,,。模型参数的OLS估计量虽然是无偏的和一致的,但其不再是最有效估计量。因此,对于随机效应变截距模型,一般是用GLS估计方法对其进行估计。同时,当随机效应变截距模型中随机误差项与解释变量相关时,则需要采用广义的TSLS估计方法对模型进行估计。
3.变系数模型
若考虑经济结构参数随着截面成员个体的变化而改变时,则需要建立如下变系数模型:
变系数模型假定截距项αt和解释变量系数βi,…,βk在不同的截面个体上是不同的。一般来说,通常假定随机误差项uit之间相互独立,且满足均值为零、同方差的假设。根据个体影响的不同,变系数模型也分为固定效应变系数模型和随机效应变系数模型。
(1)固定效应变系数模型。在固定效应变系数模型中,截距项αi和解释变量系数βi,…,βk都是跨截面变化的常数。如果不同截面个体的随机误差项uit之间不相关,则可以将变系数模型分成对应于截面个体的N个单方程,分别使用OLS方法估计这些单方程从而得到变系数模型的参数。如果不同截面个体的随机误差项uit之间存在相关,则需要使用GLS方法估计变系数模型。
(2)随机效应变系数模型。在随机效应变系数模型中,截距项αi和解释变量系数β1,…,βk都是跨截面变化的随机变量。该模型估计需要采用可行性的广义最小二乘估计方法,即先用各截面个体的OLS方法估计获得随机误差项方差的无偏估计,然后再进行GLS方法估计。
4.模型的选择
在对面板数据模型进行估计时,需要对模型形式进行检验,即检验样本数据符合混合回归模型、变截距模型以及变系数模型中的哪一种。如果设定了错误的模型形式,则模型估计结果是有偏差的。模型形式设定检验使用协方差分析检验,即检验如下两个原假设:
H0:面板数据模型中的解释变量系数对于所有的截面成员是相同的,但截距项不同即该模型形式是变截距模型;
H1:模型中的解释变量系数和截距项对于所有的截面成员都是相同的,即该模型形式为混合回归模型。
模型形式检验有如下两个F检验统计量:
其中,N是截面成员个数,T是每个截面成员的样本观测时期数,k是非常数项解释变量的个数,S1、S2、S3分别是变系数模型、变截距模型和混合回归模型的回归残差平方和。在原假设H0、H1成立的条件下,检验统计量F2、F2分别服从特定自由度的F分布。
模型检验的过程是:先检验原假设H1,如果统计量小于某个检验水平(比如5%)下F2分布临界值,则不能拒绝原假设,且无须再检验H0,从而表明利用混合回归模型来拟合样本是合适的;否则,拒绝原假设H1,并继续检验假设H0。如果统计量小于某个检验水平下F分布临界值,则不能拒绝假设H0,从而表明利用变截距模型来拟合样本是合适的。否则,拒绝假设H0,并利用变系数模型。
采用F检验决定选用混合模型,变系数模型还是变截距模型之后,用豪斯曼检验确定应该建立随机效应模型还是固定效应模型。固定效应模型将反映个体和(或)时点异质性的系数设定为确定性的常数,这一常数对不同的个体和(或)时点不同;随机效应模型则将这种异质性设定为来自服从一特定分布的随机变量,其均值为零,方差为常数。豪斯曼检验基本原理如下:
其检验假设为:H0:随机效应模型;H1:固定效应模型。
设b1为随机效应模型的参数估计,则在原假设 H0成立的条件下,b1是一致且有效的估计量,而在备选假设H1条件下b1不再是一致估计;设b2为固定效应模型的参数估计,则在H0和H1条件下b2均是一致的,但在 H0条件下不具有有效性。由此可知,在 H0条件下,b1与b2没有系统差别。豪斯曼检验的核心结论就是,一个有效估计量与一个非有效估计量之差,同该有效估计量的协方差为零,此即意味着:
又因为var(b1-b2)=var(b1)+var(b2)-Cov(b1,b2)-Cov(b1,b2),将其代入式(2.44)中,即可得到:
构造Wald统计量:
其中,Ψ是采用固定效应回归模型中斜率估计量的协方差估计矩阵,与随机效应模型(不含常数项)中的协方差估计矩阵所估计得到的。统计量Wald服从自由度为(K-1)的分布,据此可以对模型的固定效应或随机效应进行检验,从而确定模型的具体形式。