2.3 分析工具
对于线性、平稳过程,确定模型的分析工具得到了很大发展,而且这些分析工具的解释作用也得到了很好的理解。最常用的统计方法是自相关系数与互相关系数:
ρk=corr(yt,yt-k)
和
ck=corr(yt,xt-k)
及其估计方法,偏相关系数:
也非常有用。如果过程不是线性平稳的,以上分析工具的用途就值得怀疑。例如,xt、μt都是高斯白噪声序列。很明显,存在yt=βyt-1xt-1+ut,对于所有k≠0,有ρk=0;对于所有k,有ck=0,从而yt既不能依据自身的历史数据进行线性预测,也不能根据xt和yt的历史数据进行线性预测。然而,通过非线性方法预测后一期yt是可能的,相应的最优预测为:
ft,1=βytxt
此外,Blatt(1987)构造了扩散的上下界约束的确定性振动序列,发现该序列的自相关系数估计值与平稳过程的自相关系数差别不大。同样地,扩散AR(1)过程的自相关系数和平稳AR(1)过程的自相关系数也相差不多。显然,特定状态的专用工具用于其他地方必然产生误导作用,并且很难解释分析结果。
判断是否为非线性模型的简单工具很少,双谱是其中之一,但一般很难解释,也可利用相关程度、李雅普诺夫指数(Lyapunov exponents)、柯尔莫哥洛夫(Kolmogorov entropy)等描述性统计量分析混沌过程,具体的统计量描述可参见Lorenz(1989)。尽管上述统计量能区别确定性混沌过程和随机过程(参见3.3节的讨论),但不能用于区别两个随机过程。
潜在有用的统计工具应该能测度yt和yt-k或yt与xt-k之间的关系,存在许多衡量关联度的有用方法。对于随机变量y和x,相应的统计工具包括:
(a)最大相关系数,定义为:
mρ=corr(g(y),f(x))
其中,函数f、g是使得mρ达到最大的函数。
(b)最大均值相关:
mm=corr(y,f(x))
其中,函数f是使得mm达到最大的函数。
(c)最大回归系数:
mr=R2回归
y=f(x)+残值
其中,函数f是使mr达到最大的函数。
在时间序列中,对于mρyy(k)而言,y可以是yt+k,x可以是yt;对于mρyx(k)而言,x可以是xt,可以利用Breiman和Friedman(1988)提出的ACE法则估计函数mρ,可以利用ACE的第一步估计函数mm。一般认为,相应函数是三次函数或非参数函数,可以直接运用Tibshirani(1988)提出的法则估计mr。可以通过选择yt或xt的参数函数对yt+k进行回归得到mr的近似值。例如,选择log|x|、x、x2和exp{x}。的数值暗示非线性关系的潜在相关程度。
此外,Pinsker(1964)和McEliece(1977)讨论的相互信息测度(mutual information measure)理论中,存在“影子自相关系数”(shadow autocorrelation)R的有用统计量。令X、Y是一对随机变量,其联合密度分布函数为p(x,y),边际函数为p1(x)和p2(y),相互信息测度I(X,Y)定义为:
并定义
R2(X,Y)=1-exp(-2I(X,Y))
Granger和Lin(1991)指出,R(X,Y)具有以下性质:
(1)当且仅当X、Y独立时,R=0。
(2)当且仅当X=f(Y),其中f()可逆时,R=1。
(3)若分别同期变换X和Y得到g(X)和h(Y),则R不变。
(4)若X和Y(可能各自经过同期变换)的最终变量服从联合高斯分布,其相关系数为ρ,则R=|ρ|。当然,不一定存在该变换。
如果用xt和xt-k代替X和Y,Rk≡R(xt,xt-k)为广义自回归系数,那么,可以利用广义自回归系数估计适合模型的滞后阶数,可以用非参数方法估计相应的分布函数。
Granger和Lin(1991)通过模拟方法研究了的性质。例如,对于独立同分布过程,样本量为n时,核密度估计(kernel density estimator)的带宽(band width)与n-1/5成比例。由于限制估计值为正,即使Rk的期望值为零,的期望值仍为正数。表2-1给出了的偏度。
表 2-1
在其他滞后阶数下,的大小亦相似。例如,样本量为300与原假设为Rk=0时,95%和99%的临界值分别是0.204 5和0.221 2。因此,对应该样本量,大于临界值的的估计值说明xt和xt-k不是相互独立的。成功使用影子自相关系数,将下面每个模型模拟200次,生成一个样本量为300的模型:
(1)
(2) yt=0.6et-1yt-2+et(bilinear)
(3) yt=4yt-1(1-yt-1)(deterministic chaos)
其中,et是服从N(0,1)的独立同分布序列。
表2-2给出的平均估计值,不同模型的显著水平对应于相应的滞后阶数。与随机过程相比,混沌序列的显著水平较低。线性自回归模型和非线性自回归模型的结果也很值得注意。
表 2-2
①表示至少在95%的临界值。
例如,下面的三个模型:
(4) yt=|yt-1|0.8+et(NLAR(1))
(5) yt=sign(yt-1)+et(NLAR(1))
(6) yt=yt-1+et.(随机漫步)
表2-3给出了的平均值。对于非线性AR(1)模型,影子自相关系数指数递减,并且与线性AR(1)模型的自相关系数的表达式相似。同样,与线性自回归模型一样,随机漫步模型的随着k的增加而缓慢减小,只是在较低的滞后阶数下,存在过小偏差。
表 2-3
当k增加时,广义偏相关很难估计,但也可以定义。有用的统计量是Kendall偏(τ),Quade(1976)将其定义为:
考虑随机变量Xt、Yt、Zt,且‖Zt-Zs‖≤L,‖U‖是范数,L是预先确定的许可范围,根据上述条件,定义μ(t,s)=sign[(Xt-Xs)(Yt-Ys)],Cp=μ(t,s)为正的(t,s)组合个数,Dp=μ(t,s)为负的、0≤t≤T的(t,s)组合个数,Np是μ(t,s)为常数的(t,s)组合个数。最后,定义
τp=(Cp-Dp)/Np
在时间序列下,令X=xt,Y=xt-k,Z=xt-1,…,xt-k+1。基于该统计量及其渐进服从正态N(0,1)分布的检验方法有助于正确选择简单非线性自回归模型的滞后阶数,但不适用于选择非线性移动平均模型的滞后阶数。与线性模型的自相关系数的偏相关系数一样,该统计量及影子自相关系数和Kendall偏(τ)也非常有用。
最后的有用工具是帮助确定模型的组成部分。为了解释该方法,假定只有两个可观测输入xt和wt解释yt,相应模型的形式为:
两个统计量有助于选择p值和q值:
其中,是特定p和q的残差et的估计方差,n是参数α和β的最大似然估计的样本数。AIC与BIC统计量用于估计各种可能的p和q,p0和q0是最小化统计量的响应值。如果p和q的真实值无界,那么问题是对应样本数n,哪个有界的p0和q0最接近于真实的无界模型。此时,可以使用AIC统计量。如果真实模型p和q是有界的,那么,可以使用BIC统计量。对于AIC和BIC统计量,没有显著性检验能验证(p0,q0)的模型显著优于(p0-1,q0-1)的模型。现实的输入一般超过两个,需要选择许多参数p1,…,pm,而不仅仅是p和q。选择多参数的较大模型时,AIC和BIC统计量提供了相应的损失惩罚,可参见Judge等(1985)。此处假定输入已知,但是许多模型的函数形式是输入的线性组合。第7章讨论的神经网络或非参数模型的函数形式可以表示为ϕ(∑cjxt-j)。这些例子通常包括许多参数,例如函数内部参数和与函数相乘的参数。若存在p个这样的函数,并且每个函数都是r个输入的不同线性组合,则参数总数为pr。Rissanen(1989)建议使用pr代替p的BIC准则,并称之为复杂性准则。如前所述,尽管可以选择最小化BIC准则的p值,但是还不存在显著性检验。