一种方法从来都是为了解决问题,而不是故弄玄虚。所以,在准备用空间回归分析之前,我们得先问自己,为什么要用它?这有两大考虑:一是模型更可靠,二是为了识别空间效应。在一个空间样本集中,样本点之间是相互影响的,这种影响表现在数据上就是Y的空间自相关性,一般用莫兰指数来衡量。空间自相关来源有三:或是Y之间相互影响,或是毗邻的X影响本身的Y,或是模型中忽略的因素存在空间关联性。
根据这三种关联机制,建模的思路也很直接:如果是邻居的Yj影响自身的Yi(反过来Yi也会影响Yj),那就把邻居的Yj值平均后视为新的自变量LY,加到X中去再回归。好比浙江的GDP受到本身投入水平的影响,但也与周边的GDP产出水平有关,因此需要将其毗邻省份,如上海、江苏、安徽、江西、福建的GDP平均后作为新的自变量。每个省份都如此处理,就得到了一列新的变量。
如果是邻居的X影响本身的Y,类似以上做法,把邻居X平均后得到的变量LX加进原有的X再做回归。一般来说,有多少个X,就有多少个LX。
如果模型中应该考虑LY或(和)LX而你没有考虑,统计上看,就等于产生了遗漏变量偏差,因此模型估计是不可靠的。
第三种情况,模型中忽略的因素间存在空间关联性,这种效应将被误差项吸收,造成误差项相关。如果忽略的因素外生性很强,如环境变量或是外生冲击等,其不会造成有偏性或是一致性等问题,因此在大样本下问题不严重,但其会影响估计效率。处理方法是将误差项设定为空间自回归,等于将其分解,一部分为空间自相关部分,则剩下的那部分就是白噪声了。举个例子,假如在城市某区域政府突然要建一个垃圾站,则将会整体拉低那篇区域的房价,使其变动表现出空间自相关性。假如在房价影响模型中你没有考虑这个影响(当然你可以设置虚拟变量或是加入与垃圾站的距离来予以考虑),则其影响就归入误差项中,统计上表现出来就是残差值的莫兰指数显著。
除了模型估计上的考虑外,有时候还想看一下邻居到底对自身有没有影响?如果有,是正向还是负向(通常为正向),影响效应到底有多大?这就是空间效应的识别,这是普通回归模型所做不到的。
基于上述三种空间效应的组合,可以得到7种不同形式的空间回归模型。这些模型中,用得比较多的是空间滞后模型(SLM)、空间误差模型(SEM)和空间杜宾模型(SDM)。
