spatialAnalysis

省份数据的问题

参考慧航的 WeChat Article


那么空间面板呢?这是个很有意思的问题,因为首先空间计量本质上是要求总体数据的,因为我们需要计算邻居的均值,如果一个个体的某些邻居没有观测,那么显然有度量上的问题。

因为需要构建一个空间权重矩阵,如果只考虑一部分省份,那么这个空间权重矩阵的计算就是有问题的。

另外一个问题就是,中国的省份是如此之大,省份之间究竟有多少空间相关性?如果是讨论政府官员晋升我还相信,但是如果讨论污染、企业之间的竞争,用省份数据来做,每个省份都不小,这样的效应直觉上有多大?

但是用一个省份的汇总量,而不是微观数据,实际上的确很难查看显著性,因为每个省份五脏俱全,均值水平都是差不多,很难显著。

有限总体的一个很严重的问题是,经常我们不能把这些样本看成是独立同分布的。

独立同分布,针对于无限总体,比如投掷硬币,联合分布可以写成乘积关系。 以下可以举一个例子。

[c_{ri} = \alpha_{r} + \varepsilon_{ri}]

独立同分布必须满足

[\text{Cov}(c_{ri},c_{rj}) = \text{Cov}(c_{ri},c_{rj}) = \text{Var}(\alpha_{r})]

因此如果 (\alpha_{r})

是一个常数,那么就成立了,但是显然不是。

但是现实总不是完美的,省份数据大多由个体数据加总而来,个体数据本身就有误差,加总中涉及到调查,这中间又会有误差,所以我们不能简简单单把这些数据看成是总体,因为度量误差always是有的。

从微观数据到宏观数据,度量误差都可能产生,因此这是系统误差,无法避免的,没有完美的理论假设。