spatialAnalysis

省份数据的问题

参考慧航的 WeChat Article

那么空间面板呢？这是个很有意思的问题，因为首先空间计量本质上是要求总体数据的，因为我们需要计算邻居的均值，如果一个个体的某些邻居没有观测，那么显然有度量上的问题。

因为需要构建一个空间权重矩阵，如果只考虑一部分省份，那么这个空间权重矩阵的计算就是有问题的。

另外一个问题就是，中国的省份是如此之大，省份之间究竟有多少空间相关性？如果是讨论政府官员晋升我还相信，但是如果讨论污染、企业之间的竞争，用省份数据来做，每个省份都不小，这样的效应直觉上有多大？

但是用一个省份的汇总量，而不是微观数据，实际上的确很难查看显著性，因为每个省份五脏俱全，均值水平都是差不多，很难显著。

有限总体的一个很严重的问题是，经常我们不能把这些样本看成是独立同分布的。

独立同分布，针对于无限总体，比如投掷硬币，联合分布可以写成乘积关系。以下可以举一个例子。

[c_{ri} = \alpha_{r} + \varepsilon_{ri}]

独立同分布必须满足

[\text{Cov}(c_{ri},c_{rj}) = \text{Cov}(c_{ri},c_{rj}) = \text{Var}(\alpha_{r})]

因此如果 (\alpha_{r})

是一个常数，那么就成立了，但是显然不是。

但是现实总不是完美的，省份数据大多由个体数据加总而来，个体数据本身就有误差，加总中涉及到调查，这中间又会有误差，所以我们不能简简单单把这些数据看成是总体，因为度量误差always是有的。

从微观数据到宏观数据，度量误差都可能产生，因此这是系统误差，无法避免的，没有完美的理论假设。