1 概述

Wang, Pengyuan 的因果推断相关研究大多集中在 2015 年左右，建议关注 2017 年之后的成果。其中，propensity trees(Wang et al. 2015)的核心思想已被 Wager and Athey (2018) 清晰阐述，可进一步查看是否有后续研究。

Susan Athey（斯坦福）一直在将计量经济学与机器学习相结合，通过 Wager and Athey (2018) 可知其研究质量值得认可。

2 Wager and Athey (2018) 论文要点

2.1 研究背景与动机

该研究需要对处理效应异质性有深入理解，在此基础上开发了一种非参数因果森林来估计异质性处理效应，这是对 Breiman 广泛使用的随机森林算法的扩展。

因果森林考虑了处理效应的非线性情况，实验表明，在存在无关协变量的情况下，因果森林比基于最近邻匹配的经典方法更强大。

2.2 相关工作

历史上，大多数数据集过小，难以在将样本划分为几个子组之外有意义地探索处理效应的异质性。
经典的非参数估计异质性处理效应的方法包括最近邻匹配、核方法和系列估计等。
本研究提出的森林由因果树组成，这些因果树在树的叶子节点处估计处理效应，因此被称为因果森林。
本研究首次给出了随机森林预测在渐近意义下既无偏又服从高斯分布的条件，从而允许进行经典的统计推断。

2.3 无混杂性的处理效应估计

假设我们有 \(n\) 个独立同分布的训练样本，每个样本包含特征向量 \(X_{i} \in[0,1]^{d}\)、响应 \(Y_{i} \in \mathbb{R}\) 和处理指示符 \(W_{i} \in\{0,1\}\)。根据 Neyman (1923) 和 Rubin (1974) 的潜在结果框架，存在潜在结果 \(Y_{i}^{(1)}\) 和 \(Y_{i}^{(0)}\)，分别对应第 \(i\) 个受试者接受和未接受处理时的响应，处理效应 \(\tau(x)\) 定义为： \[ \tau(x)=\mathbb{E}\left[Y_{i}^{(1)}-Y_{i}^{(0)} \mid X_{i}=x\right] \] 我们的目标是估计这个函数 \(\tau(x)\)，但主要困难在于对于一个给定的训练样本，我们只能观察到两个潜在结果 \(Y_{i}^{(0)}, Y_{i}^{(1)}\) 中的一个，因此不能直接基于 \(Y_{i}^{(1)}-Y_{i}^{(0)}\) 来训练机器学习方法。

无混杂性假设：假设处理分配 \(W_{i}\) 在给定 \(X_{i}\) 的条件下与潜在结果 \(Y_{i}\) 独立，即： \[ \left\{Y_{i}^{(0)}, Y_{i}^{(1)}\right\} \perp W_{i} \mid X_{i} \] 在连续性假设下，无混杂性意味着我们可以将 \(x\) 空间中附近的观测值视为来自随机实验，因此最近邻匹配和其他局部方法通常对于 \(\tau(x)\) 是一致的。

无混杂性的一个直接结果是： \[ \begin{aligned} \mathbb{E}\left[Y_{i}\left(\frac{W_{i}}{e(x)}-\frac{1 - W_{i}}{1 - e(x)}\right) \mid X_{i}=x\right] &=\tau(x), \text { where } \\ e(x) &=\mathbb{E}\left[W_{i} \mid X_{i}=x\right] \end{aligned} \] 其中 \(e(x)\) 是在 \(x\) 处接受处理的倾向。如果我们知道 \(e(x)\)，就可以得到 \(\tau(x)\) 的一个简单无偏估计。

许多早期将机器学习应用于因果推断的研究实际上是通过例如提升算法、神经网络或随机森林来估计 \(e(x)\)，然后利用上述公式得到 \(\tau(x)\) 的估计。而本文采用了一种更间接的方法：在正则性假设下，因果森林可以利用无混杂性假设来实现一致性，而无需显式估计倾向 \(e(x)\)。

2.4 从回归树到因果树和森林

从高层次来看，树和森林可以被认为是具有自适应邻域度量的最近邻方法。决策树模型本身就在对相似的样本进行分组，因此可以直接计算 uplift，并且每个节点内的 uplift 估计是无偏的。

对于一个测试点 \(x\)，经典的 \(k\) 最近邻方法根据预先指定的距离度量（如欧几里得距离）寻找 \(k\) 个最接近 \(x\) 的点。而基于树的方法则是根据决策树来定义接近度，与 \(x\) 最接近的点是那些落在同一个叶子节点中的点。树的优势在于，其叶子节点可以在信号变化快的方向上更窄，在其他方向上更宽，当特征空间的维度适中或较大时，这可能会显著提高效能。

3 Lin and Jeon (2006) KNN 和 RF 的关系

论文Random Forests and Adaptive Nearest Neighbors中，KNN（k - 最近邻算法）和RF（随机森林算法）存在紧密联系，RF可被视作一种特殊的自适应加权k - 最近邻方法。

潜在最近邻视角下的联系：论文提出了潜在最近邻（k - Potential Nearest Neighbors，k - PNNs）的概念，样本点\(x_{i}\)若能在某种单调距离度量下成为目标点\(x_{0}\)的k个最近邻之一，则被称为k - PNN。在此视角下，随机森林的投票点都属于目标点的k - PNNs集合。对于回归和分类随机森林，若样本点\(x_{i}\)不是目标点\(x_{0}\)的k - PNN，那么在由\(x_{i}\)和\(x_{0}\)定义的超矩形中，样本点数量会超过k个，\(x_{i}\)就不可能与\(x_{0}\)处于同一终端节点，所以只有k - PNNs能成为投票点，这表明随机森林可被看作是一种加权k - PNN方法。
从权重分配看联系：不同的随机森林分裂方案会以不同方式给k - PNNs分配权重。非自适应分裂方案在划分输入空间时不依赖响应变量\(y_{i}\)，而实际中多数分裂方案依赖响应变量。以随机边选择（random side selection）为例，它是随机输入选择（random input selection）中随机子集大小\(F = 1\)的情况，在这种方式下，投票权重会在不重要的方向上分散，在重要方向上集中，与理想邻域定性相似，实现了对k - PNNs的自适应权重分配。相比之下，KNN是基于预设距离度量来寻找k个最近邻，并对这些最近邻赋予相同权重，缺乏这种自适应权重分配的能力。
节点大小对性能影响的联系：论文研究了随机森林中终端节点大小k对预测准确性的影响，发现调整k可提升随机森林的估计精度，特别是在低维、大样本的问题中。这与KNN中k值的选择类似，KNN中k值的不同会影响其对目标点的估计效果，k值较小时，模型对局部数据敏感，方差较大；k值较大时，模型更平滑，但可能会引入偏差。在随机森林中，终端节点大小k的变化也会影响模型的偏差和方差，进而影响预测性能。

4 结论

作者主要对比了因果森林算法与经典的 \(k\) 最近邻匹配算法，发现因果森林在偏差和方差方面在各种设置下都占优，并且其优势随着协变量数量的增加而增加。

此外，虽然本文的主要重点是因果推断，但渐近正态性结果在纯预测情境下也有许多重要应用，例如在医疗资源分配方面，本研究的结果首次使得随机森林能够用于此类目的。

Lin, Yi, and Yongho Jeon. 2006. “Random Forests and Adaptive Nearest Neighbors.” Journal of the American Statistical Association 101 (474): 578–90.

Wager, Stefan, and Susan Athey. 2018. “Estimation and Inference of Heterogeneous Treatment Effects Using Random Forests.” Journal of the American Statistical Association 113 (523): 1228–42.

Wang, Pengyuan, Wei Sun, Dawei Yin, Jian Yang, and Yi Chang. 2015. “Robust Tree-Based Causal Inference for Complex Ad Effectiveness Analysis.” In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, 67–76.

Causal Forest 学习笔记