1. 使用 RMarkdown 的 child 参数,进行文档拼接。
  2. 这样拼接以后的笔记方便复习。
  3. 相关问题提交到 GitHub

1 异方差

1.1 理论部分

异方差,英文叫做 heteroskedasticity。本文参考 Wooldridge (2012) 给出的推导过程。

\[y = \beta_0 + \beta_1 x + \mu\]

OLS回归假设,,因此,

\[V(\mu|x)=\sigma^2\]

异方差假设是 每个样本的\(V(\mu|x)\)不同,一种可能性是跟\(x\)相关,因此不同样本,有不同的\(x\),因此\(V(\mu|x)\)不同, 表达为

\[V(\mu|x)=\sigma^2 \cdot h(x)\]

因此我们做如下转换

\[\frac{y}{\sqrt{h(x)}} = \frac{\beta_0}{\sqrt{h(x)}} + \frac{\beta_1 h(x)}{\sqrt{h(x)}} + \frac{\mu}{\sqrt{h(x)}} \]

这个时候的残差项,\(\frac{\mu}{\sqrt{h(x)}}\)满足同分布的要求,

\[V(\frac{\mu}{\sqrt{h(x)}}|x) = \frac{\sigma^2 \cdot h(x)}{h(x)} = \sigma^2\]

1.2 BP Test 的逻辑

\[y = \beta_0 + \beta_1 x + \mu\]

得到

\[y = \hat \beta_0 + \hat \beta_1 x + \hat \mu\]

做回归

\[\hat \mu^2 = \gamma_0 + \gamma_1 x + \nu\]

得到方程的\(R^2\)和自由度\(n\)

\[\text{BP statistic} = nR^2 > \chi^2\]

\(\text{BP statistic}\)足够大时,

  • 表示\(R^2\)大,\(\sigma^2\)\(x\)存在线性关系,或者
  • 样本足够大,异方差可能性很高

拒绝原假设: 没有异方差,因此样本存在异方差。

1.3 BP Test 和 \(\chi^2\) 检验的关系

需要看懂\(\chi^2\)分布, 上次的\(\chi^2\)不是特别容易懂。

\[y = x \beta + \mu \xrightarrow{get} \hat \mu^2\]

\[\hat \mu^2 = x \gamma + \epsilon \xrightarrow{get} \tilde{\hat \mu^2}\]

\[\frac{\hat \mu^2}{ \tilde{\hat \mu^2}} \sim \chi^2\]

2 Skewness 和 Kurtosis 解释

3 泊松分布检验

## 
##  Exact Poisson test
## 
## data:  60 time base: 50
## number of events = 60, time base = 50, p-value = 0.09227
## alternative hypothesis: true event rate is greater than 1
## 95 percent confidence interval:
##  0.9570464       Inf
## sample estimates:
## event rate 
##        1.2
## [1] 62

泊松分布适合于描述单位时间内随机事件发生的次数。

假设一次市场推广活动中前一个小时有50人注册,后一个小时有60人注册,后一小时的注册人数是否明显高于前一小时?(R语言中文社区 2018a)

  • \(H_0\): 后一小时注册用户数量与前一小时无差异(因为明显后一小时注册人数比前一小时的多,所以无小于符号)。
  • \(H_1\):后一小时注册用户数量显著高于前一小时。

4 F检验

已知回归方程,详细假设见 R语言中文社区 (2018b)

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_m x_m + \mu\]

一共有\(m+1\)\(\beta\),使用了\(m+1\)个自由度

假设样本量为\(n\)

\[\text{F Statistic} = \frac{\frac{SSR}{m}}{\frac{SSE}{n-(m+1)}} = \frac{\frac{\sum_{i=1}^n(\hat y - \bar y)^2}{m}}{\frac{\sum_{i=1}^n(y-\hat y)^2}{n-(m+1)}}\]

其中,SSR 和 SSE的解释见脚注1

5 Q-Q 图理解

Q-Q plot中的“Q-Q”指的是Quantile-Quantile,分数位-分数位。 根据 Jones (2016) 的定义, 假设有两个分布, \[X_1, \cdots X_n\] \[Y_1, \cdots Y_n\]

进行从小到大的排序,

\[X_{(1)}, \cdots X_{(n)}\] \[Y_{(1)}, \cdots Y_{(n)}\]

然后作图,

  • 一般这里的\(X\)指 theoretical,即总体分布
  • 一般这里的\(Y\)指 empirical,即样本分布
  • \(X\)\(Y\)上的值是 quantile,而非 percentile,按照从低到高排序
  • 中间的虚线表达,两个分布完全相等的情况
  • 紫红色的点表示真实情况,与虚线越接近,表示分布越一致

这里虽然线保持平行,但是说明\(Y\)分布整体比\(X\)分布大,发生了平移。

这里虽然线都是直的,但是说明\(Y\)分布整体比\(X\)大的更大,小的更小,因此cdf图上,更加的平,spread大。

如果连线都不是直的,那么说明\(Y\)分布和\(X\)都不一样了,而且还有spread。

线大部分都是直的,但是在两端小的大一些,大的小一些,因此cdf图上,tail短,Kurtosis 大。 (Sicotte 2018)

对于同样的\(\alpha\)值,\(Y\)下降的比\(X\)快,因此短尾,short tail,Kurtosis 大。

线大部分都是直的,但是在两端小的更小,大的更大,因此cdf图上,tail长,Kurtosis 小。

Q–Q plots are often arced, or “S” shaped, indicating that one of the distributions is more skewed than the other, or that one of the distributions has heavier tails than the other. (Wikipedia contributors 2018)

线大部分都是直的,但是在两端小的更大,大的更大,因此cdf图上,右偏,skewness 为正。

线大部分都是直的,但是在两端小的更小,大的更小,因此cdf图上,左偏,skewness 为负。

这是双峰的情况,目前sense还不好,还不能判断。

6 Pearson, Spearman 和 Kendall

6.1 概念理解

  • Pearson: 衡量 linearity,并不需要两个变量满足正态分布的假设。(Hyndman 2010)
  • Spearman: 衡量 monotonic,只要数字的排名对就好了。 因此,我们看到因为spearman相关系数是看排名的,因此异常值的影响小一些。 (Stack Exchange 2011)
  • Kendall: 衡量 monotonic,但是和Spearman有所不同。

针对一个双向有序表,可以将\(X\)\(Y\)列成\(n\)个数据对\((x_i,y_i)\)

  • 如果X和Y正相关,那么两个变量必然有相同的变化,要变大都变大,也变小也都变小,如 \((1,2)\to(2,4), (5,3)\to(2,2)\)等,这样变化的对叫做协和对(concordant pair);
  • 如果是负相关,则两个变量的变化是相反的,如\((1,2)\to(2,1), (5,3)\to(2,4)\),则称为不协和对(disconcordant pair);
  • 如果出现这样的对,如\((1,2)~(1,3), (5,3)~(3,3), (1,1)\to(2,2)\),即在变化中至少有一个变量没发生变化,则既不是协和对也不是不协和对,我将其简称为 “不变对”。 (张自达 2017)

6.2 Pearson 和 Spearman 对比

## [1] 0.252032
## [1] 1
## [1] 1
  • 从这个意义上说,如果数据中存在比较大的异常值,Spearman和 Kendall相关系数会更好。(Li, Fisher, and Darvishan 2013; Anglim 2010)
  • 在scatter图的表现上,如果存在非线性表现,Spearman和 Kendall相关系数会更好。(Anglim 2011)
  • 如果数据存在比较高的skewness,如上面的第三个例子,Spearman和 Kendall相关系数会更好。(Anglim 2010)

6.3 spearman系数 in python

from scipy import stats
x2n = np.random.randn(100, 4)
var_list = ["X1","X2","X3","X4"]
x2n = pd.DataFrame(x2n, columns=var_list)
rho, pval = stats.spearmanr(x2n)
print pd.DataFrame(rho, index=var_list, columns=var_list)
print pd.DataFrame(pval, index=var_list, columns=var_list)

          X1        X2        X3        X4
X1  1.000000  0.018554  0.038572 -0.109727
X2  0.018554  1.000000 -0.004248 -0.022274
X3  0.038572 -0.004248  1.000000 -0.067795
X4 -0.109727 -0.022274 -0.067795  1.000000
          X1        X2        X3        X4
X1  0.000000  0.854624  0.703195  0.277143
X2  0.854624  0.000000  0.966538  0.825895
X3  0.703195  0.966538  0.000000  0.502733
X4  0.277143  0.825895  0.502733  0.000000

6.3.1 其他bug

6.4 其他阅读

7 Monte Carlo

J. Regenstein (2018c) 大概的思路为用样本分布计算\(\mu\)\(\sigma\),拟合正太分布进行sim,然后rerun函数完成多种可能性的假设。

  • SPY (S&P 500 fund) weighted 25%
  • EFA (a non-US equities fund) weighted 25%
  • IJS (a small-cap value fund) weighted 20%
  • EEM (an emerging-mkts fund) weighted 20%
  • AGG (a bond fund) weighted 10% (J. Regenstein 2018c)

就算\(\mu\)\(\sigma\)用于正太分布的sim。

这里计算的累计收益率三种方法,accumulate函数详见 accumulateaccumulate_right

这里计算的是120个月,每个月的累计收益率,转化为年利率。

8 卡方分布 (人工智能爱好者社区 2018b)

假设n个相互独立的随机变量

\[\xi_1, \dots, \xi_n \sim N(0,1)\]

那么

\[Q = \sum_i^{n} \xi_i^2 \sim \chi^2(n)\]

  • 这里的\(n\)就是自由度,这也算是自由度间接的定义了。
  • 并且这里只有\(n\)是唯一的参数,因此\(\chi^2\)分布只与\(n\)有关。

9 F分布 (人工智能爱好者社区 2018b)

\[\begin{cases} X \sim \chi^2(n) \\ Y \sim \chi^2(m) \\ \end{cases}\to F = \frac{\frac{X}{n}}{\frac{Y}{m}} \sim F(n-1,m-1)\]

10 极大似然估计 (R语言中文社区 2018c)

直观理解,假设有一组随机变量

\[\xi_1,\dots,\xi_n\]

他们都有对应的概率分布

\[f(x_i;\theta_i)\]

联合分布是

\[\prod_{i=1}^n f(x_i;\theta)\]

最大似然估计的意思是

\[\max \prod_{i=1}^n f(x_i;\theta)\]

也就是说,最大化联合分布,这就是最大似然估计。

这里考虑线性回归的问题。

\[\varepsilon_i \sim N(0,\sigma^2) \to y_i \sim N(\beta_0 + \beta_1 x_i,\sigma^2)\]

\[\begin{alignat}{2} f(y_i) &= \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y_i-(\beta_0+\beta_1x_i))^2}{2\sigma^2}} \\ L &= \prod_{i=1}^n f(y_i) \\ \ln(L) &= \ln(\prod_i^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y_i-(\beta_0+\beta_1x_i))^2}{2\sigma^2}}) \\ &= \ln(2\pi\sigma^2)^{-\frac{n}{2}} + (-\frac{1}{2\sigma^2})\sum_i^n (y_i-(\beta_0+\beta_1x_i))^2 \\ \max(L) &= \min (y_i-(\beta_0+\beta_1x_i)^2) \\ \text{最大似然估计} &= \text{最小二乘法}\\ \end{alignat}\]

值得注意的是,从一开始每个\(\varepsilon\)的分布,就是假设正态分布,才推导出来这个结论,因此这是一个先验知识,不是贝叶斯的思考方式。

以二项分布为例(张磊 2018),最大似然估计后,

\[E = x^n(1-x)^{1-n}\]

\[x \in [0,1], n = 1,\dots,n\]

找出

\[\text{argmax }_{x} E = \text{argmax }_{x} x^n(1-x)^{1-n}\]

因此\(E\)最大时的\(x\)就是最大似然估计的意思。

11 EM算法

EM算法是假设两个分布混合的时候,先预设符合哪个分布,就那些预估,然后进行真实值比对,错误的进行重新预设。(人工智能爱好者社区 2018a)

12 lm(y ~ 1)

## [1] 0.09040591
## [1] 0.9128159
  • \(\beta_0\)就是\(\bar y\)
  • \(\text{sd}(\beta_0)\)就是\(\text{sd}(y)\)

13 倾向值匹配法

倾向值匹配法 又称 Propensity Score Analysis。

同样是实验组和对照组的比较,相比较于逻辑回归直接加入变量的区别是

  • 首先,如果将混淆变量作为控制变量放进回归模型中,我们就潜在假定了这些混淆变量对因变量之间存在一种线性关系。然而这种线性关系很可能缺乏理论和实践依据。
  • 其次,自变量的回归系数代表的是一个“平均”效果。
  • 最后,由于混淆变量与我们关系的自变量之间存在相关性,简单地将混淆变量纳入多元回归模型有可能产生多重共线性问题。(李航 2018)

以下是进行的步骤 (江雨凡 2018):

假设有三类变量 \(y,x_{\text{ctrl}},x_{\text{research}}\)

先做回归

\[y \sim x_{\text{ctrl}} \to \hat y\]

然后根据

\[(\hat y | x_{\text{research}} = 1) \approx (\hat y | x_{\text{research}} = 0)\]

匹配出\(x_{\text{ctrl}}\)差不多的组别样本。 因为用\(x_{\text{ctrl}}\)回归,\(\hat y\)近似的样本,可以认为\(x_{\text{ctrl}}\)差不多的。

然后比较\((y | x_{\text{research}} = 1)\)\((y | x_{\text{research}} = 0)\)的分布,\(x_{\text{research}}\)是否导致\(y\)有较大差异,孰优孰长。 并且这个地方进行了控制变量的控制,每个样本pairs都是\(\hat y\)近似的样本,可以认为\(x_{\text{ctrl}}\)差不多的。 因此

\[\Delta \hat y = (y | x_{\text{research}} = 1) - (y | x_{\text{research}} = 0)\]

可以作为\(x_{\text{research}}\)单纯的影响,控制了其他变量的影响不变。

并且这里的\(y | x_{\text{research}}\)满足了\(x_{\text{research}}\)\(y\)的非线性比较,如果是OLS加入因子\(x_{\text{research}}\),必须假设两者是线性结构。

简单的说就是将各个受测单位多维度的信息,使用统计方法简化成一维度的数值,也就是倾向值,然后根据倾向值进行匹配,匹配的目的找到实验组和对照组样本拥有同样倾向值的样本,他们之间差异就是因果差异。

看到这里其中涉及的算法不仅限于逻辑回归,树模型,包括无监督的PCA都可以,因为就是降维一个数值进行匹配。

实际做预测的时候,可以使用实验组和对照组的总样本作回归/分类,然后按照\(\hat y\)切bin,分组,然后看

\[(\bar{\hat y}|\text{treat}) \text{ vs. } (\bar{\hat y}|\text{ctrl}) \]

谁高,这一个bin,就判断给那一个group,

因此\(\hat y\)的在预测时,也判断了group。

We investigate a disguised form of corruption using a unique and comprehensive sample of credit card data in China. We document that bureaucrats—defined as those working in the government—receive 12% higher credit lines than non-bureaucrats with similar income and demographics.

如果是公务员这个特征,明显给额更高,评级更好,逾期率更低也可以理解。

Despite the higher credit lines, bureaucrats’ credit card accounts experience a higher delinquency rate and a higher likelihood of reinstatement indicating their debt being forgiven by the bank.

但是公务员,给额更高,但是逾期更大,因此这是一种变相腐败。

The effect of greater credit lines and higher delinquency and reinstatement rates associated with bureaucrats is stronger among bureaucrats with a higher hierarchy rank and in more corruptive areas.

并且腐败区域更严重、或者位置更高的公务员群体,逾期和额度关系更紧密(应该说的是相关性更强)。

13.1 Data and Methodology

13.1.1 Data

不可得。

13.1.2 Methodology

\[Y_{i, j, t}=\alpha_{i}+\beta_{i} * \text {Bureaucrat}_{i}+\gamma_{i, j, t} * X_{i, j, t}+\theta_{t}+\delta_{j}+\epsilon_{i, j, t}\]

where \(Y_{i, j, t}\) is the dependent variable denoting the total credit line (or account delinquency indicator, reinstatement indicator, time to reinstatement) granted for individual \(i\) living in city \(j\) at time of credit card origination year \(t .\) Bueaucrats\(_{i}\) is the binary variable equal to one if the applicant works in the government agency. \(X_{i, j, t}\) denotes a vector of demographical controls for the cardholder. \(\theta_{t}\) and \(\delta_{j}\) are time and location fixed effect used to absorb the common variation in time and across locations.

这是一个 longitudinal data。

13.2 Table 1 Summary Statistics

panelB 做了一个 PSM 的思想,去查看最相近的样本分是否公务员,查询额度等等的差异。

Figure 13.1: panelB 做了一个 PSM 的思想,去查看最相近的样本分是否公务员,查询额度等等的差异。

  • 可以学习 Agarwal et al. (2020) 这里 PSM 的前人综述

13.3 Table 2 The Credit line Premium for Bureaucrats

Sophistication is the total number of banks the individual has established banking relationships through debit card, mortgage loan or credit card account.

公务员额度更高。‘Sophistication’ 多头反而额度更高。公务员额度更高。‘Sophistication’ 多头反而额度更高。

Figure 13.2: 公务员额度更高。‘Sophistication’ 多头反而额度更高。

13.4 Table 3 Cross-sectional Heterogeneity in the Bureaucrat Credit line Premium

‘Cross-sectional Heterogeneity in the Bureaucrat’ 衡量了公务员之间的差异,’旁骛’更多,额度更高。‘Cross-sectional Heterogeneity in the Bureaucrat’ 衡量了公务员之间的差异,’旁骛’更多,额度更高。

Figure 13.3: ‘Cross-sectional Heterogeneity in the Bureaucrat’ 衡量了公务员之间的差异,’旁骛’更多,额度更高。

14 (un)conditional metrics

(无)条件概率、分布、期望、方差、中位数、分位数的解释。 跟异方差、分位数回归相关。 参考 陈强 (2017e)

14.1 (无)条件概率

如图

\[\text{P}(A) = \frac{\text{size}(A)}{\text{size}(\text{All})}\] \[\text{P}(A|B) = \frac{\text{P}(A \cap B)}{\text{P}(B)} = \frac{\text{size}(A \cap B)}{\text{size}(B)}\]

law of total probability

\[\begin{alignat}{2} \text{P}(A) &= \text{P}(B) \cdot \text{P}(A|B) + \text{P}(\not B) \cdot \text{P}(A| \not B) \\ &= \frac{\text{size}(B)}{\text{size}(\text{All})} \cdot \frac{\text{size}(A \cap B)}{\text{size}(B)} + \frac{\text{size}(\not B)}{\text{size}(\text{All})} \cdot \frac{\text{size}(A \cap \not B)}{\text{size}(\not B)} \\ &= \frac{\text{size}(A \cap B)}{\text{size}(\text{All})} + \frac{\text{size}(A \cap \not B)}{\text{size}(\text{All})} \\ & = \frac{\text{size}(A)}{\text{size}(\text{All})} \end{alignat}\]

14.2 (无)条件分布

概率是从分布上得到的,定义二维向量及其分布如下。

如图条件概率就是一个个切片。

这里假设 \(X \in [x - \varepsilon,x + \varepsilon]\)并且\(\varepsilon \to 0\),那么分布如下

\[f(y|X = x) = \frac{P(x - \varepsilon \leq X \leq x + \varepsilon, - \infty \leq y \leq + \infty)}{P(x - \varepsilon \leq X \leq x + \varepsilon)} = \frac{f(x,y)}{f_x(x)}\]

14.1 定义差不多。

14.3 (无)条件期望

\[\text{E}(X) = \int_{- \infty}^{+ \infty} x f(x) dx\]

\(f(x)\)是pdf,这里衡量\(x\)发生的可能性。因为这里的积分将\(x\)积分掉了,因此无条件期望是常数。

\[\text{E}(Y|X=x) = \text{E}(Y|x) = \int_{- \infty}^{+ \infty} y f(y|x) dy\]

这里的处理只有\(f(y|x)\),因此\(\text{E}(Y|X=x)\)会随着\(x\)的不同而不同,因此\(\text{E}(Y|x)\)\(x\)的函数。 这就是OLS回归的左边。

Law of iterated expectation

\[\text{E}(Y) = \text{E}_X[\text{E}(Y|x)]\] 因为\(X = [x_1,\dots,X_n]\)\(x\)的全集,这里相当于把\(x\)积分掉了,因此就是常数了。 \(\text{E}(Y|x)\)的加权平均,权重为\(X=x\)

14.4 (无)条件方差

\[\text{Var}(X) = \text{E}[(X - \text{E}(X))^2]\]

\[\text{Var}(Y|x) = \int_{- \infty}^{+ \infty}[y - E(Y|x)]^2 f(y|x) dy\]

同样\(\text{Var}(Y|x)\)是可以随着\(x\)变化而变化,这就是条件异方差,conditional heteroskedasticity,也就是异方差。 大样本理论(large sample theory)说的 “严格平稳过程”(strictly stationary process)也是指条件同方差,而非无条件同方差。

14.5 (无)条件中位数、分位数

\(y_{0.1}\)表示\(x\)的(无条件)10%点,且有

\[\text{P}(Y \leq y_{0.1}) = 0.1\] 因此,

\[\text{P}(Y \leq y_{q}) = q\]

因此给定\(X = x\)\(Y\)的条件分布为\(Y|X = x\)

对应的“条件分位数”(conditional quantile)为\(y_q|X=x = y_q(x)\),随着\(x\)的变动而变动,为“条件分位数函数”(conditional quantile function),对应地,产生“分位数回归”(quantile regression)

15 空间计量

空间序列 (Spatial Series) 对比于 时间序列 (Time Series),很多概念模仿于时间序列分析。 参考 陈强 (2017a)陈强 (2017b)

15.1 空间自回归模型 (SAR)

对比于 AR(1) 模型

\[\mathrm{\textbf{y}} = \lambda \mathrm{\textbf{W y}} + \mathrm{\textbf{X}}\beta + \mathrm{\mu}\]

  • \(y\)依赖于其一期空间滞后的邻居。 比如,该地地图的犯罪率依赖于相邻地区的犯罪率。
  • \(\mathrm{\textbf{W y}}\)\(y\)的空间滞后邻居,
  • \(\lambda\)为空间自回归系数 (Spatial Autoregessive Coefficient),为0,就不存在空间效应了。

模型可以扩展,

\[\mathrm{\textbf{y}} = \lambda \mathrm{\textbf{W y}} + \mathrm{\textbf{X}}\beta + \alpha \mathrm{\textbf{W x}} + \mathrm{\mu}\]

  • \(y\)还可以依赖于\(x\)一期空间滞后的邻居。 比如,该地地图的犯罪率依赖于相邻地区的x(警察数量)。
  • \(\mathrm{\textbf{W x}}\)\(x\)的空间滞后邻居,
  • \(\alpha\)为空间自回归系数 (Spatial Autoregessive Coefficient),为0,就不存在空间效应了。

这里\(\lambda=0\)则为 Spatial Durbin Model (SDM) 空间杜宾模型,由于\(\mathrm{\textbf{W x}} \perp \varepsilon\),所以可以用OLS估计。

15.2 空间误差模型 (SEM)

对比于 MA(1) 模型

\[\begin{cases} y = X \beta + \mu \\ \mu = \rho M \mu + \varepsilon \end{cases}\]

15.3 SARAR模型 (SAR+SEM)

对比于ARMA模型

\[\begin{cases} \mathrm{\textbf{y}} = \lambda \mathrm{\textbf{W y}} + \mathrm{\textbf{X}}\beta + \alpha \mathrm{\textbf{W x}} + \mathrm{\mu} \\ \mu = \rho M \mu + \varepsilon \end{cases}\]

考虑内生性,使用工具变量。可以加入\(W^2 X\)邻居的邻居作为工具变量,进而推广到GMM这个层面。

15.4 空间权重矩阵 (Spatial Weighting Matrix)

\[\textbf{W} = \begin{bmatrix} w_{11} & \cdots & w_{1n} \\ \vdots & ddots & \vdots \\ w_{n1} & \cdots w_{nn} \end{bmatrix}\]

这里有\(n\)个区域,\(w_{ij}\)近的取值大,反之则小。

这里有两种定义方式。

  • \(w_{ij}\)临近为1,否则为0
  • \(w_{ij} = \frac{1}{d_{ij}}\)

\(d_{ij}\)可以是地理距离、也可以是运输成本、旅行时间、社交网络中的距离(陈强 2014, 577)

也可以用引力模型,距离直接作为变量。(陈强 2014, 598)

15.5 其他

空间计量的禁忌(比如空间权重矩阵不能存在某个个体是所有个体的邻居等等)

16 研究变量和控制变量的区别 (陈强 2017d)

研究变量要求一致,控制变量可以不一致。 这里就涉及CIA,conditional (mean) independence assumption

  • 条件均值独立 \(\varepsilon \perp x_{\text{intertest}} | x_{\text{control}}\)
  • 条件独立\(\text{E}(\varepsilon \perp x_{\text{intertest}}) | x_{\text{control}}\)

控制变量可以不一致。 然后可以用这一条规则,去解释\(\beta\)反常识的问题。

17 confounder 混淆变量 (陈强 2017c)

\[y = \alpha + \beta x + \nu + \mu\]

OLS回归假设,可以遗漏变量,假设为\(\nu\),但是\(\nu\)\(x\)相关,就混淆了\(x\)\(y\)的因果关系,这时产生 “遗漏变量偏差”(omitted variable bias),\(\nu\)成为confounder。 这里的\(\nu\)常常是处理变量(treatment variable)。

因此,如果 confounder \(\nu\) 显著,说明有treatment效应,否则无,不需要考虑。

18 凯里公式

凯里公式可用以计算出每次游戏中应投注的资金比例。 除可将长期增长率最大化外,此公式不会在任何赌局中,有失去全部现有资金的可能,因此有不存在破产疑虑的优点。公式中,假设货币与赌局可无限分割,只要资金足够多,长期一定是会赚到钱的。 (张丹 2018)

因此主要是估计每次入仓的比例。 入仓比例根据胜率(负率)、赔率估计。

假设\(p\)是胜率, \(1-p\)是负率, 赔率是\(b\),如现在入手1块,赢了,得到8块,那么赔率就是8. 入场比例为\(f\)

那么这一把入仓所得为

\[f \cdot b\]

大样本重复结果的期望值为

\[p \cdot b - (1-p)\]

按照最大似然估计,假设这个最大似然估计值预测完全正确,也就是这一把入仓所得就是最大似然估计值,

满足

\[\begin{alignat}{2} f \cdot b &= p \cdot b - (1-p) \\ f &= p - \frac{1-p}{b} \end{alignat}\]

19 回归结果产生NA的情况

思宇,

关于昨天的问题,回归结果出现回归系数为NA的情况,原因是x变量之间有强/完全共线性问题。 这里更多的信息,你可以参考 李哲源 (2016)O’Leary (2012)

但是我看了下你的数据,我认为还有两个问题需要解决。

  1. 对于外圈共线性问题,到底是遗漏哪一个变量。
  2. 检验变量的方式。

另外,如果你的回归中,

  1. 拥有比较多的分类变量,并且
  2. 分类变量中有很多level,那么这种情况是普遍发生的,需要做一定的合并处理。

这里我举一个例子给你。

## 
## Call:
## lm(formula = y1 ~ x1 + x2, data = data_sim)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8657 -0.6456 -0.0848  0.6256  2.1819 
## 
## Coefficients: (1 not defined because of singularities)
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.09366    0.13016    0.72    0.474    
## x1           1.03004    0.09918   10.38   <2e-16 ***
## x2                NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9543 on 98 degrees of freedom
## Multiple R-squared:  0.5239, Adjusted R-squared:  0.5191 
## F-statistic: 107.9 on 1 and 98 DF,  p-value: < 2.2e-16

你会发现,summary(fit_sim)出现了NA的情况,是因为我sim x2 = x1。 但是为什么这里只保留x1而不保留x2呢?

这里涉及一个mask 函数的问题, 当你对lm使用summary函数时,相当于使用了summary.lm函数, ?summary.lm查看解释,

  1. coefficients a p x 4 matrix with columns for the estimated coefficient, its standard error, t-statistic and corresponding (two-sided) p-value. Aliased coefficients are omitted.
  2. aliased named logical vector showing if the original coefficients are aliased.

因此这里的x2变成了aliased 变量,因此回归系数记录为NA。 并且使用summary(fit_sim)$coef时,aliased的结果是不显示的,如下。

## (Intercept)          x1          x2 
##  0.09365757  1.03003804          NA
## (Intercept)          x1          x2 
##  0.09365757  1.03003804          NA
##               Estimate Std. Error    t value     Pr(>|t|)
## (Intercept) 0.09365757 0.13015821  0.7195671 4.735041e-01
## x1          1.03003804 0.09918172 10.3853619 1.766886e-17

这会产生一个误导,因为虽然x1x2是完全共线性的,但是在因果判断上,有时候我们更愿意保留x2,因此不应该按照编程的自动逻辑,自动删除x1,这里需要提醒一下。

第二个问题,那么如何检验一个数据是否产生了强共线性情况。 单一的相关性矩阵只能看两两之间的关系,最好的方式是就是直接使用lm,如果是连续变量可以查看VIF系数,见 方差膨胀系数(VIF)

以下代码作用于你昨天发的数据,供你参考。

20 interaction 经济含义、协同效应、传导机制

参考 黃河泉 (2017) 的思路,从两个回归方程来解释。

\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu\] \[\frac{\Delta y}{\Delta x_1} = 0 + \frac{\Delta \beta_1 x_1}{\Delta x_1} + 0 + 0 = \beta_1\] \[\frac{\Delta \frac{\Delta y}{\Delta x_1}}{\Delta x_2} = \frac{\Delta \beta_1}{\Delta x_2} = 0\]

\(\beta_1\)是partial effect,并且和\(x_2\)无线性关系。

\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_1 \cdot x_2 + \beta_3 x_3 + \mu\] \[\frac{\Delta y}{\Delta x_1} = \beta_1 + \beta_2 x_2\] \[\frac{\Delta \frac{\Delta y}{\Delta x_1}}{\Delta x_2} = \frac{\Delta (\beta_1 + \beta_2 x_2)}{\Delta x_2} = \beta_2\]

\(\beta_1\)是partial effect,并且和\(x_2\)有线性关系。 因此 interaction effect 表达了一个变量的partial effect 受到另外一个变量影响。

在做 AA测试和AB测试的时候,可以用如下结论模板。

关注变量

  1. is test
  2. is test is after

结论

  1. 当 is_test = 1 and after = 0,说明AA不显著
  2. 当 is_test = 1 and after = 1,说明AB不显著,效果为 beta(is_test) + beta(is_test x is_after)

20.1 协同效应

/ˈsinədʒi/

参考 陈强 (2019)

计量经济学的初学者经常困惑于交互项的含义,以及在实证研究中如何取舍交互项。事实上,如果善于使用交互项,或许可以为你的论文增色不少。

如果,则对的边际效应随着的增大而上升,这有时在市场营销中称为“协同效应”(synergy effect)。

回忆起来了,因此这就是可以去证明两个因子对y是不是协同作用。

20.2 传导机制

参考 李南成 (2011)

回归方程如下

\[\begin{aligned} &\text { Loan }_{i, t}=\alpha_{0 i}+\alpha_{1} \text { loan }_{i, t-1}+\alpha_{2} \text { Asset }_{i, t}+\alpha_{3} \text { Asset }_{i, t}^{*} \text { rate }_{t}+\\ &\alpha_{4} \text { Asset }^{*} d u m_{1}+\alpha_{s} \text { Asset }_{i, t}^{*} \text {rate}_{t} * d u m_{1}+\alpha_{6}\left(1-L T D_{i, t-1}\right)\\ &+\alpha_{t}\left(1-L T D_{i, t-1}\right)^{*} \text {rate}_{t}+\alpha_{s} \text { Capital}_{i, t-1}+\alpha_{9} \text { Capital}_{i, t-1} * \text {rate}\\ &+\alpha_{10} \text { Capital_}_{i, t-1}^{*} d u m_{2}+\alpha_{11} \text { Capital }_{i, i-1}^{*} \text { rate }_{t}^{*} d u m_{2}+c_{i}+\mu_{i, t} \end{aligned}\]

上述表格第二列至第五列中,上面的数字为各个变量的系数值,下面括号内的数字为各个变量t检验的p值。其中,*表示在0.1的置信水平下显著;**表示在0.05的置信水平下显著;***表示在0.005的置信水平下显著。上述表格第二列至第五列中,上面的数字为各个变量的系数值,下面括号内的数字为各个变量t检验的p值。其中,*表示在0.1的置信水平下显著;**表示在0.05的置信水平下显著;***表示在0.005的置信水平下显著。

Figure 20.1: 上述表格第二列至第五列中,上面的数字为各个变量的系数值,下面括号内的数字为各个变量t检验的p值。其中,*表示在0.1的置信水平下显著;**表示在0.05的置信水平下显著;***表示在0.005的置信水平下显著。

1)可知:银行的资产规模越大,其贷款供给量也越大;当中央银行调整货币政策时,如提高准备金率,银行的贷款供给量会减少,这是由于货币政策会通过资产规模对贷款供给量造成一个负的影响,这可以由ASSET*RATE的系数为负体现出来,此时货币政策影响资产规模关于贷款供给量的敏感度为-0.005。

交叉项作为传导机制解读。 在这里ASSET*RATE可以解读为

在回归结果(1)中,我们也发现国有商业银行和全国性股份制银行对信贷供给量的敏感性不同,并且在面临相同货币政策的条件下,他们的信贷行为也存在差异:

RATE 不在交叉项目中。

(1)ASSET*DUM1的系数大小和显著性水平说明股份制银行对信贷供给量的反应敏感性更高,其系数高于国有银行24个百分点,资产数量越大的股份制银行对信贷供给的扩张行为越明显,总资产每增加1%,贷款供给量增加0.81%;

如果交叉项包含分类变量,就是反应敏感性。也是传导机制的一种说法。

(2)ASSET*RATE*DUM1的系数大小和显著性水平说明股份制银行对于货币政策的敏感度要高于国有银行0.005个百分点。

三重交叉项的意义。 一定是交叉越多,越明显,对应的个体集合越细。

利用上述方法对模型一进行估计,得到表5-3。表5-3同时也报告了只分别考虑资产规模因素、流动性水平因素和资本充足水平因素时,货币政策对银行贷款供给量产生影响的计量结果;回归(4)是将上述三个因素纳入一个回归方程进行考察的计量结果。

  1. 考虑资产规模因素 ASSET
  2. 流动性水平因素 1-LTD
  3. 资本充足水平因素 CAPITAL

表5-3的回归结果(2)是只考虑流动性水平因素的回归结果。我们关注的是正向化的贷存比以及其与货币政策交互项参数的方向、大小及显著性。由表5-3的回归结果(2)可知:银行的流动性比例越高,其贷款供给量越大,流动性比例提高1个百分点,贷款供给量可扩张0.25个百分点,这可以解释为,当银行具有较大的流动性资产时,其有意愿且能够增加贷款供给量。但是货币政策影响流动性比例关于贷款供给的敏感度确并不显著。这说明货币政策不通过流动性比例这一银行特征来影响贷款供给量。

这里也是一个传导机制。

表5-3的回归结果(3)是只考虑资本充足水平与代表金融监管改革前后的虚拟变量的回归结果。我们关注的是资本充足率变量和代表金融监管改革前后的虚拟变量、资本充足率和货币政策的交互项以及资本充足率、货币政策和虚拟变量交互项参数的方向、大小及显著性。由表5-3的回归结果(3)可知:上一期银行的资本充足率越高,其当期的贷款供给量也越大;当中央银行调整货币政策时,如提高准备金率,银行的贷款供给量会减少,这是由于货币政策会通过资本充足率的约束对贷款供给量造成一个负的影响,这可以由CAPITAL*RATE的系数为负体现出来,此时货币政策影响资本充足水平关于贷款供给量的敏感度为-0.013。

这个地方的传导效应就不列举了。

关于点乘的方向问题。

在我们的回归式中有交叉项:log(USDL)*LRAT,是否应该解释为借款利率会通过美元流动性对CPI造成一个影响?还是美元流动性通过借款利率对CPI造成一个影响?

只从计量的角度,两种都可以。注意 log(USDL)*LRATLRAT*log(USDL)是等价的,因为中间的*是点乘,point-wise operation,不是 matrix operation。 但是从理论的角度,我们一般不会说,借款利率(国内市场的经济指标)通过USDL(国外的经济指标)导致CCPI上涨/下降(国内的经济指标)。

同时,我们发现2003年实施银行业改革,2004年前后对信贷供给量的敏感性不同,并且在面临相同货币政策的条件下,银行在2004年前后的信贷行为也存在差异:(1)、CAPITAL*DUM2的系数大小和显著性水平说明银行业改革后,资本约束对信贷供给量的反应敏感度降低了,其系数低于改革前3.3个百分点,2004年以前,资产充足率高的银行对信贷供给的扩张行为越明显,资本充足率每提高1%,贷款供给量增加0.035%。这显示了资本监管压力的信贷增速负效应,而且这种效应表现出明显的非对称性,资本不足银行的信贷约束效应显著程度、稳健程度及其强度均不如资本充足银行的信贷扩张效应。这是存在“资本软约束”的证据。(2)、CAPITAL(-1)*RATE *DUM2的系数大小和显著性水平说明改革前,资本充足水平对于货币政策的敏感度要高于改革后0.01个百分点。产生上述情况的原因可能是由于我国自2003年4月成立了中国银行业监督委员会,专门行使监管金融机构的职责。银监会的成立资本将监管推向实质实施阶段,并提出了实施的具体阶段性目标,同时国内银行也拉开了股权结构改革的大幕。代表这种监管层面和银行业改革的虚拟变量的系数显著为负,说明可能是监管要求更加严格,增加了银行的违约成本,银行信贷紧缩;或银行为了实现某种特定的目的(满足监管、投资者要求、上市融资要求)的行为反应,也可能是银行的风险意识和风险控制能力提高、行为更加谨慎所致。

最后对于回归(4),完善传导机制。

而且,偏导本身就是链式法则,在贝叶斯回归中,如 Beta 回归、Gibbs 采样,都是一步步传导的,也可以理解。

常见的情况, 1%的外汇储备增长会带来0.376%的货币供应增长和0.25%的通货膨胀。目前如此快速的外汇储备增长对M2供应以及国内通货膨胀造成了压力,更是对中国货币政策的独立性提出了挑战。 (黄晓东 2019)

20.3 挖掘政策变量

Jensen and Johannesen (2017) 主要回答的问题是 为什么在金融危机过后,企业停止投资、家庭减少消费?

Jensen and Johannesen (2017) 给出的传导机制为

金融危机->银行信贷紧缩->家庭消费减少->实体经济危机

估计的β向量包含本文感兴趣的主要系数。对于每一年的系数,它测量了受到金融危机影响银行的客户与没有受到金融危机影响银行的客户相比个体信贷或消费结果相对于2007年的平均变化。对于基本模型的双重差分估计结果,可以评估金融危机通过信贷供给渠道对2008—2011年每年家庭信贷和消费的影响。

为研究银行信贷供给对家庭信贷和消费的影响,

Jensen and Johannesen (2017) 只证明了一部分,只包含“银行信贷紧缩->家庭消费减少”

第一,金融危机通过信贷供给渠道显著减少了家庭的借款。相对于不受金融危机影响银行的客户,受到金融危机影响银行的客户的总的债务减少了14200丹麦克朗,其最大的差距发生在2008—2009年金融危机的高峰期。这种债务的下降反映了来自金融危机前主要银行信贷的下降与其他银行信贷的增加,这也意味着受金融危机影响银行大约一半的贷款下降可能由来自其他银行客户借款的增加所抵消。

也是交叉项产生了传导机制。

\[ \text { outcome }_{i b t}=\theta_{i t}+\phi \Omega_{t}+\beta \Omega_{t} \times \text { exposed }_{b}+\mu_{i b t} \]

本篇是对2007—2008年世界金融危机对实体经济产生影响的实证研究, Jensen and Johannesen (2017) 从信贷供给的角度解释了金融危机影响家庭消费的传递机制,以丹麦的微观家庭层面的数据给出了详实的实证证据。本文研究的主要贡献在于:第一,量化分析了信贷供给渠道对于总体私人消费急剧下降的贡献,结果表明,从2007年到2009年间,大约三分之一的丹麦总体消费的下降可以直接地应归因于银行改革信贷的紧缩。

研究变量为银行信贷水平,在传导机制中作为传导项目,因此产生的政策建议是

第二,结果显示出转移到信贷供给良好的银行对信贷结果具有显著正向效应。其蕴含的政策启示在于,促进银行信贷转换可以作为缓解金融危机对实体经济产生不利影响的有力工具。

因此可以让政策建议发生在传导机制中,进行“阻断”,也是一个思路。

21 全集和子集的相关系数不一致的情况

参考 黃河泉 (2017) 的思路,举一个例子来表达。

如图,

  1. x1y的相关性在全集上是负的
  2. 但是在每个group上,x1y的相关性在全集上是正的。

因为subset的切分,或者我们说的group,作为一个变量时,对x1y之间的 interaction effect 产生了影响,具体见 20

22 beta 理解

\[\begin{aligned} \widehat{\text { children }} &=-2.071+.177 \text { age }-.079 \text { educ }-.362 \text { electric } \\ &(.095) \quad(.003) \quad(.006) \quad(.068) \\ n &=4,358, R^{2}=562 \end{aligned}\]

where electric is a dummy variable equal to onoe if the woman lives in a home with electricity. Of course it cannot be true that a particular woman who has electricity has .362 less children than an otherwise comparable woman who does not. But we can say that when comparing 100 women with electricity to 100 women without—at the same age and level of education—we estimate the former group to have about 36 fewer children. (Wooldridge 2012, 257)

当 beta 对应的是分类变量时,以上是解读。

当 beta 对应的是连续变量时,以下是解读,参考 Github Issue 60

先简单的说,如果 PriceUnitBC 就是正常收集的数据,没有进行变换。

那么查看回归结果

> summary(lm_1)

Call:
lm(formula = PriceUnitBC ~ ., data = .)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.11150 -0.26248 -0.01354  0.25477  2.47915 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)    1.7982521  0.0379581  47.375  < 2e-16 ***
Area          -0.0023590  0.0002105 -11.206  < 2e-16 ***
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.439 on 14959 degrees of freedom
Multiple R-squared:  0.6824,    Adjusted R-squared:  0.6816 
F-statistic:   846 on 38 and 14959 DF,  p-value: < 2.2e-16
> summary(df_raw$Area)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  21.11   57.69   83.25   87.90  109.45  297.48 

当其他变量不变的情况下,Area 增加一个单位, 这个变换过的PriceUnitBC 增加 -0.0023590个单位,并且有< 2e-16的概率这个结论为0。

23 滚动 beta 实现方式

参考 Regenstein (2019), J. Regenstein (2018a)J. Regenstein (2018b)

以下对每30个样本进行滚动求解 beta。 我们假设好每个样本对应的日期。

24 世界银行债务数据分析

参考 Paul (2020)

24.1 The World Bank’s international debt data

It’s not that we humans only take debts to manage our necessities. A country may also take debt to manage its economy. For example, infrastructure spending is one costly ingredient required for a country’s citizens to lead comfortable lives. The World Bank is the organization that provides debt to countries.

In this notebook, we are going to analyze international debt data collected by The World Bank. The dataset contains information about the amount of debt (in USD) owed by developing countries across several categories. We are going to find the answers to questions like:

  • What is the total amount of debt that is owed by the countries listed in the dataset?
  • Which country owns the maximum amount of debt and what does that amount look like?
  • What is the average amount of debt owed by countries across different debt indicators?

The first line of code connects us to the international_debt database where the table international_debt is residing. Let’s first SELECT all of the columns from the international_debt table. Also, we’ll limit the output to the first ten rows to keep the output clean.

10 rows affected.
country_name country_code indicator_name indicator_code debt
Afghanistan AFG Disbursements on external debt, long-term (DIS, current US\()</td> <td>DT.DIS.DLXF.CD</td> <td>72894453.700000003</td> </tr> <tr> <td>Afghanistan</td> <td>AFG</td> <td>Interest payments on external debt, long-term (INT, current US\)) DT.INT.DLXF.CD 53239440.100000001
Afghanistan AFG PPG, bilateral (AMT, current US\()</td> <td>DT.AMT.BLAT.CD</td> <td>61739336.899999999</td> </tr> <tr> <td>Afghanistan</td> <td>AFG</td> <td>PPG, bilateral (DIS, current US\)) DT.DIS.BLAT.CD 49114729.399999999
Afghanistan AFG PPG, bilateral (INT, current US\()</td> <td>DT.INT.BLAT.CD</td> <td>39903620.100000001</td> </tr> <tr> <td>Afghanistan</td> <td>AFG</td> <td>PPG, multilateral (AMT, current US\)) DT.AMT.MLAT.CD 39107845
Afghanistan AFG PPG, multilateral (DIS, current US\()</td> <td>DT.DIS.MLAT.CD</td> <td>23779724.300000001</td> </tr> <tr> <td>Afghanistan</td> <td>AFG</td> <td>PPG, multilateral (INT, current US\)) DT.INT.MLAT.CD 13335820
Afghanistan AFG PPG, official creditors (AMT, current US\()</td> <td>DT.AMT.OFFT.CD</td> <td>100847181.900000006</td> </tr> <tr> <td>Afghanistan</td> <td>AFG</td> <td>PPG, official creditors (DIS, current US\)) DT.DIS.OFFT.CD 72894453.700000003

24.2 Finding the number of distinct countries

From the first ten rows, we can see the amount of debt owed by Afghanistan in the different debt indicators. But we do not know the number of different countries we have on the table. There are repetitions in the country names because a country is most likely to have debt in more than one debt indicator.

Without a count of unique countries, we will not be able to perform our statistical analyses holistically. In this section, we are going to extract the number of unique countries present in the table.

  • postgresql:///international_debt 1 rows affected.
total_distinct_countries
124

24.3 Finding out the distinct debt indicators

We can see there are a total of 124 countries present on the table. As we saw in the first section, there is a column called indicator_name that briefly specifies the purpose of taking the debt. Just beside that column, there is another column called indicator_code which symbolizes the category of these debts. Knowing about these various debt indicators will help us to understand the areas in which a country can possibly be indebted to.

  • postgresql:///international_debt 25 rows affected.
distinct_debt_indicators
DT.AMT.BLAT.CD
DT.AMT.DLXF.CD
DT.AMT.DPNG.CD
DT.AMT.MLAT.CD
DT.AMT.OFFT.CD
DT.AMT.PBND.CD
DT.AMT.PCBK.CD
DT.AMT.PROP.CD
DT.AMT.PRVT.CD
DT.DIS.BLAT.CD
DT.DIS.DLXF.CD
DT.DIS.MLAT.CD
DT.DIS.OFFT.CD
DT.DIS.PCBK.CD
DT.DIS.PROP.CD
DT.DIS.PRVT.CD
DT.INT.BLAT.CD
DT.INT.DLXF.CD
DT.INT.DPNG.CD
DT.INT.MLAT.CD
DT.INT.OFFT.CD
DT.INT.PBND.CD
DT.INT.PCBK.CD
DT.INT.PROP.CD
DT.INT.PRVT.CD

24.4 Totaling the amount of debt owed by the countries

As mentioned earlier, the financial debt of a particular country represents its economic state. But if we were to project this on an overall global scale, how will we approach it?

Let’s switch gears from the debt indicators now and find out the total amount of debt (in USD) that is owed by the different countries. This will give us a sense of how the overall economy of the entire world is holding up.

  • postgresql:///international_debt 1 rows affected.
total_debt
3079734.49

24.5 Country with the highest debt

“Human beings cannot comprehend very large or very small numbers. It would be useful for us to acknowledge that fact.” - Daniel Kahneman. That is more than 3 million million USD, an amount which is really hard for us to fathom.

Now that we have the exact total of the amounts of debt owed by several countries, let’s now find out the country that owns the highest amount of debt along with the amount. Note that this debt is the sum of different debts owed by a country across several categories. This will help to understand more about the country in terms of its socio-economic scenarios. We can also find out the category in which the country owns its highest debt. But we will leave that for now.

  • postgresql:///international_debt 1 rows affected.
country_name total_debt
China 285793494734.200001568

24.6 Average amount of debt across indicators

So, it was China. A more in-depth breakdown of China’s debts can be found here.

We now have a brief overview of the dataset and a few of its summary statistics. We already have an idea of the different debt indicators in which the countries owe their debts. We can dig even further to find out on an average how much debt a country owes? This will give us a better sense of the distribution of the amount of debt across different indicators.

  • postgresql:///international_debt 10 rows affected.
debt_indicator indicator_name average_debt
DT.AMT.DLXF.CD Principal repayments on external debt, long-term (AMT, current US\()</td> <td>5904868401.499193612</td> </tr> <tr> <td>DT.AMT.DPNG.CD</td> <td>Principal repayments on external debt, private nonguaranteed (PNG) (AMT, current US\)) 5161194333.812658349
DT.DIS.DLXF.CD Disbursements on external debt, long-term (DIS, current US\()</td> <td>2152041216.890243888</td> </tr> <tr> <td>DT.DIS.OFFT.CD</td> <td>PPG, official creditors (DIS, current US\)) 1958983452.859836046
DT.AMT.PRVT.CD PPG, private creditors (AMT, current US\()</td> <td>1803694101.963265321</td> </tr> <tr> <td>DT.INT.DLXF.CD</td> <td>Interest payments on external debt, long-term (INT, current US\)) 1644024067.650806481
DT.DIS.BLAT.CD PPG, bilateral (DIS, current US\()</td> <td>1223139290.398230108</td> </tr> <tr> <td>DT.INT.DPNG.CD</td> <td>Interest payments on external debt, private nonguaranteed (PNG) (INT, current US\)) 1220410844.421518983
DT.AMT.OFFT.CD PPG, official creditors (AMT, current US\()</td> <td>1191187963.083064523</td> </tr> <tr> <td>DT.AMT.PBND.CD</td> <td>PPG, bonds (AMT, current US\)) 1082623947.653623188

Principal repayments on external debt, long-term (AMT, current US$)长期外债本金偿还和 Principal repayments on external debt, private nonguaranteed (PNG) (AMT, current US$)私人非保证本金偿还 是占用大头。

24.7 The highest amount of principal repayments

We can see that the indicator DT.AMT.DLXF.CD tops the chart of average debt. This category includes repayment of long term debts. Countries take on long-term debt to acquire immediate capital. More information about this category can be found here.

An interesting observation in the above finding is that there is a huge difference in the amounts of the indicators after the second one. This indicates that the first two indicators might be the most severe categories in which the countries owe their debts.

We can investigate this a bit more so as to find out which country owes the highest amount of debt in the category of long term debts (DT.AMT.DLXF.CD). Since not all the countries suffer from the same kind of economic disturbances, this finding will allow us to understand that particular country’s economic condition a bit more specifically.

  • postgresql:///international_debt 1 rows affected.
country_name indicator_name
China Principal repayments on external debt, long-term (AMT, current US$)

24.8 The most common debt indicator

China has the highest amount of debt in the long-term debt (DT.AMT.DLXF.CD) category. This is verified by The World Bank. It is often a good idea to verify our analyses like this since it validates that our investigations are correct.

We saw that long-term debt is the topmost category when it comes to the average amount of debt. But is it the most common indicator in which the countries owe their debt? Let’s find that out.

  • postgresql:///international_debt 20 rows affected.
indicator_code indicator_count
DT.DIS.PROP.CD 19
DT.DIS.PCBK.CD 51
DT.DIS.PRVT.CD 53
DT.AMT.PROP.CD 54
DT.INT.PROP.CD 54
DT.AMT.PBND.CD 69
DT.INT.PBND.CD 69
DT.AMT.DPNG.CD 79
DT.INT.DPNG.CD 79
DT.AMT.PCBK.CD 84
DT.INT.PCBK.CD 84
DT.AMT.PRVT.CD 98
DT.INT.PRVT.CD 98
DT.DIS.BLAT.CD 113
DT.DIS.MLAT.CD 120
DT.AMT.BLAT.CD 122
DT.DIS.OFFT.CD 122
DT.INT.BLAT.CD 122
DT.DIS.DLXF.CD 123
DT.AMT.DLXF.CD 124

24.9 Other viable debt issues and conclusion

There are a total of six debt indicators in which all the countries listed in our dataset have taken debt. The indicator DT.AMT.DLXF.CD is also there in the list. So, this gives us a clue that all these countries are suffering from a common economic issue. But that is not the end of the story, a part of the story rather.

Let’s change tracks from debt_indicators now and focus on the amount of debt again. Let’s find out the maximum amount of debt across the indicators along with the respective country names. With this, we will be in a position to identify the other plausible economic issues a country might be going through. By the end of this section, we will have found out the debt indicators in which a country owes its highest debt.

In this notebook, we took a look at debt owed by countries across the globe. We extracted a few summary statistics from the data and unraveled some interesting facts and figures. We also validated our findings to make sure the investigations are correct.

  • postgresql:///international_debt 10 rows affected.
country_name indicator_code maximum_debt
China DT.AMT.DLXF.CD 96218620835.699996948
Brazil DT.AMT.DLXF.CD 90041840304.100006104
China DT.AMT.DPNG.CD 72392986213.800003052
Russian Federation DT.AMT.DLXF.CD 66589761833.5
Turkey DT.AMT.DLXF.CD 51555031005.800003052
South Asia DT.AMT.DLXF.CD 48756295898.199996948
Brazil DT.AMT.PRVT.CD 43598697498.599998474
Russian Federation DT.AMT.DPNG.CD 42800154974.900001526
Brazil DT.AMT.DPNG.CD 41831444053.300003052
Least developed countries: UN classification DT.DIS.DLXF.CD 40160766261.599998474

25 log 算增长率

## [1] 0.04879016
## [1] 0.05

从 beta 理解,当做了 log 后,解释就不是变动都是 unit 而是 pctg,这不就是增长率么?

参考文献

Agarwal, Sumit, Wenlan Qian, Amit Seru, and Jian Zhang. 2020. “Disguised Corruption: Evidence from Consumer Credit in China.” Journal of Financial Economics.

Anglim, Jeromy. 2010. “Pearson’s or Spearman’s Correlation with Non-Normal Data.” 2010. https://stats.stackexchange.com/questions/3730/pearsons-or-spearmans-correlation-with-non-normal-data.

———. 2011. “Spearman’s or Pearson’s Correlation with Likert Scales Where Linearity and Homoscedasticity May Be Violated.” 2011. https://stats.stackexchange.com/questions/8956/spearmans-or-pearsons-correlation-with-likert-scales-where-linearity-and-homos.

Hyndman, Rob. 2010. “Pearson’s or Spearman’s Correlation with Non-Normal Data.” 2010. https://stats.stackexchange.com/questions/3730/pearsons-or-spearmans-correlation-with-non-normal-data.

Jensen, Thais Lærkholm, and Niels Johannesen. 2017. “The Consumption Effects of the 2007–2008 Financial Crisis: Evidence from Households in Denmark.” American Economic Review 107 (11): 3386–3414. https://doi.org/10.1257/aer.20151497.

Jones, Albyn. 2016. “Math 141: Quantile-Quantile Plots.” 2016. http://people.reed.edu/~jones/Courses/P14.pdf.

Li, Yuanzhang, William H. Fisher, and Abdulvahed Khaledi Darvishan. 2013. “Which Correlation Coefficient Is Better to Use: Spearman or Pearson?” 2013. https://www.researchgate.net/post/Which_correlation_coefficient_is_better_to_use_Spearman_or_Pearson.

O’Leary, Martin. 2012. “Coefficient Table Does Not Have Na Rows in Rank-Deficient Fit; How to Insert Them?” 2012. https://stats.stackexchange.com/questions/25804/why-would-r-return-na-as-a-lm-coefficient.

Paul, Sayak. 2020. “Analyze International Debt Statistics.” DataCamp. 2020. https://www.datacamp.com/projects/754.

Regenstein, Jonathan. 2018a. “Calculating Beta in the Capital Asset Pricing Model.” 2018. https://rviews.rstudio.com/2018/02/08/capm-beta/.

———. 2018b. “Fama French Three Factor Model.” Reproducible Finance. 2018. http://www.reproduciblefinance.com/code/fama-french-three-factor-model/.

———. 2018c. “Monte Carlo.” 2018. https://rviews.rstudio.com/2018/06/05/monte-carlo/.

Regenstein, Jonathan K. 2019. Reproducible Finance with R: Code Flows and Shiny Apps for Portfolio Analysis. Chapman & Hall/Crc the R Series (Crc Press). CRC Press. http://gen.lib.rus.ec/book/index.php?md5=C8360CCB87A5672A82F8A6AF9F7081CD.

R语言中文社区. 2018a. “R语言实现统计分析——非参数假设检验.” 2018. https://mp.weixin.qq.com/s/69VfUH4_spralUdlcIvpUg.

———. 2018b. “回归分析指南.” 2018. https://mp.weixin.qq.com/s/Q-e4D74outuN75s4ymWUdQ.

———. 2018c. “如何通俗地理解极大似然估计?.” 2018. https://mp.weixin.qq.com/s/DEjCR6wlPMx4pRZtTIkLeQ.

Sicotte, Xavier Bourret. 2018. “How to Interpret a Qq Plot.” 2018. https://stats.stackexchange.com/questions/101274/how-to-interpret-a-qq-plot.

Stack Exchange. 2011. “How to Choose Between Pearson and Spearman Correlation?” 2011. https://stats.stackexchange.com/questions/8071/how-to-choose-between-pearson-and-spearman-correlation.

Wikipedia contributors. 2018. “Q–Q Plot — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/w/index.php?title=Q%E2%80%93Q_plot&amp;oldid=840188924.

Wooldridge, Jeffrey M. 2012. “Introductory Econometrics: A Modern Approach.” In, 5th ed. South-Western College Pub.

人工智能爱好者社区. 2018a. “从最大似然函数 到 Em算法详解.” 2018. https://mp.weixin.qq.com/s/15qm7NTiJnFAc_g7XUWzlg.

———. 2018b. “几种分布概述(正态分布/卡方分布/F分布/T分布).” 2018. https://mp.weixin.qq.com/s/xvcoVJGhCIcGoaRu6kmDGg.

张丹. 2018. “用R语言解读凯利公式.” R语言中文社区. 2018. https://mp.weixin.qq.com/s/85ljjtHSPOmTxG7KluydFQ.

张磊. 2018. “极大似然估计 —— Maximum Likelihood Estimation.” 2018. https://mp.weixin.qq.com/s/GSXf2F6zQjFdKqymE6gwNw.

张自达. 2017. “属性不同双向有序表的Kendall’s Tau相关分析.” 2017. https://zhuanlan.zhihu.com/p/27799592.

李南成. 2011. 货币政策传导效应研究:计量经济模型方法及应用. 1st ed. Vol. 1. 1st Ser. 成都: 西南财经大学出版社.

李哲源. 2016. “Coefficient Table Does Not Have Na Rows in Rank-Deficient Fit; How to Insert Them?” 2016. https://stackoverflow.com/questions/40844853/coefficient-table-does-not-have-na-rows-in-rank-deficient-fit-how-to-insert-the.

李航. 2018. “倾向值匹配(PSM)简介.” 2018. http://www.lihang.me/?p=998.

江雨凡. 2018. “自提柜的销售促进作用分析——基于PSM模型 | Excel案例.” 2018. https://mp.weixin.qq.com/s/q7KyJzSeqbtlkOH-f3ojzw.

陈强. 2014. 高级计量经济学及Stata应用.第2版. 高等教育出版社.

———. 2017a. “Stata 15的新模块(二):空间计量分析.” 计量经济学及Stata应用. 2017. https://mp.weixin.qq.com/s/gaj7dbfdR8fHu1cGwX1UdQ.

———. 2017b. “Stata 15的新模块(二):空间计量分析(续).” 计量经济学及Stata应用. 2017. https://mp.weixin.qq.com/s/_hcUYzC1movnzWLIu56gNQ.

———. 2017c. “关于 Confounder 的那些事.” 计量经济学及Stata应用. 2017. https://mp.weixin.qq.com/s/EcTWsFa0SePhlzwDScGIvg.

———. 2017d. “再论OLS:核心变量与控制变量的区别.” 计量经济学及Stata应用. 2017. https://mp.weixin.qq.com/s/_albBHATH0TBt39i_VTb-A.

———. 2017e. “计量经济学中的‘条件’与‘无条件’.” 计量经济学及Stata应用. 2017. https://mp.weixin.qq.com/s/3fLOfj5AKUmf6ihDHuJKSA.

———. 2019. “关于交互项的那些事.” 计量经济学及Stata应用. 2019. https://mp.weixin.qq.com/s/h5PC532kR6No2CM-whxjIQ.

黃河泉. 2017. When Interaction Actions? 淡江大學财务金融系.

黄晓东. 2019. 中国外汇储备增长的宏观经济效应. 1st ed. Vol. 1. 1st Ser. 浙江出版集团数字传媒有限公司.


  1. \[\begin{alignat}{2} SST &= SSR + SSE\\ \sum(y-\bar y)^2 &= \sum(\hat y-\bar y)^2 + \sum(y-\hat y)^2 \end{alignat}\]

    • SST - Sum of Sq. for Total
    • SSR - Sum of Sq. for Regression
    • SST - Sum of Sq. for Error