关于数学:切比雪夫不等式

本篇探讨统计学中一个十分重要的不等式，切比雪夫（Chebyshev）不等式。

切比雪夫不等式通常是在钻研随机变量的期望值和方差的时候会提到的一个论断，它看上去仿佛很简单，但其实有着十分直观的解释和作用，同时它也是前面要探讨的大数定律的根底引理，真的是十分十分重要。

在探讨切比雪夫不等式之前，首先须要了解它的根底版本，即马尔可夫（Markov）不等式，它相对而言更简略，有着更直观的解释。

马尔可夫不等式的模式是，思考随机变量 $X \geq 0 $，它的期望值为 $E(X) $，那么对于任意 $a>0 $ 有如下不等式成立：

$$
P(X \geq a) \leq {E(x) \over a}
$$

也就是说对于任意负数 $a $，$X\geq a $ 的概率被束缚在了某个下限；

这是为什么？初看感觉很神奇，然而它的证实非常简单。咱们这里只思考离散随机变量（连续性的随机变量也是一样的）：

$$
\begin{align}
E(X) &= \sum{X_iP(X_i)}\\
&\geq \sum_{X \geq a}{X_iP(X_i)}\\
&\geq \sum_{X \geq a}{aP(X_i)} = a\sum_{X \geq a}P(X_i) = aP(X\geq a)
\end{align}
$$

因而：

$$
\begin{align}
& a \cdot P(X\geq a)\leq E(X)\\
& P(X \geq a) \leq {E(x) \over a}
\end{align}
$$

不要被下面一连串的式子吓到，如果你看懂了，能够尝试从更直观的角度去了解它，马尔可夫不等式到底在说一件什么事件？

对于任意一个值 $a > 0 $，$X $ 在散布上有比 $a $ 小的局部，也有大于等于 $a $ 的局部：

那么整体的期望值 $E(X) $，等于左右两局部的 $X $ 依照各自占比加权后的和。

当初咱们只思考右半局部即 $X \geq a $ 的局部，这部分的占比（即概率 $P(X \geq a) $）乘以这部分 $X $ 的下限值 $a $，必定是小于这半局部 $X $ 整体的加权和的，那它当然也就不可能大于整体的期望值 $E(X) $，这在数学表白上就是：

$$
a\cdot P(X\geq a)\leq E(X)
$$

认真领会一下，你会发现这是简略而明了的论断。而且这其实并不是一个很强的不等式，它的条件放的是比拟宽松的。

接下来咱们再思考切比雪夫不等式，它实际上是马尔可夫不等式的一个利用版本，探讨的是随机变量的散布受到其方差的束缚。

对于随机变量 $X $（离散或间断），它的期望值为 $\mu $，方差为 $\sigma^2 $，那么切比雪夫不等式给出如下论断，对于任意 $a > 0 $：

$$
P(|X – \mu| \geq a) \leq {{\sigma^2} \over {a^2}}
$$

或者写成：

$$
a^2 \cdot P(|X – \mu| \geq a) \leq {\sigma^2}
$$

这在模式上和马尔可夫不等式是十分类似的，都是在形容某个随机变量（这里是 $|X – u| $）大于 $a $ 的局部的概率，受到某个值的下限束缚。

如果你很好了解了马尔可夫不等式，那么切比雪夫不等式的论断应该也是不言而喻的。因为从实质上来说，方差也是一种期望值，它计算的是 $X $ 离中心点 $\mu $ 的间隔平方的期望值：

$$
\sigma^2 =\sum(X_i – \mu)^2 P(X_i)
$$

以 $a $ 为分界线，下面的式子也能够写成：

$$
\sigma^2 ={\sum_{|X_i-\mu| < a}|X_i – \mu|^2 P(X_i)} + {\sum_{|X_i-\mu| \geq a}|X_i – \mu|^2 P(X_i)}\\
$$

即在 $X $ 的散布中，间隔 $\mu $ 小于 $a $ 的那局部的加权和，加上大于等于 $a $ 的那局部的加权和；从图上看，就是分成了红色局部和暗影局部；

那么显然，间隔 $\mu $ 大于 $a $ 的那局部的占比（暗影局部），受到马尔可夫不等式的束缚，就会有一个上限值；

$$
a^2 \cdot P(|X-\mu| \geq a) \leq \sigma^2
$$

这里的要害是，了解用 $|X – \mu| $ 来代替马尔可夫不等式中 $X $ 的模式；你无妨将下面的图沿着虚线 $\mu $ 对折，就会发现它和马尔可夫不等式一样的模式了。

马尔可夫不等式也好，切比雪夫不等式也好，其实是一个反推出来的不等式，就是说在期望值 $E $ 已知的状况下，整体概率分布中大于 $a $ 的那局部的占比，是受到 $E $ 下限束缚的；反过来说，用反证法，如果没有这个束缚，是不可能计算得出以后的这个整体期望值 $E $ 的。

那么对于切比雪夫不等式而言，它实际上给出了用方差来束缚原始概率分布的一个论断，即原始散布 $X $ 中，间隔均值 $\mu $ 大于 $a $ 的那局部的概率，肯定是小于某个值的。也就是说它束缚了偏离 $\mu $ 太远的那局部 $X $ 的占比。

那么它有什么利用呢？它最重要的一个利用，就是被用来证实概率论中一个十分重要的实践，即大数定律，又一个看上去如同是天经地义，然而你却不晓得怎么严格证实的论断，这个放在下一篇具体探讨。