关于数学:大数定律

接上一篇切比雪夫不等式，本篇探讨统计学上一个十分重要的实践，即大数定律，它是概率论的根本实践。

大数定律的直观表白十分合乎咱们的直觉，例如一个一般硬币如果扔足够屡次，那么正反面的次数将会有限靠近于 50%；或者一个被做了弊的硬币，扔出侧面的实践概率是 0.7，那么当咱们扔足够屡次时，正反面的次数将有限靠近于 70% 和 30%。

这种从无数次反复试验迫近概率理论值的过程，就是大数定律所形容的事件：即当试验次数 $N$ 足够大时，事实频率（frequency）将会有限靠近于实践概率（probability）。

作为一个失常思维的人看来这仿佛是天经地义的，然而这是数学，这样一个看上去不言而喻的论断却并不是公理，咱们须要严格的实践证实。

大数定律是几个定理的总称，咱们这里探讨的是它的根底版本，也是所有其它后续定理的引理，即辛钦大数定理。

思考一个随机变量 $X$，合乎某种概率分布，它的期望值为 $E(X) = \mu$，方差为 $\sigma^2$；通常咱们并不确切晓得 $\mu$ 和 $\sigma^2$ 的实在值，只能用采样的形式来预计它们。每次采样一个 $X$ 的值，失去一连串的采样值：

$$
X_1, X_2, X_3 … X_n
$$

它们是相互独立的，且都合乎原始 $X$ 的散布。

辛钦大数定理论述的是：当 $n$ 足够大时，这 $n$ 个采样数据的的平均值 $\overline X$ 将会有限靠近于期望值 $\mu$。

然而这是一种直观表白，咱们如何用谨严的数学语言来定义“有限靠近于期望值”这件事件？这须要用到微积分中极限的相干概念。

对于任意 $\epsilon>0$，有：

$$
\lim\limits_{n\rightarrow+\infty}P(|\overline X – \mu| < \epsilon) = 1
$$

也就是说当 $n$ 趋向于 $+\infty$ 时，$\overline X$ 在概率分布上存在一个极限 $\mu$，这被称为 $\overline X$ 依概率收敛于 $\mu$。

有了严格的数学定义，咱们再来思考如何证实这个看上去如同很显然的论断。

因为 $X$ 的期望值为 $E(X) = \mu$，方差为 $\sigma^2$，当初咱们来思考 $\overline X$ 的期望值和方差。实际上咱们有如下结论：

$$
E(\overline X) = E(X) = \mu
$$

即 $\overline X$ 的期望值等于原始 $X$ 的期望值。

并且因为 $X_1, X_2 … X_n$ 都是独立同散布的，依据方差的无关实践，咱们有：

$$
D(X_1 + X_2 + … + X_n) = D(X_1) + D(X_1) + … + D(X_n) = n\sigma^2
$$

因而 $\overline X$ 的方差能够计算：

$$
\begin{align}
D(\overline X) & = D\,[{1\over n}(X_1 + X_2 + … + X_n)]\\
& = {1 \over n^2}[D(X_1) + D(X_2) + … + D(X_n)]\\
& = {1 \over n^2} \cdot n\sigma^2 = {\sigma^2 \over n}
\end{align}
$$

因而咱们失去如下论断：

$$
E(\overline X) = \mu, \,\,\,\,D(\overline X) ={\sigma^2 \over n}
$$

留神这两个公式，不要当它们也是天经地义的，它们有着严格的前提条件，即 $X_1, X_2 …X_n$ 是独立并且和 $X$ 同散布 的；并且要证实它们其实也得费一番周折，它并不是看上去的那么不言而喻的，具体能够在教科书上找一下。不过这并不是咱们的重点，咱们只须要晓得这个论断即可。

有了以上根底论断，咱们失去一个很重要的论断，就是当咱们取出足够多的采样数据 $X_i$ 时，它们的均值是和原始散布 $X$ 有着一样的期望值 $\mu$，然而方差却从 $\sigma^2$ 减小到了 $\sigma^2 \over n$；

从直观来说，就是当咱们对采样数据取了均匀当前，它的整体期望值是不变的，然而数据的方差减小了，整体的数据分布更集中了。

有了 $\overline X$ 的期望值和方差，此时咱们能够搬出切比雪夫不等式了，对于任意 $\epsilon>0$，有：

$$
P(|\overline X – \mu| \geq \epsilon) <= {D(\overline X) \over {\epsilon^2}} = {\sigma^2 \ \over {n \cdot \epsilon^2}}
$$

那么当 $n$ 趋向于无穷大时：

$$
\lim\limits_{n\rightarrow+\infty}P(|\overline X – \mu| \geq \epsilon) <= \lim\limits_{n\rightarrow+\infty}{\sigma^2 \ \over {n \cdot \epsilon^2}} = 0
$$

认真领会这条式子，它到底在表白什么？

切比雪夫不等式束缚了间隔 $\mu$ 太远的那局部数据的占比，它是由方差进行束缚的；当 $n$ 足够大时，方差就越来越靠近于 0，因而这个束缚的下限也有限靠近于 0，这表明 $\overline X$ 间隔 $\mu$ 超过 $\epsilon$ 的局部的概率有限靠近于 0；也就是说，不论 $\epsilon$ 多小，只有采样数量 $n$ 越来越大，所有的 $\overline X$ 都将越来越被束缚在 $\mu$ 左近不超过 $\epsilon$ 的范畴内 $[\mu – \epsilon, \mu + \epsilon]$，那么事实上咱们就失去了 $\overline X$ 有限靠近于 $\mu$。

从下面的图里咱们也能够看出这一点，当 $n$ 越来越大，$\overline X$ 的方差就越来越小，整体的散布就越来越集中到了期望值 $\mu$ 左近；当 $n$ 趋向于无穷大时，方差靠近于 0，整体的散布趋于一根集中在 $\mu$ 的竖线，这就表明此时的 $\overline X$ 曾经有限靠近于 $\mu$。