乐趣区

关于数学:大数定律

接上一篇 切比雪夫不等式,本篇探讨统计学上一个十分重要的实践,即大数定律,它是概率论的根本实践。

大数定律的直观表白十分合乎咱们的直觉,例如一个一般硬币如果扔足够屡次,那么正反面的次数将会有限靠近于 50%;或者一个被做了弊的硬币,扔出侧面的实践概率是 0.7,那么当咱们扔足够屡次时,正反面的次数将有限靠近于 70% 和 30%。

这种从无数次反复试验迫近概率理论值的过程,就是大数定律所形容的事件:即当试验次数 \(N\) 足够大时,事实频率(frequency)将会有限靠近于实践概率(probability)。

作为一个失常思维的人看来这仿佛是天经地义的,然而这是数学,这样一个看上去不言而喻的论断却并不是公理,咱们须要严格的实践证实。

辛钦大数定理

大数定律是几个定理的总称,咱们这里探讨的是它的根底版本,也是所有其它后续定理的引理,即辛钦大数定理。

思考一个随机变量 \(X\),合乎某种概率分布,它的期望值为 \(E(X) = \mu\),方差为 \(\sigma^2\);通常咱们并不确切晓得 \(\mu\) 和 \(\sigma^2\) 的实在值,只能用采样的形式来预计它们。每次采样一个 \(X\) 的值,失去一连串的采样值:

$$
X_1, X_2, X_3 … X_n
$$

它们是相互独立的,且都合乎原始 \(X\) 的散布。

辛钦大数定理论述的是:当 \(n\) 足够大时,这 \(n\) 个采样数据的的平均值 \(\overline X\) 将会有限靠近于期望值 \(\mu\)。

然而这是一种直观表白,咱们如何用谨严的数学语言来定义“有限靠近于期望值”这件事件?这须要用到微积分中极限的相干概念。

对于任意 \(\epsilon>0\),有:

$$
\lim\limits_{n\rightarrow+\infty}P(|\overline X – \mu| < \epsilon) = 1
$$

也就是说当 \(n\) 趋向于 \(+\infty\) 时,\(\overline X\) 在概率分布上存在一个极限 \(\mu\),这被称为 \(\overline X\) 依概率收敛于 \(\mu\)。

有了严格的数学定义,咱们再来思考如何证实这个看上去如同很显然的论断。

证实

因为 \(X\) 的期望值为 \(E(X) = \mu\),方差为 \(\sigma^2\),当初咱们来思考 \(\overline X\) 的期望值和方差。实际上咱们有如下结论:

$$
E(\overline X) = E(X) = \mu
$$

即 \(\overline X\) 的期望值等于原始 \(X\) 的期望值。

并且因为 \(X_1, X_2 … X_n\) 都是独立同散布的,依据方差的无关实践,咱们有:

$$
D(X_1 + X_2 + … + X_n) = D(X_1) + D(X_1) + … + D(X_n) = n\sigma^2
$$

因而 \(\overline X\) 的方差能够计算:

$$
\begin{align}
D(\overline X) & = D\,[{1\over n}(X_1 + X_2 + … + X_n)]\\
& = {1 \over n^2}[D(X_1) + D(X_2) + … + D(X_n)]\\
& = {1 \over n^2} \cdot n\sigma^2 = {\sigma^2 \over n}
\end{align}
$$

因而咱们失去如下论断:

$$
E(\overline X) = \mu, \,\,\,\,D(\overline X) ={\sigma^2 \over n}
$$

留神这两个公式,不要当它们也是天经地义的,它们有着严格的前提条件,即 \(X_1, X_2 …X_n\) 是 独立 并且和 \(X\) 同散布 的;并且要证实它们其实也得费一番周折,它并不是看上去的那么不言而喻的,具体能够在教科书上找一下。不过这并不是咱们的重点,咱们只须要晓得这个论断即可。


有了以上根底论断,咱们失去一个很重要的论断,就是当咱们取出足够多的采样数据 \(X_i\) 时,它们的均值是和原始散布 \(X\) 有着一样的期望值 \(\mu\),然而方差却从 \(\sigma^2\) 减小到了 \(\sigma^2 \over n\);

从直观来说,就是当咱们对采样数据取了均匀当前,它的整体期望值是不变的,然而数据的方差减小了,整体的数据分布更集中了。

有了 \(\overline X\) 的期望值和方差,此时咱们能够搬出切比雪夫不等式了,对于任意 \(\epsilon>0\),有:

$$
P(|\overline X – \mu| \geq \epsilon) <= {D(\overline X) \over {\epsilon^2}} = {\sigma^2 \ \over {n \cdot \epsilon^2}}
$$

那么当 \(n\) 趋向于无穷大时:

$$
\lim\limits_{n\rightarrow+\infty}P(|\overline X – \mu| \geq \epsilon) <= \lim\limits_{n\rightarrow+\infty}{\sigma^2 \ \over {n \cdot \epsilon^2}} = 0
$$

认真领会这条式子,它到底在表白什么?

切比雪夫不等式束缚了间隔 \(\mu\) 太远的那局部数据的占比,它是由方差进行束缚的;当 \(n\) 足够大时,方差就越来越靠近于 0,因而这个束缚的下限也有限靠近于 0,这表明 \(\overline X\) 间隔 \(\mu\) 超过 \(\epsilon\) 的局部的概率有限靠近于 0;也就是说,不论 \(\epsilon\) 多小,只有采样数量 \(n\) 越来越大,所有的 \(\overline X\) 都将越来越被束缚在 \(\mu\) 左近不超过 \(\epsilon\) 的范畴内 \([\mu – \epsilon, \mu + \epsilon]\),那么事实上咱们就失去了 \(\overline X\) 有限靠近于 \(\mu\)。

从下面的图里咱们也能够看出这一点,当 \(n\) 越来越大,\(\overline X\) 的方差就越来越小,整体的散布就越来越集中到了期望值 \(\mu\) 左近;当 \(n\) 趋向于无穷大时,方差靠近于 0,整体的散布趋于一根集中在 \(\mu\) 的竖线,这就表明此时的 \(\overline X\) 曾经有限靠近于 \(\mu\)。

退出移动版