关于统计学:样本均值与方差

这一篇探讨统计学中，对于样本以及它的统计量的相干个性，重点是样本的均值和方差的相干问题。

假如咱们有一个随机变量 $X $，合乎某种概率分布，整体的数学期望值和方差为：

$$
E(X) = \mu \\
D(X) = \sigma^2
$$

然而整体的期望值和方差通常都是未知的，所以咱们采取抽样的形式，用样本的 统计量 来预计它们，这合乎咱们的直觉；

例如咱们有一个随机变量 $X $ 的散布，咱们把它以一个图的模式展示：

它的整体期望值位于图中的红点，当然这个红点在哪里咱们实际上不晓得，但它是客观存在的，它的计算公式为：

$$
\mu = {1 \over N}\sum X_i
$$

$N $ 为原始数据的总量，通常 $N $ 十分大（以至于无穷大），所以咱们不可能计算下面的式子，所以说咱们并不知道红点理论在哪里；

因而咱们用采样的办法，每次只取出无限的 $n $ 个值作为样本，即图中的一个个圆圈；计算这批样本的均值，即为每个圆圈中的绿色点，它的计算公式为：

$$
\overline{X} = {1 \over n} \sum {X_i}
$$

当咱们进行无数次这样的采样试验（画圈），失去无数个绿点，那么这些绿点的平均值等于原始数据的期望值，也就是红点；

也就是说有如下结论：样本均值的期望值，等于原始散布的期望值，即：

$$
E(\overline{X}) = E(X) =\mu
$$

下面写了这么多，如同在说一件直观上很不言而喻的事件；然而这是数学，即便它仿佛是不言而喻的，咱们最好还是从数学上证实：

$$
\begin{align}
E(\overline{X})&=E({1 \over n}\sum {X_i})\\
& ={1 \over n}E(\sum {X_i})\\
& ={1 \over n}[E(X_1)+…+E(X_n)]\\
& ={1 \over n}(n\mu) =\mu
\end{align}
$$

给出上述证实的目标，是为了引出前面的内容，我想要阐明一个问题：统计学中有些仿佛很直观、很显然的论断，其实并不能想当然，如果没有严格的数学证实反对，还是须要三思。

例如咱们思考上面的期望值：

$$
E(X^2)
$$

即 $X^2 $ 的期望值，它是否等于原始期望值 $\mu $ 的平方 $\mu^2 $?

答案显然是否定的，例如思考一个很简略的随机变量 $X $ 的散布，它只有 3 和 5 两个取值，概率各占 0.5，那么它的原始期望值为：

$$
\mu = 3 \cdot 0.5 + 5 \cdot 0.5 = 4
$$

然而：

$$
E(X^2) = {3^2\cdot0.5+5^2\cdot0.5} = 17 \neq \mu^2
$$

它并不等于原始期望值 $4^2 =16 $，而是比它大；

更直白的，这在代数上是很简略的原理：平方平均值 >= 算数平均值

$$
{{a^2 + b^2}\over{2}} \geq ({{a + b}\over 2})^2
$$

因而咱们失去一个论断：

$$
E(X^2) \geq \mu^2
$$

那 $X^2 $ 的期望值到底等于多少呢？它实际上等于（原始期望值的平方 + 方差）：

$$
E(X^2) = \mu^2 + \sigma^2
$$

这也能够由数学公式推导进去，这里就不赘述了，你能够本人去翻概率统计的书；

下面探讨了样本平均值，以及 $X $ 平方，上面探讨一个更简单的量：方差 $\sigma^2 $；和期望值 $\mu $ 一样，通常原始数据的方差咱们也是未知的，咱们须要应用样本去预计它；

下面咱们计算过 $n $ 个样本的平均值：

$$
\overline{X} = {1 \over n}\sum X_i
$$

下面曾经给出过证实，它的期望值，是等于原始变量 $X $ 的期望值的，即：

$$
E(\overline{X}) = E(X) =\mu
$$

也就是说咱们能够应用样本的均值，来预计原始数据的期望值，这在统计学上叫做 无偏预计 ；在样本均值这个例子上，这如同是不言而喻的；

然而如果计算 $n $ 个样本的方差：

$$
{1 \over n}\sum ({X_i – \overline{X}})^2
$$

咱们是不是也能够用它来无偏地预计整体的方差 $\sigma^2 $ 呢？答案是否定的，也就是说:

$$
E\,[{1 \over n}\sum ({X_i – \overline{X}})^2] \neq \sigma^2
$$

如果你看过了对于下面 $X $ 的平方的期望值的计算，应该能大略看出一个问题，就是对于 $X $ 的比较复杂的统计量（非线性的，例如平方，方差等）的数据分布，是不能想当然的；

事实上，下面计算的 $n $ 个样本的方差，它的期望值比原始方差通常要小一点，也就是说这个估计值是偏小的，它低估了真正的方差；真正精确的估计值，应该除以 $n-1 $，而不是 $n $：

$$
{1 \over n-1}\sum ({X_i – \overline{X}})^2
$$

这才是统计学上所说的 样本方差 的严格定义，它的数学期望值，等于原始散布 $X $ 的方差：

$$
E\,[{1 \over n-1}\sum ({X_i – \overline{X}})^2] = \sigma^2
$$

这也是困扰很多初学者的一个很神奇的论断：为什么是 $n-1 $？

对于这个论断的公式的数学推导，我想很多中央都能找到，这里我依然尝试给出一种直观的意识。

整体的方差，计算公式为：

$$
\sigma^2 = {1 \over N}\sum ({x_i – \mu})^2
$$

$N $ 为原始数据的总量；下面的计算结果，其实就是所有灰点到红点的间隔的平方平均值，这个很好了解；

通常 $N $ 十分大（以至于无穷大），并且咱们也不晓得整体的均值是多少，所以咱们不可能计算下面的式子；因而咱们依然用采样的办法，每次只取出无限的 $n $ 个值作为样本：

每个圆圈即为每次的采样范畴，每次都采样 $n $ 个点，绿色点为每一批样本的平均值，即：

$$
\overline{X} = {1 \over n}\sum X_i
$$

如果通过上面的公式计算样本方差：

$$
{1 \over n}\sum ({X_i – \overline{X}})^2
$$

它计算的是每个圆圈中所有灰色点到绿色点的间隔的平方平均值；

然而实际上，真正的原始数据的精确方差，应该应用灰色点到红色点的间隔来计算，也就是这样：

$$
{1 \over n}\sum ({X_i – \mu})^2
$$

但问题是红色点是未知的，所以咱们每次计算时应用的不是原始期望值 $\mu $，而是样本平均值 $\overline X $，即用绿色点来代替红色点；这就导致，咱们应用的平均值（绿色点）自身其实就是离原始期望值（红色点）有偏差的，用它计算出来的方差，它当然也是有偏差的。

那它是偏大还是偏小呢？从图中直观地就能看出，它每次都是偏小的。圆圈中的点是采样数据，绿色点是它们的均值（或者说中心点），显然比红色点离它们自身更近；当然这只是图上的直观感触，从代数上来说，一堆数据，到它们中心点的平方和，比到其它任何点的平方和都要小。

正是因为采样数据计算出来的方差，每次都是偏小的，所以整体来看，咱们即便进行无数次这样的采样试验，最初计算出来的方差的期望值，必定也是偏小的。留神这里十分强调一个问题，即每次采样计算都是偏小的，这样整体算进去的期望值才是偏小的。

这就回到了一开始的问题，为什么用样本的方差来预计整体方差是有偏差的，并且是偏小的：

$$
{1 \over n}\sum ({X_i – \overline{X}})^2
$$

真正精确的预计，须要将 $n $ 换成 $n-1 $：

$$
{1 \over n-1}\sum ({X_i – \overline{X}})^2
$$

至于为什么是 $n-1 $，这须要公式推导，这里就不做具体证实了，请去教科书上找一下吧。

统计量的期望值

样本方差