关于机器学习:MSE-Bias²-Variance什么是好的统计估计器

“偏差-方差衡量”是ML/AI中被常常提到的一个风行概念。咱们这里用一个直观的公式来对它进行解释:

MSE = Bias² + Variance

本文的目标并不是要证实这个公式，而是将他作为一个入口，让你理解统计学家如何以及为什么这样构建公式，以及咱们如何判断是什么使某些估算器比其余估算器更好。

用公式来概括细节尽管很直观然而并不具体，所以本文将具体解释为什么我说这个公式是正确的。

先决条件

如果你对一些外围概念有肯定的理解，这些货色就会更容易了解，所以这里有一个疾速的关键词列表:

偏差;散布;预计;估计量;期望值E(X);损失函数;均值;模型;察看;参数;概率;随机变量;样本;统计;方差V (X)

这些根本的统计学概念你都应该有一个根本的概念，如果有一些疑问请自行搜寻。

E(X)和V(X)

期望值 E(X)

期望值，写为 E(X) 或 E(X = x)，是随机变量 X 的实践概率加权平均值。

能够通过对X能够取的每个潜在值x乘以相应的概率P(X= x)进行加权(相乘)，而后将它们组合起来(如对身高等连续变量用∫示意，或对离散变量求和，如身高取整到最靠近英寸:E(x) =∑x P(X= x)

如果我有一个偏心的六面骰子，X能够取{1,2,3,4,5,6}中的每一个值，其概率为1/6，所以:

E (X) = (1) + (1/6) (2) (1/6) + (3) (1/6) + (4) (1/6) + (5) (1/6) + (6) (1/6) = 3.5

或者说 3.5是X的概率加权平均值，并且没有人在乎3.5是不可能在骰子后果中呈现的。

方差V (X)

下面E(X)公式中的(X – E(X))²替换X失去散布的方差：

 V(X) = E[(X - E(X))²] = ∑[x - E(X)]² P(X = x)

这是一个定义，所以这部分没有证实。让咱们计算骰子的方差:

 V(X) = ∑[x - E(X)]² P(X=x) = ∑(x - 3.5)² P(X=x) = (1–3.5)² (1/6) + (2–3.5)² (1/6) + (3–3.5)² (1/6) + (4–3.5)² (1/6) + (5–3.5)² (1/6) + (6–3.5)² (1/6) = 2.916666…

如果你解决的是间断的数据，你会应用积分而不是求和，但这是思维是统一的。

V(X)公式的另外一个备选

上面的证实中，咱们将对方差公式进行一些转换，用最左边的位替换两头位：

 V(X) = E[(X - E(X))²] = E[(X )²] - [E(X)]²

上面是这个公式是如何推导进去的：

 V(X) = E[(X - E(X))²]
 = E[X² - 2 X E(X) + E(X)²]
 = E(X²) - 2 E(X) E(X) + [E(X)]²
 = E[(X )²] - [E(X)]²

这是如何产生的以及为什么会产生的要害地位是从第2行到第3行。用括号这样做的起因是期望值是和/积分，所以无论咱们对常数总和/积分用括号做什么，也能够对期望值做什么。这就是为什么如果a和b是常数，那么E[aX + b] = aE(X) + b。另外E(X)自身也是常数通过计算后它不是随机的，所以E(E(X)) = E(X)这样就简略的进行了化简。

对于符号的正文

Estimand（你想要预计的货色，预计指标或者叫被估计值）通常用奢侈的希腊字母示意，最常见的是 θ。（“th”应该有本人的字母，这就是咱们在英语中应用的字母“theta”；“th”足够靠近“pffft”，使 θ 成为统计学中规范占位符的真正绝佳抉择 .)

预计θ是参数，所以它们是(未知的)常数:E(θ) = θ和V(θ) = 0。

估算量(你用来估算估算值的公式)通常是在希腊字母上加上一些非凡的标记，比方在θ上加上一个小帽子，就像这样:

注：个别应为都会念成 xx hat，例如吴恩达老师的机器学习和深度学习课程中就是这样，有趣味的能够再去看看

推导MSE公式

预计器（Estimators ）是随机变量，他会跟咱们的数据进行变换失去一个预计(“最佳猜想”)。预计（Estimate）是一个常数，所以能够把它当作一个一般的数字。为了防止混同，咱们提前先说下。

Estimand：θ，咱们要预计的货色，一个常数。

Estimator，咱们用来取得估计值的公式，它是一个取决于你取得的数据的随机变量。

Estimate ：θ_hat，一旦咱们将数据送入预计器，最初就会呈现一些数字，这就是预计。

当初为了晓得咱们的预计器是否无效，咱们要查看他的估计值 θhat ，冀望它靠近预计指标 θ。所以随机变量 X = (θhat – θ) 的 E() 是咱们先要介绍的：

 E(X) = E((θhat - θ)) = E(θhat ) - E(θ) = E(θhat) - E(θ) = E(θhat) - θ

这个量在统计学中有一个非凡的名称:偏差（bias）。

无偏预计器是E(θhat) = θ的预计器，这意味着咱们能够期待咱们的预计器是正确的(均匀)。因为偏差指的是“系统地偏离指标的后果”。或者更失当地说，偏差是咱们的预计(θhat)给出的后果和咱们的预计指标(θ)之间的冀望间隔:

Bias = E(θhat) – θ

抉择“最佳”预计器

如果你喜爱无偏预计器，那么你可能会晓得 UMVUE。这是uniformly minimum-variance unbiased estimator的首字母缩写词，它指的是在无偏预计器中进行最佳抉择的规范：如果它们都是无偏的，则抉择方差最小的那个！

更艰深的说法就是就是“如果有两个具备雷同偏差的预计器，咱们抉择方差较小的一个”

还有许多不同的办法能够抉择“最佳”估算器。因为“好”的属性包含无偏性、相对效率、一致性、渐近无偏性和渐近效率等等。前两个是小样本属性，后三个是大样本属性，因为它们解决的是随着样本量的减少时预计器的行为。如果随着样本量的减少最终达到目标，则估计量应该与被估计量是统一的。

这里效率也是一个值得关注的的属性，不仅工夫是金钱，投入也是金钱。因为效率与方差无关，让咱们尝试将 X = (θhat – θ) 代入方差公式：

 方差 V(X) = E[(X)²] - [E(X)]²
 变为 V(θhat -θ) = E[(θhat - θ)²] - [E(θhat - θ)]²

方差掂量的是一个随机变量的扩散，所以减去一个常数(你能够把参数θ当作一个常数)它只是平移了所有的货色，而不扭转扩散，V(θhat – θ) = V(θhat)，所以:

     V(θhat) = E[(θhat - θ)²] - [E(θhat) - E(θ)]²

当初咱们重新排列这些项，并常数E(θ) = θ

     E[(θhat - θ)²] = [E(θhat) - θ]² + V(θhat)

当初再来看看这个公式，因为它有一些非凡的货色和非凡的名字。还记得偏差吗?

     Bias = E(θhat) — θ

能在公式中找到它吗?当然能够!

     E[(θhat - θ)²] = [Bias]² + V(θhat) = Bias² + Variance

右边的货色到底是什么货色呢？这是一个有用的数量，但咱们在命名它时并不是很有创意。因为“误差”是形容射击着陆点 (θhat) 和瞄准点 (θ) 之间差别（通常记为 ε）的一种失当形式，因而 E[(θhat – θ)²] = E(ε²)。

E(ε²)又被称作为均方误差！简称 MSE。它的字面意思是 E(ε²)：咱们取均方误差 ε² 的平均值（期望值的另一个词）。MSE 是模型损失函数最风行的（也是一般的）抉择，而且它往往是咱们学习的第一个损失，所以咱们就失去了：

MSE = Bias² + Variance

总结

咱们曾经实现了数学计算，心愿这篇文章能够从另外一个角度阐明机器学习中的偏差-方差衡量是对于什么的。这样咱们在学习时也能够宽阔更多的思路。

https://avoid.overfit.cn/post/a0fb6d1c0de14e89a734a28cca920d6f

作者：Cassie Kozyrkov

关于机器学习:MSE-Bias²-Variance什么是好的统计估计器

先决条件

E(X)和V(X)

对于符号的正文

推导MSE公式

抉择“最佳”预计器

总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:MSE-Bias²-Variance什么是好的统计估计器

先决条件

E(X)和V(X)

对于符号的正文

推导MSE公式

抉择“最佳”预计器

总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复