关于机器学习:MSE-Bias²-Variance什么是好的统计估计器

“偏差-方差衡量”是ML/AI中被常常提到的一个风行概念。咱们这里用一个直观的公式来对它进行解释:

MSE = Bias² + Variance

本文的目标并不是要证实这个公式,而是将他作为一个入口,让你理解统计学家如何以及为什么这样构建公式,以及咱们如何判断是什么使某些估算器比其余估算器更好。

用公式来概括细节尽管很直观然而并不具体,所以本文将具体解释为什么我说这个公式是正确的。

先决条件

如果你对一些外围概念有肯定的理解,这些货色就会更容易了解,所以这里有一个疾速的关键词列表:

偏差;散布;预计;估计量;期望值E(X);损失函数;均值;模型;察看;参数;概率;随机变量;样本;统计;方差V (X)

这些根本的统计学概念你都应该有一个根本的概念,如果有一些疑问请自行搜寻。

E(X)和V(X)

期望值 E(X)

期望值,写为 E(X) 或 E(X = x),是随机变量 X 的实践概率加权平均值。

能够通过对X能够取的每个潜在值x乘以相应的概率P(X= x)进行加权(相乘),而后将它们组合起来(如对身高等连续变量用∫示意,或对离散变量求和,如身高取整到最靠近英寸:E(x) =∑x P(X= x)

如果我有一个偏心的六面骰子,X能够取{1,2,3,4,5,6}中的每一个值,其概率为1/6,所以:

E (X) = (1) + (1/6) (2) (1/6) + (3) (1/6) + (4) (1/6) + (5) (1/6) + (6) (1/6) = 3.5

或者说 3.5是X的概率加权平均值,并且没有人在乎3.5是不可能在骰子后果中呈现的。

方差V (X)

下面E(X)公式中的(X – E(X))²替换X失去散布的方差:

 V(X) = E[(X - E(X))²] = ∑[x - E(X)]² P(X = x)

这是一个定义,所以这部分没有证实。让咱们计算骰子的方差:

 V(X) = ∑[x - E(X)]² P(X=x) = ∑(x - 3.5)² P(X=x) = (1–3.5)² (1/6) + (2–3.5)² (1/6) + (3–3.5)² (1/6) + (4–3.5)² (1/6) + (5–3.5)² (1/6) + (6–3.5)² (1/6) = 2.916666…

如果你解决的是间断的数据,你会应用积分而不是求和,但这是思维是统一的。

V(X)公式的另外一个备选

上面的证实中,咱们将对方差公式进行一些转换,用最左边的位替换两头位:

 V(X) = E[(X - E(X))²] = E[(X )²] - [E(X)]²

上面是这个公式是如何推导进去的:

 V(X) = E[(X - E(X))²]
 = E[X² - 2 X E(X) + E(X)²]
 = E(X²) - 2 E(X) E(X) + [E(X)]²
 = E[(X )²] - [E(X)]²

这是如何产生的以及为什么会产生的要害地位是从第2行到第3行。用括号这样做的起因是期望值是和/积分,所以无论咱们对常数总和/积分用括号做什么,也能够对期望值做什么。这就是为什么如果a和b是常数,那么E[aX + b] = aE(X) + b。另外E(X)自身也是常数通过计算后它不是随机的,所以E(E(X)) = E(X)这样就简略的进行了化简。

对于符号的正文

Estimand(你想要预计的货色,预计指标或者叫被估计值)通常用奢侈的希腊字母示意,最常见的是 θ。(“th”应该有本人的字母,这就是咱们在英语中应用的字母“theta”;“th”足够靠近“pffft”,使 θ 成为统计学中规范占位符的真正绝佳抉择 .)

预计θ是参数,所以它们是(未知的)常数:E(θ) = θ和V(θ) = 0。

估算量(你用来估算估算值的公式)通常是在希腊字母上加上一些非凡的标记,比方在θ上加上一个小帽子,就像这样:

注:个别应为都会念成 xx hat,例如吴恩达老师的机器学习和深度学习课程中就是这样,有趣味的能够再去看看

推导MSE公式

预计器(Estimators )是随机变量,他会跟咱们的数据进行变换失去一个预计(“最佳猜想”)。预计(Estimate)是一个常数,所以能够把它当作一个一般的数字。为了防止混同,咱们提前先说下。

Estimand:θ,咱们要预计的货色,一个常数。

Estimator,咱们用来取得估计值的公式,它是一个取决于你取得的数据的随机变量。

Estimate :θ_hat,一旦咱们将数据送入预计器,最初就会呈现一些数字,这就是预计。

当初为了晓得咱们的预计器是否无效,咱们要查看他的估计值 θhat ,冀望它靠近预计指标 θ。所以随机变量 X = (θhat – θ) 的 E() 是咱们先要介绍的:

 E(X) = E((θhat - θ)) = E(θhat ) - E(θ) = E(θhat) - E(θ) = E(θhat) - θ

这个量在统计学中有一个非凡的名称:偏差(bias)。

无偏预计器是E(θhat) = θ的预计器,这意味着咱们能够期待咱们的预计器是正确的(均匀)。因为偏差指的是“系统地偏离指标的后果”。或者更失当地说,偏差是咱们的预计(θhat)给出的后果和咱们的预计指标(θ)之间的冀望间隔:

Bias = E(θhat) – θ

抉择“最佳”预计器

如果你喜爱无偏预计器,那么你可能会晓得 UMVUE。这是uniformly minimum-variance unbiased estimator的首字母缩写词,它指的是在无偏预计器中进行最佳抉择的规范:如果它们都是无偏的,则抉择方差最小的那个!

更艰深的说法就是就是“如果有两个具备雷同偏差的预计器,咱们抉择方差较小的一个”

还有许多不同的办法能够抉择“最佳”估算器。因为“好”的属性包含无偏性、相对效率、一致性、渐近无偏性和渐近效率等等。前两个是小样本属性,后三个是大样本属性,因为它们解决的是随着样本量的减少时预计器的行为。如果随着样本量的减少最终达到目标,则估计量应该与被估计量是统一的。

这里效率也是一个值得关注的的属性,不仅工夫是金钱,投入也是金钱。因为效率与方差无关,让咱们尝试将 X = (θhat – θ) 代入方差公式:

 方差 V(X) = E[(X)²] - [E(X)]²
 变为 V(θhat -θ) = E[(θhat - θ)²] - [E(θhat - θ)]²

方差掂量的是一个随机变量的扩散,所以减去一个常数(你能够把参数θ当作一个常数)它只是平移了所有的货色,而不扭转扩散,V(θhat – θ) = V(θhat),所以:

     V(θhat) = E[(θhat - θ)²] - [E(θhat) - E(θ)]²

当初咱们重新排列这些项,并常数E(θ) = θ

     E[(θhat - θ)²] = [E(θhat) - θ]² + V(θhat)

当初再来看看这个公式,因为它有一些非凡的货色和非凡的名字。还记得偏差吗?

     Bias = E(θhat) — θ

能在公式中找到它吗?当然能够!

     E[(θhat - θ)²] = [Bias]² + V(θhat) = Bias² + Variance

右边的货色到底是什么货色呢?这是一个有用的数量,但咱们在命名它时并不是很有创意。因为“误差”是形容射击着陆点 (θhat) 和瞄准点 (θ) 之间差别(通常记为 ε)的一种失当形式,因而 E[(θhat – θ)²] = E(ε²)。

E(ε²)又被称作为均方误差!简称 MSE。它的字面意思是 E(ε²):咱们取均方误差 ε² 的平均值(期望值的另一个词)。MSE 是模型损失函数最风行的(也是一般的)抉择,而且它往往是咱们学习的第一个损失,所以咱们就失去了:

MSE = Bias² + Variance

总结

咱们曾经实现了数学计算,心愿这篇文章能够从另外一个角度阐明机器学习中的偏差-方差衡量是对于什么的。这样咱们在学习时也能够宽阔更多的思路。

https://avoid.overfit.cn/post/a0fb6d1c0de14e89a734a28cca920d6f

作者:Cassie Kozyrkov

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理