关于机器学习:我们能从后验分布中学到什么贝叶斯后验的频率解释

假如咱们从未知散布 q 中察看到 N 个独立且同散布的 (iid) 样本 X = (x1, … , xN)。统计学中的一个典型问题是“样本集 X 能通知咱们对于散布 q 的什么信息？”。

参数统计办法假如 q 属于一个参数散布族，并且存在一个参数 θ，其中 q(x) 等于所有 x 的参数散布 p(x|θ)；例如，p(.|θ) 能够是具备单位方差的正态分布，其中 θ 示意平均值。在这种状况下，问题是“X 通知咱们对于 q 的什么？”或者说“如果咱们有 q = p(.|θ) 的参数 θ，X 通知咱们什么呢？”。

答复这个问题的贝叶斯办法是应用概率论规定并假如 θ 自身是具备先验散布 p(θ) 的随机变量。先验散布 p(θ) 是咱们在察看任何样本之前对 θ 的假如和猜想的形式化。在这种前提下，咱们能够将参数和数据的联结概率分布写在一起：

利用这个公式，X 捕捉到的对于 θ 的所有信息都能够总结为后验散布

贝叶斯统计是自洽且优雅的：所有都能够应用概率论的规定天然推导进去的，而且假如总是明确且清晰的。然而它通常看起来很神秘和令人费解：（i）咱们能从后验散布 p(θ|X) 中真正学到什么对于底层散布 q 的信息？还有（ii）如果咱们的假如不成立，例如，如果 q 不属于咱们思考的参数族，该信息的可靠性如何？

在这篇文章中，咱们将对这两个问题进行解释。剖析样本数量 N 很大时后验散布的渐近模式——这是钻研贝叶斯推理的罕用办法。而后，我展现了个别实践如何实用于高斯族的简略状况。最初，在三个案例钻研中，我应用模仿和剖析，后验散布如何与数据的底层散布相干，以及随着 N 的减少，这个链接如何变动。¹。

等式 1 中后验散布的对数能够从新表述为

等式 2 中的常数（绝对于 θ）仅对后验概率分布的归一化很重要，并不影响它作为 θ 的函数变动。所以对于大 N，咱们能够应用大数定律，并通过以下形式近似等式 2 中的第二项（对数似然之和）

其中 D-KL 是 Kullback-Leibler 散度，是测量实在散布 q 和参数散布 p(.|θ) 之间的伪间隔。要留神的重要的一点是，仅当 log p(x|θ) 的均值和方差（绝对于 q）对于某些参数 θ 是无限的时，近似才无效。咱们将在下一节进一步探讨这种状况的重要性。

如果 p(θ) 齐全反对参数空间（即始终为非零），则 log p(θ) 始终是无限的，并且等式 2 中对于大 N 的的次要项是 D-KL [q | | p(.|θ)] 乘以 N。这意味着减少样本数 N 会使后验散布 p(θ|X) 越来越靠近散布

这是公式 3，其中 Z 是归一化常数。p*(θ; N) 是一个乏味的散布：它的最大值是散度 D-KL [q || p(.|θ)] 最小值（即当 p(.|θ) 尽可能靠近 q)² 时，它对 D-KL [q || p(.|θ)] 随着样本数量 N 的减少而减少（即，随着 N 的减少，它在其最大值左近变得更加“窄”）。

当假如正确时

当假如是正确的并且存在 q = p(.|θ)的 θ时，

其中 D-KL [p(.|θ) || p(.|θ)] 是 θ 和 θ 之间的伪间隔。因而随着 N 的减少，后验散布集中在实在参数 θ* 四周，这能够为咱们提供了齐全辨认 q 所需的所有信息³。

当假如谬误时

当没有 q = p(.|θ) 的 θ 时，咱们永远无奈辨认真正的潜在散布 q — 因为咱们没有在正确的地位搜寻！强调这个问题是因为这种状况不仅限于贝叶斯统计，还扩大到任何参数统计办法。

只管在这种状况下咱们永远无奈齐全辨认 q，但后验散布依然能够提供无关 q 的信息：如果咱们将 θ* 定义为 q 在参数族空间上的伪投影的参数：

那么随着 N 的减少，后验散布集中在 θ* 四周，为咱们提供了足够的信息来确定 q 的参数族中的最佳候选者⁴。

实践的总结

随着 N 的减少，后验散布集中在参数 θ * 四周，该参数形容了参数族中最靠近理论散布 q 的散布。如果 q 属于参数族，那么最靠近 q 的散布就是 q 自身。上面咱们看三个例子：

下面咱们钻研了大量样本的后验散布的个别模式。咱们首先钻研一个简略的例子，看看个别实践如何实用于具体案例。

这里是一个简略的例子，咱们的参数散布是具备单位方差和均值等于 θ 的高斯分布：

为了简略起见，咱们只思考一个规范正态分布作为先验 p(θ)。利用公式 1 能够很容易失去后验散布为

这里的

当初，还能够失去 p*(θ; N)（公式 3）并将其与后验散布进行比拟：只有实在散布 q 的均值和方差是无限的，咱们就有

还是依据公式 3，能够失去

这里的

咱们把它称作公式 4，依据个别实践，能够用 p *(θ;N)示意大 N，因为

这样能够看到，p(θ|X) 集中在潜在散布 q 的实在均值左近——如果它存在的话。

下面的实践剖析有两个要害假如：(i) N 很大，(ii) log p(x|θ) 的均值和方差（绝对于 q）对于某些 θ 是无限的。所以在本节中，咱们应用模仿并钻研如果这些假如不成立，咱们的发现也是十分持重的。

还是应用上一节中示例，即具备单位方差的高斯分布族。而后思考 q 的三种不同抉择，并剖析后验 p(θ|X) 随着 N 减少的变动。

咱们还要钻研 q 的最大后验 (MAP) 预计 q-MAP-N = p(.|θ-hat-N) 如何随着 N 的减少而变动，其中 θ-hat-N 是 p(θ|X)。，因为这有助于咱们理解通过查看后验散布的最大值⁵ 来辨认实在散布 q 的精确度。

高斯分布

第一种状况，q 属于参数族并且满足所有假如，这是咱们心愿的最佳状况：

从 q 中抽取了 10000 个样本，发现后验散布 p(θ|X=(x1，…，xN))和 MAP 预计 q -MAP-N -，通过在 N = 1 到 10000 之间逐个增加样本 (下图 1)。能够看到随着 N 的减少，p(θ|X) 集中在真参数四周(图 1，左)，MAP 预计收敛于真散布 q(图 1，右)。

左: 后验散布的均值 (实彩色曲线) 和标准差 (灰色暗影区域) 作为 n 的函数。虚线的黑线示意 q =p(.|θ=1)的真参数。后验散布收敛于真参数。垂直的黑白线别离示意 N =2、10、100 和 1000。右: 当 N =2、10、100 和 1000(黑白曲线)时 q 的 MAP 估计值。彩色虚线曲线示意实在散布 q。

拉普拉斯散布

这是第二种状况，一个具备单位均值的拉普拉斯散布作为实在散布:

在这种状况下，q 不属于参数族，但它依然有一个无限的均值和方差。依据实践后验散布应该集中在参数族上 q 伪投影的参数 θ 左近。对于高斯族的例子，θ总是底层散布的平均值，即 θ * = 1(公式 4)。

模仿表明随着 N 的减少，p(θ|X)的确集中在 θ * = 1 左近(图 2，左)。MAP 预计收敛于一个零碎上不同于实在散布 q 的散布(图 2，右)，这是因为咱们在高斯分布中搜寻拉普拉斯散布! 这实质上是任何参数统计办法的一个问题: 如果你在谬误的中央搜寻，你就找不到正确的散布!

左: 后验散布作为 n 的函数的均值 (实彩色曲线) 和标准差 (灰色暗影区域)。虚线的黑线示意的是 q 在参数族上的伪投影对应的参数，即 θ =1(公式 4)。后验散布收敛于 θ 。垂直的黑白线示意 N =2、10、100 和 1000。右: 当 N =2、10、100 和 1000(黑白曲线) 时 q 的 MAP 估计值。彩色虚线曲线示意实在散布 q。

柯西散布

第三种也是最初一种状况，咱们抉择最坏的状况并思考柯西散布（驰名的重尾散布）作为实在散布：

在这种状况下，q 不属于参数族，但更要害的问题是柯西散布没有明确定义的均值或无限方差：这违反了所有实践的假如！

看看咱们模仿的状况，模仿表明 p(θ|X) 不会收敛到任何散布（图 3，左）：p(θ|X) 的标准差变为零并且集中在其均值左近，但均值自身并不收敛并且会从一个值跳转到另一个值。这个问题的解释很简略：柯西散布和高斯分布之间的 KL 散度是有限的，并且与它们的参数无关！也就是依据 KL 散度，所有高斯分布均等地（并且有限地）远离 q，因而没有偏好抉择哪一个作为其预计！

图 3. q 的柯西散布。左：作为 N 函数的后验散布的均值（实线彩色曲线）和标准偏差（暗影灰色区域）。彩色虚线显示 q 的中值：如果 q 有均值，则因为对称该均值必定等于 1。后验散布不会收敛到任何散布，其均值会从一个值跳到另一个值。垂直黑白线显示 N=2、10、100 和 1000。右图：对 N=2、10、100 和 1000 的 q 的 MAP 预计（黑白曲线）。彩色虚线曲线显示实在散布 q。

如果咱们假如的散布的参数族与实在散布 q 相差不大，那么后验散布总是集中在一个参数四周，该参数在某种程度上提供了对于 q 的信息。

如果 q 不属于参数族，那么这些信息可能只是边缘的，并不是真正有用的。最坏的状况是当 q 与参数族中的任何散布相差太大时: 在这种状况下，后验散布是无奈提供任何信息的。

本文代码在这里：
https://avoid.overfit.cn/post/64a7c99a768c44c7842c8c9c8b2e13d4

作者：Alireza Modirshanechi

关于机器学习:我们能从后验分布中学到什么贝叶斯后验的频率解释

实践：大 N 的渐近状况

高斯分布

模仿钻研

总结

Just My Socks（注册教程内含优惠码）

关于机器学习:我们能从后验分布中学到什么贝叶斯后验的频率解释

实践：大 N 的渐近状况

高斯分布

模仿钻研

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）