关于机器学习:我们能从后验分布中学到什么贝叶斯后验的频率解释

7次阅读

共计 3462 个字符,预计需要花费 9 分钟才能阅读完成。

假如咱们从未知散布 q 中察看到 N 个独立且同散布的 (iid) 样本 X = (x1, … , xN)。统计学中的一个典型问题是“样本集 X 能通知咱们对于散布 q 的什么信息?”。

参数统计办法假如 q 属于一个参数散布族,并且存在一个参数 θ,其中 q(x) 等于所有 x 的参数散布 p(x|θ);例如,p(.|θ) 能够是具备单位方差的正态分布,其中 θ 示意平均值。在这种状况下,问题是“X 通知咱们对于 q 的什么?”或者说“如果咱们有 q = p(.|θ) 的参数 θ,X 通知咱们什么呢?”。

答复这个问题的贝叶斯办法是应用概率论规定并假如 θ 自身是具备先验散布 p(θ) 的随机变量。先验散布 p(θ) 是咱们在察看任何样本之前对 θ 的假如和猜想的形式化。在这种前提下,咱们能够将参数和数据的联结概率分布写在一起:

利用这个公式,X 捕捉到的对于 θ 的所有信息都能够总结为后验散布

贝叶斯统计是自洽且优雅的:所有都能够应用概率论的规定天然推导进去的,而且假如总是明确且清晰的。然而它通常看起来很神秘和令人费解:(i)咱们能从后验散布 p(θ|X) 中真正学到什么对于底层散布 q 的信息?还有(ii)如果咱们的假如不成立,例如,如果 q 不属于咱们思考的参数族,该信息的可靠性如何?

在这篇文章中,咱们将对这两个问题进行解释。剖析样本数量 N 很大时后验散布的渐近模式——这是钻研贝叶斯推理的罕用办法。而后,我展现了个别实践如何实用于高斯族的简略状况。最初,在三个案例钻研中,我应用模仿和剖析,后验散布如何与数据的底层散布相干,以及随着 N 的减少,这个链接如何变动。¹。

实践:大 N 的渐近状况

等式 1 中后验散布的对数能够从新表述为

等式 2 中的常数(绝对于 θ)仅对后验概率分布的归一化很重要,并不影响它作为 θ 的函数变动。所以对于大 N,咱们能够应用大数定律,并通过以下形式近似等式 2 中的第二项(对数似然之和)

其中 D-KL 是 Kullback-Leibler 散度,是测量实在散布 q 和参数散布 p(.|θ) 之间的伪间隔。要留神的重要的一点是,仅当 log p(x|θ) 的均值和方差(绝对于 q)对于某些参数 θ 是无限的时,近似才无效。咱们将在下一节进一步探讨这种状况的重要性。

如果 p(θ) 齐全反对参数空间(即始终为非零),则 log p(θ) 始终是无限的,并且等式 2 中对于大 N 的的次要项是 D-KL [q | | p(.|θ)] 乘以 N。这意味着减少样本数 N 会使后验散布 p(θ|X) 越来越靠近散布

这是公式 3,其中 Z 是归一化常数。p*(θ; N) 是一个乏味的散布:它的最大值是散度 D-KL [q || p(.|θ)] 最小值(即当 p(.|θ) 尽可能靠近 q)² 时,它对 D-KL [q || p(.|θ)] 随着样本数量 N 的减少而减少(即,随着 N 的减少,它在其最大值左近变得更加“窄”)。

当假如正确时

当假如是正确的并且存在 q = p(.|θ)的 θ时,

其中 D-KL [p(.|θ) || p(.|θ)] 是 θ 和 θ 之间的伪间隔。因而随着 N 的减少,后验散布集中在实在参数 θ* 四周,这能够为咱们提供了齐全辨认 q 所需的所有信息³。

当假如谬误时

当没有 q = p(.|θ) 的 θ 时,咱们永远无奈辨认真正的潜在散布 q — 因为咱们没有在正确的地位搜寻!强调这个问题是因为这种状况不仅限于贝叶斯统计,还扩大到任何参数统计办法。

只管在这种状况下咱们永远无奈齐全辨认 q,但后验散布依然能够提供无关 q 的信息:如果咱们将 θ* 定义为 q 在参数族空间上的伪投影的参数:

那么随着 N 的减少,后验散布集中在 θ* 四周,为咱们提供了足够的信息来确定 q 的参数族中的最佳候选者⁴。

实践的总结

随着 N 的减少,后验散布集中在参数 θ * 四周,该参数形容了参数族中最靠近理论散布 q 的散布。如果 q 属于参数族,那么最靠近 q 的散布就是 q 自身。上面咱们看三个例子:

高斯分布

下面咱们钻研了大量样本的后验散布的个别模式。咱们首先钻研一个简略的例子,看看个别实践如何实用于具体案例。

这里是一个简略的例子,咱们的参数散布是具备单位方差和均值等于 θ 的高斯分布:

为了简略起见,咱们只思考一个规范正态分布作为先验 p(θ)。利用公式 1 能够很容易失去后验散布为

这里的

当初,还能够失去 p*(θ; N)(公式 3)并将其与后验散布进行比拟:只有实在散布 q 的均值和方差是无限的,咱们就有

还是依据公式 3,能够失去

这里的

咱们把它称作公式 4,依据个别实践,能够用 p *(θ;N)示意大 N,因为

这样能够看到,p(θ|X) 集中在潜在散布 q 的实在均值左近——如果它存在的话。

模仿钻研

下面的实践剖析有两个要害假如:(i) N 很大,(ii) log p(x|θ) 的均值和方差(绝对于 q)对于某些 θ 是无限的。所以 在本节中,咱们应用模仿并钻研如果这些假如不成立,咱们的发现也是十分持重的。

还是应用上一节中示例,即具备单位方差的高斯分布族。而后思考 q 的三种不同抉择,并剖析后验 p(θ|X) 随着 N 减少的变动。

咱们还要钻研 q 的最大后验 (MAP) 预计 q-MAP-N = p(.|θ-hat-N) 如何随着 N 的减少而变动,其中 θ-hat-N 是 p(θ|X)。,因为这有助于咱们理解通过查看后验散布的最大值⁵ 来辨认实在散布 q 的精确度。

高斯分布

第一种状况,q 属于参数族并且满足所有假如,这是咱们心愿的最佳状况:

从 q 中抽取了 10000 个样本,发现后验散布 p(θ|X=(x1,…,xN))和 MAP 预计 q -MAP-N -,通过在 N = 1 到 10000 之间逐个增加样本 (下图 1)。能够看到随着 N 的减少,p(θ|X) 集中在真参数四周(图 1,左),MAP 预计收敛于真散布 q(图 1,右)。

左: 后验散布的均值 (实彩色曲线) 和标准差 (灰色暗影区域) 作为 n 的函数。虚线的黑线示意 q =p(.|θ=1)的真参数。后验散布收敛于真参数。垂直的黑白线别离示意 N =2、10、100 和 1000。右: 当 N =2、10、100 和 1000(黑白曲线)时 q 的 MAP 估计值。彩色虚线曲线示意实在散布 q。

拉普拉斯散布

这是第二种状况,一个具备单位均值的拉普拉斯散布作为实在散布:

在这种状况下,q 不属于参数族,但它依然有一个无限的均值和方差。依据实践后验散布应该集中在参数族上 q 伪投影的参数 θ 左近。对于高斯族的例子,θ总是底层散布的平均值,即 θ * = 1(公式 4)。

模仿表明随着 N 的减少,p(θ|X)的确集中在 θ * = 1 左近(图 2,左)。MAP 预计收敛于一个零碎上不同于实在散布 q 的散布(图 2,右),这是因为咱们在高斯分布中搜寻拉普拉斯散布! 这实质上是任何参数统计办法的一个问题: 如果你在谬误的中央搜寻,你就找不到正确的散布!

左: 后验散布作为 n 的函数的均值 (实彩色曲线) 和标准差 (灰色暗影区域)。虚线的黑线示意的是 q 在参数族上的伪投影对应的参数,即 θ =1(公式 4)。后验散布收敛于 θ 。垂直的黑白线示意 N =2、10、100 和 1000。右: 当 N =2、10、100 和 1000(黑白曲线) 时 q 的 MAP 估计值。彩色虚线曲线示意实在散布 q。

柯西散布

第三种也是最初一种状况,咱们抉择最坏的状况并思考柯西散布(驰名的重尾散布)作为实在散布:

在这种状况下,q 不属于参数族,但更要害的问题是柯西散布没有明确定义的均值或无限方差:这违反了所有实践的假如!

看看咱们模仿的状况,模仿表明 p(θ|X) 不会收敛到任何散布(图 3,左):p(θ|X) 的标准差变为零并且集中在其均值左近,但均值自身并不收敛并且会从一个值跳转到另一个值。这个问题的解释很简略:柯西散布和高斯分布之间的 KL 散度是有限的,并且与它们的参数无关!也就是依据 KL 散度,所有高斯分布均等地(并且有限地)远离 q,因而没有偏好抉择哪一个作为其预计!

图 3. q 的柯西散布。左:作为 N 函数的后验散布的均值(实线彩色曲线)和标准偏差(暗影灰色区域)。彩色虚线显示 q 的中值:如果 q 有均值,则因为对称该均值必定等于 1。后验散布不会收敛到任何散布,其均值会从一个值跳到另一个值。垂直黑白线显示 N=2、10、100 和 1000。右图:对 N=2、10、100 和 1000 的 q 的 MAP 预计(黑白曲线)。彩色虚线曲线显示实在散布 q。

总结

如果咱们假如的散布的参数族与实在散布 q 相差不大,那么后验散布总是集中在一个参数四周,该参数在某种程度上提供了对于 q 的信息。

如果 q 不属于参数族,那么这些信息可能只是边缘的,并不是真正有用的。最坏的状况是当 q 与参数族中的任何散布相差太大时: 在这种状况下,后验散布是无奈提供任何信息的。

本文代码在这里:
https://avoid.overfit.cn/post/64a7c99a768c44c7842c8c9c8b2e13d4

作者:Alireza Modirshanechi

正文完
 0