假如咱们从未知散布 q 中察看到 N 个独立且同散布的 (iid) 样本 X = (x1, ... , xN)。统计学中的一个典型问题是“样本集 X 能通知咱们对于散布 q 的什么信息?”。

参数统计办法假如 q 属于一个参数散布族,并且存在一个参数 ,其中 q(x) 等于所有 x 的参数散布 p(x|);例如,p(.|) 能够是具备单位方差的正态分布,其中 示意平均值。在这种状况下,问题是“X 通知咱们对于 q 的什么?”或者说“如果咱们有 q = p(.|) 的参数 ,X 通知咱们什么呢?”。

答复这个问题的贝叶斯办法是应用概率论规定并假如 自身是具备先验散布 p() 的随机变量。先验散布 p() 是咱们在察看任何样本之前对 的假如和猜想的形式化。在这种前提下,咱们能够将参数和数据的联结概率分布写在一起:

利用这个公式,X捕捉到的对于的所有信息都能够总结为后验散布

贝叶斯统计是自洽且优雅的:所有都能够应用概率论的规定天然推导进去的,而且假如总是明确且清晰的。然而它通常看起来很神秘和令人费解:(i)咱们能从后验散布 p(|X) 中真正学到什么对于底层散布 q 的信息?还有(ii)如果咱们的假如不成立,例如,如果 q 不属于咱们思考的参数族,该信息的可靠性如何?

在这篇文章中,咱们将对这两个问题进行解释。剖析样本数量 N 很大时后验散布的渐近模式——这是钻研贝叶斯推理的罕用办法。而后,我展现了个别实践如何实用于高斯族的简略状况。最初,在三个案例钻研中,我应用模仿和剖析,后验散布如何与数据的底层散布相干,以及随着N的减少,这个链接如何变动。¹。

实践:大 N 的渐近状况

等式 1 中后验散布的对数能够从新表述为

等式 2 中的常数(绝对于 )仅对后验概率分布的归一化很重要,并不影响它作为 的函数变动。所以对于大 N,咱们能够应用大数定律,并通过以下形式近似等式 2 中的第二项(对数似然之和)

其中 D-KL 是 Kullback-Leibler 散度,是测量实在散布 q 和参数散布 p(.|) 之间的伪间隔。要留神的重要的一点是,仅当 log p(x|) 的均值和方差(绝对于 q)对于某些参数 是无限的时,近似才无效。咱们将在下一节进一步探讨这种状况的重要性。

如果 p() 齐全反对参数空间(即始终为非零),则 log p() 始终是无限的,并且等式 2 中对于大 N的的次要项是 D-KL [q | | p(.|)] 乘以 N。这意味着减少样本数 N 会使后验散布 p(|X) 越来越靠近散布

这是公式3,其中 Z 是归一化常数。p*(; N) 是一个乏味的散布:它的最大值是散度 D-KL [q || p(.|)] 最小值(即当 p(.|) 尽可能靠近 q)² 时,它对 D-KL [q || p(.|)] 随着样本数量 N 的减少而减少(即,随着 N 的减少,它在其最大值左近变得更加“窄”)。

当假如正确时

当假如是正确的并且存在q = p(.|)的 时,

其中 D-KL [p(.|) || p(.|)] 是 和 之间的伪间隔。因而随着 N 的减少,后验散布集中在实在参数 * 四周,这能够为咱们提供了齐全辨认 q 所需的所有信息³。

当假如谬误时

当没有 q = p(.|) 的 时,咱们永远无奈辨认真正的潜在散布 q — 因为咱们没有在正确的地位搜寻!强调这个问题是因为这种状况不仅限于贝叶斯统计,还扩大到任何参数统计办法。

只管在这种状况下咱们永远无奈齐全辨认 q,但后验散布依然能够提供无关 q 的信息:如果咱们将 * 定义为 q 在参数族空间上的伪投影的参数:

那么随着 N 的减少,后验散布集中在 * 四周,为咱们提供了足够的信息来确定 q 的参数族中的最佳候选者。

实践的总结

随着N的减少,后验散布集中在参数*四周,该参数形容了参数族中最靠近理论散布q的散布。如果q属于参数族,那么最靠近q的散布就是q自身。上面咱们看三个例子:

高斯分布

下面咱们钻研了大量样本的后验散布的个别模式。咱们首先钻研一个简略的例子,看看个别实践如何实用于具体案例。

这里是一个简略的例子,咱们的参数散布是具备单位方差和均值等于 的高斯分布:

为了简略起见,咱们只思考一个规范正态分布作为先验p()。利用公式1能够很容易失去后验散布为

这里的

当初,还能够失去 p*(; N)(公式 3)并将其与后验散布进行比拟:只有实在散布 q 的均值和方差是无限的,咱们就有

还是依据公式3,能够失去

这里的

咱们把它称作公式4 ,依据个别实践,能够用p*(;N)示意大N,因为

这样能够看到,p(|X) 集中在潜在散布 q 的实在均值左近——如果它存在的话。

模仿钻研

下面的实践剖析有两个要害假如:(i) N 很大,(ii) log p(x|) 的均值和方差(绝对于 q)对于某些 是无限的。所以 在本节中,咱们应用模仿并钻研如果这些假如不成立,咱们的发现也是十分持重的。

还是应用上一节中示例,即具备单位方差的高斯分布族。而后思考 q 的三种不同抉择,并剖析后验 p(|X) 随着 N 减少的变动。

咱们还要钻研 q 的最大后验 (MAP) 预计 q-MAP-N = p(.|-hat-N) 如何随着 N 的减少而变动,其中 -hat-N 是 p( |X)。,因为这有助于咱们理解通过查看后验散布的最大值 来辨认实在散布 q 的精确度。

高斯分布

第一种状况,q 属于参数族并且满足所有假如,这是咱们心愿的最佳状况:

从q中抽取了10000个样本,发现后验散布p(|X=(x1,…,xN))和MAP预计q-MAP-N -,通过在N = 1到10000之间逐个增加样本(下图1)。能够看到随着N的减少,p(|X)集中在真参数四周(图1,左),MAP预计收敛于真散布q(图1,右)。

左:后验散布的均值(实彩色曲线)和标准差(灰色暗影区域)作为n的函数。虚线的黑线示意q=p(.|=1)的真参数。后验散布收敛于真参数。垂直的黑白线别离示意N=2、10、100和1000。右:当N=2、10、100和1000(黑白曲线)时q的MAP估计值。彩色虚线曲线示意实在散布q。

拉普拉斯散布

这是第二种状况,一个具备单位均值的拉普拉斯散布作为实在散布:

在这种状况下,q不属于参数族,但它依然有一个无限的均值和方差。依据实践后验散布应该集中在参数族上q伪投影的参数左近。对于高斯族的例子,总是底层散布的平均值,即* = 1(公式4)。

模仿表明随着N的减少,p(|X)的确集中在* = 1左近(图2,左)。MAP预计收敛于一个零碎上不同于实在散布q的散布(图2,右),这是因为咱们在高斯分布中搜寻拉普拉斯散布!这实质上是任何参数统计办法的一个问题:如果你在谬误的中央搜寻,你就找不到正确的散布!

左:后验散布作为n的函数的均值(实彩色曲线)和标准差(灰色暗影区域)。虚线的黑线示意的是q在参数族上的伪投影对应的参数,即=1(公式4)。后验散布收敛于。垂直的黑白线示意N=2、10、100和1000。右:当N=2、10、100和1000(黑白曲线)时q的MAP估计值。彩色虚线曲线示意实在散布q。

柯西散布

第三种也是最初一种状况,咱们抉择最坏的状况并思考柯西散布(驰名的重尾散布)作为实在散布:

在这种状况下,q 不属于参数族,但更要害的问题是柯西散布没有明确定义的均值或无限方差:这违反了所有实践的假如!

看看咱们模仿的状况,模仿表明 p(|X) 不会收敛到任何散布(图 3,左):p(|X) 的标准差变为零并且集中在其均值左近,但均值自身并不收敛并且会从一个值跳转到另一个值。这个问题的解释很简略:柯西散布和高斯分布之间的 KL 散度是有限的,并且与它们的参数无关!也就是依据 KL 散度,所有高斯分布均等地(并且有限地)远离 q,因而没有偏好抉择哪一个作为其预计!

图 3. q 的柯西散布。左:作为 N 函数的后验散布的均值(实线彩色曲线)和标准偏差(暗影灰色区域)。彩色虚线显示 q 的中值:如果 q 有均值,则因为对称该均值必定等于 1 。后验散布不会收敛到任何散布,其均值会从一个值跳到另一个值。垂直黑白线显示 N=2、10、100 和 1000。右图:对 N=2、10、100 和 1000 的 q 的 MAP 预计(黑白曲线)。彩色虚线曲线显示实在散布 q。

总结

如果咱们假如的散布的参数族与实在散布q相差不大,那么后验散布总是集中在一个参数四周,该参数在某种程度上提供了对于q的信息。

如果q不属于参数族,那么这些信息可能只是边缘的,并不是真正有用的。最坏的状况是当q与参数族中的任何散布相差太大时:在这种状况下,后验散布是无奈提供任何信息的。

本文代码在这里:
https://avoid.overfit.cn/post/64a7c99a768c44c7842c8c9c8b2e13d4

作者:Alireza Modirshanechi