关于人工智能:KL散度和交叉熵的对比介绍

52次阅读

共计 1740 个字符，预计需要花费 5 分钟才能阅读完成。

KL 散度（Kullback-Leibler Divergence）和穿插熵（Cross Entropy）是在机器学习中宽泛应用的概念。这两者都用于比拟两个概率分布之间的相似性，但在一些方面，它们也有所不同。本文将对 KL 散度和穿插熵的具体解释和比拟。

KL 散度，也称为绝对熵（Relative Entropy），是用来掂量两个概率分布之间的差别的一种度量形式。它掂量的是当用一个散布 Q 来拟合实在散布 P 时所须要的额定信息的均匀量。KL 散度的公式如下：

x 是概率分布中的一个可能的事件或状态。P(x) 和 Q(x) 别离示意实在概率分布和模型预测的概率分布中事件 x 的概率。

KL 散度具备以下性质：

KL 散度是非负的，即 KLD(P||Q) >= 0，当且仅当 P 和 Q 是完全相同的散布时等号成立。
KL 散度不满足交换律，即 KLD(P||Q) != KLD(Q||P)。
KL 散度通常不是对称的，即 KLD(P||Q) != KLD(Q||P)。
KL 散度不是度量，因为它不具备对称性和三角不等式。

在机器学习中，KL 散度通常用于比拟两个概率分布之间的差别，例如在无监督学习中用于评估生成模型的性能。

穿插熵是另一种比拟两个概率分布之间的相似性的办法。它的公式如下：

x 是概率分布中的一个可能的事件或状态。P(x) 和 Q(x) 别离示意实在概率分布和模型预测的概率分布中事件 x 的概率。穿插熵掂量了模型预测的概率分布与实在概率分布之间的差别，即模型在预测上的不确定性与真实情况的不确定性之间的差距。

与 KL 散度不同，穿插熵具备以下性质：

穿插熵是非负的，即 CE(P, Q) >= 0，当且仅当 P 和 Q 是完全相同的散布时等号成立。
穿插熵满足交换律，即 CE(P, Q) = CE(Q, P)。
穿插熵是对称的，即 CE(P, Q) = CE(Q, P)。
穿插熵不是度量，因为它不具备三角不等式。

在机器学习中，穿插熵通常用于掂量模型预测和实在标签之间的差别。例如，在分类工作中，穿插熵被用作损失函数，以掂量模型预测的类别散布和实在标签之间的差。

L 散度和穿插熵有肯定的分割。在概率论中，KL 散度能够被定义为两个概率分布之间的穿插熵与实在散布的熵的差值。具体地说，KL 散度的公式如下：

H(P, Q) 示意 P 和 Q 的穿插熵，H(P) 示意 P 的熵。能够看到，KL 散度蕴含了穿插熵和熵的概念，因而它们之间有着亲密的分割。

穿插熵通常用于监督学习工作中，如分类和回归等。在这些工作中，咱们有一组输出样本和相应的标签。咱们心愿训练一个模型，使得模型可能将输出样本映射到正确的标签上。

在这种状况下，咱们能够应用穿插熵作为损失函数。假如咱们有一个模型预测的输入散布为 p，实在标签的散布为 q。那么穿插熵的公式如下：

i 示意可能的类别或事件，p_i 和 q_i 别离示意实在概率分布和模型预测的概率分布中类别 i 的概率。

KL 散度通常用于无监督学习工作中，如聚类、降维和生成模型等。在这些工作中，咱们没有相应的标签信息，因而无奈应用穿插熵来评估模型的性能，所以须要一种办法来掂量模型预测的散布和实在散布之间的差别，这时就能够应用 KL 散度来掂量模型预测的散布和实在散布之间的差别。KL 散度的公式如下：

i 示意概率分布中的一个可能的事件或状态。p_i 和 q_i 别离示意实在概率分布和模型预测的概率分布中事件 i 的概率。KL 散度掂量了模型预测的概率分布与实在概率分布之间的差别，即模型在预测上的不确定性与真实情况的不确定性之间的差距。

个别状况下：穿插熵通常用于监督学习工作中，KL 散度通常用于无监督学习工作中。当咱们有相应的标签信息时，应该应用穿插熵来评估模型的性能；当咱们没有相应的标签信息时，应用 KL 散度能够掂量模型预测的散布和实在散布之间的差别。

在本文中，咱们介绍了 KL 散度和穿插熵这两个概念，并比拟了它们之间的异同。KL 散度用于比拟两个概率分布之间的差别，而穿插熵用于掂量模型预测和实在标签之间的差别。只管它们有肯定的分割，但它们在应用和利用上还是有所区别。在机器学习中，KL 散度和穿插熵都有着宽泛的利用，能够用来评估模型的性能和更新模型参数。

https://avoid.overfit.cn/post/030de9dfd01e45e5ba23bf1a9b36c70b

正文完