关于人工智能:非参数检验方法核密度估计简介

在20世纪，统计学还处于起步阶段计算机还不是那么风行的时候，假如正态分布是生成数据的规范。这次要是因为在那个所有后果都是手工计算的时代，正态分布能够使计算不那么繁琐。

但在这个大数据时代，随着计算能力的进步，数据的可用性使得统计学家采纳了更古代的技术——非参数统计。这里咱们将探讨一种这样的办法来预计概率分布，核密度估计。

n个随机变量遵从散布函数F。对数据的假如越多，咱们就越不靠近事实，所以让咱们对散布F做尽可能小的假如：它是一个相对间断的散布函数(概率密度/品质函数即pdf/pmf存在)。咱们要重建这个未知散布函数F的pdf。

是如果应用参数检验的办法，咱们会假如(猜想)F的参数模式，并通过各种统计办法预计参数，如最大似然预计，矩量法等。但这里咱们不打算这么做。咱们将转而应用这个密度的非参数估计。

在深入研究用于非参数估计密度的核密度估计(KDE)之前，咱们先看一个例子，一个看似非参数的问题能够转化为参数推断问题，而后咱们将介绍非参数统计和 KDE 起着重要作用的例子。

这里咱们要测验

以非参数形式执行此操作，上面的测试能够直观进行，

原假如：散布 F 的中位数为 0

测验这个零假如的常识办法是查看侧面和负面察看的数量，并查看每个类别中有多少谬误，即

在原假如下，正察看值的数量应遵循 Binomial(n, 1/2)

这样咱们就将非参数测试问题简化为参数测试问题。

让咱们转向另一个例子

参数估计正在获取 f_theta 最靠近 g 的预计，如果 g 在模型的抉择中，那么对于某些参数抉择，预计的 f 和 g 之间的间隔将为 0，即

这里的rho 是两个密度函数之间的间隔度量，上述情况产生在建模完满的时候，而现实生活中往往不是这样。因为对于 f 模式的参数函数集中的最佳抉择，它们也将靠近 g 但不齐全等于 f。咱们执行以下操作，

找到使假如的参数模型与理论密度之间的间隔最小的参数，在最好的状况下，这个参数通常仍会导致间隔的正值。两个密度函数之间间隔的一种非凡抉择能够是 Kullback–Leibler 散度：

在下面的表达式中，最大化第二项就像最小化间隔一样，因为第一项与 theta 无关。所以最小化 KL(g,f) 能够变为：

KL散度公式中第二项的最大化导致间隔最小化，G 是未知的。上述最小化 KL 散度的表达式的模式为：ln f(x) w.r.t. 的冀望， G是散布函数。

咱们的数据总是离散的。所以须要应用样本均值来预计上述冀望

下面的表达式须要最大化，它与最大似然预计雷同，其中下面的表达式给出了样本的对数似然（疏忽小数常数 1/n）。

然而下面所有的工作，咱们以某种形式绕过了一个事实，即正在最小化离散数据和间断密度之间的间隔。但通常是不可能这样做。例如，如果抉择 Squared-Hellinger间隔

最初一个表达式来自于密度函数对R的积分是1。第一个问题是，为什么还要加上Squared-Hellinger间隔？咱们加上它的与起因是它不晓得数据中的异样值，而实践上的益处是它的对称表达式。

所以最小化 Hellinger 间隔等同于

在 Squared Hellinger 间隔中最大化此项会导致 f 和 g 之间的最小间隔

KL Divergence 的非凡之处在于应用这个最终的指标函数作为冀望。但在这里咱们不能那样做，因为不能将其简化为求和模式，所以要计算上述内容，首先须要从数据中牢靠地预计 g(x)，模型可能是间断的，但它的数据总是离散的。应用这些数据还须要找到 g(x) 的间断密度估计，这就是密度估计发挥作用的中央。

咱们能够参数化地进行这种预计，但这里咱们将重点关注 g 的非参数化预计。非参数地预计密度的一些想法能够是将直方图视为密度的预计。

如果察看的数量趋于无穷，则binwidth趋于0。直方图收敛于密度。

上述后果次要都是来自于统计根本定理。

核密度估计

上面让咱们看看核密度估计是如何工作的：

取一些对于 0 对称的密度 K(x)。这通常称为核函数或窗函数。
抉择bandwidth （平滑参数）
在每个点（在察看中）叠加密度 K(x)，并取所有 K(x) 的平均值。

咱们能够将 f(x) 写为，

察看中每个点的所有核值的平均值，如果须要可视化，咱们能够这样想下面的函数

围绕每个察看值（绿色）的核函数（黄色）在每个点取平均值以得出密度 f(x)（蓝色）的估计值，咱们能够通过引入一个尺度参数来改良上述密度估计

随着h的增大，密度估计会扩散得更广，但峰值更低。小的h会让它更尖。

核函数能够抉择Normal Kernel。这样能够失去

Normal Kernel的 KDE，这里的bandwidth (h) 在取得完满形态方面起着关键作用。它必须依据样本大小来抉择。上面计算 r.v. 的期望值和方差。X 追随 f(x)

KDE f(x) 的冀望是冀望的样本均值，所以:

下面的式子将在方差计算中进一步应用

KDE X ~ f(x) 的方差

所以在现实状况下，咱们心愿 h 是 n 的函数，使得 h 趋于 0，而 n 趋于无穷大，从而产生统一的方差估计量。

KDE 中最罕用的内核是 Epanechnikov 内核，

核密度估计的利用

核密度估计有几个乏味的利用。比方能够从视频中减去背景。比方用于定位路线上疾速挪动的车辆。

基于KDE +阈值的办法给出了上面的后果。通过调整无效的阈值能够帮忙辨认超速车辆。

总结

核密度估计（Kernel Density Estimation，简称KDE）是一种非参数统计办法，用于预计数据样本背地的概率密度函数。KDE 的利用场景很宽泛，以下是一些常见的利用场景：

数据可视化：KDE 能够用来可视化数据分布，代替直方图或箱线图等传统统计图表，让人们更清晰地了解数据的散布状况。
异样检测：KDE 能够用来检测数据中的异样值，因为异样值通常在概率密度函数上呈现出与失常数据不同的“尖峰”或“波峰”。
模式识别：KDE 能够用来辨认数据中的模式，比方在地震学畛域，能够用 KDE 来剖析地震数据，找出是否存在特定的震级模式。
信号处理：KDE 能够用来剖析信号的功率谱密度，帮忙工程师诊断信号的频率特色，以便优化信号处理算法。
机器学习：KDE 能够用来构建密度估计模型，例如用于分类或聚类问题中。

https://avoid.overfit.cn/post/6cea4b95969a404aa419e28b7676c807

作者：Rishi Dey Chowdhury (RishiDarkDevil)

关于人工智能:非参数检验方法核密度估计简介

核密度估计

核密度估计的利用

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:非参数检验方法核密度估计简介

核密度估计

核密度估计的利用

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复