关于机器学习:数据变异性的度量-极差IQR方差和标准偏差

variability被称作变异性或者可变性，它形容了数据点彼此之间以及距散布核心的间隔。

可变性有时也称为扩散或者扩散。因为它通知你点是偏向于汇集在核心四周还是更宽泛地扩散。

低变异性是现实的，因为这意味着能够依据样本数据更好地预测无关总体的信息。高可变性意味着值的一致性较低，因而更难做出预测。在统计学中，咱们的指标是测量一组特定数据或一个散布的变异性。简略来说，如果一个散布中的数据值是雷同的，那么它没有变异性。

上图中只管数据遵从正态分布，但每个样本都有不同的散布。样品 A 的变异性最大，而样品 C 的变异性最小。

能够应用多种不同的形式对变异度进行度量

极差（Range）

极差，又称全距，能够显示数据从散布中的最低值到最高值的散布。

例如，思考以下数字：1、3、4、5、5、6、7、11。对于这组数字，极差是 11-1 或 10。

极差的度量仅应用了 2 个数字因而受异样值影响很大，并且不会提供无关值散布的任何信息。所以它最好与其余办法联合应用。

四分位距（Interquartile range）

四分位距又被称作四分差，能够提供数据散布两头的散布。

对于从低到高排序的任何散布，四分位距蕴含数据中一半的值。第一个四分位数 (Q1) 蕴含前 25% 的值，而第四个四分位数 (Q4) 蕴含最初 25% 的值。

它掂量数据如何围绕均值散布。根本公式为：

IQR = Q3 - Q1

就像极差一样，四分位距在其计算中仅应用 2 个值。然而IQR受异样值的影响较小：这2个值来自数据集的两头一半，所以不太可能是极其数字。

小常识：每个散布都能够应用五个数字摘要进行组织：

最低值
Q1：第 25 个百分位
Q2：中位数
Q3：第 75 个百分位
最高值 (Q4)

方差（Variance）

方差示意数据集的散布范畴，但它是一个形象数字。它反映了数据集中的扩散水平。数据越扩散，方差与均值的关系就越大。

小方差 – 数据点往往十分靠近均值且彼此十分靠近
高方差 – 数据点与均值和彼此之间十分扩散
零方差——所有数据值都雷同

标准差（Standard Deviation）

标准偏差是数据集中的均匀变异量。它均匀示意每个数据点与平均值相差多远。标准差越大，数据集的可变性越大。

为什么应用 n – 1 作为样本标准差？

当领有总体数据时能够取得总体标准差的精确值。能够从每个总体成员收集数据，因而标准差反映了散布（总体）中的准确变异量。

但当无奈取得所有数据时，就能够对整体数据进行抽样（抽样形式这就不具体介绍）。抽样的后果就被称作样本，样本的作用是对总体的数据进行统计推断的。当应用样本数据时，样本标准差始终用作总体标准差的估计值。在这个公式中应用 n 往往会给你一个有偏差的预计，它总会低估可变性。

将样本 n 缩小到 n – 1 会使标准偏差人为地变大，从而提供对变异性的激进预计。尽管这不是无偏预计，但它是对标准差的偏少预计：高估而不是低估样本的可变性更好。

标准差低 – 数据点往往靠近平均值标准差高 – 数据点散布在大极差的值上

什么是变异性的最佳衡量标准？

可变性的最佳衡量标准取决于不同衡量标准和散布程度。

对于在序数程度上测量的数据，极差和四分位距是惟一适合的变异性度量。

对于更简单的区间和比率的数据，标准差和方差也实用。

对于正态分布，能够应用所有度量。但标准差和方差是首选，因为它们思考了整个数据集，但这也意味着它们很容易受到异样值的影响。

对于偏态散布或具备异样值的数据集，四分位距是最好的度量。它受极值影响最小，因为它侧重于数据集中间的局部。

作者；Ashish Kumar Singh

关于机器学习:数据变异性的度量-极差IQR方差和标准偏差

极差（Range）

四分位距（Interquartile range）

方差（Variance）

标准差（Standard Deviation）

为什么应用 n – 1 作为样本标准差？

什么是变异性的最佳衡量标准？

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:数据变异性的度量-极差IQR方差和标准偏差

极差（Range）

四分位距（Interquartile range）

方差（Variance）

标准差（Standard Deviation）

为什么应用 n – 1 作为样本标准差？

什么是变异性的最佳衡量标准？

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复