乐趣区

关于机器学习:数据信息汇总的7种基本技术总结

数据汇总是一个将原始数据简化为其次要成分或特色的过程,使其更容易了解、可视化和剖析。本文介绍总结数据的七种重要办法,有助于了解数据本质的内容。

1、集中趋势: 平均值,中位数,众数

集中趋势是一种统计测量,目标是确认最典型的个体,找到最可能代表整个组的单个数值。它能够提供对数据集中“典型”数据点的精确形容。集中趋势的三个次要度量是平均值、中位数和众数。

平均值: 通过将数据集中的所有数据点相加,而后除以数据点的数量来计算平均值。

中位数: 中位数是数据集的两头点。要找到中位数,必须首先按量级 (升序或降序) 对数据进行排序。如果数据集蕴含奇数个观测值,则中位数为两头值。如果有偶数个观测值,中位数是两个两头值的平均值。

众数: 众数是数据集中呈现频率最高的值。数据集能够有一个众数(单峰),两个众数(双峰),或多个众数(多峰)。

了解集中趋势有助于建设一个“典型”值,作为数据的有用总结。

2、离散度: 范畴,方差,标准差

集中趋势的度量能够为数据提供一个摘要,而离散度的度量则形容了数据点的散布。它们提供了对数据集内可变性的洞察。掂量离散度的要害指标包含范畴、方差和标准差。

范畴: 范畴是最简略的离散度量。它是数据集中的最大值减去最小值来计算的。

方差: 方差是掂量数据集中的数据点与均值相差多少的指标。它是通过取平均值的平方差的平均值来计算的。

标准差: 标准差是方差的平方根。它掂量每个数据点与平均值之间的均匀间隔。它用与数据雷同的单位示意,所以特地有用。

了解离散度对于掂量数据的可靠性至关重要。高离散度表明数据的高度可变性。

3、偏度和峰度

偏度和峰度是掂量数据分布形态的两个重要指标。

偏度:偏度掂量数据分布的不对称性。正偏斜示意右尾长的散布,而负偏斜示意左尾长的散布。零偏度示意齐全对称的散布。

峰度:峰度掂量散布的“尾部”。顶峰度示意具备重尾和尖峰(leptokurtic)的散布,而低峰度示意具备轻尾战争峰(platykurtic)的散布。正态分布的峰度为零(中峰态)。

理解数据分布的偏度和峰度能够为理解数据可变性的实质提供有价值的见解。偏度能够批示数据中的潜在异样值或异样,而峰度能够表明数据是重尾还是轻尾,这会影响某些统计分析。

4、相关性和协方差

相关性和协方差是形容数据集中两个变量之间关系的两种度量。

相关性:相关性掂量两个变量之间线性关系的强度和方向。它的范畴从 - 1 到 1,其中 1 示意齐全正相干,- 1 示意齐全负相关,0 示意没有线性关系。

协方差:协方差是掂量两个变量一起变动的水平。与相关性不同,协方差不掂量关系的强度,其值不受约束,因而比相关性更难解释。

这两个度量对于了解数据中不同变量之间的关系至关重要,这有助于预测建模和其余统计分析。

5、百分位数和四分位数

百分位数和四分位数是绝对位置的衡量标准,能够更深刻地理解数据集的散布。

百分位数:百分位数示意数据集中有多少察看值低于该值。例如,第 20 个百分位数是低于该值的 20% 的观测值。

四分位数:四分位数将排序数据集分成四个相等的局部。第一个四分位数 (Q1) 是第 25 个百分位数,第二个四分位数 (Q2) 是中位数或第 50 个百分位数,第三个四分位数 (Q3) 是第 75 个百分位数。

百分位数和四分位数对于理解数据的散布、辨认异样值以及比拟不同的数据点或数据集特地有用。

6、箱线图和直方图

箱线图和直方图是用于汇总数据的图形办法。

箱线图:箱线图(或箱型图)提供数据集中最小值、第一四分位数、中位数、第三四分位数和最大值的可视化摘要。它还能够批示数据中的异样值。所以箱线图非常适合比拟不同组之间的散布。

直方图:直方图是数据集散布的图形示意。它是对连续变量概率分布的预计。直方图通过批示位于值范畴内的数据点数量(称为箱)来提供数字数据的直观解释。

这些图形办法容许疾速、直观地了解数据,使它们成为数据分析的贵重工具。

7、穿插制表

穿插表是一种罕用的分类汇总数据的办法。它创立了一个显示变量频率散布的列联表。通过穿插表能够察看两个或多个分类变量之间关系的统计显着性。

穿插表在市场钻研或任何其余应用考察或问卷的钻研中特地有用。它们提供了两个或多个变量之间互相关系的根本图景,能够帮忙找到它们之间的相互作用。

总结

对数据进行总结是数据分析过程中至关重要的一步。它提供了对数据集的全面了解,揭示了在原始的、未解决的数据中可能不显著的模式、关系和见解。本文形容的七种办法都提供了对数据的不同视角,提供了一个全面的总结,能够为决策提供信息。

https://avoid.overfit.cn/post/3aeec64b87c247cd9eb3d2a340df96ce

退出移动版