乐趣区

用直方图和箱线图理解数据

作者 |Rashida Nasrin Sucky
编译 |VK
来源 |Towards Data Science

了解如何从直方图和箱线图中提取信息

理解这些数据并不意味着只得到平均值、中位数和标准差。很多时候,了解数据的可变性、传播或分布是很重要的。直方图和箱线图都有助于提供有关数据集的大量额外信息,有助于理解数据。

直方图

直方图只从数据集中获取一个变量,并显示每次出现的频率。我将使用一个简单的数据集来学习直方图如何帮助理解数据集。我会用 python 来制作图片。导入数据集:

import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()

此数据集显示 Cartweel 数据。假设,办公室里的人决定去野餐时参加手推车距离竞赛。上面的数据集显示了结果。让我们了解一下数据。

1. 做一个“Age”的柱状图。

sns.distplot(df['Age'], kde =False).set_title("Histogram of age")

从上面的图片可以看出,大多数人都在 30 岁以下。只有一个人 39 岁,一个人 54 岁。

2. 查看“CWDistance”的分布

sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")

很漂亮的阶梯。很难说哪个波段的频率最高。

3. 有时将两个分布图一起绘制可以很好地理解。在同一图中绘制“Height”和 CWDistance”。

sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")

从这张照片上看,我们不能说高度和距离之间有关系。

现在看,我们可以从箱线图中提取什么样的信息。

箱线图

方框图显示了数据的分布和更详细的信息。它更清楚地显示了异常值:最大值、最小值、四分位数(Q1)、第三四分位数(Q3)、四分位数范围(IQR)和中值。你可以从 IQR 中计算出中间的 50%。

它还提供了有关数据倾斜度、数据闭合程度和数据分布的信息。

让我们看一些使用 Cartwheel 数据的例子。

1. 画一个“Score”的箱线图。

sns.boxplot(df["Score"])

从这个图片,我们可以说,

  • 分布是正态的
  • 中位数是 6
  • 最低分是 2 分
  • 最高分是 8 分
  • 第一个四分位数(前 25%)是 4
  • 第三个四分位数(75%)是 8
  • 中间 50% 的数据范围是 4 到 8。
  • 四分位数的范围是 4。

2. 在同一个箱线图中绘制两个变量有助于理解其中一个变量如何影响另一个变量。在同一个图中绘制 CWDistance 和“Glasses”以查看 Glasses 是否对 CWDistance 有任何影响。

sns.boxplot(x = df["CWDistance"], y = df["Glasses"])

没有戴眼镜的人的中位数比戴眼镜的人高。不戴眼镜的人的总体范围较低,但 IQR 值较高。

从上图来看,IQR 的范围是 72 到 94。但对于戴眼镜的人来说,CWDistance 的总体范围更大,而 IQR 则在 66 到 90 之间,这比不戴眼镜的人要小。

3. 对于分别戴眼镜和不戴眼镜的人来说,CWDistance 的柱状图可以提供更多的理解。

g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")

从这张照片上看,戴眼镜的人的最大频率是在 CWDistance 的开始。glasses 对 CWDistance 的影响还需要进一步的研究。建立一个置信区间可能会有帮助。

我希望这篇文章能给你一些关于箱线图和柱状图的附加信息。

更多阅读建议:

  • 置信区间、计算和特征:https://towardsdatascience.co…
  • 人口比例的置信区间和人口比例差异的计算:https://towardsdatascience.co…
  • 均值和均值差的置信区间计算:https://towardsdatascience.co…

原文链接:https://towardsdatascience.co…

欢迎关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官方文档:
http://sklearn123.com/

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

退出移动版