作者:韩信子 @ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/33
本文地址:http://www.showmeai.tech/article-detail/151
申明:版权所有,转载请分割平台与作者并注明出处
Python 中最罕用于数据可视化的工具库包含 Matplotlib 和 Seaborn。其中,Matplotlib 属于 Python 数据可视化的根底库,具备很高的灵便度,但利用过于简单——官网文档有 3000 多页,蕴含上千个办法以及数万个参数。
对于快捷地进行数据分析可视化而言,Seaborn 是一个更简略易用的抉择。Seaborn 基于 Matplotlib 外围库进行了更高阶的 API 封装,能够轻松地画出更丑陋的图形。Seaborn 的丑陋次要体现在配色更加难受、以及图形元素的款式更加细腻。上面是 Seaborn 官网给出的参考图。
一、Seaborn 工具库长处
- 内置数个通过优化的款式成果。
- 减少调色板工具,能够很不便地为数据搭配色彩。
- 单变量和双变量散布绘图更为简略,可用于对数据子集互相比拟。
- 对独立变量和相干变量进行回归拟合和可视化更加便捷。
- 对数据矩阵进行可视化,并应用聚类算法进行剖析。
- 基于工夫序列的绘制和统计性能,更加灵便的不确定度预计。
- 基于网格绘制出更加简单的图像汇合。
二、疾速优化 Matplotlib 绘制的图形
Matplotlib 绘图的默认图像款式算不上好看,能够应用 Seaborn 实现疾速优化。
应用 Matplotlib 绘制一张简略的图像。
import matplotlib.pyplot as plt
%matplotlib inline
x = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
y_bar = [3, 4, 6, 8, 9, 10, 9, 11, 7, 8]
y_line = [2, 3, 5, 7, 8, 9, 8, 10, 6, 7]
plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')
应用 Seaborn 实现图像疾速优化。
办法非常简单,只须要将 Seaborn 提供的款式申明代码 sns.set() 搁置在绘图前即可。
import seaborn as sns
sns.set() # 申明应用 Seaborn 款式
plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')
能够发现,相比于 Matplotlib 默认的纯白色背景,Seaborn 默认的浅灰色网格背景看起来确实要细腻舒服一些。而柱状图的色调、坐标轴的字体大小也都有一些变动。
sns.set() 的默认参数为:
sns.set(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=False, rc=None)
- context=’’参数管制着默认的画幅大小,别离有 {paper, notebook, talk, poster} 四个值。其中,poster > talk > notebook > paper。
- style=’’参数管制默认款式,别离有 {darkgrid, whitegrid, dark, white, ticks},你能够自行更改查看它们之间的不同。
- palette=’’参数为预设的调色板。别离有 {deep, muted, bright, pastel, dark, colorblind} 等,你能够自行更改查看它们之间的不同。
- 剩下的 font=’’用于设置字体,font\_scale= 设置字体大小,color\_codes= 不应用调色板而采纳先前的‘r’等色调缩写。
三、Seaborn 外围绘图函数与办法
Seaborn 一共领有 50 多个 API 类,相比于 Matplotlib 数千个的规模,能够说是十分精简了。依据图形的适应场景,Seaborn 的绘图办法大抵分类 6 类,这 6 大类上面又蕴含不同数量的绘图函数:
- 关联图——relplot
- 类别图——catplot
- 分布图——distplot、kdeplot、jointplot、pairplot
- 回归图——regplot、lmplot
- 矩阵图——heatmap、clustermap
- 组合图
接下来,咱们通过『鸢尾花示例数据集』进行演示,应用 Seaborn 绘制适应不同场景的图形。首先导入数据集:
iris = sns.load_dataset("iris")
iris.head()
在绘图之前,先相熟一下 iris 鸢尾花数据集。
数据集总共 150 行,由 5 列组成。别离代表:萼片长度、萼片宽度、花瓣长度、花瓣宽度、花的类别。其中,前四列均为数值型数据,最初一列花的分类为三种,别离是:Iris Setosa、Iris Versicolour、Iris Virginica。
3.1 关联图
当咱们须要对数据进行关联性剖析时,可能会用到 Seaborn 提供的以下几个 API。
API 层级 | 关联性剖析 | 介绍 |
---|---|---|
Figure-level | relplot | 绘制关系图 |
Axes-level | scatterplot | 多维度剖析散点图 |
lineplot | 多维度剖析线形图 |
relplot 是 relational plots 的缩写,用于出现数据之后的关系。relplot 次要有散点图和线形图 2 种款式,实用于不同类型的数据。
(1)散点图
指定 $x$ 和 $y$ 的特色,默认能够绘制出散点图。
sns.relplot(x="sepal_length", y="sepal_width", data=iris)
然而,上图并不能看出数据类别之间的分割。如果咱们退出类别特色对数据进行着色,就更加直观了。
sns.relplot(x="sepal_length", y="sepal_width", hue="species", data=iris)
Seaborn 的函数都有大量实用的参数。例如咱们指定 style 参数能够赋予不同类别的散点不同的形态。更多的参数,心愿大家通过浏览官网文档 进行理解。
sns.relplot(x="sepal_length", y="sepal_width", hue="species", style="species", data=iris)
(2)线形图
relplot 办法还反对线形图,此时只须要指定 kind=”line”参数即可。图中暗影局部是主动给出的 95% 置信区间。
sns.relplot(x="sepal_length", y="petal_length", hue="species", style="species", kind="line", data=iris)
(3)API 层级:Axes-level 和 Figure-level
Seaborn 中有 API 层级的概念。Seaborn 中的 API 分为 Axes-level 和 Figure-level 两种:Axes-level 的函数能够实现与 Matplotlib 更灵便和严密的联合,而 Figure-level 则更像是「懒人函数」,适宜于疾速利用。
你会发现,下面咱们一个提到了 3 个 API,别离是:relplot,scatterplot 和 lineplot。scatterplot 和 lineplot 就是 Axes-level 接口,relplot 则是 Figure-level 接口,也能够被看作是 scatterplot 和 lineplot 的联合版本。
例如,上方 relplot 绘制的图也能够应用 lineplot 函数绘制,只有勾销 relplot 中的 kind 参数即可。
sns.lineplot(x="sepal_length", y="petal_length", hue="species", style="species", data=iris)
3.2 类别图
与关联图类似,类别图的 Figure-level 接口是 catplot,其为 categorical plots 的缩写。而 catplot 实际上是如下 Axes-level 绘图 API 的汇合:
API 层级 | 函数 | 介绍 |
---|---|---|
Figure-level | catplot | |
Axes-level | stripplot() (kind=”strip”) swarmplot() (kind=”swarm”) |
分类散点图 |
boxplot() (kind=”box”) boxenplot() (kind=”boxen”) violinplot() (kind=”violin”) |
分类分布图 | |
pointplot() (kind=”point”) barplot() (kind=”bar”) countplot() (kind=”count”) |
分类预计图 |
(1)散点图 strip / swarm
上面,咱们看一下 catplot 绘图成果。该办法默认是绘制 kind="strip"
散点图。
sns.catplot(x="sepal_length", y="species", data=iris)
kind="swarm"
能够让散点依照 beeswarm 的形式避免重叠,能够更好地观测数据分布。
sns.catplot(x="sepal_length", y="species", kind="swarm", data=iris)
同理,hue= 参数能够给图像引入另一个维度,因为 iris 数据集只有一个类别列,咱们这里就不再增加 hue= 参数了。如果一个数据集有多个类别,hue= 参数就能够让数据点有更好的辨别。
(2)箱线图 box
接下来,咱们顺次尝试其余几种图形的绘制成果。绘制箱线图:
sns.catplot(x="sepal_length", y="species", kind="box", data=iris)
(3)加强箱线图 boxen
sns.catplot(x="species", y="sepal_length", kind="boxen", data=iris)
(4)小提琴图 violin
sns.catplot(x="sepal_length", y="species", kind="violin", data=iris)
(5)点线图 point
sns.catplot(x="sepal_length", y="species", kind="point", data=iris)
(6)条形图 bar
sns.catplot(x="sepal_length", y="species", kind="bar", data=iris)
(7)计数条形图 count
sns.catplot(x="species", kind="count", data=iris)
3.3 分布图
分布图次要是用于可视化变量的散布状况,个别分为单变量散布和多变量散布(多指二元变量)。
Seaborn 提供的分布图绘制办法个别有这几个:distplot、kdeplot、jointplot、pairplot。接下来,咱们顺次来看一下这些绘图办法的应用。
API 层级 | 函数 | 介绍 |
---|---|---|
Axes-level | distplot | 绘制直方图并拟合核密度估计图 |
Axes-level | kdeplot | 专门用于绘制核密度估计图 |
Axes-level | jointplot | 反对 kind= 参数指定绘制出不同款式的分布图 |
Axes-level | pairplot | 一次性将数据集中的特色变量两两比照绘图 |
(1)单变量分布图 distplot
Seaborn 疾速查看单变量散布的办法是 distplot。默认状况下,该办法将绘制直方图并拟合核密度估计图。
sns.distplot(iris["sepal_length"])
distplot 提供了参数来调整直方图和核密度估计图。例如,设置 kde=False 则能够只绘制直方图,或者 hist=False 只绘制核密度估计图。
(2)核密度估计图 kdeplot
当然,kdeplot 能够专门用于绘制核密度估计图,其成果和 distplot(hist=False) 统一,但 kdeplot 领有更多的自定义设置。
sns.kdeplot(iris["sepal_length"])
(3)二元变量分布图 jointplot
jointplot 次要是用于绘制二元变量分布图。例如,咱们探寻 sepal\_length 和 sepal\_width 二元特色变量之间的关系。
sns.jointplot(x="sepal_length", y="sepal_width", data=iris)
jointplot 并不是一个 Figure-level 接口,但其反对 kind= 参数指定绘制出不同款式的分布图。
例如, 绘制出核密度估计比照图 kde
sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="kde")
绘制六边形计数图 hex
sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="hex")
绘制回归拟合图 reg
sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="reg")
(4)变量两两比照图 pairplot
最初要介绍的 pairplot 更加弱小,其反对一次性将数据集中的特色变量两两比照绘图。默认状况下,对角线上是单变量分布图,而其余则是二元变量分布图。
sns.pairplot(iris)
此时,咱们引入第三维度 hue="species"
会更加直观。
sns.pairplot(iris, hue="species")
3.4 回归图
接下来,咱们持续介绍回归图,回归图的绘制函数次要有:lmplot 和 regplot。
API 层级 | 函数 | 介绍 |
---|---|---|
Axes-level | regplot | 主动实现线性回归拟合 |
Axes-level | lmplot | 反对引入第三维度进行比照 |
(1)regplot
regplot 绘制回归图时,只须要指定自变量和因变量即可,regplot 会主动实现线性回归拟合。
sns.regplot(x="sepal_length", y="sepal_width", data=iris)
(2)lmplot
lmplot 同样是用于绘制回归图,但 lmplot 反对引入第三维度进行比照,例如咱们设置 hue="species"
。
sns.lmplot(x="sepal_length", y="sepal_width", hue="species", data=iris)
3.5 矩阵图
矩阵图中最罕用的就只有 2 个,别离是:heatmap 和 clustermap。
API 层级 | 函数 | 介绍 |
---|---|---|
Axes-level | heatmap | 绘制热力求 |
Axes-level | clustermap | 档次聚类结构图 |
(1)热力求 heatmap
意如其名,heatmap 次要用于绘制热力求。热力求在某些场景下十分实用,例如绘制出变量相关性系数热力求。
import numpy as np
sns.heatmap(np.random.rand(10, 10))
(2)档次聚类结构图 clustermap
除此之外,clustermap 反对绘制档次聚类结构图。如下所示,咱们先去掉原数据集中最初一个指标列,传入特色数据即可。当然,你须要对档次聚类有所理解,否则很难看明确图像多表述的含意。
iris.pop("species")
sns.clustermap(iris)
四、款式管制与色调自定义
浏览官网文档,会发现 Seaborn 中还存在大量已大些字母开始的类,例如 JointGrid,PairGrid 等。实际上这些类只是其对应小写字母的函数 jointplot,pairplot 的进一步封装。当然,二者可能稍有不同,但并没有实质的区别。
除此之外,Seaborn 官网文档 中还有对于 款式管制 和 色调自定义 等一些辅助组件的介绍。对于这些 API 的利用没有太大的难点,重点须要勤于练习。
材料与代码下载
本教程系列的代码能够在 ShowMeAI 对应的 github 中下载,可本地 python 环境运行,能迷信上网的宝宝也能够间接借助 google colab 一键运行与交互操作学习哦!
本系列教程波及的速查表能够在以下地址下载获取:
- Pandas 速查表
- NumPy 速查表
- Matplotlib 速查表
- Seaborn 速查表
拓展参考资料
- Pandas 可视化教程
- Seaborn 官网教程
ShowMeAI 相干文章举荐
- 数据分析介绍
- 数据分析思维
- 数据分析的数学根底
- 业务认知与数据初探
- 数据荡涤与预处理
- 业务剖析与数据挖掘
- 数据分析工具地图
- 统计与数据科学计算工具库 Numpy 介绍
- Numpy 与 1 维数组操作
- Numpy 与 2 维数组操作
- Numpy 与高维数组操作
- 数据分析工具库 Pandas 介绍
- 图解 Pandas 外围操作函数大全
- 图解 Pandas 数据变换高级函数
- Pandas 数据分组与操作
- 数据可视化准则与办法
- 基于 Pandas 的数据可视化
- seaborn 工具与数据可视化
ShowMeAI 系列教程举荐
- 图解 Python 编程:从入门到精通系列教程
- 图解数据分析:从入门到精通系列教程
- 图解 AI 数学根底:从入门到精通系列教程
- 图解大数据技术:从入门到精通系列教程