关于数据分析:Python数据分析-seaborn工具与数据可视化

作者：韩信子 @ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/33
本文地址：http://www.showmeai.tech/article-detail/151
申明：版权所有，转载请分割平台与作者并注明出处

Python 中最罕用于数据可视化的工具库包含 Matplotlib 和 Seaborn。其中，Matplotlib 属于 Python 数据可视化的根底库，具备很高的灵便度，但利用过于简单——官网文档有 3000 多页，蕴含上千个办法以及数万个参数。

对于快捷地进行数据分析可视化而言，Seaborn 是一个更简略易用的抉择。Seaborn 基于 Matplotlib 外围库进行了更高阶的 API 封装，能够轻松地画出更丑陋的图形。Seaborn 的丑陋次要体现在配色更加难受、以及图形元素的款式更加细腻。上面是 Seaborn 官网给出的参考图。

内置数个通过优化的款式成果。
减少调色板工具，能够很不便地为数据搭配色彩。
单变量和双变量散布绘图更为简略，可用于对数据子集互相比拟。
对独立变量和相干变量进行回归拟合和可视化更加便捷。
对数据矩阵进行可视化，并应用聚类算法进行剖析。
基于工夫序列的绘制和统计性能，更加灵便的不确定度预计。
基于网格绘制出更加简单的图像汇合。

Matplotlib 绘图的默认图像款式算不上好看，能够应用 Seaborn 实现疾速优化。

应用 Matplotlib 绘制一张简略的图像。

import matplotlib.pyplot as plt
%matplotlib inline

x = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
y_bar = [3, 4, 6, 8, 9, 10, 9, 11, 7, 8]
y_line = [2, 3, 5, 7, 8, 9, 8, 10, 6, 7]

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

应用 Seaborn 实现图像疾速优化。
办法非常简单，只须要将 Seaborn 提供的款式申明代码 sns.set() 搁置在绘图前即可。

import seaborn as sns

sns.set()  # 申明应用 Seaborn 款式

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

能够发现，相比于 Matplotlib 默认的纯白色背景，Seaborn 默认的浅灰色网格背景看起来确实要细腻舒服一些。而柱状图的色调、坐标轴的字体大小也都有一些变动。

sns.set() 的默认参数为：

sns.set(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=False, rc=None)

context=’’参数管制着默认的画幅大小，别离有 {paper, notebook, talk, poster} 四个值。其中，poster > talk > notebook > paper。
style=’’参数管制默认款式，别离有 {darkgrid, whitegrid, dark, white, ticks}，你能够自行更改查看它们之间的不同。
palette=’’参数为预设的调色板。别离有 {deep, muted, bright, pastel, dark, colorblind} 等，你能够自行更改查看它们之间的不同。
剩下的 font=’’用于设置字体，font\_scale= 设置字体大小，color\_codes= 不应用调色板而采纳先前的‘r’等色调缩写。

Seaborn 一共领有 50 多个 API 类，相比于 Matplotlib 数千个的规模，能够说是十分精简了。依据图形的适应场景，Seaborn 的绘图办法大抵分类 6 类，这 6 大类上面又蕴含不同数量的绘图函数：

关联图——relplot
类别图——catplot
分布图——distplot、kdeplot、jointplot、pairplot
回归图——regplot、lmplot
矩阵图——heatmap、clustermap
组合图

接下来，咱们通过『鸢尾花示例数据集』进行演示，应用 Seaborn 绘制适应不同场景的图形。首先导入数据集：

iris = sns.load_dataset("iris")
iris.head()

在绘图之前，先相熟一下 iris 鸢尾花数据集。
数据集总共 150 行，由 5 列组成。别离代表：萼片长度、萼片宽度、花瓣长度、花瓣宽度、花的类别。其中，前四列均为数值型数据，最初一列花的分类为三种，别离是：Iris Setosa、Iris Versicolour、Iris Virginica。

当咱们须要对数据进行关联性剖析时，可能会用到 Seaborn 提供的以下几个 API。

API 层级	关联性剖析	介绍
Figure-level	relplot	绘制关系图
Axes-level	scatterplot	多维度剖析散点图
	lineplot	多维度剖析线形图

relplot 是 relational plots 的缩写，用于出现数据之后的关系。relplot 次要有散点图和线形图 2 种款式，实用于不同类型的数据。

指定 $x$ 和 $y$ 的特色，默认能够绘制出散点图。

sns.relplot(x="sepal_length", y="sepal_width", data=iris)

然而，上图并不能看出数据类别之间的分割。如果咱们退出类别特色对数据进行着色，就更加直观了。

sns.relplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

Seaborn 的函数都有大量实用的参数。例如咱们指定 style 参数能够赋予不同类别的散点不同的形态。更多的参数，心愿大家通过浏览官网文档进行理解。

sns.relplot(x="sepal_length", y="sepal_width", hue="species", style="species", data=iris)

relplot 办法还反对线形图，此时只须要指定 kind=”line”参数即可。图中暗影局部是主动给出的 95% 置信区间。

sns.relplot(x="sepal_length", y="petal_length", hue="species", style="species", kind="line", data=iris)

Seaborn 中有 API 层级的概念。Seaborn 中的 API 分为 Axes-level 和 Figure-level 两种：Axes-level 的函数能够实现与 Matplotlib 更灵便和严密的联合，而 Figure-level 则更像是「懒人函数」，适宜于疾速利用。

你会发现，下面咱们一个提到了 3 个 API，别离是：relplot，scatterplot 和 lineplot。scatterplot 和 lineplot 就是 Axes-level 接口，relplot 则是 Figure-level 接口，也能够被看作是 scatterplot 和 lineplot 的联合版本。

例如，上方 relplot 绘制的图也能够应用 lineplot 函数绘制，只有勾销 relplot 中的 kind 参数即可。

sns.lineplot(x="sepal_length", y="petal_length", hue="species", style="species", data=iris)

与关联图类似，类别图的 Figure-level 接口是 catplot，其为 categorical plots 的缩写。而 catplot 实际上是如下 Axes-level 绘图 API 的汇合：

API 层级	函数	介绍
Figure-level	catplot
Axes-level	stripplot() (kind=”strip”) swarmplot() (kind=”swarm”)	分类散点图
	boxplot() (kind=”box”) boxenplot() (kind=”boxen”) violinplot() (kind=”violin”)	分类分布图
	pointplot() (kind=”point”) barplot() (kind=”bar”) countplot() (kind=”count”)	分类预计图

上面，咱们看一下 catplot 绘图成果。该办法默认是绘制 kind="strip" 散点图。

sns.catplot(x="sepal_length", y="species", data=iris)

kind="swarm" 能够让散点依照 beeswarm 的形式避免重叠，能够更好地观测数据分布。

sns.catplot(x="sepal_length", y="species", kind="swarm", data=iris)

同理，hue= 参数能够给图像引入另一个维度，因为 iris 数据集只有一个类别列，咱们这里就不再增加 hue= 参数了。如果一个数据集有多个类别，hue= 参数就能够让数据点有更好的辨别。

接下来，咱们顺次尝试其余几种图形的绘制成果。绘制箱线图：

sns.catplot(x="sepal_length", y="species", kind="box", data=iris)

sns.catplot(x="species", y="sepal_length", kind="boxen", data=iris)

sns.catplot(x="sepal_length", y="species", kind="violin", data=iris)

sns.catplot(x="sepal_length", y="species", kind="point", data=iris)

sns.catplot(x="sepal_length", y="species", kind="bar", data=iris)

sns.catplot(x="species", kind="count", data=iris)

分布图次要是用于可视化变量的散布状况，个别分为单变量散布和多变量散布（多指二元变量）。
Seaborn 提供的分布图绘制办法个别有这几个：distplot、kdeplot、jointplot、pairplot。接下来，咱们顺次来看一下这些绘图办法的应用。

API 层级	函数	介绍
Axes-level	distplot	绘制直方图并拟合核密度估计图
Axes-level	kdeplot	专门用于绘制核密度估计图
Axes-level	jointplot	反对 kind= 参数指定绘制出不同款式的分布图
Axes-level	pairplot	一次性将数据集中的特色变量两两比照绘图

Seaborn 疾速查看单变量散布的办法是 distplot。默认状况下，该办法将绘制直方图并拟合核密度估计图。

sns.distplot(iris["sepal_length"])

distplot 提供了参数来调整直方图和核密度估计图。例如，设置 kde=False 则能够只绘制直方图，或者 hist=False 只绘制核密度估计图。

当然，kdeplot 能够专门用于绘制核密度估计图，其成果和 distplot(hist=False) 统一，但 kdeplot 领有更多的自定义设置。

sns.kdeplot(iris["sepal_length"])

jointplot 次要是用于绘制二元变量分布图。例如，咱们探寻 sepal\_length 和 sepal\_width 二元特色变量之间的关系。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris)

jointplot 并不是一个 Figure-level 接口，但其反对 kind= 参数指定绘制出不同款式的分布图。

例如， 绘制出核密度估计比照图 kde

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="kde")

绘制六边形计数图 hex

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="hex")

绘制回归拟合图 reg

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="reg")

最初要介绍的 pairplot 更加弱小，其反对一次性将数据集中的特色变量两两比照绘图。默认状况下，对角线上是单变量分布图，而其余则是二元变量分布图。

sns.pairplot(iris)

此时，咱们引入第三维度 hue="species" 会更加直观。

sns.pairplot(iris, hue="species")

接下来，咱们持续介绍回归图，回归图的绘制函数次要有：lmplot 和 regplot。

API 层级	函数	介绍
Axes-level	regplot	主动实现线性回归拟合
Axes-level	lmplot	反对引入第三维度进行比照

regplot 绘制回归图时，只须要指定自变量和因变量即可，regplot 会主动实现线性回归拟合。

sns.regplot(x="sepal_length", y="sepal_width", data=iris)

lmplot 同样是用于绘制回归图，但 lmplot 反对引入第三维度进行比照，例如咱们设置 hue="species"。

sns.lmplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

矩阵图中最罕用的就只有 2 个，别离是：heatmap 和 clustermap。

API 层级	函数	介绍
Axes-level	heatmap	绘制热力求
Axes-level	clustermap	档次聚类结构图

意如其名，heatmap 次要用于绘制热力求。热力求在某些场景下十分实用，例如绘制出变量相关性系数热力求。

import numpy as np

sns.heatmap(np.random.rand(10, 10))

除此之外，clustermap 反对绘制档次聚类结构图。如下所示，咱们先去掉原数据集中最初一个指标列，传入特色数据即可。当然，你须要对档次聚类有所理解，否则很难看明确图像多表述的含意。

iris.pop("species")
sns.clustermap(iris)

浏览官网文档，会发现 Seaborn 中还存在大量已大些字母开始的类，例如 JointGrid，PairGrid 等。实际上这些类只是其对应小写字母的函数 jointplot，pairplot 的进一步封装。当然，二者可能稍有不同，但并没有实质的区别。

除此之外，Seaborn 官网文档中还有对于款式管制和色调自定义等一些辅助组件的介绍。对于这些 API 的利用没有太大的难点，重点须要勤于练习。

本教程系列的代码能够在 ShowMeAI 对应的 github 中下载，可本地 python 环境运行，能迷信上网的宝宝也能够间接借助 google colab 一键运行与交互操作学习哦！

Pandas 速查表
NumPy 速查表
Matplotlib 速查表
Seaborn 速查表

Pandas 可视化教程
Seaborn 官网教程

数据分析介绍
数据分析思维
数据分析的数学根底
业务认知与数据初探
数据荡涤与预处理
业务剖析与数据挖掘
数据分析工具地图
统计与数据科学计算工具库 Numpy 介绍
Numpy 与 1 维数组操作
Numpy 与 2 维数组操作
Numpy 与高维数组操作
数据分析工具库 Pandas 介绍
图解 Pandas 外围操作函数大全
图解 Pandas 数据变换高级函数
Pandas 数据分组与操作
数据可视化准则与办法
基于 Pandas 的数据可视化
seaborn 工具与数据可视化

图解 Python 编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解 AI 数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程

关于数据分析:Python数据分析-seaborn工具与数据可视化

一、Seaborn 工具库长处

二、疾速优化 Matplotlib 绘制的图形

三、Seaborn 外围绘图函数与办法

3.1 关联图

（1）散点图

（2）线形图

（3）API 层级：Axes-level 和 Figure-level

3.2 类别图

（1）散点图 strip / swarm

（2）箱线图 box

（3）加强箱线图 boxen

（4）小提琴图 violin

（5）点线图 point

（6）条形图 bar

（7）计数条形图 count

3.3 分布图

（1）单变量分布图 distplot

（2）核密度估计图 kdeplot

（3）二元变量分布图 jointplot

（4）变量两两比照图 pairplot

3.4 回归图

（1）regplot

（2）lmplot

3.5 矩阵图

（1）热力求 heatmap

（2）档次聚类结构图 clustermap

四、款式管制与色调自定义

材料与代码下载

本系列教程波及的速查表能够在以下地址下载获取：

拓展参考资料

ShowMeAI 相干文章举荐

ShowMeAI 系列教程举荐