作者|Satyam Kumar
编译|VK
起源|Towards Data Science
Q-Q图是测验任何随机变量(如正态分布、指数分布、对数正态分布等)散布的图形办法,是察看任何散布性质的一种统计办法。
例如,如果给定的一个散布须要验证它是否是正态分布,咱们运行统计分析并将未知散布与已知正态分布进行比拟。而后通过观察Q-Q图的后果,咱们能够确定给定的散布是否正态分布。
绘制Q-Q图的步骤:
- 给定一个未知的随机变量。
- 找到每个百分位值
- 生成一个已知的随机散布,依据该散布同样遵循步骤1-2。
- 绘制Q-Q图
给定一个随机散布,须要验证它是否为正态/高斯分布。为了便于了解,咱们将这个未知散布命名为X,将已知的正态分布命名为Y。
生成未知散布X:
X = np.random.normal(loc=50, scale=25, size=1000)
咱们正在生成一个正态分布,有1000个值,平均值=50,标准差=25。
查找1%~100%:
X_100 = []for i in range(1,101): X_100.append(np.percentile(X, i))
计算每个百分位数(1%,2%,3%,. . .,99%,100%)X的随机散布值,并将其存储在X_100中。
生成已知的随机散布Y及其百分位值:
Y = np.random.normal(loc=0, scale=1, size=1000)
生成一个正态分布,其平均值为0,标准偏差为1,须要与未知散布X进行比拟,以验证X散布是否正态分布。
Y_100 = []for i in range(101): Y_100.append(np.percentile(Y, i))
计算每个百分位数(1%,2%,3%,. . .,99%,100%)Y的随机散布值,并将其存储在Y_100中。
绘图:
为以上取得的未知散布值绘制散点图。
这里X是未知散布,要与Y这个正态分布相比。
对于Q-Q图,如果图中的散点在一条直线上,则两个随机变量具备雷同的散布,否则它们具备不同的散布。
从下面的Q-Q图能够看出X是正态分布的。
如果两个散布不一样呢?
如果X不是正态分布,并且它有其余散布,那么如果Q-Q图是在X和正态分布之间绘制的,那么散射点就不会在一条直线上。
这里,X散布是对数正态分布,因而Q-Q图中的散射点不是直线。
让咱们再察看一下:
这是4个不同条件下X和Y散布的Q-Q图。
- 左上:对数正态分布与正态分布的QQ图
- 右上:正态与指数分布的QQ图
- 左下:指数与指数分布的QQ图
- 右下:logistic与logistic散布的QQ图
python实现:
import numpy as npimport matplotlib.pyplot as pltX = np.random.normal(loc=50, scale=25, size=1000)X_100 = []for i in range(1,101): X_100.append(np.percentile(X, i))Y = np.random.normal(loc=0, scale=1, size=1000)Y_100 = []for i in range(1,101): Y_100.append(np.percentile(Y, i)) plt.scatter(X_100, Y_100)plt.grid()plt.ylabel("Y - normal distribution")plt.xlabel("X - normal distribution")plt.show()
论断
Q-Q图能够用来比拟任意两个散布,并且能够通过与已知散布的比拟来验证未知散布。这种办法有一个次要的局限性,即须要大量的数据点,因为得出较少的数据不是理智的决定。通过观察Q-Q图能够预测这两种散布是否雷同。
原文链接:https://towardsdatascience.co...
欢送关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/