乐趣区

关于人工智能:如何使用QQ图验证数据的分布

作者 |Satyam Kumar
编译 |VK
起源 |Towards Data Science

Q- Q 图是测验任何随机变量(如正态分布、指数分布、对数正态分布等)散布的图形办法,是察看任何散布性质的一种统计办法。

例如,如果给定的一个散布须要验证它是否是正态分布,咱们运行统计分析并将未知散布与已知正态分布进行比拟。而后通过观察 Q - Q 图的后果,咱们能够确定给定的散布是否正态分布。

绘制 Q - Q 图的步骤:

  1. 给定一个未知的随机变量。
  2. 找到每个百分位值
  3. 生成一个已知的随机散布,依据该散布同样遵循步骤 1 -2。
  4. 绘制 Q - Q 图

给定一个随机散布,须要验证它是否为正态 / 高斯分布。为了便于了解,咱们将这个未知散布命名为 X,将已知的正态分布命名为 Y。

生成未知散布 X:

X = np.random.normal(loc=50, scale=25, size=1000)

咱们正在生成一个正态分布,有 1000 个值,平均值 =50,标准差 =25。

查找 1%~100%:

X_100 = []
for i in range(1,101):
    X_100.append(np.percentile(X, i))

计算每个百分位数(1%,2%,3%,. . .,99%,100%)X 的随机散布值,并将其存储在 X_100 中。

生成已知的随机散布 Y 及其百分位值:

Y = np.random.normal(loc=0, scale=1, size=1000)

生成一个正态分布,其平均值为 0,标准偏差为 1,须要与未知散布 X 进行比拟,以验证 X 散布是否正态分布。

Y_100 = []
for i in range(101):
    Y_100.append(np.percentile(Y, i))

计算每个百分位数(1%,2%,3%,. . .,99%,100%)Y 的随机散布值,并将其存储在 Y_100 中。

绘图:

为以上取得的未知散布值绘制散点图。

这里 X 是未知散布,要与 Y 这个正态分布相比。

对于 Q - Q 图,如果图中的散点在一条直线上,则两个随机变量具备雷同的散布,否则它们具备不同的散布。

从下面的 Q - Q 图能够看出 X 是正态分布的。

如果两个散布不一样呢?

如果 X 不是正态分布,并且它有其余散布,那么如果 Q - Q 图是在 X 和正态分布之间绘制的,那么散射点就不会在一条直线上。

这里,X 散布是对数正态分布,因而 Q - Q 图中的散射点不是直线。

让咱们再察看一下:

这是 4 个不同条件下 X 和 Y 散布的 Q - Q 图。

  • 左上:对数正态分布与正态分布的 QQ 图
  • 右上:正态与指数分布的 QQ 图
  • 左下:指数与指数分布的 QQ 图
  • 右下:logistic 与 logistic 散布的 QQ 图

python 实现:

import numpy as np
import matplotlib.pyplot as plt

X = np.random.normal(loc=50, scale=25, size=1000)
X_100 = []
for i in range(1,101):
  X_100.append(np.percentile(X, i))

Y = np.random.normal(loc=0, scale=1, size=1000)
Y_100 = []
for i in range(1,101):
  Y_100.append(np.percentile(Y, i))
  
plt.scatter(X_100, Y_100)
plt.grid()
plt.ylabel("Y - normal distribution")
plt.xlabel("X - normal distribution")
plt.show()

论断

Q- Q 图能够用来比拟任意两个散布,并且能够通过与已知散布的比拟来验证未知散布。这种办法有一个次要的局限性,即须要大量的数据点,因为得出较少的数据不是理智的决定。通过观察 Q - Q 图能够预测这两种散布是否雷同。

原文链接:https://towardsdatascience.co…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

退出移动版