每个数据科学家应该知道的概率分布

jiezi

5 年前

出品 | CDA 数据分析研究院，转载须授权

概率分布就像 3D 眼镜。它们允许熟练的数据科学家识别其他完全随机变量的模式。

在某种程度上，大多数其他数据科学或机器学习技能都基于对数据概率分布的某些假设。

这使得概率知识成为您作为统计学家构建工具箱的基础。如果您正在寻找如何成为数据科学家的第一步。

不用多说，让我们切入主题。

在概率论和统计学中，随机变量 是一个 随机值 的东西，比如“我看到的下一个人的身高”或“我下一个拉面碗里的厨师毛发量”。

给定一个随机变量 X，我们想要一种描述它需要的值的方法。更重要的是，我们想要描述该变量获取特定值 x 的可能性。

例如，如果 X 是“我的女朋友有多少只猫”，那么这个数字可能是 1 的非零概率。有人可能会认为这个值甚至可能是 5 或 10 的非零概率。

然而，没有办法（因此没有可能）一个人会有负面情绪的猫。

因此，我们想要一种明确的数学方法来表达变量 X 可以采用的每个可能值 x，以及事件 （X = x）的 可能性。

为了做到这一点，我们定义函数 P，使得 P（X = x） 是变量 X 具有值 x 的概率。

对于间隔而不是离散值，我们也可以要求 P（X x）。这将很快变得更加重要。

P 是变量的 密度函数 ，它表征变量的分布。

随着时间的推移，科学家们开始意识到自然界中的许多事物，现实生活往往 表现相似，变量共享一个分布，或具有相同的密度函数（或类似的函数改变其中的一些常数）。

有趣的是，对于 P 是一个实际的密度函数，有些事情必须适用。

对于任何值 x，P（X = x）<= 1。没有比确定更确定的了。
对于任何值 x，P（X = x）> = 0。事情是不可能的，但不是那么可能。
和最后一个：所有 P（X = x）的 概率和对应的所有可能的值 X为 1。

最后一个意味着“X 在宇宙中取任何价值的概率，必须加起来为 1，因为我们知道它会带来一些“价值”。

最后，随机变量可以被认为属于两组：离散和连续随机变量。

离散变量 具有一组离散的可能值，每个值都具有非零概率。

例如，如果我们说，当翻转硬币时

X =“如果硬币 1 是头，0 则是尾巴”

然后 P（X = 1）= P（X = 0）= 0.5。

但是请注意，离散集合不必是有限的。

几何分布 ，被用于建模的一些事件的概率的几率 p 之后发生 ķ 次。

它具有以下密度公式。

其中 k 可以采用具有正概率的任何非负值。

注意所有可能值的概率之和如何仍然 加起来为 1 。

如果你说

X =“从我头上随机拔毛的长度（以毫米为单位）”

X可以采用哪些可能的值？我们都可能都认为负值在这里没有任何意义。

但是，如果你说它只是 1 毫米，而不是 1.1853759 …… 或类似的东西，我会怀疑你的测量技巧，或你的测量错误报告。

连续随机变量可以在给定（连续）间隔中取 任何值。

因此，如果我们 为其所有可能值 分配了 非零概率 ，则它们的总和 不会加起来为 1 。

为了解决这个问题，如果 X 是连续的，我们为所有 k设置 P（X = x）= 0，而是为 X 赋予一个非零的机会获取 某个间隔 的值。

为了表示在值 a 和 b之间放置 X 的概率，我们说P（a <X <b）。

而不是仅仅在一个密度函数替换值，得到 P（A <X <B） 为 X 连续变量，你会集成 X的密度函数。

现在您已经知道了概率分布是什么，让我们了解一些最常见的分布！

具有伯努利分布的随机变量是最简单的。

它代表一个 二进制事件 ：“这件事发生”VS“这种情况没有发生”，并采取了值 p 作为其 唯一的参数 ，它代表的概率是 会发生的事件。

具有参数 p 的伯努利分布的随机变量 B 将具有以下密度函数：

P（B = 1）= p，P（B = 0）=（1-p）

这里 B = 1 表示事件发生，B = 0 表示事件没发生。

注意两个概率如何加起来为 1，因此 B 的 其他值都不可能。

有两种均匀随机变量：离散变量和连续变量。

离散均匀分布 将采取 （有限的） 值的集合，和的概率分配 的 1 / n，其中他们每个人，的 Ñ 是在元素的量小号。

这样，如果我的变量 Y 在 {1,2,3} 中是均匀的，则每个值出现的概率为 33%。

在 骰子中 可以找到离散均匀随机变量的典型情况，其中典型的骰子具有一组值{1,2,3,4,5,6}。

连续均匀分布 ，相反，只需要 两个值 a 和 b 作为参数，和相同的密度分配给在每个值 在它们之间的间隔。

这意味着 Y 在一个区间 （从 c 到 d）取值的概率 与其大小 相对于整个区间（ba）的大小 成比例。

因此，如果 Y 在 a 和 b 之间均匀分布，那么

这样，如果 Y 是 1 和 2 之间的均匀随机变量，

P（1 <X <2）= 1 且 P（1 <X <1.5）= 0.5

Python 的 random 包的 random 方法在 0 和 1 之间采样均匀分布的连续变量。

有趣的是，可以证明，在给定均匀随机值生成器和一些微积分的情况下，可以对 任何其他分布 进行采样。

通常分布的变量 在自然界中很常见，它们实际上 是常态。这实际上就是这个名字的来源。

如果你把所有的同事都围起来并测量他们的高度，或者对它们进行称重并用结果绘制直方图，则可能会接近正态分布。

当我向您展示探索性数据分析示例时，我实际上看到了这种效果。

还可以证明，如果您采用任意随机变量 的样本 并对 这些度量进行平均 ，并多次重复该过程，则该平均值也将具有 正态分布。这个事实非常重要，它被称为统计学的基本定理。

通常分布的变量：

是 对称的，以均值为中心（通常称为 μ）。
可以 在真实空间中 获取 所有值，但仅在 5%的时间内偏离规范的两个 sigma。
是 几乎无处不在。

大多数情况下，如果你测量任何经验数据并且它是对称的，假设它是正常的将有点工作。

例如，滚动 K 骰子并将结果相加将分配非常正常。

对数正态概率分布是正常概率分布的较小，较不常见的。

如果变量 Y = log（X） 遵循正态分布，则称变量 X是对数正态分布的。

当在直方图中绘制时，对数正态概率分布是 不对称的，并且如果它们的标准偏差更大则变得更加如此。

我认为 对数正态分布 值得一提，因为 大多数基于货币的变量都是 这样的。

如果你看一下与钱有关的任何变量的概率分布，比如

在某个银行的最新转账上发送的金额。
华尔街最新交易量。
一组公司在特定季度的季度收益。

它们通常没有正态的概率分布，但会更接近对数正态随机变量。

（对于其他数据科学家：如果你能想到你在工作中遇到的任何其他经验对数正态变量，请参阅评论中的内容！尤其是财务之外的任何事情）。

指数概率分布也 随处可见。

它们与称为 泊松过程 的概率概念密切相关。

直接从维基百科窃取，泊松过程是“事件以恒定的平均速率连续且独立地发生的过程”。

所有这些意味着，如果：

你有很多活动。
它们以一定的速率发生（不随时间变化）。
仅仅因为一个发生了另一个发生的机会不改变。

然后你有一个泊松过程。

一些例子可能是来到服务器的请求，在超市中发生的交易，或在某个湖中捕鱼的鸟类。

想象一下频率为 λ 的泊松过程（比如，事件每秒发生一次）。

指数随机变量模拟事件发生后下一个事件发生所需的时间。

有趣的是，在泊松过程中 ，事件可以 在任何时间间隔内 发生在 0 到无穷大之间 （ 降低概率）的任何地方。

这意味着 无论您等待多久，事件都不会发生非零事件。这也意味着它可能在很短的时间内发生很多次。

在课堂上，我们常常开玩笑的是巴士到达泊松过程。我认为将 WhatsApp 消息发送给 某些人 时的响应时间也符合标准。

但是，λ 参数调节事件 的频率。

它将使事件实际发生的 预期时间以某个值为中心。

这意味着如果我们知道出租车每隔 15 分钟通过我们的街区，即使理论上我们可以永远等待它，我们也很可能不会等待 30 分钟。

这是指数分布随机变量的密度函数：

假设您有一个来自变量的样本，并希望查看它是否可以使用指数分布变量建模。

最佳 λ 参数可以很容易地估计 为采样值平均值的倒数。

指数变量非常适合用非常罕见但巨大（和平均值）的 异常值 对任何概率分布进行建模。

这是因为它们可以 取任何非负值 但以较小值为中心，随着值的增加频率降低。

在特别是 异常繁重的样本中 ，您可能希望将 λ 估计为中 位数而不是平均值 ，因为中位数 对异常值 更为稳健。你的里程可能会有所不同，所以一定要带上一粒盐。

总而言之，作为数据科学家，我认为学习基础知识对我们很重要。

概率和统计可能不像深度学习或无监督机器学习那样华而不实，但它们是 数据科学 的基石。特别是机器学习。

根据我的经验，提供具有功能的机器学习模型，而不知道他们遵循哪种分布，这是一个糟糕的选择。

记住 无处不在的指数和正态概率分布 以及它们较小的对应物，对数正态分布也是很好的。

在训练机器学习模型时 ，了解它们的属性，用途和外观会 改变游戏规则。在进行任何类型的数据分析时，记住它们通常也很好。

英文标题：Probability Distributions Every Data Scientist Should Know

每个数据科学家应该知道的概率分布

什么是概率分布？

离散与连续随机变量分布

离散随机变量

连续随机变量

伯努利概率分布

均匀概率分布

正态概率分布

对数正态概率分布

指数概率分布

数据科学中的指数概率分布

结论