乐趣区

关于mysql:统计科学之捋一捋PDFPMFCDF是什么

还记得前段时间看过一篇文章,就是考察大家疫情期间都干了什么,有一条是疫情期间终于弄清楚了 PDF 和 CDF 的区别。PDF、PMF、CDF 这几个概念的确很容易混同。明天就来捋一捋这几个概念。

1. 基本概念

PDF:是英文单词 probability density function 的缩写,翻译过去是指概率密度函数,是用来形容 连续型随机变量 的输入值,在某个确定的取值点左近的可能性的大小的函数。

PMF : 是英文单词 probability mass function 的缩写,翻译过去是指概率品质函数,是用来形容 离散型随机变量 在各特定取值上的概率。

CDF : 是英文单词 cumulative distribution function 的缩写,翻译过去是指累积散布函数,又叫散布函数,是概率密度函数的积分,用来示意离散型随机变量 x 的概率分布。

总结一下就是下面三者的横轴都是随机变量 x 的取值,PDF 的纵轴示意连续型随机变量 x 呈现的可能性(非概率),PMF 的纵轴示意离散型随机变量 x 呈现的概率,CDF 的纵轴示意连续型随机变量 x 的概率。

置信大家看完下面的概念当前对这几个还是有点懵,接下来咱们就认真讲讲这些概念的前因后果。

2. 频率散布条形图

频率散布条形图次要用在离散数据中,横轴为一个个具体的点(类别),纵轴为这些点对应的频率。

当试验次数足够多时,咱们能够用频率来代替概率,也就是能够把频率散布条形图中的纵轴当作每个类别呈现的概率值。此时的频率散布条形图就能够当作是 PMF 图。

3. 频率散布直方图

在频率散布直方图中横轴示意泛滥个连续变量离散化当前的区间,这个区间的大小称为组距,纵轴示意频率 / 组距。

上图中每个长方形的面积就是该区间的频率,即概率。

当长方形的宽度无限小,即组距无限小的时候,频率散布直方图就有限靠近于下方这样的润滑曲线,咱们把这条曲线叫做概率密度曲线,即 PDF。

4. 累积散布函数

累计散布函数就是从上图中的概率密度曲线的最右边开始,而后逐步往右求取曲线下方的面积,即概率。

以上就是对于 PDF、PMF、CDF 三者之间的异同状况,如果对公式推导方面感兴趣的话能够间接上网搜寻即可。

退出移动版