还记得前段时间看过一篇文章,就是考察大家疫情期间都干了什么,有一条是疫情期间终于弄清楚了PDF和CDF的区别。PDF、PMF、CDF这几个概念的确很容易混同。明天就来捋一捋这几个概念。

1.基本概念

PDF:是英文单词 probability density function 的缩写,翻译过去是指概率密度函数,是用来形容连续型随机变量的输入值,在某个确定的取值点左近的可能性的大小的函数。

PMF : 是英文单词 probability mass function 的缩写, 翻译过去是指概率品质函数,是用来形容离散型随机变量在各特定取值上的概率。

CDF : 是英文单词 cumulative distribution function 的缩写,翻译过去是指累积散布函数,又叫散布函数,是概率密度函数的积分,用来示意离散型随机变量x的概率分布。

总结一下就是下面三者的横轴都是随机变量x的取值,PDF的纵轴示意连续型随机变量x呈现的可能性(非概率),PMF的纵轴示意离散型随机变量x呈现的概率,CDF的纵轴示意连续型随机变量x的概率。

置信大家看完下面的概念当前对这几个还是有点懵,接下来咱们就认真讲讲这些概念的前因后果。

2.频率散布条形图

频率散布条形图次要用在离散数据中,横轴为一个个具体的点(类别),纵轴为这些点对应的频率。

当试验次数足够多时,咱们能够用频率来代替概率,也就是能够把频率散布条形图中的纵轴当作每个类别呈现的概率值。此时的频率散布条形图就能够当作是PMF图。

3.频率散布直方图

在频率散布直方图中横轴示意泛滥个连续变量离散化当前的区间,这个区间的大小称为组距,纵轴示意频率/组距。

上图中每个长方形的面积就是该区间的频率,即概率。

当长方形的宽度无限小,即组距无限小的时候,频率散布直方图就有限靠近于下方这样的润滑曲线,咱们把这条曲线叫做概率密度曲线,即PDF。

4.累积散布函数

累计散布函数就是从上图中的概率密度曲线的最右边开始,而后逐步往右求取曲线下方的面积,即概率。

以上就是对于PDF、PMF、CDF三者之间的异同状况,如果对公式推导方面感兴趣的话能够间接上网搜寻即可。