关于机器学习:杂谈-正态分布为什么如此常见

51次阅读

共计 1041 个字符,预计需要花费 3 分钟才能阅读完成。

每个人都置信它(正态分布):试验工作者认为它是一个数学定理,数学研究者认为他是一个教训公式。
—- 加布里埃尔·李普曼

本文次要是为了之后解说最小二乘法、岭回归等优化办法做个铺垫。

1 生存中的正态分布

生存中女性的身高,

假如你有 200 个相亲对象,而后你老妈收集了他们所有人的身高信息,而后以 5cm 为单位,来数一数每 5cm 各有多少人。接着用身高为横轴,人数为纵轴,画了上面的图:

这种数据分布就是正态分布,正太散布像是一个小山,中间低,两头高,左右对称,大部分数据集中在平均值,小局部散布在两端

实际上人的分高的确是合乎正态分布的。2017 年我国 18 岁及以上成年男性的均匀身高是 167.1cm,所以 167.1 的身高就是中国广泛男性身高的数值,如果是 150cm 或者是 190cm 都是人数比拟少的,处于散布两端的人群。

神奇的中央在于,不论是 人的身高,手臂长度,肺活量,还是他们的考试成绩,都合乎正态分布。

这是为什么呢?

2 名字由来

正太 正态分布为什么不叫“晚点”呢?

这个要从这个货色说起,上面这个货色

这个货色叫做 高尔顿钉板,你猜猜这是谁创造的?没错,就是维多利亚期间的血症 Francis Galton(高尔顿)。他做了这个钉板之后,发现这种形态实用于很多数据,所以他将其命名为“正态分布”(The Normal Distribution).

正态分布的英文“normal”,示意 常见的,典型的,用来示意这种散布能代表多种多样的数据类型。

3 分析细节

高尔顿钉板中,每一个小珠子下滚的时候,撞到柱子就会随机的向左走或者向右走。而后一个小珠子一路滚下来会抉择屡次方向,最终的散布就会靠近正态分布。

关键点在于,一个事件通过多个随机的因素的影响,后果仿佛就是正态分布

女性身高可能会受 父母身高的影响、饮食习惯的影响、是否爱好静止的影响 等等,这些影响类比成高尔顿钉板中的柱子。

此外,还要留神一点就是 高尔顿钉板 中,所有珠子的初始状态统一。

4 有偏散布

事实中,也有很多有偏散布,比方在医学中的检测。有一种说法是因为在细胞中,细胞分类是乘法而非加法。所以用 log 办法来将乘法变成加法,所以 log 办法也能够把有偏数据变成正态分布。

对横坐标取 log:


【集体感想】
人生也是如此,右边是贫困,左边是富裕。人生面临有数的随机抉择,大部分人落在了两头地位,成为了个别人。多数运气不好的和运气好的人变成了特地穷的人和特地富裕的人,然而大部分的咱们变成了普通人。咱们之所以致力,就是心愿在每一次抉择的时候,能够做出更好的抉择,让咱们的将来更好。共勉!

正文完
 0