关于mysql:统计科学之讲讲大数定理

2次阅读

共计 970 个字符,预计需要花费 3 分钟才能阅读完成。

后面咱们讲过核心极限定理。这一节来讲讲大数定理,大数定理和核心极限定理是比拟靠近的两个概念,这两个定理常常一起呈现。咱们来具体看下大数定理的内容:

大数定律是指:随着样本容量 n 一直减少,样本平均数将越来越靠近于总体平均数 (冀望 μ),咱们把总体的平均数称为冀望,对于均值与冀望的差异。

基于大数定理的存在,所以咱们日常剖析过程中个别都会应用样本的均值来预计总体的均值。比方大家所熟知的试验,其实就是拿总体中的局部样本去做试验,而后在局部样本上失去的均值成果就能够等效代替是在全副样本上失去的成果。

不过须要留神的是,咱们下面说到的是随着样本数的减少,样本均值会越来越靠近总体样本均值,靠近不代表等于,所以样本均值和总体还是会有一些偏差的,但在理论业务中咱们个别又无奈拿到总体的均值,所以只能用样本均值,然而要晓得还是有一些偏差的。

接下来,咱们用数据模仿下:

咱们先随机生成 10w 个值,把这 10w 个值作为咱们的总体,而后随机从这 10w 外面抽取 100、200、300 …… 99900、100000,针对每次抽取进去的样本计算一个均值,最初会失去 99900 个均值,咱们把这些均值依照样本容量从小到大排序,最初绘制出均值趋势图如下:

上图中的红线是代表总体均值,能够看出,随着样本容量 n 一直减少,样本均值的稳定幅度越来越小,越靠近于总体均值。下面过程的 Python 实现代码如下:

import numpy as np
import pandas as pd
all_value = np.random.randint(1,100000,100000)
sample_size = []
sample_maen = []
for i in range(100,100000,100):
    sample_size.append(i)
    sample_maen.append(np.random.choice(all_value,i).mean())
pd.DataFrame({"sample_size":sample_size,"sample_maen":sample_maen}).set_index("sample_size").plot()
plt.axhline(all_value.mean(),color = "red")

大家能够把代码复制下来,本人运行一遍。

正文完
 0