关于统计学:样本均值与方差

这一篇探讨统计学中,对于样本以及它的统计量的相干个性,重点是样本的均值和方差的相干问题。 统计量的期望值假如咱们有一个随机变量 \( X \),合乎某种概率分布,整体的数学期望值和方差为: $$E(X) = \mu \\D(X) = \sigma^2$$ 然而整体的期望值和方差通常都是未知的,所以咱们采取抽样的形式,用样本的 统计量 来预计它们,这合乎咱们的直觉; 例如咱们有一个随机变量 \( X \) 的散布,咱们把它以一个图的模式展示: 它的整体期望值位于图中的红点,当然这个红点在哪里咱们实际上不晓得,但它是客观存在的,它的计算公式为: $$\mu = {1 \over N}\sum X_i$$ \( N \) 为原始数据的总量,通常 \( N \) 十分大(以至于无穷大),所以咱们不可能计算下面的式子,所以说咱们并不知道红点理论在哪里; 因而咱们用 采样 的办法,每次只取出无限的 \( n \) 个值作为样本,即图中的一个个圆圈;计算这批样本的均值,即为每个圆圈中的绿色点,它的计算公式为: $$\overline{X} = {1 \over n} \sum {X_i}$$ 当咱们进行无数次这样的采样试验(画圈),失去无数个绿点,那么这些绿点的平均值等于原始数据的期望值,也就是红点; 也就是说有如下结论:样本均值的期望值,等于原始散布的期望值,即: $$E(\overline{X}) = E(X) =\mu$$ 下面写了这么多,如同在说一件直观上很不言而喻的事件;然而这是数学,即便它仿佛是不言而喻的,咱们最好还是从数学上证实: $$\begin{align}E(\overline{X})&=E({1 \over n}\sum {X_i})\\& ={1 \over n}E(\sum {X_i})\\& ={1 \over n}[E(X_1)+...+E(X_n)]\\& ={1 \over n}(n\mu) =\mu\end{align}$$ ...

April 4, 2022 · 2 min · jiezi

先验概率和后验概率最简单理解

先验概率:根据客观事实和统计频率得出的概率。后验概率:在事情发生后,在事情发生这个事实下,判断导致这个事情发生的不同原因的概率。后验概率是根据先验概率推断而来的。假设:根据调查问卷(客观事实)显示,人们在不开心的时候,60%的会选择找他人倾诉,40%的选择不倾诉。 $$p(倾诉)=60% $$ $$p(不倾诉)=40% $$ 另外找他人倾诉的人中60%是女性,40%是男性;不找他人倾诉的人中80%是男性,20%是女性。上述就是先验概率,根据频率估算出来的(存在误差)。 $$p(男|倾诉)=40% $$ $$ p(女|倾诉)=60% $$ $$p(男|不倾诉)=80% $$ $$p(女|不倾诉)=20% $$ 现在,有一个男生不开心,想判断他是否会找人倾诉。根据条件概率公式: $$p(Y/X) = p(X/Y)p(Y)/p(X)$$ 得 $$p(倾诉|男) = p(男|倾诉)p(倾诉)/p(男|倾诉)p(倾诉)+p(男|不倾诉)p(不倾诉)$$ p(倾诉|男)即为后验概率( ̄▽ ̄)。

October 1, 2019 · 1 min · jiezi

Awesome-Data-Science-in-Python-一文整理Python常用数据科学第三方模块

1. 机器学习EDAlantern特征工程yellowbrickFeaturetools模型解释SHAPLime通用Scikit-learn自动化机器学习mljar-supervised2. 统计方法通用StatsModels:通用概率派Scipy:含常见分布、统计量计算pyro:基于pyTorch的通用统计模型库Edward:基于tensorflow的通用统计模型库贝叶斯PyStan:贝叶斯模型(stan实现)pymc3/pymc4(还在pre-release版本):贝叶斯模型(theano/tensorflow实现)3. 特殊算法集时间序列pyflux:实现常用时间序列模型Prophet:基于强解释的GAM(线性可加模型)生存模型Lifetimes聚类hdbscan网络networkXGBMCatBoost:对类别变量比较友好xgboostLightGBM4. 可视化plotnineSeabornplotlyaltair5. NLP通用spaCynltk主题模型gensim常用Embedded集fastText6. ETLbubbles7. 因果推理DoWhy8. 符号运算SymPy

June 16, 2019 · 1 min · jiezi