作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/33
本文地址：http://www.showmeai.tech/article-detail/136
申明：版权所有，转载请分割平台与作者并注明出处

一、一维：描述性统计

速查表

http://showmeai.tech/article-detail/100

http://showmeai.tech/article-detail/101

描述性统计量分为：集中趋势、离散水平（离中趋势）和散布状态。

1.1 集中趋势

数据的集中趋势，用于度量数据分布的核心地位。直观地说，测量一个属性值的大部分落在何处。形容数据集中趋势的统计量是：平均值、中位数、众数。

（1）平均值（Mean）

指一组数据的算术平均数，形容一组数据的平均水平，是集中趋势中稳定最小、最牢靠的指标，然而均值容易受到极其值（极小值或极大值）的影响。

（2）中位数（Median）

指当一组数据依照顺序排列后，位于两头地位的数，不受极其值的影响，对于定序型变量，中位数是最适宜的表征集中趋势的指标。

（3）众数（Mode）

指一组数据中呈现次数最多的观测值，不受极其值的影响，罕用于形容定性数据的集中趋势。

1.2 离散水平

数据的离散趋势，用于形容数据的扩散水平，形容离散趋势的统计量是：极差、四分位数极差（IQR）、标准差、离散系数。

（1）极差（Range）

又称全距，记作R，是一组数据中的最大观测值和最小观测值之差。个别状况下，极差越大，离散水平越大，其值容易受到极其值的影响。

（2）四分位数极差（Inter-Quartile Range， IQR）

又称内距，是上四分位数和下四分位数的差值，给出数据的两头一半所笼罩的范畴。IQR是统计扩散水平的一个度量，扩散水平通过须要借助箱线图（Box Plot）来察看。通常把小于 Q1-1.5IQR 或者大于 Q3+1.5IQR 的数据点视作离群点。

（3）方差（Variance）

方差和标准差是度量数据离散水平时，最重要】最罕用的指标。方差，是每个数据值与整体数据值的平均数之差的平方值的平均数，罕用 $\sigma ^{2}$示意。

$$ \sigma^{2} = \frac{\sum \left ( X – \mu \right )^{2}}{N} $$

（4）标准差（Standard Deviation）

又称均方差，罕用 \sigma 示意，是方差的算术平方根。计算所有数值绝对均值的偏离量，反映数据在均值左近的稳定水平，比方差更不便直观。

$$\sigma = \sqrt{\frac{\sum \left ( X – \mu \right )^{2} }{N} } $$

（5）离散系数（Coefficient of Variation）

又称变异系数，为标准差 \sigma 与平均值 \mu 之比，用于比拟不同样本数据的离散水平。离散系数大，阐明数据的离散水平大；离散系数小，阐明数据的离散水平也小。

$$C_{v} = \frac{\sigma}{\mu} $$

1.3 散布状态

（1）偏度（Skewness）

用来评估一组数据分布出现的对称水平。

当偏度系数=0时，散布是对称的
当偏度系数>0时，散布呈正偏态（右偏）
当偏度系数<0时，散布呈负偏态（左偏）

（2）峰度（Kurtosis）

用来评估一组数据的散布形态的高下水平的指标。

当峰度系数=0时，是正态分布
当峰度系数>0时，散布状态平缓，数据分布更集中
当峰度系数<0时，散布状态平缓，数据分布更扩散

（3）其余数据分布图

分位数是察看数据分布的最简略无效的办法，但分位数只能用于察看繁多属性的数据分布。散点图能够用来察看双变量的数据分布，聚类能够用来察看更多变量的数据分布。通过观察数据的散布，采纳正当的指标，使数据的剖析更全面，防止得出像平均工资这类偏离事实的的剖析后果。

二、穿插维度

2.1 相关性和线性回归

更多具体解说图解AI数学根底 | 概率与统计

（1）相关系数

又称简略相关系数，罕用 r 示意，反馈两个变量之间的相干关系及相干方向。

（2）线性回归（Linear Regression）

线性回归是利用数理统计中回归剖析，确定两种或两种以上变量间相互依赖的定量关系。

回归剖析中，只包含一个自变量和一个因变量，且二者的关系可用一条直线近似示意，这种回归剖析称为一元线性回归剖析。
如果回归剖析中包含两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归剖析。

2.2 方差分析

（1）单因素方差分析

一项试验只有一个影响因素，或者存在多个影响因素时，只剖析一个因素与响应变量的关系。

（2）多因素有交互方差分析

一项试验有多个影响因素，剖析多个影响因素与响应变量的关系，同时思考多个影响因素之间的关系。

三、概率论

速查表

http://showmeai.tech/article-detail/118

http://showmeai.tech/article-detail/117

更多具体解说图解AI数学根底 | 概率与统计

3.1 概率事件

（1）独立事件

$$P\left ( A\cap B \right ) = P(A)P(B)$$

（2）对抗事件

$$P(A) = 1 – P(B)$$

（3）互斥事件

$$P\left ( A\cap B \right ) = 0$$

（4）穷举事件

$$P\left ( A\cup B \right ) = 1$$

3.2 条件概率

（1）条件概率

$$P(A \mid B) = \frac{P(AB)}{P(B)}$$

（2）全概率公式

$$P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} )$$

（3）贝叶斯定理

$$P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } $$

3.3 排列组合

（1）排列

$$
P_{n}^{N} = n! \begin{pmatrix}
N \\
n
\end{pmatrix} = \frac{N!}{ \left (N-n \right )! }
$$

（2）组合

$$
C_{n}^{N} = \begin{pmatrix}
N \\
n
\end{pmatrix} = \frac{N!}{n! \left (N-n \right )! }
$$

3.4 概率分布

（1）连续型概率分布

正态分布：正态概率分布是连续型随机变量中最重要的散布，记为

$$
x\sim N\left (\mu ， \sigma^{2} \right)
$$

教训法令：正态随机变量有69.3%的值在均值加减个标准差的范畴内，95.4%的值在两个标准差内，99.7%的值在三个标准差内。

（2）离散型概率分布

伯努利散布

进行一次试验，若胜利则随机变量取值为1，若失败则取值为0，胜利的概率为p失败的概率为1-p

二项分布

n个独立的是/非试验中，胜利次数的概率分布。n=1时，二项分布就是伯努利散布

泊松散布

在间断工夫或空间单位上产生随机事件次数的概率。

四、统计推断