关于数据分析:图解数据分析-数据分析的数学基础

49次阅读

共计 3382 个字符,预计需要花费 9 分钟才能阅读完成。

作者:韩信子 @ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/33
本文地址:http://www.showmeai.tech/article-detail/136
申明:版权所有,转载请分割平台与作者并注明出处

一、一维:描述性统计

速查表

  • http://showmeai.tech/article-detail/100
  • http://showmeai.tech/article-detail/101

描述性统计量分为:集中趋势、离散水平(离中趋势)和散布状态。

1.1 集中趋势

数据的集中趋势,用于度量数据分布的核心地位。直观地说,测量一个属性值的大部分落在何处。形容数据集中趋势的统计量是:平均值、中位数、众数。

(1)平均值(Mean)

指一组数据的算术平均数,形容一组数据的平均水平,是集中趋势中稳定最小、最牢靠的指标,然而均值容易受到极其值(极小值或极大值)的影响。

(2)中位数(Median)

指当一组数据依照顺序排列后,位于两头地位的数,不受极其值的影响,对于定序型变量,中位数是最适宜的表征集中趋势的指标。

(3)众数(Mode)

指一组数据中呈现次数最多的观测值,不受极其值的影响,罕用于形容定性数据的集中趋势。

1.2 离散水平

数据的离散趋势,用于形容数据的扩散水平,形容离散趋势的统计量是:极差、四分位数极差(IQR)、标准差、离散系数。

(1)极差(Range)

又称全距,记作 R,是一组数据中的最大观测值和最小观测值之差。个别状况下,极差越大,离散水平越大,其值容易受到极其值的影响。

(2)四分位数极差(Inter-Quartile Range,IQR)

又称内距,是上四分位数和下四分位数的差值,给出数据的两头一半所笼罩的范畴。IQR 是统计扩散水平的一个度量,扩散水平通过须要借助箱线图(Box Plot)来察看。通常把小于 Q1-1.5IQR 或者大于 Q3+1.5IQR 的数据点视作离群点。

(3)方差(Variance)

方差和标准差是度量数据离散水平时,最重要】最罕用的指标。方差,是每个数据值与整体数据值的平均数之差的平方值的平均数,罕用 $\sigma ^{2}$ 示意。

$$ \sigma^{2} = \frac{\sum \left ( X – \mu \right)^{2}}{N} ​​​​$$

(4)标准差(Standard Deviation)

又称均方差,罕用 \sigma 示意,是方差的算术平方根。计算所有数值绝对均值的偏离量,反映数据在均值左近的稳定水平,比方差更不便直观。

$$\sigma = \sqrt{\frac{\sum \left ( X – \mu \right)^{2} }{N} } $$

(5)离散系数(Coefficient of Variation)

又称变异系数,为标准差 \sigma 与平均值 \mu 之比,用于比拟不同样本数据的离散水平。离散系数大,阐明数据的离散水平大;离散系数小,阐明数据的离散水平也小。

$$C_{v} = \frac{\sigma}{\mu} $$

1.3 散布状态

(1)偏度(Skewness)

用来评估一组数据分布出现的对称水平。

  • 当偏度系数 = 0 时,散布是对称的
  • 当偏度系数 >0 时,散布呈正偏态(右偏)
  • 当偏度系数 <0 时,散布呈负偏态(左偏)

(2)峰度(Kurtosis)

用来评估一组数据的散布形态的高下水平的指标。

  • 当峰度系数 = 0 时,是正态分布
  • 当峰度系数 >0 时,散布状态平缓,数据分布更集中
  • 当峰度系数 <0 时,散布状态平缓,数据分布更扩散

(3)其余数据分布图

分位数是察看数据分布的最简略无效的办法,但分位数只能用于察看繁多属性的数据分布。散点图能够用来察看双变量的数据分布,聚类能够用来察看更多变量的数据分布。通过观察数据的散布,采纳正当的指标,使数据的剖析更全面,防止得出像平均工资这类偏离事实的的剖析后果。

二、穿插维度

2.1 相关性和线性回归

更多具体解说 图解 AI 数学根底 | 概率与统计

(1)相关系数

又称简略相关系数,罕用 r 示意,反馈两个变量之间的相干关系及相干方向。

(2)线性回归(Linear Regression)

线性回归是利用数理统计中回归剖析,确定两种或两种以上变量间相互依赖的定量关系。

回归剖析中,只包含一个自变量和一个因变量,且二者的关系可用一条直线近似示意,这种回归剖析称为一元线性回归剖析。
如果回归剖析中包含两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归剖析。

2.2 方差分析

(1)单因素方差分析

一项试验只有一个影响因素,或者存在多个影响因素时,只剖析一个因素与响应变量的关系。

(2)多因素有交互方差分析

一项试验有多个影响因素,剖析多个影响因素与响应变量的关系,同时思考多个影响因素之间的关系。

三、概率论

速查表

  • http://showmeai.tech/article-detail/118
  • http://showmeai.tech/article-detail/117

更多具体解说 图解 AI 数学根底 | 概率与统计

3.1 概率事件

(1)独立事件

$$P\left (A\cap B \right) = P(A)P(B)$$

(2)对抗事件

$$P(A) = 1 – P(B)$$

(3)互斥事件

$$P\left (A\cap B \right) = 0$$

(4)穷举事件

$$P\left (A\cup B \right) = 1$$

3.2 条件概率

(1)条件概率

$$P(A \mid B) = \frac{P(AB)}{P(B)}$$

(2)全概率公式

$$P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} )$$

(3)贝叶斯定理

$$P(A \mid B) = \frac{P(A)P(B \mid A) }{P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } $$

3.3 排列组合

(1)排列

$$
P_{n}^{N} = n! \begin{pmatrix}
N \\
n
\end{pmatrix} = \frac{N!}{\left (N-n \right)! }
$$

(2)组合

$$
C_{n}^{N} = \begin{pmatrix}
N \\
n
\end{pmatrix} = \frac{N!}{n! \left (N-n \right)! }
$$

3.4 概率分布

(1)连续型概率分布

正态分布:正态概率分布是连续型随机变量中最重要的散布,记为

$$
x\sim N\left (\mu,\sigma^{2} \right)
$$

教训法令:正态随机变量有 69.3% 的值在均值加减个标准差的范畴内,95.4% 的值在两个标准差内,99.7% 的值在三个标准差内。

(2)离散型概率分布

  • 伯努利散布

进行一次试验,若胜利则随机变量取值为 1,若失败则取值为 0,胜利的概率为 p 失败的概率为 1 -p

  • 二项分布

n 个独立的是 / 非试验中,胜利次数的概率分布。n= 1 时,二项分布就是伯努利散布

  • 泊松散布

在间断工夫或空间单位上产生随机事件次数的概率。

四、统计推断

更多具体解说 图解 AI 数学根底 | 概率与统计

4.1 抽样

抽样:应该满足抽样的随机性准则。
抽样办法:简略随机抽样、分层抽样、整群抽样、系统抽样

4.2 置信区间

4.3 假设检验

材料与代码下载

本教程系列的代码能够在 ShowMeAI 对应的 github 中下载,可本地 python 环境运行,能迷信上网的宝宝也能够间接借助 google colab 一键运行与交互操作学习哦!
本系列教程波及的速查表能够在以下地址下载获取:

  • Pandas 速查表
  • Matplotlib 速查表
  • Seaborn 速查表

拓展参考资料

  • Pandas 可视化教程
  • Seaborn 官网教程

ShowMeAI 相干文章举荐

  • 数据分析介绍
  • 数据分析思维
  • 数据分析的数学根底
  • 数据荡涤与预处理
  • 业务剖析与数据挖掘
  • 数据分析工具地图
  • 统计与数据科学计算工具库 Numpy 介绍
  • Numpy 与 1 维数组操作
  • Numpy 与 2 维数组操作
  • Numpy 与高维数组操作
  • 数据分析工具库 Pandas 介绍
  • 图解 Pandas 外围操作函数大全
  • 图解 Pandas 数据变换高级函数
  • Pandas 数据分组与操作
  • 数据可视化准则与办法
  • 基于 Pandas 的数据可视化
  • seaborn 工具与数据可视化

ShowMeAI 系列教程举荐

  • 图解 Python 编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解 AI 数学根底:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程

正文完
 0