乐趣区

读书笔记概率论与数理统计上

作者:LogM

本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~

文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧

本文为概率论与数理统计的笔记。


1. 第一周

  • 1.1 样本空间

    • 随机试验的所有可能 $S = \{e\}$
  • 1.2 事件

    • 和事件:$A \cup B$
    • 积事件:$A \cap B$、$AB$
    • 差事件:$A-B$
    • 对立事件:$\overline{A}$
  • 1.3 常用公式

    • $\overline{A} \cap \overline{B} = \overline{A \cup B}$、$\overline{A} \cup \overline{B} = \overline{A \cup B}$
    • $P(A\overline{B}) = P(A-B) = P(A)-P(AB)$
    • 加法公式:$P(A \cup B) = P(A) + P(B) – P(AB)$、$P(A \cup B \cup C) = P(A) + P(B) + P(C) – P(AB) – P(BC) – P(AC) + P(ABC)$

2. 第二周

  • 2.1 古典概型(等可能概型)

    • 抽球问题:N 个球,其中 a 个白球,b 个黄球,不放回抽 n 次,球恰好 k 个白球概率

$$
P = \frac{C_a^k \cdot C_b^{n-k}}{C_{a+b}^n}
$$

  • 生日问题:n 个人,至少 2 人同生日的概率

$$
P = 1 – \frac{A_{365}^n}{365^n}
$$

  • 抽签问题:a 个白球,b 个黄球,不放回抽 n 次,第 k 次为白球的概率

$$
P = \frac{a \cdot (a+b-1)!}{(a+b)!} = \frac{a}{a+b}
$$

    • 不放回抽样,第 k 次抽到白球的概率等于第一次抽到白球的概率

    • 2.2 条件概率

      • $P(B|A) = \frac{P(AB)}{P(A)}$
      • $P(ABC) = P(A) \cdot P(B|A) \cdot P(C|AB)$
    • 2.3 全概率公式

    • 2.4 贝叶斯公式


    3. 第三周

    • 3.1 0- 1 分布(两点分布、贝努利分布)

      • 记为:$X \sim 0-1(p)$、$X \sim B(p)$
      • 分布律:$P(X=k) = (1-p)^{1-k} \cdot p^k$
      • 期望:$E(X) = p$
      • 方差:$D(X) = E(X^2)-[E(X)]^2 = p-p^2$
    • 3.2 二项分布(Binomial)

      • 记为:$X \sim B(n, p)$
      • 分布律:$P(X=k) = C_n^k \cdot p^k \cdot (1-p)^{n-k}$
      • 期望:$E(X) = np$
      • 方差:$E(X) = n(p-p^2)$
      • 若 $X \sim B(n_1, p)$,$Y \sim B(n_2, p)$,并且 $X$ 与 $Y$ 相互独立,则 $Z=X+Y \sim B(n_1+n_2, p)$
    • 3.3 泊松分布(Poisson)

      • 记为:$X \sim \pi(\lambda)$、$X \sim P(\lambda)$
      • 分布律:$P(X=k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!}$
      • 期望:$E(X) = \lambda$
      • 方差:$D(X) = E(X^2)-[E(X)]^2 = (\lambda^2+\lambda) – \lambda^2$
      • 事件以固定强度 $\lambda$ 随机独立发生,则该事件在单位时间发生次数 k 可视为泊松分布。强度 $\lambda$ 可由单位时间该事件发生次数的平均数统计得到。

      • 泊松分布的本质:当二项分布的 $n>10$、$p<0.1$、$\lambda=np$ 时,泊松分布近似二项分布。

      • 若 $X \sim \pi(\lambda_1)$,$Y \sim \pi(\lambda_2)$,并且 $X$ 与 $Y$ 相互独立,则 $Z=X+Y \sim \pi(\lambda_1 + \lambda_2)$
    • 3.4 几何分布(Geometric)

      • 记为:$X \sim Geom(p)$
      • 分布律:$P(X=k) = p \cdot (1-p)^{k}$
      • 期望:$E(X) = 1/p$
      • 掷骰子,掷到 6 点就停止,掷骰子的次数 k 服从几何分布。

    • 3.5 概率分布函数

      • $F_X(x) = P(X \leq x)$

    4. 第四周

    • 4.1 概率密度函数

      • 概率分布函数 $F_X(x)$,概率密度函数 $f_X(x)$
      • 连续型随机变量满足:$F(x) = \int_{-\infty}^{x} f(t)dt$、$F^{‘}(x)=f(x)$
      • 连续型随机变量单点取值的概率为 0:$P(x=a) = 0$
    • 4.2 均匀分布(Uniform)

      • 记为:$X \sim U(a, b)$、$X \sim Unif(a, b)$
      • 期望:$E(X) = \frac{a+b}{2}$
      • 方差:$D(X) = E(X^2)-[E(X)]^2 = \frac{a^2+b^2+ab}{3} – [\frac{a+b}{2}]^2$
      • 若 $X$ 与 $Y$ 相互独立,且 $X \sim U(0, 1)$,$Y \sim U(0, 1)$,则 $Z=X+Y$ 的概率密度为:$f_Z(z)=\left \{\begin{matrix} z & ,0 \leq z \leq 1 \\ 2-z & ,1 < z \leq 2 \\ 0 & ,others \end {matrix} \right.$
    • 4.3 指数分布(Exponential)

      • 记为:$X \sim E(\lambda)$、$X \sim Exp(\lambda)$
      • $f(x)=\left \{\begin{matrix} \lambda e^{-\lambda x} & ,x>0 \\ 0 & ,x \leq 0 \end {matrix} \right.$
      • $F(x)= \left \{\begin{matrix} 1 – e^{-\lambda x} & ,x>0 \\ 0 & ,x \leq 0 \end {matrix} \right.$
      • 期望:$E(X) = 1/\lambda$
      • 方差:$D(X) = E(X^2)-[E(X)]^2 = 2/\lambda^2 – 1/\lambda^2$
      • 指数分布是唯一一个具有无记忆性的连续分布
      • $P(x > t_0 + t | x > t_0) = P(x>t)$

      • 若旅客进入机场的时间间隔 X 符合指数分布,已知 10 分钟内没有旅客进入,求未来 2 分钟内也没有旅客进入的概率。$P(X>(10+2)|X>10) = P(X>2)$。

    • 4.4 正态分布(Normal)(高斯分布、误差分布)

      • 记为:$X \sim N(\mu ,\sigma ^2)$
      • $f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-u)^2}{2\sigma ^2}}$
      • 期望:$E(X) = \mu$
      • 方差:$D(X) = \sigma^2$
      • $\mu$ 为位置参数,$\sigma$ 为尺度参数,越小越瘦高
      • 根据中心极限定理,多个未知分布的和可用正态分布近似
      • 标准正态:$Z \sim N(0,1)$,$\varphi(z)$,$\Phi(z)$
      • 若 $Y=aX+b$,$X \sim (\mu, \sigma)$,则 $Y \sim (a\mu+b, a^2\sigma^2)$
      • 若 $X \sim N(\mu_1 ,\sigma_1 ^2)$,$Y \sim N(\mu_2 ,\sigma_2 ^2)$,并且 $X$ 与 $Y$ 相互独立,则 $Z=X+Y \sim N(\mu_1+\mu_2 ,\sigma_1 ^2 + \sigma_2 ^2)$

    5. 第五周

    • 5.1 二元随机变量分布律

      • 分布律:$P(X=x_i,Y=y_j) = p_{ij}$
      • 边际分布:$P(X=x_i) = p_{i\cdot}$,$P(Y=y_j) = p_{\cdot j}$
      • 条件分布:$P(X=x_i|Y=y_j) = \frac{p_{ij}}{p_{\cdot j}}$
    • 5.2 二元随机变量分布函数

      • 分布函数:$F(x,y) = P(X \leq x, Y \leq y)$

      $P(x_1 < X \leq x_2, y_1 < Y \leq y_2) = F(x_2,y_2) – F(x_1,y_2) – F(x_2,y_1) + F(x_1,y_1)$

      • 边际分布函数:$F_X(x) = \lim_{y \to +\infty}F(x,y)$,$F_Y(y) = \lim_{x \to +\infty}F(x,y)$
      • 条件分布函数:$F_{X|Y}(x|y) = P(X \leq x, Y=y)$
    • 5.3 二元随机变量概率密度

      • 联合概率密度:$F(x,y) = \int_{-\infty}^{x} \int_{-\infty}^{y} f(u,v)dudv$,$\frac{\partial ^2 F(x,y)}{\partial x \partial y}=f(x,y)$

    6. 第六周

    • 6.1 二元随机变量边际概率密度和条件概率密度

      • 边际概率密度:$f_X(x) = \int_{-\infty}^{+\infty} f(x,y)dy$,$f_Y(y) = \int_{-\infty}^{+\infty} f(x,y)dx$
      • 条件概率密度:$f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}$
    • 6.2 二元均匀分布

      • $f(x,y)= \left \{\begin{matrix} 1/A & ,(x,y)\in D \\ 0 & ,(x,y)\notin D \end {matrix} \right.$,A 为区域 D 的面积
      • 其边际分布不是均匀分布,其条件分布是均匀分布
    • 6.3 二元正态分布

      • 记为:$(X,Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
      • $f(x,y)$ 太长省略
      • 其边际分布、条件分布也是正态分布
      • 当 $\rho=0$,$X$ 与 $Y$ 相互独立(充要条件)
    • 6.4 随机变量的独立性

      • 随机变量独立:$F(x,y) = F_X(x) \cdot F_Y(y)$
      • 离散型:对一切 $i,j$ 都有 $P(X=x_i, Y=y_j) = P(X=x_i) \cdot P(Y=y_j)$
      • 连续型:对可取范围内的点 $(x,y)$,$f(x,y) = f_X(x) \cdot f_Y(y)$

    7. 第七周

    • 7.1 连续型变量 $Z=X+Y$ 的分布

      • 已知 $f(x,y)$,$z=x+y$,求 $F(z)$
      • $f_Z(z) = \int_{-\infty}^{+\infty} f(z-y,y)dy$ 或者 $f_Z(z) = \int_{-\infty}^{+\infty} f(x,z-x)dy$$
      • 当 $x,y$ 相互独立时,出现卷积公式,$f_Z(z) = \int_{-\infty}^{+\infty} f_X(z-y)f_Y(y)dy = \int_{-\infty}^{+\infty} f_X(x)f_Y(z-x)dy$
    • 7.2 $M = max(X,Y)$ 和 $N = min(X,Y)$ 的分布

      • $F_{max}(z) = P(M \leq z) = P(X \leq z, Y \leq z)$
      • $F_{max}(z) = P(N \leq z) = 1-P(N > z) = 1 – P(X > z, Y > z)$

    退出移动版