共计 1356 个字符,预计需要花费 4 分钟才能阅读完成。
奢侈贝叶斯分类器
[toc]
介绍之前说一个悲伤的故事:因为是本人重新学习机器学习算法,学校期间好多无关机器学习算法的课程都没怎么解释这个算法,而且老师上课一言难尽!而后我加入研究生复试,被问到这个算法过后人都傻了,据说过然而本人真的没有认真去理解啊!害!被本人菜的一言难尽
数学实践
- 先验概率
依据以往教训和剖析失去的概率
- 条件概率(后验概率)
在事件 B 产生的条件下 A 在产生的概率
$$
P(A|B)=\frac{P(AB)}{p(A)}
$$
- 奢侈贝叶斯定理
直观了解:咱们假如 B 是咱们的特色标签 A 是咱们的分类标签。那么公式直观上的了解就是:咱们在具备 B 这么多的特色之后一个样本属于 A 的概率有多大
$$
P(A|B)=\frac{P(B_1|A)P(B_2|A)P(B_3|A)…P(B_n|A)P(A)}{P(B)}\\\text{公式中}P(B_i|A)\text{代表在训练集中}B_i 特色下属于 A 的概率
$$
此时问题来了:如果咱们的特色是非数字数据比如说:绿色、蓝色等那么咱们很容易就能够计算失去概率的计算,然而如果是具体数字呢?那么应该怎么计算呢?
- 高斯奢侈贝叶斯
高斯分布:正态分布
$$
P(A|B)=\frac{1}{\sqrt{2\pi\sigma_{B}^{2}}}e^{-\frac{(A-\mu)^2}{2\sigma_{B}^{2}}}\\\mu: 均值 \sigma: 方差
$$
正态分布判断
奢侈贝叶斯
咱们先看对于他的解释:奢侈贝叶斯是一种建分类器的简略办法。该分类器模型会给问题实例调配用特征值示意的类标签,类标签取自无限汇合。它不是训练这种分类器的繁多算法,而是一系列基于雷同原理的算法:所有奢侈贝叶斯分类器都假设样本每个特色与其余特色都不相干。
https://zh.wikipedia.org/wiki/%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%…
从定义上看起来感觉很麻烦,其实奢侈贝叶斯算法的原理非常简略。咱们以如下例子为例:
假如训练集如下
性别 身高(英尺) 体重(磅) 脚的尺寸(英寸) 男 6 180 12 男 5.92 (5’11”) 190 11 男 5.58 (5’7″) 170 12 男 5.92 (5’11”) 165 10 女 5 100 6 女 5.5 (5’6″) 150 8 女 5.42 (5’5″) 130 7 女 5.75 (5’9″) 150 9 咱们对训练集计算失去:
性别 均值(身高) 方差(体重) 均值(体重) 方差(体重) 均值(脚的尺寸) 方差(脚的尺寸) 男 5.855 3.5033e-02 176.25 1.2292e+02 11.25 9.1667e-01 女 5.4175 9.7225e-02 132.5 5.5833e+02 7.5 1.6667e+00 那么在给定如下样本进行判断:
身高:6 体重:130 脚的尺寸:8
如何计算呢?很简略!!!比如说咱们计算 \(P(身高 | 男性) \)咱们只须要将身高 6 代入到咱们的 高斯贝叶斯公式 外面就能够失去咱们的概率。咱们顺次计算体重、脚的尺寸就能够失去一系列的概率,而后咱们代入公式:$$
P(男性)=\frac{P(男性)P(身高 | 男性)….}{P(A)}\\P(A)=P(男)*P(身高 | 男性)….+P(女性)*P(身高 | 女性)….\\P(男)=0.5=P(女)
$$而后判断男和女的概率大小进而判断是男性还是女性!