共计 1928 个字符,预计需要花费 5 分钟才能阅读完成。
线性判断分类器由向量 $w$ 和偏差项 $b$ 形成。给定样例 $x$,其依照如下规定预测取得类别标记 $y$,即
$y=sign(w^Tx+b)$
前面对立应用小写示意列向量,转置示意行向量。
分类过程分为如下两步:
- 首先,使用权重向量 w 将样本空间投影到直线下来
- 而后,寻找直线上一个点把正样本和负样本离开。
为了寻找最有的线性分类器,即 $w$ 和 $b$,一个经典的学习算法是线性判别分析(Fisher’s Linear Discriminant Analysis,LDA)。
简要来说,LDA 的根本想法是使不同的样本尽量原理,使同类样本尽量凑近。
这一指标能够通过扩充不同类样本的类核心间隔,同时放大每个类的类内方差来实现。
在一个二分类数据集上,别离记所有正样本的的均值为 $\\mu_+$,协方差矩阵为 $\\Sigma_+$;所有负样本的的均值为 $\\mu_-$,协方差矩阵为 $\\Sigma_-$。
类间间隔
投影后的类核心间间隔为正类核心的投影点值减去负类投影点值:
$$S_B(w)=(w^T\mu_+-w^T\mu_-)^2$$
类内间隔
同时,类内方差可写为:
$$S_W(w)=\frac{\sum_x(w^Tx_i-w^T\mu_+)^2+\sum_x(w^Tx_i-w^T\mu_-)^2}{n-1}$$
$$=\frac{\sum_x(w^T(x_i-\mu_+))^2+\sum_x(w^T(x_i-\mu_-))^2}{n-1}$$
$$=\frac{\sum_xw^T(x_i-\mu_+)(w^T(x_i-\mu_+))^T+\sum_xw^T(x_i-\mu_-)(w^T(x_i-\mu_-))^T}{n-1}$$
$$=\frac{w^T\sum_x(x_i-\mu_+)(x_i-\mu_+)^Tw+w^T\sum_x(x_i-\mu_-)(x_i-\mu_-)^Tw}{n-1}$$
其中
$$\frac{\sum_x(x_i-\mu_+)(x_i-\mu_+)^T}{n-1} = \Sigma_+$$
是正类的协方差矩阵,留神
$$x(x_i-\mu_+)$$
是列向量,所以协方差是一个长宽等于数据维度的方阵。
最初:
$$S_W(w)=w^T\Sigma_+w+w^T\Sigma_-w$$
优化指标
线性判别式的总指标就是最大化类间间隔,最小化类内方差,相似于聚类:
$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{S_B(w)}{S_W(w)}$$
$$=\frac{(w^T\mu_+-w^T\mu_-)^2}{w^T\Sigma_+w+w^T\Sigma_-w}$$
$$= \frac{w^T(\mu_+-\mu_-)(w^T(\mu_+-\mu_-))^T}{w^T(\Sigma_+-\Sigma_-)w}$$
$$= \frac{w^T(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw}{w^T(\Sigma_+-\Sigma_-)w}$$
看到这个模式,咱们依据上一篇文档的常识晓得这个 能够应用狭义瑞利商来求极大值。
狭义瑞利商
** 背景介绍及推导见 (瑞利商(Rayleigh quotient)与狭义瑞利商(genralized Rayleigh quotient)
**
上面只摘抄一些:
狭义瑞利商是指这样的函数 $????(????,????,????)$:
$$R(A,B,x) = \cfrac{X^{H}Ax}{X^{H}Bx}$$
其中???? 为非零向量,而????,???? 为 $????×????$ 的 Hermitan 矩阵。???? 为 正定矩阵。
令
$$A=(\mu_+-\mu_-)(\mu_+-\mu_-)^T$$
$$B= \Sigma_+-\Sigma_- $$
$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{w^TAw}{w^TBw}$$
这个就很狭义瑞利商了。
至于 w 的值,应用拉格朗日乘子法能够求解失去:
$$B^{-1}Aw = \lambda w$$
$$B^{-1}(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw = \lambda w$$
因为
$$(\mu_+-\mu_-)^Tw$$
是行向量乘列向量,所以后果是一个标量,
那咱们晓得:
$$B^{-1}(\mu_+-\mu_-) \propto \lambda w$$
$$(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-) \propto w$$
因为 w 咱们只关注方向而不是长度,所以能够认为:
$$w_{best} =(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-)$$
教科书上的 LDA 为什么长这样?
线性判别分析 LDA 原理总结