关于机器学习:线性判别分析-Linear-Discriminant-AnalysisLDA

39次阅读

共计 1928 个字符，预计需要花费 5 分钟才能阅读完成。

线性判断分类器由向量 $w$ 和偏差项 $b$ 形成。给定样例 $x$，其依照如下规定预测取得类别标记 $y$，即
$y=sign(w^Tx+b)$
前面对立应用小写示意列向量，转置示意行向量。
分类过程分为如下两步：

首先，使用权重向量 w 将样本空间投影到直线下来
而后，寻找直线上一个点把正样本和负样本离开。

为了寻找最有的线性分类器，即 $w$ 和 $b$，一个经典的学习算法是线性判别分析（Fisher’s Linear Discriminant Analysis，LDA）。

简要来说，LDA 的根本想法是使不同的样本尽量原理，使同类样本尽量凑近。

这一指标能够通过扩充不同类样本的类核心间隔，同时放大每个类的类内方差来实现。

在一个二分类数据集上，别离记所有正样本的的均值为 $\\mu_+$，协方差矩阵为 $\\Sigma_+$；所有负样本的的均值为 $\\mu_-$，协方差矩阵为 $\\Sigma_-$。

投影后的类核心间间隔为正类核心的投影点值减去负类投影点值：
$$S_B(w)=(w^T\mu_+-w^T\mu_-)^2$$

同时，类内方差可写为：
$$S_W(w)=\frac{\sum_x(w^Tx_i-w^T\mu_+)^2+\sum_x(w^Tx_i-w^T\mu_-)^2}{n-1}$$

$$=\frac{\sum_x(w^T(x_i-\mu_+))^2+\sum_x(w^T(x_i-\mu_-))^2}{n-1}$$

$$=\frac{\sum_xw^T(x_i-\mu_+)(w^T(x_i-\mu_+))^T+\sum_xw^T(x_i-\mu_-)(w^T(x_i-\mu_-))^T}{n-1}$$

$$=\frac{w^T\sum_x(x_i-\mu_+)(x_i-\mu_+)^Tw+w^T\sum_x(x_i-\mu_-)(x_i-\mu_-)^Tw}{n-1}$$

其中
$$\frac{\sum_x(x_i-\mu_+)(x_i-\mu_+)^T}{n-1} = \Sigma_+$$
是正类的协方差矩阵，留神
$$x(x_i-\mu_+)$$
是列向量，所以协方差是一个长宽等于数据维度的方阵。

最初：

$$S_W(w)=w^T\Sigma_+w+w^T\Sigma_-w$$

线性判别式的总指标就是最大化类间间隔，最小化类内方差，相似于聚类：

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{S_B(w)}{S_W(w)}$$

$$=\frac{(w^T\mu_+-w^T\mu_-)^2}{w^T\Sigma_+w+w^T\Sigma_-w}$$

$$= \frac{w^T(\mu_+-\mu_-)(w^T(\mu_+-\mu_-))^T}{w^T(\Sigma_+-\Sigma_-)w}$$

$$= \frac{w^T(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw}{w^T(\Sigma_+-\Sigma_-)w}$$

看到这个模式，咱们依据上一篇文档的常识晓得这个 能够应用狭义瑞利商来求极大值。

** 背景介绍及推导见 (瑞利商（Rayleigh quotient）与狭义瑞利商（genralized Rayleigh quotient）
**
上面只摘抄一些：

狭义瑞利商是指这样的函数 $????(????,????,????)$:
$$R(A,B,x) = \cfrac{X^{H}Ax}{X^{H}Bx}$$
其中???? 为非零向量，而????,???? 为 $????×????$ 的 Hermitan 矩阵。???? 为 正定矩阵。

令
$$A=(\mu_+-\mu_-)(\mu_+-\mu_-)^T$$

$$B= \Sigma_+-\Sigma_- $$

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{w^TAw}{w^TBw}$$

这个就很狭义瑞利商了。

至于 w 的值，应用拉格朗日乘子法能够求解失去：

$$B^{-1}Aw = \lambda w$$

$$B^{-1}(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw = \lambda w$$

因为
$$(\mu_+-\mu_-)^Tw$$
是行向量乘列向量，所以后果是一个标量，
那咱们晓得：
$$B^{-1}(\mu_+-\mu_-) \propto \lambda w$$

$$(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-) \propto w$$

因为 w 咱们只关注方向而不是长度，所以能够认为：

$$w_{best} =(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-)$$

教科书上的 LDA 为什么长这样？
线性判别分析 LDA 原理总结

正文完

机器学习

发表至：机器学习

2020-11-20

0

关于机器学习:IAE-101基本介绍

关于机器学习:MindSpore易点通深度学习系列卷积神经网络

关于机器学习:机器学习吴恩达小白笔记3代价函数可视化梯度下降

关于机器学习:GFLV2边界框不确定性的进一步融合提点神器-CVPR-2021

关于java:Java-NIO-基础三-通道

关于机器学习:线性判别分析-Linear-Discriminant-AnalysisLDA

类间间隔

类内间隔

优化指标

狭义瑞利商

Just My Socks（注册教程内含优惠码）

关于机器学习:线性判别分析-Linear-Discriminant-AnalysisLDA

类间间隔

类内间隔

优化指标

狭义瑞利商

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）