关于机器学习:AI数学基础之奇异值和奇异值分解

48次阅读

共计 2547 个字符,预计需要花费 7 分钟才能阅读完成。

简介

奇怪值是矩阵中的一个十分重要的概念,个别是通过奇怪值合成的办法来失去的,奇怪值合成是线性代数和矩阵论中一种重要的矩阵合成法,在统计学和信号处理中十分的重要。

在理解奇怪值之前,让咱们先来看看特征值的概念。

相似矩阵

在线性代数中,相似矩阵是指存在类似关系的矩阵。设 A,B 为 n 阶矩阵,如果有 n 阶可逆矩阵 P 存在,使得 P -1AP=B,则称矩阵 A 与 B 类似,记为 A~B。

对角矩阵

对角矩阵 (diagonal matrix) 是一个主对角线之外的元素皆为 0 的矩阵,常写为 diag(a1,a2,…,an)。对角矩阵能够认为是矩阵中最简略的一种,值得一提的是:对角线上的元素能够为 0 或其余值,对角线上元素相等的对角矩阵称为 数量矩阵 ;对角线上元素全为 1 的对角矩阵称为 单位矩阵。对角矩阵的运算包含和、差运算、数乘运算、同阶对角阵的乘积运算,且后果仍为对角阵。

可对角化矩阵

可对角化矩阵是线性代数和矩阵论中重要的一类矩阵。如果一个方块矩阵 A 类似于对角矩阵,也就是说,如果存在一个可逆矩阵 P 使得 P −1AP 是对角矩阵,则它就被称为可对角化的。

特征值

设 A 为 n 阶矩阵,若存在常数 λ 及 n 维非零向量 x,使得 Ax=λx,则称 λ 是矩阵 A 的特征值,x 是 A 属于特征值 λ 的特征向量。

一个矩阵的一组特征向量是一组正交向量。

即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被扭转。

一个线性变换通常能够由其特征值和特征向量齐全形容。特色空间是雷同特征值的特征向量的汇合。

特色合成

特色合成(Eigendecomposition),又称谱合成(Spectral decomposition)是将矩阵合成为由其特征值和特征向量示意的矩阵之积的办法。须要留神只有对可对角化矩阵才能够施以特色合成。

A 是一个 N×N 的方阵,且有 N 个线性无关的特征向量 qi(i=1,…,N)。这样,A 能够被合成为: A= QΛQ-1

其中 Q 是 N×N 方阵,且其第 i 列为 A 的特征向量。如果 A 的所有特征向量用 x1,x2 … xm 来示意的话,那么 Q 能够示意为:$\left[x_1,x_2,…,x_m\right]$, 其中 x 是 n 维非零向量。

Λ 是对角矩阵,其对角线上的元素为对应的特征值,也即Λiii。也就是 $\left[\begin{matrix}λ_1 … 0\\… … …\\0 … λ_m \end{matrix}\right]$

这里须要留神只有可对角化矩阵才能够作特色合成。比方 $\left[\begin{matrix}11\\01 \end{matrix}\right]$ 不能被对角化,也就不能特色合成。

因为 A= QΛQ-1,能够看做 A 被合成为三个矩阵,也就是三个映射。

如果当初有一个向量 x,咱们能够得出上面的论断:

$Ax=QΛQ^{-1}x$

Q 是正交矩阵,正交阵的逆矩阵等于其转置, 所以 $Q^{-1}$ = $Q^T$.$Q^T$ 对 x 的变换是正交变换,它将 x 用新的坐标系来示意,这个坐标系就是 A 的所有正交的特征向量形成的坐标系。比方将 x 用 A 的所有特征向量示意为:

$x=a_1x_1+a_2x_2+…+a_mx_m$

则通过第一个变换就能够把 x 示意为 $[a_1 a_2 … a_m]^T$。

$QΛQ^{-1}x=QΛ\left[\begin{matrix}x_1^T\\x_2^T\\…\\…\\x_m^T \end{matrix}\right](a_1x_1+a_2x_2+a_3x_3+…+a_mx_m)=QΛ\left[\begin{matrix}a_1\\a_2\\…\\a_m \end{matrix}\right]$

而后,在新的坐标系示意下,由两头那个对角矩阵对新的向量坐标换,其后果就是将向量往各个轴方向拉伸或压缩:

$QΛ\left[\begin{matrix}a_1\\a_2\\…\\a_m \end{matrix}\right]=Q\left[\begin{matrix}λ_1 … 0\\… … …\\0 … λ_m \end{matrix}\right]\left[\begin{matrix}a_1\\a_2\\…\\a_m \end{matrix}\right]=Q\left[\begin{matrix}λ_1a_1\\λ_2a_2\\…\\λ_ma_m \end{matrix}\right]$

​ 如果 A 不是满秩的话,那么就是说对角阵的对角线上元素存在 0,这时候就会导致维度进化,这样就会使映射后的向量落入 m 维空间的子空间中。

最初一个变换就是 Q 对拉伸或压缩后的向量做变换,因为 Q 和 $Q^{-1}$ 是互为逆矩阵,所以 Q 变换是 $Q^{-1}$ 变换的逆变换。

特征值的几何意义

一个矩阵乘以一个列向量相当于矩阵的列向量的线性组合。一个行向量乘以矩阵,相当于矩阵的行向量的线性组合。

所以向量乘以矩阵之后,相当于将这个向量进行了几何变换。

之前讲了 Λ 是对角矩阵,其对角线上的元素为对应的特征值,也即Λiii。也就是 $\left[\begin{matrix}λ_1 … 0\\… … …\\0 … λ_m \end{matrix}\right]$

这些特征值示意的是对向量做线性变换时候,各个变换方向的变换幅度。

奇怪值 Singular value

如果 A 是 m n 阶矩阵,q=min(m,n),A A 的 q 个非负特征值的算术平方根叫作 A 的奇怪值。

奇怪值合成 SVD

特征值合成能够不便的提取矩阵的特色,然而前提是这个矩阵是一个方阵。如果是非方阵的状况下,就须要用到奇怪值合成了。先看下奇怪值合成的定义:

$A=UΣV^T$

其中 A 是指标要合成的 m n 的矩阵,U 是一个 n n 的方阵,Σ 是一个 n m 的矩阵,其非对角线上的元素都是 0。$V^T$ 是 V 的转置,也是一个 n n 的矩阵。

奇怪值跟特征值相似,在矩阵 Σ 中也是从大到小排列,而且奇怪值的缩小特地的快,在很多状况下,前 10% 甚至 1% 的奇怪值的和就占了全副的奇怪值之和的 99% 以上了。也就是说,咱们也能够用前 r 大的奇怪值来近似形容矩阵。r 是一个远小于 m、n 的数,这样就能够进行压缩矩阵。

通过奇怪值合成,咱们能够通过更加大量的数据来近似代替原矩阵。

本文已收录于 www.flydean.com

最艰深的解读,最粗浅的干货,最简洁的教程,泛滥你不晓得的小技巧等你来发现!

欢送关注我的公众号:「程序那些事」, 懂技术,更懂你!

正文完
 0