线性代数内容都很连贯,整体就是 [ 行列式-->矩阵-->n维向量-->线性方程组-->类似对角型-->二次型 ]。行列式就是一个值,行列式为0则对应线性方程组有多解,且对应矩阵不可逆,若为0则解惟一。n维向量可由矩阵示意。线性方程组又可示意成n维向量的模式,有齐次和非齐次两种。
通过特色合成能够将方阵类似对角化,让矩阵的特色更直观的体现。一种乏味的思维是,矩阵能够看作一个变换,他作用在特定的正交基上,对每个维度进行拉伸和膨胀。特色合成正是失去了这个正交基(特征向量)以及相应的收放系数(特征值)。其中,实对称矩阵肯定能够正交类似对角化。
二次型与解方程组非亲非故。咱们通常关注的是如何将二次型转化为标准型,这里也会引申出正定负定的概念。转化为标准型后,每一个变量仅与本人相互作用,这和PCA降维很像啊。
学习线性代数我认为有两个作用。一是读论文能看懂每一步在干嘛,二是了解数据的并行处理。上面补充一下比拟重要的知识点。

1.行列式

所有都要从行列式说起。行列式$D$能够通过行列展开式计算,即$D=a_{i1}A_{i1}+a_{i2}A_{i2}+a_{i3}A_{i3}+...+a_{in}A_{in}$,其中$A=(-1)^{i+j}M_{ij}$称为代数余子式,$M$为余子式。行列式的性质包含:

  • 调换两行变号
  • 如果两行相等则$D=0$(将这两行变号后,$-D=D$)
  • $k\times D$等价于$D$的某一行/列乘上$k$(将行列式按此行开展,能够将k提出)
  • 行列式某一行+另一行后,值不变
  • 齐次线性方程组$AX=0$若要有非0解,须要$|A|=0$,即行列式奇怪,如果不为0,则线性方程组只有惟一0解。

2.矩阵

最重要的一点,只有方阵才能够探讨其行列式及可逆性。这一部分的知识点连起来很好记,注:初等变换不扭转行列式是否为0
$$\begin{array}{lcl} 矩阵满秩 \\\ \Leftrightarrow行列式不为0 \\\ \Leftrightarrow矩阵非奇怪 \\\ \Leftrightarrow矩阵可示意为一系列初等矩阵的乘积 \\\ \Leftrightarrow矩阵与E等价 \\\ \Leftrightarrow矩阵可逆 \\\ \Leftrightarrow方程组有惟一解 \end{array}$$
其余的知识点,如下:

  • 同阶方阵$|AB|=|A||B|$
  • 随同阵$A\cdot A^* = A^*\cdot A = |A|E$
  • 由随同阵咱们也就失去了逆矩阵的求解形式之一:$A^{-1}=\dfrac{A^*}{|A|}$

3.n维向量

  • 首先要理解线性相关:1个向量可由其余m-1个向量线性示意,称作线性相关,所以任意蕴含0向量的向量组均线性相关
  • m个n维向量如果线性相关,则秩$ r(A)_ {m\times n}<m $,当 m>n时,肯定线性相关,因为 $ r(A)_ {m\times n} <=n<m $
  • 矩阵相乘秩不会增大$r(A\cdot B)<=min\{r(A),r(B)\}$
  • 正交阵不仅要求行列正交,并且行列都是单位向量,即单位正交阵$|A|=_-^+1,AA^T=E$

4.线性方程组

m个n维向量(m个方程,n个未知变量)组成的方程组,当其系数矩阵A(m*n)的秩r(A)<n时,则其根底解系基向量有n-r个,当m小于n时,能够看作约束条件少,秩r(A)<=m<n则肯定能够有根底解系,当秩r(A)=n时,只有0解。线性方程组刚好能够和数据集分割起来。每一条样本当作一个方程,当只用线性模型拟合数据集时,样本越多,代表束缚越多。当样本数太多,线性模型参数解将会惟一,而当特色增多时,代表信息越多,数据集越容易线性可分,当特色数超过样本数时,其秩肯定小于行数,则肯定存在根底解系。其余的本人想吧。
$$\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_1+\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_2+...+\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_n=0$$
初等变换等价标准型:
$$\bold I_{m\times n}=\Bigg( \begin{array}{lcl} 1\quad\quad\space b_{1,1}\space...\space b_{1,n-r}\\\ \quad...\quad b_{2,1}\space...\space b_{2,n-r} \\\ \quad\quad 1 \space b_{r,1}\space...\space b_{r,n-r} \\\ 0 \quad...\quad 0 \quad ... \quad 0 \\\ 0 \quad...\quad 0 \quad ... \quad 0 \end{array} \Bigg)$$
对于非齐次方程$AX=b$,只有当$r(A)=r(\bar{A})$时,方程组有惟一解,后者为增广矩阵。类比于线性模型的数据集,只有当特色数>样本数时,若特色无关(PCA降维前驱),则肯定线性可分,label肯定能够线性示意。当特色数少于样本数时,则特色只能线性示意样本中的一类点,而不能示意全副

5.类似对角型和二次型

  • $A\sim B:B=P^{-1}AP,|A|=|B|$
  • 特征向量与特征值:$A\alpha=\lambda\alpha,解特征值可通过解方程(A-\lambda E)\alpha=0失去$
  • 类似对角化:实对称矩阵肯定能够类似对角化,且是正交类似
  • 正交合同:$A=P^TBP$,能够发现,类似和正交合同肯定是等价标准型,然而类似不仅要求等价规范,还要求行列变换互逆;而正交合同则要求行列变换互为转置。
  • 二次型肯定能够化为标准型,因为实对称矩阵正交类似即合同
  • 实对称矩阵正定则各阶奴才式>0,则特征值全>0
  • 二次型变换与PCA神似。都是正交基的转换,不过PCA会波及到降维

6.范数

范数(norm)常常作为参数束缚应用,像多任务学习中的束缚项、指标函数中的权重衰减、RNN中的梯度裁剪等都会用到范数。

  • 向量L1范数:$||W||_1$,在每个地位的斜率雷同均为1
  • 向量L2范数:$||W||_2$,与整体向量相干
  • 向量L2平方范数:$||W||_2^2$,每个元素仅与本身相干,但原点处增长非常迟缓
  • 矩阵F范数$||A||_ F=\sqrt{\sum\limits_ {ij}A_{ij}^2} $,相似于向量L2范数

7.其余

对角阵

对角阵与X的矩阵乘积相当于将X的每个元素放大了Vi倍,这个性质应该很有用,尽管我也想不起来哪里有用
$$diag(V)\cdot X=V\bigodot X$$

正交阵

还是独自点一下,理论后面类似对角化提到过了,正交阵是单位正交,矩阵的逆和矩阵的转置雷同
$$A^TA=AA^T=I$$

$$A^{-1}=A^T$$

特色合成

针对方阵咱们有特色合成能够应用(前提是矩阵可逆),矩阵合成能够看作矩阵A作用于n个特征向量所组成的正交基,相当于在每个方向$V_i$上延展了特征值$\lambda_i$倍,对正交空间拉伸或膨胀。特色合成常常用于各种降维算法外面,像PCA和LDA(线性判别分析,不是潜在迪利克雷散布模型)。有一些乏味的性质须要记一下:

  • $A=Q\Lambda Q^{-1}$,前提是A有n个线性无关的特征向量,实对称矩阵肯定能够类似对角化
  • 如果A有0特征值,那么A将是奇怪的。$Av=0$,所以A列向量线性相关,所以A不满秩,所以A不可逆,所以A奇怪
  • 半正定矩阵可
  • 保障$X^TAX>=0$
SVD

对于方阵有特色合成,那对于个别矩阵就能够应用奇怪值合成。
$$A_{m\times n}=U_{m\times m}D_{m\times n}V^T_{n\times n}\begin{cases}U:AA^T的特征向量,左奇怪向量 \\\ D:A^TA的特征值的平方根,奇怪值 \\\ V^T:A^TA的特征向量,右奇怪向量\end{cases}$$
奇怪值合成作为一种矩阵合成办法,也常常用到降维场景,像PCA,相较于特色合成的长处是:在应用右奇怪向量对特色进行降维时,防止了与数据量线性相关,速度更快。

Moore-Penrose伪逆

奇怪矩阵不可逆,那有没有方法求逆呢?答案是有的,对于$AX=y$,矩阵A的伪逆运算$A^+=\lim\limits_{\alpha\rightarrow 0}(A^T+\alpha I)^{-1}A^T$,理论中常常会用奇怪值合成进行伪逆求解$A^+=VD^+U^T$。伪逆运算能够这么了解,退出正则化后,使得欠定问题可定。

  • 当A行数<列数时,$X=A^+y$是$||x||_2$最小的一个
  • 当行数>列数时,可能无解,有解时失去的x使得$||AX-y||_2$最小

能够看出,这就是正则化的作用。

迹运算

迹运算就是对角线元素的乘积。最有用的一条性质是:$||A||_F=\sqrt{Tr(AA^T)}$

行列式

行列式D=特征值的乘积。$|A-\lambda E|=(\lambda-a_1)...(\lambda-a_n),令\lambda=0,则|A|=a_1a_2...a_n$
行列式的绝对值掂量了矩阵参加乘积后体积扩充或者放大了多少。当|D|=0,阐明空间沿着某一维齐全膨胀了;当|D|=1,阐明空间体积放弃不变。