核函数

某种非线性变换 (x),将输出空间映射到高维特色空间。(x)个别是很难示意的,故咱们只用到K。在低维空间存在 K(x, x′) ,它恰好等于在高维空间中这个内积。简化计算,如SVM(只用到内积),核Kmeans(把求欧式间隔的平方公式合成,变成内积模式)。
常见核由高斯核,指数核,径向基核。

核函数是一种间隔公式,它能够用来生成特色。核函数首先在samples上找1个landmark,而后计算其余所有数据同这个landmark的核函数间隔,之后将这个间隔作为一个特色应用。

概率和似然

已知参数对后果的预测是概率。
已知后果参数的取值概率是似然。

在已知某个参数a时,事件A会产生的条件概率能够写作P(A;a),也就是P(A|a)。咱们也能够结构似然性的办法来示意事件A产生后预计参数a的可能性,也就示意为L(a|A) = P(A|a)。

似然函数乘以一个失常数还是似然海曙,不用满足归一化条件。

极大似然求解:连乘所有似然求最大值

逻辑回归

二分类,$y = \sigma (z) = \frac{1}{1+e^{-z}}$。
损失函数应用负的穿插熵,也就是似然函数(推导过程)。

如果用梯度回升求解就是极大似然。

如果梯度降落就是负似然,失常的二分类穿插熵。

  • 应用极大似然或者穿插熵的起因:
    1、极大似然。
    2、为什么不必平方损失函数,收敛速度要更快,平方的梯度带sigmoid的导数(小于0.25(f*(1-f);非凸函数,部分最优解多。
  • 与多层感知器的关系:
    前者为sigmoid function,后者为step function。
    一种是最大似然,贝叶斯思维。另一种是函数拟合。

解决非线性问题要退出核技巧。