核函数
某种非线性变换 φ(x),将输出空间映射到高维特色空间。φ(x) 个别是很难示意的,故咱们只用到 K 。在低维空间存在 K(x, x′),它恰好等于在高维空间中这个内积。简化计算,如 SVM(只用到内积),核 Kmeans(把求欧式间隔的平方公式合成,变成内积模式)。
常见核由高斯核,指数核,径向基核。
核函数是一种间隔公式,它能够用来生成特色。核函数首先在 samples 上找 1 个 landmark,而后计算其余所有数据同这个 landmark 的核函数间隔,之后将这个间隔作为一个特色应用。
概率和似然
已知参数对后果的预测是概率。
已知后果参数的取值概率是似然。
在已知某个参数 a 时,事件 A 会产生的条件概率能够写作 P(A;a),也就是 P(A|a)。咱们也能够结构似然性的办法来示意事件 A 产生后预计参数 a 的可能性,也就示意为 L(a|A) = P(A|a)。
似然函数乘以一个失常数还是似然海曙,不用满足归一化条件。
极大似然求解:连乘所有似然求最大值
逻辑回归
二分类,$y = \sigma (z) = \frac{1}{1+e^{-z}}$。
损失函数应用负的穿插熵,也就是似然函数(推导过程)。
如果用梯度回升求解就是极大似然。
如果梯度降落就是负似然,失常的二分类穿插熵。
- 应用极大似然或者穿插熵的起因:
1、极大似然。
2、为什么不必平方损失函数,收敛速度要更快,平方的梯度带 sigmoid 的导数(小于 0.25(f*(1-f);非凸函数,部分最优解多。 - 与多层感知器的关系:
前者为 sigmoid function,后者为 step function。
一种是最大似然,贝叶斯思维。另一种是函数拟合。
解决非线性问题要退出核技巧。