共计 742 个字符,预计需要花费 2 分钟才能阅读完成。
1. 代价函数公式
线性回归函数与代价函数
2. 了解代价函数
依据训练集(training set)建设模型,通过代价函数的计算,寻求使得代价函数值最小的参数 w,b,以下为简略示例,为了简化模型,将 b 设为 0,右图为参数 w 和代价函数所求值的关系图
当 w = 1 时,代价函数的值 =0:
当 w =0.5 时,代价函数的值≈0.58
当 w = 0 时,代价函数的值 =2.3
通过在肯定范畴内寻找 w 的值,最终确定回归线性函数的值
3. 可视化代价函数
当 w,b 两个参数同时参加训练模型的代价函数计算,j,w,b 的关系图时一个三维的:
4. 梯度降落
实用于多个参数的更为个别的函数模型
对于不是碗状的函数模型,可能存在不止一个最小值
两条门路达到的最低点都称为部分最小值,沿着某一条门路梯度上来,不会走到另外一条门路,这是梯度降落法的一个个性
Gradient Descent algorithm 公式:
α 是学习率(learning rate):区间范畴为 0~1,一般来说是 0.01,作用:管制梯度降落的幅度
α/αwJ(w,b) 是对 w 参数的求偏导(derivative)
与上同理
梯度降落算法会反复以上两个更新步骤,直到算法收敛,以达到部分最优,计算 w 和 b 时,须要同时进行,下列左侧为 正确算法 ,右侧时 谬误算法
梯度降落中导数的意义:
- 斜率为正时,w 向横轴的左侧挪动,w 变小,j(w)变小
- 斜率为负时,w 向横轴的右侧挪动,w 变大,j(w)变小
学习率过小或过大造成的影响:
过小的状况下,梯度降落十分迟缓,统一老本函数 j 值降落过慢
过大的状况下,梯度降落过大,可能永远无奈到达到函数的最低值,甚至呈现发散的状况
如果参数是的代价函数降落到了部分最小值,梯度降落将进行
越靠近部分最小值,导数将变得更小,梯度降落更新将会变得更小,函数能够降落到部分最小值而不须要扭转学习率 α
正文完