关于深度学习:恒源云-Gpushare炼丹必备调参心法说人话系列

42次阅读

共计 878 个字符,预计需要花费 3 分钟才能阅读完成。


不行了,临上班前看见社群里有个小哥哥发了一大段话,太太太……搞笑了!!!
为啥明明很深奥的情理,到他笔下就那么的……接底气????
这我可就不想急着上班了,我得让大家一起高兴啊😂

这个分享就叫: 说人话系列

内容起源:【炼丹必备】调参心法

创作者:阿洲

残缺内容如下:

现实状态下,咱们最想看到的是训练损失降落,验证损失降落,并且验证损失大于训练损失,当然现实很饱满,事实很骨感,一起来看看以下常见的状况和思路剖析把。

A:训练损失降落,验证损失降落,然而验证损失小于训练损失。这种状况最须要留神的就是查看一下验证集的数据,确保验证集数据不会太少或者是太简略了。

B:训练损失降落,验证损失不变甚至开始回升了,这种状况就是模型训练过拟合啦,阐明模型开始自以为是了,问题太好可能是题太简略了,所以须要减少难度了,比方减少点 dropout rate。

C:训练损失不变,验证损失降落。啥?平时作业都做不利索,考试的时候你考第一?查,这小子必定舞弊了!连忙查查训练集和验证集的数据把。

D:训练损失不变,验证损失也不变,怎么了,躺平了是吧?可能的确是难度太大了,升高点学习率吧,咱学慢点,别步子迈的太大了,batch size 也调下来点,慢点吃,别塞着了。还能够看看一些非正常状况,比方你数据的 label 都是错的,或者 Loss 函数都写错了,那这就别怪我躺平了,真学不了。

E:训练损失不变,验证损失回升,祝贺你,遇到疑难杂症了,我帮不了,解铃还须系铃人,本人再好好查查数据集把,个别人遇不到这种状况。

F:训练损失回升,打住打住,我不想听你验证损失怎么了,你这训练损失回升,反向学习给谁看呢?反向学习还能学的这么认真?连忙给我停下来,看看是什么样【蠢才】的网络设计,或者是什么狗屁不通的超参组合,我劝你耗子尾汁。

G: 损失值呈现了 nan, 你小子诚实交代,是不是本人设计了一个 loss 函数?连忙查查看把,什么?你没设计?那你看看你数据外面是不是就有 nan 呀?什么?也没有?那难道是梯度爆炸了?也,也不是?神仙难救,神仙难救啊!

对于调参炼丹,您有啥独门秘籍,说进去给咱开开眼呗,别藏着掖着啦。

正文完
 0