关于深度学习:恒源云Teacher-Forcing训练小技巧来啦～

文章起源 | 恒源云社区

原文地址 | Teacher Forcing

原文作者 | Mathor

年底啦年底啦～要放假啦放假了～
不整大活，搞点小内容分享一下吧！

注释开始

本文次要介绍一下Teacher Forcing这个训练过程中的技巧

以Seq2Seq为例，在训练过程中，\( t_0 \) 时刻Decoder的输出是"<SOS>“，输入可能并不是正确的后果"the”，比方说输入了一个谬误的后果"like"。那么问题就来了，到了\( t_1 \)时刻，应该持续以正确的单词"the"作为输出，还是将上一时刻\( t_0 \)的输入"like"作为输出呢？

其实下面的问题，波及到两种齐全不同的训练形式

不论上一时刻输入是什么，以后时刻的输出总是规定好的，依照给定的target进行输出
以后时刻的输出和上一时刻的输入，是有关联的。具体来说就是，以后时刻的输出就是上一时刻的输入

如果要用比拟不太谨严的比喻来说，第一种训练形式相当于就是小明学习的时候旁边坐了一位学霸，当发现小明在做序列生成题目的时候，每一步都把上一步的正确答案给他偷看。那么小明当然只须要顺着上一步的答案的思路，计算出这一步的后果就行了。这种做法，比起本人每一步都瞎猜，当然可能无效的防止误差进一步放大，同时在学习后期还能通过学霸辅导的这种形式疾速学到很多的常识。

然而第一种训练形式存在以下的问题：

在解码的时候生成的字符都会受到 Ground-Truth 的束缚，心愿模型生成的后果都必须和参考句一一对应。这种束缚在训练过程中缩小模型发散，放慢收敛速度。然而一方面也扼杀了翻译多样性的可能
在这种束缚下，还会导致一种叫做 Overcorrect(矫枉过正) 的问题。例如：

待生成句的Reference为: “We should comply with the rule.”
模型在解码阶段中途预测进去：“We should abide”
然而依照规定，将第三个ground-truth “comply” 作为第四步的输出。那么模型依据以往学习的pattern，有可能在第四步预测到的是 “with”
模型最终的生成变成了 “We should abide with”
事实上，“abide with” 用法是不正确的，然而因为ground-truth “comply” 的烦扰，模型处于矫枉过正的状态，生成了不通顺的语句

如果应用第二种形式，其中只有一步预测错，前面的预测就会越来越跑偏，很难收敛

而Teacher Forcing正好介于上述两种训练方法之间。具体来说就是，训练过程中的每个时刻，有肯定概率应用上一时刻的输入作为输出，也有肯定概率应用正确的target作为输出

能够参考上面的伪代码

teacher_forcing_ratio = 0.5teacher_forcing = random.random() < teacher_forcing_ratioif teacher_forcing:    passelse:    pass