LiRank 是 LinkedIn 在 2 月份刚刚公布的论文,它联合了最先进的建模架构和优化技术,包含残差 DCN、密集门控模块和 Transformers。它引入了新的校准办法,并应用基于深度学习的摸索 / 利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。
LinkedIn 将其利用于 Feed、职位举荐和广告点击率预测后,带来了显著的性能改良:Feed 的会员会话减少了 0.5%,工作申请减少了 1.76%,广告点击率进步了 4.3%。
Large ranking models
Feed 排名模型
LinkedIn 的次要 Feed 排名模型应用逐点办法来预测每个 member 和候选 post 对的各种行为 (喜爱、评论、分享、投票、点击和长停留) 的可能性。这些预测被线性组合起来计算出一个 post 的最终得分。
模型是建设在 TensorFlow 多任务学习架构上,有两个次要组件: 用于点击和长停留概率的点击塔,以及用于奉献动作和相干预测的奉献塔。两个塔应用雷同的规范化密集特色和多个全连贯层,而稠密 ID 嵌入特色通过查找特定嵌入表转换为密集嵌入。
广告点击率模型
广告抉择应用点击率预测模型来预计会员点击举荐广告的可能性,而后为广告拍卖决策提供信息。一些广告商会计算“喜爱”或“评论”等社交互动,而另一些广告商只思考对广告网站的访问量,所以广告商能够定义什么是可免费的行为。CTR 预测模型是一个 MTL 模型,有三个头用于不同的免费类别,将类似的免费行为分组在一起。每个头应用独立的交互块,包含 MLP 和 DCNv2。模型还联合了来自会员和广告商的传统特色,以及代表广告商、流动和广告的 ID 特色。
DCNv2
为了加强特色交互捕捉能力,采纳了 DCNv2 模块。作者用两个低秩矩阵替换了权重矩阵,并通过嵌入表查找升高了输出特色维度,实现了近 30% 的参数缩小,这样能够大大降低 DCN 在大特色输出维度下的参数数量。另外还退出了低秩近似的注意力机制。
等温校准层(Isotonic Calibration Layer)
在深度神经网络(DNN)中,等温校准层(Isotonic Calibration Layer)用于改善网络输入概率的校准。校准指的是预测的概率与实在事件产生的概率之间的一致性。
模型校准对于确保预计的类别概率精确反映真实情况至关重要,因为参数空间的限度和多特色的可扩展性问题,传统的校准办法如 Platt 标度和等温回归在深度神经网络中面临挑战。为了克服这些问题,作者开发了一个定制的等温回归层,并间接与深度神经网络集成。这一层在网络中是可训练的,它应用分段拟合的办法对预测值进行分类,并为每个分类调配可训练的权重。ReLU 激活函数通过非负权重保障了等温性。对于具备多个特色的校准,将权重与校准特色的嵌入示意相结合,加强了模型的校准能力。
门控和 MLP
个性化嵌入被增加到全局模型中,能够促成密集特色之间的交互,包含多维计数和分类特色。作者发现减少 MLP 层的宽度能够进步模型性能,最大的测试配置是具备 4 层的 MLP,每个层宽 3500 个单元,次要在应用个性化嵌入时显示增益。作者在暗藏层引入了受 Gate Net 启发的门控机制来调节信息流,以最小的额定计算成本加强学习,并继续进步在线性能。
增量训练
大型举荐零碎须要常常更新,作者应用增量训练,不仅从先前的模型初始化权值,而且依据以后和先前模型权值的差别增加信息正则化项,并通过忘记因子进行调整。为了进一步加重灾难性忘记,还将初始冷启动模型和先验模型都用于权重初始化和正则化,并且引入一个称为冷权重的新参数来均衡初始模型和先验模型的影响。
训练的可扩展性
为了加强训练大型排名模型的可扩展性,应用了几种优化技术:
4D 模型并行: 利用 Horovod 跨多个 gpu 扩大同步训练,在 TensorFlow 中实现了 4D 模型并行办法。该办法通过全对全通信模式促成特色替换,缩小了梯度同步工夫,将训练工夫从 70 小时缩小到 20 小时。
Avro 张量数据集加载器: 作者实现了一个优化的 TensorFlow Avro 读取器(并且开源),实现了比现有读取器快 160 倍的性能。优化包含删除不必要的类型查看、交融 I / O 操作和主动均衡线程,从而将端到端训练工夫减半。
预取数据到 GPU: 为了解决 CPU 到 GPU 内存复制的开销,特地是在更大的批处理规模下,应用自定义的 TensorFlow 数据集管道和 Keras 输出层在下一个训练步骤之前并行预取数据到 GPU,优化训练期间 GPU 资源的应用。
试验后果
增量训练利用于 Feed 排名和广告点击率模型,在调整参数后显示出指标的显著的改良和训练工夫的缩小。
对于 Feed 排名,通过伪随机排名办法预计在线贡献率(喜爱、评论、转发),应用离线“重放”指标来比拟模型。这种办法容许对模型进行无偏的离线比拟。
在工作中,嵌入字典压缩和特定于工作的 DCN 层在没有性能损失的状况下,显著晋升了工作职位搜寻和 JYMBII 模型的离线 AUC。这使得在线 a / B 测试中的合格工作申请程序进步了 1.76%。
对于广告点击率,在多层感知机基线模型的根底上,应用 ID 嵌入、量化和等渗校准等技术进行了渐进式改良。这些技术使得在线 a / B 测试的点击率绝对进步了 4.3%。
总结
这是一篇十分好的论文,不仅介绍了模型的细节,还介绍了 LinkedIn 是如何在线上部署训练和治理模型、解决大量数据的,这些教训都值得咱们学习。
为什么 LinkedIn 会始终关注排名模型?
LinkedIn 是一个面向职业人士的社交网络平台也就是说它的用户比 FB 更加业余,更加集中。这样对于数据方面是有人造的劣势的。另外 LinkedIn 的业务也比拟繁多,所以应用 AI 来改善业务需要也比 FB 等大型公司要大的多,并且成果也十分好评估,所以 LinkedIn 的这篇文章十分值得咱们去深刻的钻研和学习。
论文地址:
https://avoid.overfit.cn/post/e3d54a21fd8b4cce8f730110aa1a65f2
作者:Andrew Lukyanenko