乐趣区

关于机器学习:全球400多支团队参加鹅厂是如何拿下冠军的

来自中国、美国、新加坡、日本、印度等国家的 400 多支顶级团队加入了往年 WSDM Cup 大赛,腾讯拿下两大子赛道冠军。

ACM 国内 WSDM(Web Search and Data Mining)会议是信息检索畛域顶级会议之一。
往年,第 16 届 ACM 国内 WSDM 会议的论文的接管率为 17.8%。WSDM Cup 由 WSDM 会议举办,本次大赛共设置三个赛道:无偏排序学习和互联网搜寻预训练模型赛道、跨语言间断体的多语言信息检索赛道和视觉问答挑战赛道。

在腾讯太极机器学习平台和混元 AI 大模型助力下,腾讯机器学习搜寻团队(参赛队名:腾讯机平搜寻团队(TMLPS))加入了无偏排序学习和互联网搜寻预训练模型赛道,并在该赛道的两项子工作中(“Pre-training for Web Search”和“Unbiased Learning to Rank”)双双夺冠。与此同时,相干技术也广泛应用于微信搜一搜、腾讯广告等多个产品,获得了显著的业务收益。

咱们是如何做到的?

工作介绍

1.1 数据集简介

  • 大型会话搜寻数据集[1]

数据是主办方提供的搜寻会话 (Session) 数据, 波及到约 3.8 亿 query 及 12 亿的 document。全数据通过脱敏解决,内容不具备可读性。Session 数据中蕴含:1)记录了页面体现特色(文档媒体类型、文档展示高度和题目与摘要等)的候选文档列表 (通常少于 10 个);2)以后 Session 下的用户行为特色(点击、停留时长和滑屏次数等)。

具体该数据集所记录的所有特色展示如下图所示:

图左: Session 数据中的页面文档体现特色。从 D1 到 D8 共有 8 个体现特色。
图右: Session 数据中用户行为特色。从 U1 到 U18 共有 18 种用户行为。

下图从不同的角度展现对该数据集的剖析。

Session 数据的数据分析

  • 专家标注数据集

专家标注数据集从 Session 数据随机抽取,每个文档与 query 的相关性由标注人员判断标注。每个文档依据相关性的强弱被标注为 5 个等级。表 1 -1 展现了每个等级文档的比例散布。表 1 -1 不同等级文档的数量以及所占比例

在本次较量中,该数据集一共被分为了三份。一份用于验证集,一份用于较量第一阶段测试集,最初一份用于较量第二阶段的测试集。

1.2 工作形容

  • Pre-training for Web Search

预训练技术在深度学习中失去了宽泛的使用。目前支流的预训练形式次要基于自然语言解决,学习给定语料中的语言建模能力,例如 masking token prediction 工作与 next sentence prediction 工作。然而这样的预训练并非与搜寻排序相干,在预训练任务中引入搜寻排序相干的工作使得模型更加贴近于上游工作成了搜寻预训练钻研中重要的课题。此工作中,参赛者须要在给定中大型搜寻日志中进行搜寻排序相干的预训练,并联合专家标注数据进行模型微调,产出一个无效地搜寻排序模型。

  • Unbiased Learning to Rank

点击日志能提供大量的查问 - 文档相关性反馈,然而用户的点击信号通常存在很多乐音(bias),次要来源于诸如地位、展示模式、网页权威度、点击必要性等因素的影响。为了打消点击数据中潜在的乐音,无偏排序学习(Unbiased Learning to Rank,ULTR) 失去了宽泛的钻研。在此工作中,参赛者仅可利用大型搜寻日志(不能应用专家标注数据),通过文章内容、展示特色、用户交互行为特色等因素进行无偏排序学习训练。

1.3 评测指标

本次较量采纳折损累积收益 (DCG) 用于评估排名模型的性能。对于𝑁 个曾经排好顺讯的文档列表,DCG 计算公式为:

Pre-training for Web Search 赛道解决方案

2.1 整体计划

图 2 -1 预训练赛道中的四阶段训练策略

在此工作中,咱们旨在通过点击日志进行语言模型预训练与专家标注数据微调解决搜寻排序工作。因为全数据通过脱敏解决,咱们须要从随机参数模型进行预训练到微调的残缺步骤。计划整体为以下四个阶段:

  • 阶段 1——CTR 工作预训练:

首先,咱们通过语言建模工作 masking language modeling (MLM)与 CTR 预估工作进行预训练。在 MLM 工作中,应用官网提供的 unigram_dict.txt 文件进行词组匹配,通过 whole word masking 的形式对掩码进行预测,实现语言建模能力。与此同时,咱们构建了一种 group-wise CTR 预估训练形式。一个大小为 K 的 group 蕴含了一个点击文档作为正例,与 K - 1 的非点击文档作为负例。与基于残缺文档列表的 point-wise 训练形式相比,group-wise 训练形式通过点击文档与非点击文档之间的比照学习,更好地保障了点击文档的相关性要比非点击文档的相关性要高,进而晋升了排序工作的成果。(point-wise 预训练模型的成果约为 DCG@10 约为 7.6~8,groupwise 预训练模型的成果约为 DCG@10 约为 8.6~9)

  • 阶段 2——基于用户行为特色进行去噪预训练:

为了更好地缩小预训练期间点击乐音的影响,咱们利用用户行为特色来欠缺阶段 1 的预训练指标。具体来说,通过用户在每个点击文档上的停留时间来过滤阶段 1 中的训练组,要求点击文档的停留时间应比其余未点击文档长于一个给定阈值𝜖。通过数据过滤,进而通过 group-wise CTR prediction 的工作进行预训练。这样训练样本品质更好,点击的文档更有可能是一个实在正样本,进一步地优化了模型的排序成果。

  • 阶段 3——专家标注数据微调:

在预训练实现后,咱们应用专家标注数据集微调模型,其中每个候选文档都标记有五级相关性。咱们应用 margin ranking loss 来微调咱们的模型。其中𝑑+ 是从相关性大于或等于 2 的文档中采样,𝑑−是从相关性低于𝑑+ 的文档中采样。margin 在咱们的工作中设置为 1。微调模型前 DCG@10 约为 9.1,微调后模型 DCG@10 约为 11.3~11.9。

  • 阶段 4——集成学习:

表 2 -1:额定引入的排序学习特色

为了进一步晋升模型的排序成果,咱们应用了多个 BERT ranker 的分数与表 2 - 1 中的排序特色作为 LambdaMart 的输出进行集成学习。因为在人工标注数据上对 LambdaMart 进行训练,短少可调参的数据集。咱们采纳五折穿插验证的形式,确定 LambdaMart 的参数设置,进而计算测试集上的文档的相关性分数。集成学习后,模型成果由 DCG@10=11.9 晋升到 12.16。

2.2 试验后果

表 2 -2:预训练 BERT 模型的成果

图 2 -2:集成学习中各种特色的重要性分数

咱们列出了每个预训练 BERT 模型的成果与集成学习中的特色重要性分数,能够发现应用大模型(BERT-24 层)能比 BERT-12 层无效地晋升排序成果;同时,基于用户行为特色的 debiased pre-training model 能无效地缩小点击噪声的影响,进而晋升最终排序成果。

Unbiased Learning for Web Search 赛道解决方案

3.1 整体计划

图 3 -1 经典基于 PBM 假如的办法与咱们所提出办法的总体框架比照

如图 3-1(a) 所示,业界 [3,4] 常采纳基于 Position-based Model(PBM)[2]假如的办法对训练 unbias learning to rank (ULTR) 模型。PBM 的根本假如是:

换言之,PBM 认为 document (文档,以下简称 doc) 只有在该 doc 被用户测验并且它与用户输出的 query 相干时才会被点击。如图 3 -1(a) 所示,大多数 PBM-based 办法在预测测验偏置项时,只思考了地位信息。即,这些办法认为 doc 被用户测验的概率只与它排序的地位 (position) 无关 (排名靠前则更容易被用户看到)。然而,用户测验 doc 的步骤通常能够分为两步:

  • 首先用户须要可能察看到该文档;
  • 在察看到文档的根底上用户依据 doc 的表现形式来感知 query 与 doc 之间的相关性,如果用户感觉相干的话,就会进行点击。

在第一步中,doc 的排序地位的确对用户是否察看到该 doc 造成极大影响。然而在用户感知 doc 相关性时,地位的影响微不足道,而包含 doc 的媒体类型(media type,以下简称 mType)、doc 在搜寻页面的展现高度 (以下简称 serpH) 以及 doc 摘要中的 term 命中 query 中要害 term 的次数等 doc 在表现形式上的差别都对用户感知 doc 相关性造成关键性的影响。

因而咱们提出了一种用于去除测验偏置 (蕴含感知偏置在内) 的多特色集成模型。模型的总体框架如图 3 -1 (b) 所示,它与图 3-1 (a) 有三个不同之处:

  • 在 examination-bias model 中除了依赖于地位偏置之外。咱们还能够集成包含 mType、serpH、slipoff count (点击后用户的滑屏次数)。其中,mType 与 serpH 代表着显式的文档示意模式差别特色对测验偏置中用户感知偏置的影响。这些显式的特色在理论利用中须要依据搜寻场景的不同而进行调整。而 slipoff count 则示意隐式的用户反馈特色。因为当用户因为感知谬误而点进对应 doc 时,他很快能依据文档的内容判断 doc 的不相关性,个别也就不会进行滑屏而间接退出文档。因而,退出用户的隐式反馈作为 examination-bias model 估算测验偏置的根据是非常有必要的。同时,这种隐式反馈特色能够在任何搜寻场景估算测验偏置时实用;
  • 因为在 examination-bias model 中集成了多种特色,所以咱们适当的减少了它全连贯层的深度(1 层 –> 5 层)。此外,BatchNorm (BN) 的引入对于减速模型的收敛起到了至关重要的作用;
  • 相比于图 3-1(a),咱们还引入了一个实用的 trick,即 Group Selection Layer,它等价于 Pre-training 赛道所应用的 group-wise 预训练形式,在本次工作中起到了很好的成果。

除以上三点之外,relevance model 侧应用 pre-training 工作中预训练的模型参数作为热启动也是一个关键点。如果不做热启动,examination-bias model 和 relevance model 的初始预测值都比拟差,极大地加大了模型初始的训练难度,并且两侧模型存在互相误导的危险。试验中,做热启动与否的 DCG@10 相差 0.8 左右,并且不做热启动的模型收敛工夫是做了热启动的模型的三倍。

3.2 试验后果

如表 3-1 所示,咱们测试了不同特色组合下,模型的性能变动。能够察看到在地位特色的根底上,引入 doc 的表现形式特色以及用户行为特色可能在 PBM-based 模型的根底上无效的晋升模型的性能。

表 3 -1 应用不同特色时,模型的性能变动

此外,如表 3-2 所示,咱们还测试了不同超参数设置下,模型性能的变化趋势。通过参数搜寻,在当前任务中,将 examination-bias model 的层数设置为 5 层,同时将 group size 参数设置为 6 时,模型性能最佳。

表 3 -2 不同超参数下,模型的性能变动(L 代表层数,G 代表训练组大小)

总结与瞻望

4.1 Pre-training for Web Search

点击日志是预训练搜寻排序工作的贵重资源, 在该工作中咱们总结了以下办法能够无效地晋升排序成果:

  • Group-wise CTR prediction 工作比 Point-wise CTR prediction 工作更好地晋升排序成果。
  • Whole word masking 在中文工作上能进一步晋升语言建模能力。
  • 通过用户行为特色对点击数据进行荡涤过滤,能够使得模型学习到更为牢靠的相关性关系,进而晋升模型成果。
  • 应用大模型在 cross-encoder 的构造上,能无效地晋升相关性排序成果。

4.2 Unbiased Learning to Rank

在该工作中咱们重点摸索了以下两点:

  • 提出了一个可能借助更多上下文特色(用户行为特色与文档表现形式特色)的多特色集成框架以更好的对点击数据进行去偏,验证了多种不同类特色在晋升模型去偏能力上的成果。
  • 工作过程中发现,并不是退出越多的去偏特色模型的性能就会越好,特色过多反而会导致模型学习的难度变大、收敛更慢。理论利用中,须要通过试验正当地抉择特色、表征特色以进行标签去噪。

较量链接:Unbiased Learning to Rank and Pre-training for Web Search
较量残缺代码与论文:GitHub – lixsh6/Tencent_wsdm_cup2023

退出移动版