乐趣区

关于机器学习:KDD-Cup-2020-AutoGraph比赛冠军技术方案及在美团的实践

背景

ACM SIGKDD(国内数据挖掘与常识发现大会,简称 KDD)是数据挖掘畛域的国内顶级会议。KDD Cup 较量是由 SIGKDD 主办的数据挖掘钻研畛域的国内顶级赛事,从 1997 年开始,每年举办一次,是目前数据挖掘畛域最具影响力的赛事。该较量同时面向企业界和学术界,星散了世界数据挖掘界的顶尖专家、学者、工程师、学生等加入,为数据挖掘从业者们提供了一个学术交流和研究成果展现的平台。KDD Cup 2020 共设置五道赛题(四个赛道),别离波及数据偏差问题(Debiasing)、多模态召回问题(Multimodalities Recall)、自动化图学习(AutoGraph)、反抗学习问题和强化学习问题。

美团到店广告平台搜寻广告算法团队基于本身的业务场景,始终在一直进行前沿技术的深刻优化与算法翻新,团队在图学习、数据偏差、多模态学习三个前沿畛域均有肯定的算法钻研与利用,并获得了不错的业务后果。基于这三个畛域的技术积攒,咱们在较量中抉择了三道紧密联系的赛题,心愿利用并晋升这三个畛域技术积攒,带来技术与业务的进一步冲破。搜寻广告算法团队的黄刚强、胡可、漆毅、曲檀、明健、博航、雷军与中科院大学唐兴元独特组建参赛队伍 Aister,加入了 AutoGraph、Debiasing、Multimodalities Recall 三道赛题,最终在 AutoGraph 赛道中取得了冠军(1/149),在 Debiasing 赛道中取得冠军(1/1895),并在 Multimodalities Recall 赛道中取得了季军(3/1433)。

近些年来,图神经网络(GNN)在广告零碎、社交网络、常识图谱甚至生命科学等各个领域都失去了越来越宽泛的利用。广告零碎中存在着较为丰盛的 User-Ad、Query-Ad、Ad-Ad、Query-Query 等结构化关系,搜寻广告算法团队胜利地将图示意学习利用于广告零碎上,业务成果失去了肯定的晋升。此外,基于广告零碎上图学习的技术积攒,团队在往年 KDD Cup 的 AutoGraph 赛道中斩获了第一名。本文将介绍 AutoGraph 赛题的技术计划,以及团队在广告零碎中图示意学习的利用与钻研,心愿对从事相干钻研的同学可能有所帮忙或者启发。

赛题介绍与问题剖析

AutoGraph 问题概述

自动化图示意学习挑战赛(AutoGraph)是有史以来第一个利用于图构造数据的 AutoML 挑战,是 AutoML 与 Graph Learning 两个前沿畛域的联合。KDD Cup 2020 中的 AutoML 赛道挑战,由第四范式、ChaLearn、斯坦福大学和 Google 提供。

图构造数据在事实世界中无处不在,例如社交网络、论文网络、常识图谱等。图示意学习始终是一个十分热门的话题,它的指标是学习图中每个结点的低维示意,而后可用于上游工作,例如社交网络中的敌人举荐,或将学术论文分类为援用网络中的不同主题。传统做法个别利用启发法从图中提取每个结点的特色,例如度统计或基于随机游走的相似性。近些年来,业界提出了大量用于图示意学习工作的简单模型,例如图神经网络(GNN)[1],曾经帮忙很多工作(例如结点分类或链接预测)获得了新的成绩。

然而,无论是传统的启发式办法还是最近基于 GNN 的办法,都须要投入大量的计算和专业知识资源,只有这样能力取得令人满意的工作性能。例如在 Deepwalk[2]和 Node2Vec[3]中,必须对两种家喻户晓的基于随机游动的办法进行微调,以取得各种不同的超参数,例如每个结点的游走长度和数量、窗口大小等,以取得更好的性能。而当应用 GNN 模型时,例如 GraphSAGE[4]或 GAT[5],咱们必须破费大量工夫来抉择 GraphSAGE 中的最佳聚合函数或 GAT 中多头自注意力头的数量。因而,因为人类专家在调参过程须要付出大量工夫和精力,进而限度了现有图示意模型的利用。

AutoML[6]是升高机器学习应用程序中人力老本的一种无效办法,并且在超参数调整、模型抉择、神经体系结构搜寻和特色工程方面都获得了令人鼓舞的问题。为了使更多的人和组织可能充分利用其图构造数据,KDD Cup 2020 AutoML 赛道举办了针对图构造数据的 AutoGraph 比赛。在这一比赛中,参与者应设计一个解决方案来自动化进行图示意学习问题(无需任何人工干预)。该解决方案能够基于图的给定特色、邻域和构造信息,无效而高效地学习每个结点的高质量示意,解决方案应设计为主动提取和利用图中的任何有用信号。

本次 AutoGraph 比赛针对自动化图学习这一前沿畛域,抉择了图结点多分类工作来评估示意学习的品质。比赛官网筹备了 15 个图构造数据集,其中 5 个数据集可供下载,以便参赛者离线开发其解决方案。除此之外,还将向参与者提供另外 5 个反馈数据集,以评估其 AutoGraph 解决方案的公共排行榜得分。之后,无需人工干预,比赛的最初一次提交将在残余的 5 个数据集里进行评估,这 5 个数据集对于参赛者而言是始终不可见的,评估排名最终会被用来评估所有参赛者的解决方案。而且,这些数据集是从实在业务中收集的,随机划分为训练集和测试集,每个数据集给予了图结点 id 和结点特色,以及图边和边权信息,并且每个数据集都给了工夫估算。参赛者必须在给定的工夫估算和算力内存限度下设计一个自动化图学习解决方案,对每个数据集进行结点分类。每个数据集会通过精度(Accuracy)来评估准确性,通过精度能够确定参赛者们在每个数据集的排名,最终排名将依据最初 5 个数据集的均匀排名来评估。

数据分析与问题了解

咱们对离线五个图数据集进行剖析,发现其图的类型多种多样,如下表 1 所示。从图的均匀度能够看出离线图 3、4 较为浓密,而图 1、2、5 较为稠密,从特色数量能够看出图 1、2、3、4 带有结点特色,图 5 无结点特色,同时咱们发现图 4 是有向图而图 1、2、3、5 是无向图,咱们思考将图类型划分为有向图 / 无向图、浓密图 / 稠密图、带特色图 / 无特色图等。

从表 1 中,咱们也能够看出大部分图数据集的工夫限度都在 100 秒左右,这是一个很短的工夫限度,大部分神经网络架构和超参数搜寻计划 [7,8,9,10] 都须要一个较长的搜寻工夫,须要数十个小时甚至长达数天进行架构和超参数搜寻。因而,不同于神经网络架构搜寻,咱们须要一个构造和超参数疾速搜寻的计划。

如图 3 所示,咱们发现在图数据集 5 上存在着模型训练不稳固的问题,模型在某个 epoch 上验证集精度显著降落。咱们思考次要是图数据集 5 易于学习,会产生过拟合景象,因而咱们在自动化建模过程中须要保障模型的强鲁棒性。

同时,从下图 4 能够发现,不同于传统的固定数据集评测数据挖掘比赛,保障多个类型,散布差别大的数据集排名的稳定性相比于优化某个数据集的精度更为重要。例如,数据集 5 模型精度差别仅有 0.15%,却导致了十个名次的差别,数据集 3 模型精度差别有 1.6%,却仅导致 7 个名次的差别,因此咱们须要采纳排名鲁棒的建模形式来加强数据集排名的稳定性。

问题挑战

基于以上数据分析,该赛题中存在以下三个挑战:

  • 图数据的多样性:解决方案要在多个不同的图构造数据上都能达到一个好的成果,图的类型多种多样,蕴含了有向图 / 无向图、浓密图 / 稠密图、带特色图 / 无特色图等。
  • 超短工夫估算:大部分数据集的工夫限度在 100s 左右,在图构造和参数的搜寻上须要有一个疾速搜寻的计划。
  • 鲁棒性:在 AutoML 畛域,鲁棒性是十分重要的一个因素,最初一次提交要求选手在之前没见过的数据集上进行自动化建模。

比赛技术计划

针对以上三个挑战,咱们设计了一个自动化图学习框架,如下图 5 所示,咱们对输出的图预处理并进行图特色构建。为了克服图的多样性挑战,咱们设计了多个图神经网络,每个图神经网络对于不同类型的图有各自的劣势。为了克服超短工夫估算挑战,咱们采纳了一个图神经网络构造和超参疾速搜寻的办法,应用更小的搜寻空间以及更少的训练轮数来达到一个更快的搜寻速度。为了克服鲁棒性挑战,咱们设计了一个多级鲁棒性模型交融策略。最终,咱们的自动化图学习解决方案能够在较短的工夫内对多个不同图构造数据进行结点分类,并达到鲁棒性成果。接下来,咱们将具体地介绍整个解决方案。

数据预处理与特色构建

有向图解决:大多数谱域 GNN 办法并不能很好地解决有向图,它们的实践依赖于拉普拉斯矩阵的谱合成,而大多数有向图的邻接矩阵是非对称矩阵,不能间接定义拉普利矩阵及其谱合成。特地的,当一个结点只有入度没有出度时,GCN 等办法并不能无效地获取其街坊信息。因为赛题关注于结点分类而不是链接预测等,思考大多数图结点分类问题,更为重要的是如何无效地提取图的街坊信息,因此咱们将有向图的边进行反转改为无向图,无向图新边的权重与有向图被反转边的权重相等。

特征提取:为了更无效地进行结点的示意学习,提取了一些图的人工特色来让 GNN 进行更好地示意学习,例如结点的度、一阶街坊以及二阶街坊的特色均值等,咱们对于数值跨度大的特色进行分桶,对这些特色进行 Embedding,防止过拟合的同时保障了数值的稳定性。

图神经网络模型

为了克服图的多样性挑战,咱们联合谱域及空域两类图神经网络办法,采纳了 GCN[11]、TAGConv[12]、GraphSAGE[4]、GAT[5]四个图神经网络模型对多种不同图构造数据进行更好地示意学习,每个模型针对不同类型的图构造数据有各自的劣势。

图作为一种非欧式空间结构数据,其街坊结点个数可变且无序,间接设计卷积核是艰难的。谱域办法通过图拉普拉斯矩阵的谱合成,在图上进行傅立叶变换失去图卷积函数。GCN 作为谱域的经典办法,公式如下所示,其中 D 是对角矩阵,每个对角元素为对应结点的度,A 是图的邻接矩阵,它通过给每个结点退出自环来使得卷积函数能够获取本身结点信息,图中的 A 帽和 D 帽矩阵即是加自环后的后果,并在傅立叶变换之后应用切比雪夫一阶开展近似谱卷积,使每一个卷积层仅解决一阶邻域信息,能够通过重叠多个卷积层达到多阶邻域信息流传。GCN 简略且无效,咱们将 GCN 利用到所有数据集上,大部分数据集能获得较好的成果。

相较于重叠多层获取多阶畛域信息的 GCN 办法,TAGConv 通过邻接矩阵的多项式拓扑连贯来获取多阶畛域信息。公式如下所示,能够发现,其通过事后计算邻接矩阵的 k 次幂,相比 GCN 能够在训练过程中实现多阶邻域卷积并行计算,高阶邻域的后果不受低阶邻域后果的影响,从而能放慢模型在高阶邻域中的学习。在咱们的试验后果上,其在稠密图上能疾速收敛并相比于 GCN 能达到一个更好的成果。

相较于谱域办法利用傅立叶变换来设计卷积核参数,空域办法的外围在于间接聚合街坊结点的信息,难点在于如何设计带参数、可学习的卷积核。GraphSAGE 提出了经典的空域学习框架,其通过图采样与聚合来引入带参数可学习的卷积核,其核心思想是对每个结点采样固定数量的街坊,这样就能够反对各种聚合函数。均值聚合函数的公式如下所示,其中的聚合函数能够替换为最大值聚合,甚至能够替换为带参数的 LSTM 等神经网络。因为 GraphSAGE 带有街坊采样算子,咱们引入该图神经网络来极大地减速浓密图的计算。在咱们的试验后果上,它在浓密图上的运行工夫远小于其余图神经网络,并且能达到一个较好的成果。

GAT 办法将 Attention 机制引入图神经网络中,公式如下所示。它通过图结点特色间的 Attention 计算每个结点与其街坊结点的权重,通过权重对结点及其街坊结点进行聚合作为结点的下一层示意。通过 Masked Attention 机制,GAT 能解决可变个数的街坊结点,并且其应用图结点及其街坊结点的特色来学习街坊聚合的权重,能无效利用结点的特色信息来进行图卷积,泛化成果更强,它参考了 Transformer 引入了 Multi-head Attention 来进步模型的拟合能力。GAT 因为利用了结点特色来计算结点与街坊结点间的权重,在带有结点特色的数据集上体现优异,但如果特色维度多就会使得 GAT 计算迟缓,甚至会呈现内存溢出的景象,咱们须要在特色维度多的状况下对 GAT 的参数进行搜寻限度,要求其在一个参数量更小的空间下搜寻。


超参疾速搜寻

因为超短工夫估算的挑战,咱们须要设计一个超参疾速搜寻办法来保障花较少的工夫就能够对每个图模型进行参数搜寻,并且在每个数据集上尽可能地应用更多的图模型进行训练和预测。如下图 6 所示,咱们将参数搜寻分为线下搜寻和线上搜寻两个局部。

咱们在线下搜寻时,针对每一个图模型在多个数据集上应用一个大的搜寻空间去确定图构造和参数边界,保障每个数据集在这个边界中都有较好的成果。具体地,咱们对有向图 / 无向图、稠密图 / 浓密图、带特色图 / 无特色图等不同图类型都对不同模型的大多数参数进行了搜寻,确定了几个重要超参数。例如对于稠密图,调整 GCN 的层数以及 TAGConv 多项式的阶数,使得其卷积感触野更大,能够迅速对数据集进行拟合,以使得其能够疾速收敛;对于特色特地多的图,调整 GAT 的卷积层数、多头自注意力头的数量和隐层神经元个数以使得其训练工夫在估算之内并且有较好的成果;对于浓密图,调整 GraphSAGE 的街坊采样,使得其训练能够减速。咱们在线下次要确定了不同图模型学习率、卷积层数、隐层神经元个数等这三个重要参数的边界。

因为线上工夫估算的限度,咱们通过线下的参数边界确定了一个小的参数搜寻子空间进行搜寻。因为工夫估算是绝对少的,咱们没有短缺的工夫在参数上做残缺的训练验证搜寻,因而咱们设计了一个疾速参数搜寻办法。对于每个模型的超参空间,咱们通过大量 epochs 的训练来比拟验证集精度从而确定超参数。如下图 7 所示,咱们通过 16 轮的模型训练来选取验证集精度最优的学习率 0.003,咱们的目标是确定哪些超参数能够使得模型疾速拟合该数据集,而不谋求抉择最优的超参数,这样既能够缩小超参的搜寻工夫,也能够缩小后续模型训练的工夫。通过疾速超参搜寻,咱们保障每个模型在每个数据集上能够在较短内确定超参数,从而利用这些超参数进行每个模型的训练。

多级鲁棒模型交融

因为在该次比赛中是通过数据集排名均匀来确定最终排名,故而鲁棒性是特地重要的。为了达到鲁棒成果,咱们采纳了一个多级鲁棒模型交融策略。如下图 8 所示,咱们在数据层面进行切分来进行多组模型训练,每组模型蕴含训练集及验证集,通过验证集精度应用 Early Stopping 来保障每个模型的鲁棒成果。每组模型包含多种不同的图模型,每种图模型训练进行 n -fold bagging 进行交融来获得稳固成果。不同品种的图模型因为验证精度差别较大,咱们须要对不同品种的图模型进行浓密度自适应带权交融来利用不同模型在不同数据集上的差异性。最初,咱们再对每组图模型进行均值交融来利用数据间的差异性。

浓密度自适应带权交融:如图 4 所示,因为某些图数据集较为稠密且无特色太容易拟合,选手间精度相差小然而排名差别却较大。例如,数据集 5 模型精度差别仅有 0.15%,却导致了十个名次的差别,数据集 3 模型精度差别有 1.6%,却仅导致 7 个名次的差别,因此咱们对于多种图模型采纳了浓密度自适应的交融形式。

交融权重如以下公式所示,其中 #edges 为边的数量,#nodes 为结点数量,则#edges/#nodes 示意为图的浓密度,acc(Accuracy)为模型验证集精度,alpha、beta、gamma 为超参数,每个模型的权重由 weight 确定。从以下公式能够看出,如果图足够浓密,则咱们只需依据模型精度差别去失去模型权重,无需依据浓密度去自适应调整,参数 alpha 为是否进行浓密度自适应加权的浓密度临界值;如果图足够稠密,则模型权重与其验证集精度和数据集的浓密度无关,图越稠密,则模型权重差别越大。这是因为图越稠密则模型精度差异性越小,但选手间的排名差别却较大,则咱们须要给予更好的模型更大的权重来保障排名的稳定性。

评估后果

表 2 所示的是不同图模型在离线五个图数据集上的测试精度,与图神经网络模型章节所形容的特点统一,GCN 在各个图数据集上有较好的成果。而 TAGConv 在稠密图数据集 1、2、5 有更优异的成果,GraphSAGE 在浓密图数据集 4 上获得最好的成果,GAT 在有特色的数据集 1、2、4 中体现较为良好,而模型交融在每个数据集上都能获得更稳固且更好的成果。

如下表 3 所示,咱们的解决方案在每个图数据集上均达到鲁棒性成果,每个数据集的排行均放弃较当先的程度,并防止适度拟合,从而在均匀排行上获得了第一,最终咱们 Aister 团队在 KDD Cup 2020 AutoGraph 赛题道上博得了冠军。

广告业务利用

搜寻广告算法团队负责美团与公众点评双平台的搜寻广告与筛选列表广告业务,业务类型波及餐饮、休闲娱乐、丽人、酒店等,丰盛的业务类型为算法优化带来很大空间与挑战。在美团丰盛的搜寻广告业务场景中,结点类型十分丰盛,有用户、Query、Ad、地理位置甚至其余细分的组合结点,结点间的边关系也十分多样化,非常适宜通过图学习进行建模。咱们在搜寻广告的触发模块及点击率预估模块进行图学习的深刻优化,带来了业务成果的晋升。

不仅结点间具备丰盛的边关系,每种结点都有丰盛的属性信息,比方 Ad 门店蕴含结构化的店名、品类、地址地位、星级、销量、客单价以及点击购买次数等统计信息。因而,咱们的图是一种典型的异构属性图。目前在搜寻广告场景下,咱们次要关注蕴含 Query 和 Ad 两类结点的异构属性图。

如下图 9 所示,咱们构建蕴含了 Query 结点和 Ad 结点的图,利用于触发模块与点击率预估模块。目前,该图应用的边关系次要包含以下几种:

  • Query-Query Session:用户在一次会话中的屡次 Query 提交;
  • Query-Query Similarity Mining:基于用户浏览点击日志开掘的 Query-Query 相关性数据;
  • Query-Ad Click:Query 下 Ad 的点击;
  • Ad-Ad CoClick:在同一次申请或用户行为序列中,两个 Ad 的独特点击。

图模型在触发模块次要利用于广告 Ad 的向量召回,离线构建 Ad 向量索引,线上实时预估 Query 向量,通过 ANN 检索的形式召回相关性较高的广告 Ad。相比于传统的基于 Bidword 的触发形式,基于图模型的向量化召回在语义相关性及长尾流量上有较显著的劣势,通过减少召回率显著晋升了广告变现效率。

图 10 所示的是基于图示意多任务学习的触发图网络。咱们采纳基于 MetaPath 的 Node2Vec 游走生成正例,负例通过全局采样失去。在负例采样时,咱们限定负例的品类必须和正例统一,否则因为在特色方面应用了品类特色,模型会轻易地学到应用品类特色辨别正负例,弱化了其余特色的学习水平,导致了模型在同品类结点中区分度不好。并且负采样时,应用结点的权重进行 Alias 采样,保障与正例散布统一。为了加强泛化能力解决冷启动问题,咱们应用每个结点对应的属性特色而不应用结点 id 特色,这些泛化特色能够无效地缓解冷门结点问题,异构图中未呈现的结点,也能够依据它的属性特色,实时预估线上新 Query 或 Ad 的向量。

同时,对于不同结点类型利用不同的深度网络结构,对于 Query 结点,咱们采纳基于字粒度和词粒度的 LSTM-RNN 网络,Ad 结点采纳 SparseEmbedding+MLP 的网络。对于异构边类型,咱们心愿在模型训练过程中能刻画不同边的影响。对于同一个结点,在不同的边上对应独自的一个深度网络,多个边的深度网络生成的 Embedding 通过 Attention 的形式进行交融,造成结点的最终 Embedding。为了充分利用图的构造信息,咱们次要采纳 GraphSage 中提出的结点信息汇聚形式。在本结点生成向量的过程中,除了利用本结点的属性特色外,也应用了街坊聚合向量作为特色输出,晋升模型的泛化能力。

另外,在美团 O2O 场景下,用户的拜访时刻、地理位置等 Context 信息十分重要。因而,咱们尝试了图模型和双塔深度模型的多指标联结训练,其中双塔模型应用了用户浏览点击数据,其中蕴含丰盛的 Context 信息。Query 首先通过图模型失去 Context 无关的动态向量,而后与 Context 特色 Embedding 拼接,通过全连贯层失去 Context-Aware 的动静 Query 向量。

在点击率预估模块,相较于侧重于相关性建模的触发模块,更侧重于用户个性化的表白。图构造数据可对用户行为序列进行补充、扩建,起到开掘用户潜在多峰趣味的成果,从而进步用户点击率。咱们通过在 DSIN(Deep Session Interest Network)网络中引入图神经网络,将更为发散的用户趣味裁减引入 Session 结构化建模。全局的图构造信息不仅无效扩大了用户潜在趣味点,并且 GNN Attention 机制能够将指标 Ad 与图中潜在趣味 Ad 信息联合,进一步挖掘出用户的指标趣味。

如图 11 所示,对于任意用户行为序列,序列中每一个 Ad,都能够在 Ad 图中进行邻接点遍历,失去其趣味靠近的其余 Ad 表白;用户行为序列是用户的点击序列,可视为用户趣味的显示表白;通过 Ad 图拓展失去的序列,是行为序列在图数据中最类似的 Ad 组成的序列,可视为用户潜在趣味的表白。用户原始行为序列的建模,目前基线采纳 DSIN 模型;拓展序列的建模,则采纳图神经网络的相干办法,利用 GNN attention 解决失去趣味向量,并和指标 Ad 穿插。咱们的试验显示,在 DSIN 基线模型的根底上,拓展序列还能进一步获得精度晋升。

将来,咱们还会进一步摸索图模型在点击率模块中的利用,包含基于用户用意的图模型等。

总结与瞻望

KDD Cup 是同工业界联接十分严密的一项国内较量,每年赛题紧扣业界热点问题与理论问题,而且历年产出的 Winning Solution 对工业界也都有很大的影响。例如,KDD Cup 2012 产出了 FFM(Feild-Aware Factorization Machine)与 XGBoost 的原型,在工业界曾经获得了十分宽泛的利用。

往年的 KDD Cup 次要关注在自动化图示意学习以及举荐零碎等畛域上,图示意学习在近年来既是学术界的热点,也被工业界广泛应用。而 AutoML 畛域则致力于摸索机器学习端到端全自动化,将 AutoML 与图示意学习两大钻研热点相结合,有助于节俭在图上进行大量摸索的人工成本,解决了复杂度较高的图网络调优问题。

本文介绍了搜寻广告算法团队 KDD Cup 2020 AutoGraph 赛题的解决方案,通过对所给的离线数据集进行数据分析,咱们定位了赛题的三个次要挑战,采纳了一个自动化图学习框架,通过多种图神经网络的联合解决了图数据的多样性挑战,通过超参疾速搜寻办法来保障自动化建模计划的运行工夫在估算之内,以及采纳了多级鲁棒模型交融策略来保障在不同类型数据集的鲁棒性。同时,也介绍咱们在美团搜寻广告触发模块以及点击率预估模块上对于图学习的业务利用,这次较量也让咱们对自动化图示意学习的钻研方向有了更进一步的认知。在将来的工作中,咱们会基于本次较量获得的教训进一步优化图模型,并尝试通过 AutoML 技术优化广告零碎,解决零碎中难以人工遍历的模型优化与特色优化等问题。

参考文献

  • [1] Wu Z, Pan S, Chen F, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020.
  • [2] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
  • [3] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
  • [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in neural information processing systems. 2017: 1024-1034.
  • [5] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.
  • [6] He X, Zhao K, Chu X. AutoML: A Survey of the State-of-the-Art[J]. arXiv preprint arXiv:1908.00709, 2019.
  • [7] Elsken T, Metzen J H, Hutter F. Neural architecture search: A survey[J]. arXiv preprint arXiv:1808.05377, 2018.
  • [8] Zhou K, Song Q, Huang X, et al. Auto-gnn: Neural architecture search of graph neural networks[J]. arXiv preprint arXiv:1909.03184, 2019.
  • [9] Gao Y, Yang H, Zhang P, et al. Graphnas: Graph neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1904.09981, 2019.
  • [10] Zhang C, Ren M, Urtasun R. Graph hypernetworks for neural architecture search[J]. arXiv preprint arXiv:1810.05749, 2018.
  • [11] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
  • [12] Du J, Zhang S, Wu G, et al. Topology adaptive graph convolutional networks[J]. arXiv preprint arXiv:1710.10370, 2017.

作者简介

  • 刚强,胡可,金鹏,雷军,均来自美团广告平台搜寻广告算法团队。
  • 唐兴元,中国科学院大学。

对于美团 AI

美团 AI 以“帮人们吃得更好,生存更好”为外围指标,致力于在理论业务场景需要上摸索前沿的人工智能技术,并将之迅速落地在理论生存服务场景中,实现线下经济的数字化。
美团 AI 诞生于美团丰盛的生存服务场景需要之上,具备场景驱动技术的独特性与劣势。以业务场景与丰盛数据为根底,通过图像识别、语音交互、自然语言解决、配送调度技术,落地于无人配送、无人微仓、智慧门店等实在场景下,笼罩人们生存的方方面面,用科技助力用户生存品质晋升,产业智能化降级乃至整个社会的生存服务新基建建设。

更多信息请拜访:https://ai.meituan.com/

招聘信息

美团广告平台搜寻广告算法团队立足搜寻广告场景,摸索深度学习、强化学习、人工智能、大数据、常识图谱、NLP 和计算机视觉最前沿的技术倒退,摸索本地生存服务电商的价值。次要工作方向包含:

  • 触发策略:用户用意辨认、广告商家数据了解,Query 改写,深度匹配,相关性建模。
  • 品质预估:广告品质度建模。点击率、转化率、客单价、交易额预估。
  • 机制设计:广告排序机制、竞价机制、出价倡议、流量预估、估算调配。
  • 创意优化:智能创意设计。广告图片、文字、团单、优惠信息等展现创意的优化。

岗位要求:

  • 有三年以上相干工作教训,对 CTR/CVR 预估,NLP,图像了解,机制设计至多一方面有利用教训。
  • 相熟罕用的机器学习、深度学习、强化学习模型。
  • 具备优良的逻辑思维能力,对解决挑战性问题充满热情,对数据敏感,长于剖析 / 解决问题。
  • 计算机、数学相干业余硕士及以上学历。

具备以下条件优先:

  • 有广告 / 搜寻 / 举荐等相干业务教训。
  • 有大规模机器学习相干教训。

感兴趣的同学可投递简历至:tech@meituan.com(邮件题目请注明:广平搜寻团队)。

浏览更多技术文章,请扫码关注微信公众号 - 美团技术团队!

退出移动版