关于存储:PAI和Hologres的个性化推荐最佳实践

简介：常见的个性化举荐零碎包含日志收集，数据加工，召回，排序，离在线成果评估等诸多环节，对于中小客户存在技术门槛高，搭建周期长等问题。计算平台基于 PAI，Hologres，MaxCompute，DataWorks 平台产品，能够帮忙客户疾速搭建个性化举荐解决方案。本次分享，次要从计算平台的举荐零碎整体解决方案登程，重点介绍基于 PAI 的向量召回算法和 Hologres 向量检索的整体架构，以及该架构在某社交APP的落地案例和成果分享。

本文内容来自于

由达摩院领航举办的3月20日向量检索专场Meetup讲师演讲内容

讲师介绍

天邑
阿里云计算平台高级算法工程师。次要从事基于PAI平台的召回和排序算法研发，及基于云产品的举荐零碎解决方案研发，赋能客户个性化举荐解决方案落地。
- *

内容简要：

一、云上个性化举荐

二、向量召回

三、最佳实际

01 云上个性化举荐

解决方案简介

（一）个性化举荐 – 外围能力

个性化举荐外围价值是要做到千人千面，实现用户需要和资源的最佳匹配，从而晋升流量到业务指标的转化成果。

个性化举荐流程个别分召回和排序两个局部，咱们要从海量的数据中来精准的筛选出几个到几十个Item给用户举荐过来。

（二）个性化举荐 – 常见计划痛点

常见举荐计划一：经营教训制订举荐策略

须要有举荐教训的产品设计或经营人员，通过积攒的集体教训，制订业务举荐策略，并联合数据分析，调整举荐计划，通常在业务规模比拟小的企业，冷启动阶段应用，有显著的成果弊病：

举荐计划及成果，受到人为影响而不可控。
计划难以实时联合业务倒退疾速更新，迭代速度慢。
数据计算能力无限，大规模数据分析时候艰难。
短少算法人员搭建企业举荐零碎，影响企业晋升市场竞争

常见举荐计划二：开源框架自建举荐零碎

越来越多的企业抉择联合AI技术实现企业举荐零碎，但应用开源框架自建举荐零碎，也存在诸多问题，影响业务倒退：

老本高须要企业洽购大量机器用于反对数据计算，不仅一次性投入资金多，且大部分企业都会存在机器资源闲置的节约问题
工程化工作量大须要适配支流开源框架，存在微小的工程化工作，以实现不同业务场景最优举荐成果，或实现反对多部门模型需要。
运维难承载海量数据、多任务运行，日常运维难度很大。
成果不现实。

（三）个性化举荐 – 云上计划

在云上咱们能够利用云上的工程基建和算法基建来减缓这部分的老本。在云上提供了两种的举荐计划，一种是黑盒化的，一种是白盒化的，黑盒化的解决方案低门槛易上手。白盒化的解决方案，整个算法流程是工程师全副自主可控的，它适宜于有肯定规模的，日解决数据百万起的团队，能够反对举荐算法的疾速迭代。

（四）云上个性化举荐 – 白盒解决方案

这是整个白盒化的推动解决方案的架构图，咱们从下往上看，最上层是数据处理模块，MaxCompute和Dataworks的负责离线的特色解决，失去一些离线训练样本和用户的特色数据物料数据，而Flink是反对实时的特色解决，有了特色样本数据，会流入到PAI-Studio一体化的建模平台中。

其中PAI-EasyRec负责举荐算法，由GraphLearn和Alink负责一些图算法和传统机器设计算法。有了这一些算法，个别会产出两局部的模型，召回模型和排序模型。召回模型咱们能够例行部署到Hologres上，部署成各种根底索引表，向量召回的话会部署成向量表，这边图不太好画，user局部向量也能够在EAS上进行实时推理。排序模型的话，咱们会部署成在线的模型推理服务来进行在线的打分推理。

有了根底索引表向量表和模型的推理服务，咱们再往下层就是整个举荐服务的引擎，咱们称之为PAI-Rec举荐服务引擎，PAI-Rec间接承受用户的举荐申请，串联了多路召回、过滤、排序和冷启动模块来给出TopN举荐列表。

PAI-Rec之外，咱们有PAI-ABTest来做ab试验，它次要负责迷信流量划分和指标的剖析，反对咱们云上举荐的成果的疾速迭代。

（五）云上个性化举荐 – PAI-EasyRec算法框架

咱们重点来看一下其中的几个模块，首先是PAI-EasyRec的整个举荐算法框架，能够反对多样化的数据源，比如说OSS、OdpsTable、HDFS、Kafka等等，有了这样的特色数据，咱们会进入一个离在线统一的特色解决模块，这外面能够反对IdFeature 、RawFeature 、SeqFeature等等的特色解决。最两头的是ModelZoo，蕴含很多PAI精心积淀的排序模型、召回模型和多指标模型，当然也反对算法工程师来基于此自定义本人的算法。整体上看，EasyRec能在PAI上提供万亿样本、千亿特色的超大规模分布式训练、分布式的评估能力，还反对主动超参搜寻和常识蒸馏等调优成果的性能。

（六）云上个性化举荐 – PAI冷启动计划

除了通用的举荐算法之外，咱们还提供了PAI冷启动计划，咱们为什么须要冷启动？

因为常见的举荐算法对新物品和新用户是不太敌对的，

新物品在很大水平上是经常会被低估的。

冷启动问题解决不好会影响内容创造者的积极性，进而影响平台生态的衰弱倒退

咱们PAI上的冷启动计划分为用户冷启动和物品冷启动两局部。用户冷启动次要是基于用户的根本画像，基于社交关系，基于用户趣味的一些热门举荐，U2U的举荐。物品的冷启动的算法的则比拟丰盛了，有基于内容了解的，有基于疾速试探强化学习的，基于不同场景间迁徙学习的，此外，少样本学习、常识图谱的算法，咱们也在逐渐的研发上线中。

（七）云上个性化举荐 – PAIRec举荐引擎

PAIRec举荐引擎从上往下看，分为接口层、召回层、过滤层、排序层、重排层，这些模块它端到端的串联起了整个举荐服务的各个流程，并且其中的一些内置模块是能够简略的通过config文件来配置化应用的。

当然为了满足各种各样场景定制化的需要，咱们也反对在各个层便捷的注册各种定义的实现来满足灵活性的要求。

（八）云上个性化举荐 – PAI-A/BTest

PAI-A/BTest是咱们保障疾速做举荐迭代成果很重要的一环，咱们首先来看一下A/B Test是什么，咱们会在同一时间维度将用户划分成两组，在保障用户特色雷同的状况下，让用户看到不同的两个ab计划的设计，而后依据最初数据的好坏来决定到底抉择哪个计划，最终把哪个计划来推全，他要走的更进一步，能够满足各多样化的A/B Test的需要。

举荐场景为例，咱们能够反对这种一般的流量划分，还能够反对分层的流量划分，分层流量划分有什么益处？

举荐场景咱们分为召回、排序、重排的这些模块，这些流量是齐全能够正交复用的，咱们能够在很小的流量场景之下就能够上很多的试验下来帮忙咱们疾速的迭代，PAI-A/BTest还反对在实验室上设置各种各样的条件，比方辨别新用户和老用户，来满足各种各样多样化的ab的需要。

02 向量召回

PAI召回算法 & HOLO向量检

（一）向量召回 – 简介

召回是在整个举荐零碎中很重要的一环，它是在整个举荐零碎最火线的局部，决定了整个举荐零碎算法成果的下限。

传统的召回算法，如 CF、Swing等，他们尽管是简略高效的，然而他们齐全基于用户的历史行为来进行举荐，没有联合用户的画像信息，物品的属性信息来产出举荐后果，这导致了整个举荐成果发现性很弱，会导致越推越窄。

而向量召回是将User、Item都嵌入到一个向量空间中去，肯定水平上缓解了发现性的问题。个别向量召回分为 U2I和I2I两种。U2I的向量召回次要代表性的如 DSSM、MIND、YoutubeDNN 等，思维很简略，将User侧和Item侧都抽取到向量空间中去，用User的向量在Item的向量汇合中查出最邻近的TopK个Item进去。

I2I的如Node2Vec、Metapath2Vec等向量算法，它不同之处是须要Trigger Item，基于用户的历史行为来抉择这些Trigger，而后通过Trigger Item的向量，在Item的向量汇合中查问出TopK个邻近的Item。

（二）向量召回 – PAI向量召回

在PAI上咱们提供了丰盛的召回算法，在PAI-Studio中咱们PAI-EasyRec有提供DSSM、YoutubeDNN、MIND等一系列深度的向量召回模型， GraphLearn提供的GraphSage、GAT、SEAL等基于图的向量召回模型，还有Alink提供Word2Vec、Node2Vec、Metapath2Vec等一系列向量召回模型。在PAI-Studio中，咱们想把这些算法疾速可视化搭建疾速试验，进行离线成果测试和在线的部署，并且咱们还反对AutoML自动化调参，有了这些算法基建，能够帮忙咱们在云上疾速的迭代推动成果。

（三）向量召回 – Hologres向量检索

Hologres深度集成阿里达摩院自研的向量检索引擎Proxima，这款向量检索引擎具备超大规模索引构建和检索、高纬&高精度、高性能低成本等外围能力，可能帮忙Hologres提供提供低延时、高吞吐的在线查问服务。并且Hologres是以SQL的查问接口来裸露给用户的，非常简略易用，它能很容易反对程度扩大，因为它是分布式构建向量索引的形式。

（四）向量召回 – Hologres向量检索

在具体的举荐业务场景中，很重要的一环是向量查问，Hologres不仅能反对全量item汇合上的检索，面对简单条件下的检索， holo也能用sql的模式来反对。例如有很多举荐场景须要查问最近沉闷，当须要查问某个类目下的，此时写一个Where语句就能很容易的实现检索。

全量检索

select id, pm_approx_euclidean_distance(feature, '{0.1,0.2,0.3}')) as distance where data_time between '1990-11-11 12:00:00'  and '1990-11-11 13:00:00’  and tag in ('X', 'Y', ‘Z') from feature_tb order by distance asc limit 10;

*
简单条件下检索
*

select id, pm_approx_euclidean_distance(feature, '{0.1,0.2,0.3}')) as distance where data_time between '1990-11-11 12:00:00'  and '1990-11-11 13:00:00’  and tag in ('X', 'Y', ‘Z') from feature_tb order by distance asc limit 10;

03 最佳实际

某社交APP首页举荐

（一）最佳实际 – 某社交APP首页举荐

咱们以一个社交APP的首页举荐的场景来体感一下这整套解决方案是怎么运行的。这是一个社交APP首页举荐的场景，分为列表页、详情页和会话页，通过点击列表页，能够看到用户的具体详情，进而发动会话进行聊天。整个首页举荐的指标是要建设用户和用户之间的新分割，因而咱们设计了UV回复转化率这个指标，就是必须用户回复，才算一个无效的会话。

（二）最佳实际 –首页举荐计划

咱们来看一下整个首页推社交APP首页举荐问题的难点。

算法需具备发现性，能建设新分割；“无效回复”优化指标十分稠密，这导致咱们优化整个模型的难度也十分高。

上面是整个首页举荐的计划，咱们有常见的多路召回、过滤、排序和用户的冷启动和最初会有一个重排。其中的重点是召回外面DSSM的向量召回和GraphSage的向量召回，还有新用户的冷启动，这保障了整体的算法具备发现性。而后另一块是排序这边做了一个多指标的模型，包含点击、关注、会话和回复，多个指标的档次递进的关系，解决了无效回复这个指标十分稠密的问题。

（三）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM

重点来看一下其中向量召回，咱们以其中的DSSM为例，

它是一个典型的双塔架构，劣势是能充分利用Side-Info ，能反对分布式训练时的负采样和负样本MiniBatch内的共享。

（四）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM – 优化技巧

双塔架构上模型一个外围的问题点是怎么做负采样？负采样决定了整个召回模型成果的好坏，咱们来看这个离线hitrate的曲线，能够看到随着负采量数的减少，基本上是一个稳步上涨的趋势，最高点是正负样本比例等于1:1W的时候最佳。所以当然随着负采样数的减少，特地是要达到1:1W的采样，对于存储的压力和计算压力都是十分大的。咱们想要离线的去join出这个1:1W的正负样本来做存储根本是不太事实的。因而PAI-EasyRec反对在分布式训练时的实时的负采样，咱们在存储的时候只存点击的正样本，在训练时分布式采样出相应的负样本来做训练。

上面是咱们做分布式负采样的计划，其实是将用户的历史行为和用户的一些属性特色，以图构造模式存在参数服务器上，而后基于咱们从参数服务器上进行实时的负采样，跟正样本join起来进行训练。1:1W正负样本对于咱们的计算压力也是提出了很大的挑战。在PAI-EasyRec在外面咱们做了一个优化， MiniBatch内负样本是共享的，不必将N*1W个负样本都计算一次，它只须要整体计算1W次，在做内积的时候以矩阵乘的形式开展，就能够达到简化共享负样本计算的成果。

（五）最佳实际 – HOLO向量检索

咱们再来看一下工程零碎在首页举荐上实际的HOLO向量检索，咱们首先须要在Hologres中建设向量表，建表的语句也非常简单，其中重点是要在其中设置proxima的向量引擎和其余向量引擎所须要的检索参数，有了这样的向量表，咱们就很容易的把MaxCompute上的表面数据来导入到Hologres中，这是一个同性举荐的场景，咱们就能够在性别条件下进行向量的检索。

（六）最佳实际 – 首页举荐成果

举荐解决方案使得社交APP首页举荐的UV回复转化率晋升了39%，UV会话转化率晋升了30%，是一个很胜利的案例。

（七）PAI上其余向量算法能力

PAI上其实还提供了很多其余的向量算法能力，包含图像的、文本的PAI-EasyVision、PAI-EasyTransfer，PAI-EasyTransfer曾经在github上开源了，咱们在PAI上还有人脸人脸匹配的能力、图片搜寻能力、问答匹配的能力等等，都能够用到其中的向量引擎。欢送大家来应用。

“ AI 检索技术博客”

由阿里巴巴达摩院零碎 AI 实验室创建，

关注 “ AI 检索技术博客” 公众号，

获取更多技术干货文章、

AI 检索畛域 Meetup 动静。

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于存储:PAI和Hologres的个性化推荐最佳实践

01 云上个性化举荐

解决方案简介

（一）个性化举荐 – 外围能力

（二）个性化举荐 – 常见计划痛点

（三）个性化举荐 – 云上计划

（四）云上个性化举荐 – 白盒解决方案

（五）云上个性化举荐 – PAI-EasyRec算法框架

（六）云上个性化举荐 – PAI冷启动计划

（七）云上个性化举荐 – PAIRec举荐引擎

（八）云上个性化举荐 – PAI-A/BTest

02 向量召回

PAI召回算法 & HOLO向量检

（一）向量召回 – 简介

（二）向量召回 – PAI向量召回

（三）向量召回 – Hologres向量检索

（四）向量召回 – Hologres向量检索

03 最佳实际

某社交APP首页举荐

（一）最佳实际 – 某社交APP首页举荐

（二）最佳实际 –首页举荐计划

（三）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM

（四）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM – 优化技巧

（五）最佳实际 – HOLO向量检索

（六）最佳实际 – 首页举荐成果

（七）PAI上其余向量算法能力

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于存储:PAI和Hologres的个性化推荐最佳实践

01 云上个性化举荐

解决方案简介

（一） 个性化举荐 – 外围能力

（二）个性化举荐 – 常见计划痛点

（三）个性化举荐 – 云上计划

（四）云上个性化举荐 – 白盒解决方案

（五）云上个性化举荐 – PAI-EasyRec算法框架

（六）云上个性化举荐 – PAI冷启动计划

（七）云上个性化举荐 – PAIRec举荐引擎

（八）云上个性化举荐 – PAI-A/BTest

02 向量召回

PAI召回算法 & HOLO向量检

（一）向量召回 – 简介

（二）向量召回 – PAI向量召回

（三）向量召回 – Hologres向量检索

（四）向量召回 – Hologres向量检索

03 最佳实际

某社交APP首页举荐

（一）最佳实际 – 某社交APP首页举荐

（二）最佳实际 –首页举荐计划

（三）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM

（四）最佳实际 – 向量召回算法 PAI-EasyRec | DSSM – 优化技巧

（五）最佳实际 – HOLO向量检索

（六）最佳实际 – 首页举荐成果

（七）PAI上其余向量算法能力

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

（一）个性化举荐 – 外围能力

发表回复取消回复