关于运维:AIRec个性化推荐召回模型调参实战

6次阅读

共计 6441 个字符,预计需要花费 17 分钟才能阅读完成。

简介:本文是《AIRec 个性化举荐召回模型调参实战(电商、内容社区为例)》的视频分享精髓总结,次要由阿里巴巴的产品专家栀露向大家分享 AIRec 个性化举荐召回模型以及针对这些召回模型在电商和内容行业下进行的实战调参演示。

一、典型举荐场景

(一)场景概念的引入

场景,它是智能举荐外面设定的一个概念。场景不论是在上传数据的表上,还是在管制台上都会有相干的概念,场景能够了解为,是一个用户流量的入口,一个流量入口代表肯定的拜访心智。比方,一个用户他进入到了一个大促的页面,他的心智就是去看一看以后有没有感兴趣的商品、有购买欲望的商品在参加大促流动,如果有就去下单,而如果是非大促期间,失常的关上 APP 进入一个页面,浏览最近是否有陈腐好玩的商品,这时候会带着不同的心智,这里就是在用户流量入口上做了辨别。

用户流量入口一旦确定之后,一个页面要打造的用户拜访逻辑,实现目标根本确定,也就意味着从用户的流量入口到用户的拜访逻辑,决定了咱们在这个页面的选品逻辑。选品逻辑是咱们可能直观体验到的,包含投放上的一些策略,到最终咱们会把它绑定到一系列的算法逻辑上,那也就意味着一个场景它代表了惟一的选品逻辑和惟一的算法逻辑的联合。

如果有多个举荐场景,但其中多个举荐场景实质是一套算法策略,这个时候咱们能够把它合并为一个场景;但如果存在差别,就能够把它拆分成不同的场景。

(二)新建举荐场景的过程

在不采纳云服务的条件下,新建一个场景,个别的做法是首先圈选物品,从数据库中圈选出以后场景须要哪些物品用作举荐,接下来要做链路买通,比方平台里所有的用户的行为数据,剖析出咱们给用户做举荐的时候,如何可能让这样一个新场景页面它可能尽量避免从零起步做训练和预测,而是进行一些数据的复用。

整体过程中,首先是数据对接,而后做数据验证,如果是基于自建的模式,还须要筹备特色工程,包含去组装召回排序的链路,以及业务编排上所波及的策略,如此相对来说它的工夫线会拉得很长,包含想要去设置一套举荐零碎,还要思考离线近线和在线的这样的链路设计。

(三)疾速搭建个性化举荐页面

咱们通过应用智能举荐产品,能够疾速搭建个性化举荐页面。从对接服务开始,实现数据对接,接口调试之后,将主动拉起行业定制算法模板,启动各种计算逻辑,包含表回流逻辑工作等。服务拉起后,就能够疾速定制场景、公布场景。

在落地上线之后,须要做场景定制与业务调优,次要通过两种办法,第一种是通过算法的维度来解决业务上适配的问题。第二种是通过经营策略的维度去解决这个问题,比如说去定制一些选品的规定,投放的规定,比方在搀扶策略上做歪斜,以及依据物品的举荐时效性去做整体策略的调整。

场景的调优的门路,也就是在咱们优先实现服务后,再独自对场景作算法、经营策略的定制和优化。

二、经典算法模型简介

(一)协同过滤

算法逻辑

智能举荐利用的协同过滤为 itemCF,算法逻辑为,依据输出的平台行为数据,联合点击与否的判断,产出一个相似 PPT 中的表格,计算出每个 item 之间的打分表,点了 ID 等于 1 的 item 之后,点 ID 为 2 的概率值,这个概率值代表了这两个 item 之间类似水平。

运作形式

首先要先找到右边的 item,找右边 item 时须要联合实时的用户行为,比如说采集到用户点击口红商品,命中惟一的口红商品 ID。在下一刷时,通晓用户对以后口红感兴趣的状态下,去举荐更相似的一些口红,容易失去更多的点击,随后进一步转化为订单数据,依照图中的打分状况,ID 为 2 的 item 举荐给这个用户,这就是整个协同过滤,从用户产生行为到调取这一张咱们计算出来的表格,最终给用户补充到召回链路的这样的一个过程。

优化算子

父类目和子类目标收敛优化:相比于啤酒尿不湿的 item 关联,它可能帮忙学习到实质上的确比拟类似的物品,因为他们同属于一个父类目或子类目。逻辑即,将优先看,如果说这两个比如说这外面的 1 和 2,它两个是同属于一个父类目或者同属于一个子类目标时候,可认为它的类似度是比拟高的,能够在链路外面让它呈现的概率更大一些。

swing:零碎会思考一些用户的 pair,用户行为对整体计算 item 类似度过程中的重要水平减少了判断逻辑,比如说两个用户他们的行为,他们点击的点击序列里,发现没有什么太大的类似度,但相同如果两个用户尽管不类似,然而他们的确有那么两个物品是一起点击过的,就发现这两个物品它可能自身就是有比拟大的这样的类似度。如果说一个用户对他的行为都是比拟相似的,两个用户的比拟像,在这个过程中他们两个独特点击独特命中的这些 item,我可能在计算的时候就会给它降权,轻易的这种办法,它其实是很大水平的利用了用户协同这样的一种能力去发现 item 之间的关联度。

(二)用户历史偏好召回

算法逻辑

咱们刻画一个用户的偏好,次要是通过用户的产生的行为,比方从过来 30 天的行为,以及实时行为进行计算和剖析,会发现在电商行业内影响咱们生产决策的一些特色,例如商品的品牌,店铺标签以及商品类目。这些可能是影响消费行为比拟重要的特色,所以去看这些重要特色,映射到用户的身上有什么样的偏好。那么依据用户历史的行为去剖析以后的用户,他可能在当初或者在过来对哪些类目是有偏好,对哪些品牌是有偏好的,基于他实时的趣味,咱们也能够预测它将来可能对哪些品牌哪些内容是有偏好的,将这两者交融也就形成了咱们大家能够常说的用户画像。

形成了用户画像之后,咱们再联合画像去映射到 item 表上的这些特色,从而进行一个组合和展现。在电商行业外面,大家也能够看到在这条链路外面咱们能够定制的也是它的敞开和启用的状态,以及咱们最大召回的数量,包含说在咱们外部的一个优先级,外面会波及很多的特色,比如说类目、品牌、店铺和标签。

那么在抉择这些特色的时候,咱们一个方面要思考在咱们行业里,在咱们的商业模式下,这些特色是不是用户次要生产决策的特色。

但另一个方面就是在这些特色的保护上,比方咱们可能标签打得十分好,我能够把连衣裙的格调都打好,那标签对于我来说,我能够很大水平去利用它的劣势,那我就能够把标签的优先级去往上调一调,这个就是咱们能够联合这样的召回链路去做优化的一个策略和形式。

(三)向量召回

算法逻辑

向量召回 embedding 是特色维度较高的状况下,罕用的算法。通过将多维度特色映射为向量的表达方式,进行向量间隔的计算,产出类似度的打分。比方基于题目的向量召回,咱们首先会将 item 的题目通过 NLP 的形式进行剖析分词,失去一个个词向量之后,咱们以 word2vector 的形式,计算出词向量之间的类似相关度,所以当有 2 个 item 咱们想要剖析他们是否类似时,就能够先找出 item 的向量表白,去比对向量之间的间隔,间隔越短也就意味着类似度越高。基于标签的向量召回也是类似的思路,基于用户行为序列,能够了解为在一次会话中,用户会产出一系列点击序列,这些点击序列就像一个趣味流转的 sectence,利用同样的思路,就像商品表白的连贯的一个题目,咱们也能够通过相似的形式计算出 item 之间的类似度。

如果说大家不太分明向量召回可能给咱们的成果带来多大的晋升的话,咱们也能够进行一些平台化的试验,而后去通过查看试验报表的这样的一种模式,去看这一路召回是不是起到了比拟重要的作用。

(四)新品算法策略

新品算法策略比拟容易了解,就是咱们新公布的这样的一些商品或者内容的推广的策略。在推广的过程中,首先咱们要让整个零碎去晓得哪些商品,哪些内容是新品,这就要求对于咱们字段上,比如说 pub\_time、字段要进行实时更新,或者说是更加精确的更新。

在这个过程中,咱们其实都晓得新品它是一个冷启动的问题,在咱们没有任何行为的条件,也不晓得新品品质的条件上来做一个散发,有可能会打击到咱们的成果数据,因为有一些新品它的品质并不是很好,咱们去举荐进去了就会损失一些点击损失一些购买量。

在这个过程中咱们能够提供基于策略的计划,上文提到咱们在基于用户的历史偏好的时候,就曾经计算出来了用户的一些趣味标签,这时咱们也能够利用到新品的算法策略里,比方咱们能够基于用户的偏好类目去做搀扶,偏好品牌去做搀扶,以及咱们基于标签去做搀扶。除了有一些行业咱们对新品的要求维度会更高一点,我不肯定要求他是有个性化的,可能就要求他是要基于咱们新品它公布之后整个的热度分进行排序,我就想发现一个最后劲的新品,而后也有可能是,我就要优先新公布的内容要先上,咱们就去调整策略,比方第 6 个点的优先级去进行一个调整,其实咱们如何去抉择一个适配的算法模型,也是依据咱们实质的业务诉求来的,比方像内容行业,尤其是咱们须要激励创作的点上来看的话,咱们对新品这块,不论是它的流量,它的口径都要给它开更大的一个口子,让新品可能更加无效的失去曝光。

(五)其余典型召回算法模型

除了前文提到的算法,咱们也有一些其余的典型召回的算法和排序的算法,智能举荐标准版给大家归档了一些,比如说协同过滤、用户偏好召回、新品召回以及向量召回这样的一些召回链路,并且这些召回链路外面能够让大家进行一些参数的优化。如果大家有更高阶的需要,比方想要去应用高阶的算法模型,可能须要咱们本人去解决数据,去进行一些特色工程解决,产出打分表,而后再注册到咱们线上的模型一起组合应用,这个是产品高级版会提供的性能。

三、电商行业优化最佳实际

电商行业的优化最佳实际次要围绕三个维度

第一个是如何联合 c 端用户的刷新过程中,提供实时反馈的体验。

第二个就是在咱们做这个模板,标准化的产品到嵌入到咱们业务零碎外面的个性化举荐,怎么去做好特色歪斜和成果的晋升。

第三个就是个性化举荐,它其实属于一个流量的入口,咱们如何让用户在流量的入口外面失去咱们平台营销触达的价值的最大化,咱们可能会有一些曝光过滤、点击过滤的策略能够来组合进行配置和应用。

(一)实时反馈体验晋升

首先实时反馈怎么来了解?就是当咱们的用户实时地产生一些行为的时候,咱们给他下次的举荐后果中就进行了进一步的跟进和反馈。比方这外面给到大家的一张淘宝页面的截图,首先咱们看到它曝光了很多商品,当然前面这两个商品露出不全,咱们就认为它是有效曝光,曝光了 4 个商品之后,用户可能对张云雷代言的彩妆礼盒是比拟感兴趣的,他就会点击到这个商品去查看详情,这就是一次点击行为,如果他更感兴趣,他可能还会把它去进行一个加购行为。

在这个过程中,咱们会发现用户对化妆品和护肤相干的内容是比拟感兴趣的,而且近期他加购行为示意有购买用意。咱们能够首先采集到这一条点击的行为,实时的回传给举荐零碎,另外咱们心愿在二刷三刷 n 刷的时候,也会联合它的趣味做反馈,这个时候咱们就能够应用刚刚在零碎过滤算法中跟大家讲到,咱们联合于类目标这样的一个收敛优化,比方咱们基于商品的类目,以后的商品的类目是属于国产品牌的彩妆或者彩妆套装的类目。在这些类目下咱们是能够优先召回进去,跟以后商品比拟类似的去举荐给用户,这也就是咱们在配置算法优先级的时候,能够把类目收敛的优先级给进步。

(二)特色歪斜与成果晋升

比方左边咱们给到的一些商品的特色,首先它是美妆套装,而后品牌是稚优泉,店铺是稚优泉天猫旗舰店,而后标签是明星联名礼盒,化妆品。可能有一些商城是强调店铺的概念的,有一些可能一家店会卖很多品牌,咱们就须要先思考店铺和品牌对于咱们这个行业来说哪个是更重要的,咱们会加上一些店铺和品牌的一个特色,另外咱们认为生产决策上咱们这个标签是很重要的,咱们是能够去调整标签的优先级。

判断的逻辑就是咱们认为生产决策或者趣味决策,它的首要特色是什么?主要特色是什么?咱们的保护是否是相对来说比拟优质的,来调整这一路召回的一个优先级,去晋升咱们的举荐成果。

(三)营销触达策略利用

购买一件商品,尤其是女生在做购买决策的时候,可能会加购很多,过一段时间始终没有下单,然而如果反复地给她举荐进去的话,她会认为她还是很想买,就把它下单了。这其实是消费者的心理逻辑,就是在产生一个曝光点击珍藏加购行为之后,不肯定会很快的购买,可能在某个时间段用意被触达了之后,就下单,在这个过程中咱们能够思考在平台里去尝试应用一些营销触达的策略,去帮忙用户去做生产决策。

例如这里咱们配置了曝光过滤的工夫是 3 天,点击过滤的工夫是 1 天,这意味着咱们第一次看到这些商品,比方这 4 件商品外面对太阳帽和服装进行了曝光和点击,而其余就只有曝光。在一天之后它不肯定是这样的排序,在咱们的页面外面,它可能又呈现了我之前点击过的一个商品,零碎给了他一次反复曝光的机会,如果这一次用户又产生点击行为,零碎还能够再给他一次反复曝光的机会。如果说这次反复曝光机会触发了用户的购买,也到了这样的一个曝光过滤的工夫,零碎就不会再举荐了。

如果零碎给了一次反复举荐的机会,然而用户没有点击它,示意临时用户对它曾经没有了,零碎也不会再对它进行一个二次举荐,现实的状态就是在咱们反复举荐的过程中去促成用户生产的决策和下单,这个也是咱们电商行业外面比拟常见的一种策略。

像一些长视频、长内容,会波及到咱们的停留时长的优化的时候,咱们也可能会应用到相似的策略。

四、内容行业最佳实际

(一)多地区 /Feature划分页面搭建

如果内容社区外面,波及到多个地区,或者多个 feature 的一个划分,它也可能波及到一些用户的逻辑,比方有些用户咱们须要对它做一些非凡的过滤,青少年模式,比方非凡的 VIP 用户,就不给他展现某类标签。在这个过程中,咱们如果抉择以往的场景搭建的模式,可能会滋生进去很多个场景,上百上千个场景对于运维来说是十分难以去保护的。这个时候咱们外部是有一套举荐性能叫在线属性过滤,大家能够利用地理位置的特色,细分品类的特色,给视频打上的非凡的标签的特色,去对它进行一些交加并集,最终拿到一个举荐过滤的后果,而后绑定在一个场景上,咱们能够在这一个场景下来进行多个这样属性过滤的逻辑拼装,从而产出多个举荐的落地页面,这样去晋升咱们的运维效率,不便咱们更快的进行调优。

(二)举荐内容时效性调整

时效性指的是在咱们举荐的后果中,咱们心愿内容的工夫散布大略是一个什么样的维度?比方咱们的一些对时效要求很强的行业,尤其是新闻的行业,咱们会心愿举荐的内容如果它超过 5 天了,公布工夫超过 5 天,就不再进行举荐了,在从它公布到它生效的过程中,咱们也可能会产生一些高低架这样的操作。在这个过程中咱们能够联合咱们的时效性去设置物品过滤规定,并且在咱们急需公布的内容,咱们能够给它进行加权的操作,而后我也能够去进行高低架的调控来保障它在生效工夫之内可能失去一个无效的散发。

(三)优质作者激励

最初一个点是优质作者的激励,尤其在新内容的搀扶上,以新品来说,比方我会要求最近 20 天内公布的,最近 7 天公布的可能失去一个无效的推广,因为这也是内容社区的生命力之一,咱们心愿新公布的内容可能无效的失去曝光,首先能够去设置一个新品的口径,咱们认为几天内公布的是新品,而后就是给它的流量,流量是从一个统计维度来说的,比方咱们整个平台散发进来多少商品和散发进来多少内容,这些内容有多少是属于口径内的整体的流量散布,而不是具体到每一个用户的流量散布,以及刚刚提到的新品的散发策略是依照趣味做散发,还是依照公布工夫做散发,还是依照热度做散发,这个也是能够联合咱们的业务需要去进行肯定的策略调整的。

五、结语

以上就是这次跟大家分享的内容,如果大家对这个产品是比拟感兴趣的,能够去试用咱们首月首购 100 元的流动,试用实现之后,也能够晋升配套标准版去解锁咱们更高阶的召回模型的干涉优化以及试验平台的性能。

感激大家的浏览。

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0