关于程序员:电商推荐系统做到60分容易做到80分90分却很难

0次阅读

共计 4955 个字符,预计需要花费 13 分钟才能阅读完成。

毕业于中国科学院自动化研究所。在机器学习、举荐零碎畛域有十余年的前沿摸索和工业实践经验,多篇论文发表在 RecSys、CIKM 等举荐零碎国内学术会议上,现任京东举荐广告算法负责人。

互联网倒退至今,举荐零碎无处不在,它也成为了许多电商平台的收益引擎。京东的个性化举荐零碎也为公司带来了十分大的收益。随着举荐零碎在信息散发中作用越来越重要,咱们也在探索大规模机器学习、深度学习等技术在京东的商品搜寻和举荐中是如何利用的,以及一个高效、有价值的举荐零碎应该满足哪些条件等问题。

举荐零碎如何驱动业务增长

数字化信息时代,举荐零碎曾经成为了 To C 互联网产品的标配技术,而举荐算法对于业务收益的晋升也起到了至关重要的作用。像亚马逊、Netflix 等平台,都会通过举荐零碎来获取微小的商业价值,据数据统计,举荐零碎每年能为 Netflix 产生超 10 亿美元的商业价值,亚马逊约 40% 的支出来自个性化举荐零碎。

对于电商而言,个性化的举荐零碎能满足千人千面的海量需要。它的实质实际上是在用户购买用意不明确的状况下,利用机器学习或深度学习算法,联合用户特色、商品特色和场景特色来构建建用户趣味模型,进而从海量的商品中找到用户感兴趣的商品,缩短用户到商品的间隔,晋升用户购买效率和产品体验。彭长平认为,个性化举荐,是候选极大丰富场景下的无效散发机制。他从商品数量和品质两个角度解释了京东举荐系统对业务增长的驱动。

第一、数量上, 电商的商品 SKU 远远超过人脑能解决的量级,比方“果酱”在京东有十几万个 SKU,斯坦福大学的学者已经在线下超市做过一个试验,A 组提供 24 种口味果酱,在货架前停留的用户仅 3% 产生了购买,B 组提供 6 种口味果酱,在货架前停留的用户 30% 产生了购买,绝对 A 组高出 10 倍。“Less Is More”,在候选太多的电商场景中,“货找人”的个性化举荐帮用户筛选出大量适宜他的抉择。

第二、品质上, 个性化举荐是带平台价值观的,京东举荐零碎综合商品的品牌、属性、价格、评估、物流等所有信息,主推“好”、“省”、“快”的商品。因而,在为用户带来更好的购物体验的同时,用户粘性也会减少,从而造成良性循环,带来更好的收益成果。

随着大规模机器学习、深度学习等技术的成熟,它们在商品举荐中的利用也更加宽泛。彭长平认为,目前工业界,举荐零碎是机器学习算法利用最宽泛、最深刻、最胜利的零碎,简直每一个环节,咱们都在用数据和算法驱动的模型,去代替人工拍脑袋。

可能大家最相熟的深度学习技术用于举荐零碎上的利用是点击率和转化率预估,但他还举了几个其余的利用例子:一、召回,召回很难做到一个模型解决所有问题,因而,京东在召回方面同时应用了 Vector-Based、Tree-Based、Graph-Based 多种类型的深度学习模型;二、商品常识图谱,商品的文本、图片、视频了解及商品间的关系,简直齐全依赖于 NLP、CV 等各类机器学习算法;三、Rerank 重排序,举荐是多指标优化问题,在点击率预估值的根底上须要做 Rerank,以晋升用户体验和浏览深度,Session 全局优化疏导用户一直下拉的业务场景,十分匹配深度强化学习。

优质的举荐零碎要具备哪些特点?

因为用户群、业务场景、地区和文化的不同,举荐零碎千人千面,纷纷万变的细节当中,不同平台的举荐零碎也各不相同。彭长平示意,绝对于视频、资讯、直播等媒体内容平台, 京东电商的举荐零碎做到 60 分会比拟容易,但要做到 80 分、90 分却很艰难。

从框架上看,举荐零碎都在做 User 了解、Item 了解和二者匹配,零碎都有选品、召回、点击率预估、Rerank 重排序等环节。但电商举荐的艰难在于以下三个方面:

第一、从 User 端看,内容资讯平台,用户的需要相对来说长期不变,内容的生产过程在线上实现。而购物需要的产生和生产过程都在线下,线上只是一个交易过程,线下的过程是难以追踪和数据化的,电商场景对用户需要的辨认和激发挑战很大;

第二、从 Item 端看,内容资讯平台的内容生产者们,围绕同一个趣味主题,能够日复一日地变着花色更新内容。购物场景中,如果用户曾经购买,同类的商品就不能再举荐了,对拓展和激发用户的需要更高;

第三、从举荐零碎心愿用户做出的 Action 看,内容资讯平台的次要满足用户娱乐类需要,生产不合理举荐资讯的老本很低。而购物场景中,举荐零碎冀望用户点击、浏览,让用户种草甚至让用户花钱购买也是系统优化指标,如果 Item 品质差或举荐精准性不够,用户会摈弃平台的举荐性能,甚至从平台散失。

那么,一个高效、有价值的举荐零碎须要具备哪些特点呢?彭长平认为,在用户没有被动需要表白的状况下,将用户喜爱的 Item 散发到其背后就算得上是好的举荐零碎。这样的零碎须要满足以下三个条件:

第一、是满足用户需要的,体现在用户违心看,停留时间长上;

第二、是有成长性的,体现在能拓展用户趣味、能带动优质的商品或者内容提供者成长、对新用户或新商家敌对;

第三、是体现平台价值观的,举荐零碎促成平台玩家的优胜劣汰。

要做到这三点,举荐零碎须要做几方面的工作:一、从 User 行为反馈和 Item 信息中学习,让模型基于数据自适应的进行匹配;二、召回环节没有 silver bullet,须要应用多种不同类型的算法来做召回,各个阶段的模型都要有较强的泛化能力,对冷启动 User 和 Item 做定制优化;三、体现平台价值观的优化指标函数,大部分是多指标优化。

电商举荐零碎的利用实际

举荐零碎是一种信息过滤零碎,用于预测用户对物品的“评分”或“偏好”,其指标是对用户感兴趣的商品或内容产生有意义的举荐。在充斥着海量信息和数据的互联网上,如果没有举荐零碎,用户想获取有价值的内容就犹如海底捞针。举荐零碎能通过对大量动静生成的信息进行搜寻,为用户提供个性化的内容和服务,无效解决信息超载的问题。随着数字化信息和互联网访问者的爆发式增长,举荐零碎显得比以往任何时候都要重要。

京东举荐零碎倒退到明天,次要经验了以下四个阶段:

一、满足用户需要阶段。 在满足客户需要方面,最早的零碎从搜寻零碎革新而来,将用户近期的浏览的商品了解为用户的需要,Item-based CF 是最次要的召回伎俩。

二、拓展用户需要阶段。 在这个阶段召回上,无论从数据还是从算法角度,都是从尽可能多的角度去晋升召回的丰盛度,京东为此立了个我的项目叫“召回万花筒”,一直晋升召回的多样性和覆盖率。在排序环节,优化指标从强调与用户匹配水平的点击率、转化率,到兼顾优化用户下拉深度、新颖性、多样性。

三、Session 全局优化与商家生态优化阶段。 在进入此阶段后,京东的优化重点在 Rerank 环节,将用户在 Session 内的前序浏览行为视为一个残缺的 List,Rerank 排序是一个 List 生成和 List 评估的过程,即优化 List 整体用户的浏览量和点击量。另一个方向是引入生态优化机制,模型量化用户和商品间产生一次交互,对用户和商家的长期价值,并将预估的量化价值引入到排序机制中。

四、跨用户群体与跨商家群体联结优化阶段。 随着京东业务的倒退,笼罩的用户群体从绝对繁多的群体拓展到了十分多元化的群体中,三到六线城市的用户占比曾经超过六成,无论是京东 App 内,还是专为下沉市场定制的京东极速版、京喜,用户群的拓展、定制化新 APP 的高速增长,为千人千面的举荐算法提出了更大的挑战。这个阶段商品常识图谱、迁徙学习等技术施展了重要作用。

不同期间,京东举荐零碎在晋升举荐精准度、精密度和覆盖率等方面,也做了很多的致力。彭长平示意,要同时晋升举荐零碎几个看似矛盾的优化指标,须要从三个维度动手:召回算法多样化,从计算 User-Item Pair 级的优化转向 Session 级全局优化,护航优质商家成长的生态优化。京东从这三个角度做了以下工作:一、召回万花筒:从召回粒度上,咱们在 User 和 Item 上都建设了粗细粒度不一的分层表征,从不同粒度去做二者的匹配。从召回算法上,Boolean Matching Model、Embedding-based Retrieval、Knowledge-based Retrieval 在咱们的举荐后果都占有较大的比例。二、Session 全局优化:从单条举荐候选看,精准度和惊喜度是有矛盾的,而从最大化 Session 整体点击量的角度优化二者是对立的,即 CTR 模型从 Pointwise 转向了 Listwise。三、商家生态优化:新商家、新商品的品质分级和冷启动机制,无效的保障了其中优质局部在平台的曝光量和订单量。而源源不断的新商家入驻和新商品公布,是晋升覆盖率和惊喜度的重要驱动力。

据彭长平介绍,京东平台上有许多子场景,每个子场景又有十分多的细分搜寻和举荐,对于这些子场景举荐的联结优化,最次要用到的是迁徙学习算法。每个子场景的用户行为都是不充沛的,但每个场景下又有其独特的用户行为模式。京东联结应用主场景和多个子场景的数据进行模型训练,设计了一套多层的网络结构,让模型既能从主场景中迁徙常识,也能从同类的子场景中迁徙常识。通过迁徙学习构建子场景的单个模型,能同时利用在京东 App、京喜 App、京东极速版 App、微信购物、QQ 购物等多个终端。

在各电商平台竞争日趋激烈的当下,如何吸引来更多的新用户并减少老用户的活跃度和平台粘性,是影响平台倒退的关键因素,因而,举荐零碎的一直迭代和降级就显得尤为重要。将来,京东举荐零碎也会在导购类内容举荐、场景式举荐和生态优化机制这三个技术方向上进行优化。

从导购类内容举荐来讲,随着以直播带货为代表的电商内容化,京东平台曾经积攒了大批量内容生产者,他们生产的优质带货内容和商品一起成为举荐零碎的候选 Item,不同类型的物料、不同的优化指标,对算法提出了更大的挑战,更丰盛的内容也给用户带来了更好的”逛“和“买“购物体验。

从场景式举荐来讲,提到“逛”的体验,很多人对“宜家”门店的场景化布局深有感触。京东正在开发基于用户商品生产场景的了解,举荐场景所须要商品的全汇合,并以更平面的形式出现到用户背后,提供在线的场景化购物体验。

最初,从生态优化机制来讲,将来须要做的是,强化举荐零碎内的商家优胜劣汰机制和优质新商家、新商品的成长机制。

技术难题及突破口

尽管说举荐零碎曾经很大水平缓解了信息过载的问题,满足了用户的个性化需要,然而目前仍有局部问题妨碍着举荐零碎的倒退。彭长平认为,这其中最大的艰难还是“数据”的问题。具体体现在两个点上:第一、如何全面获取和疾速解决数据;第二、模型如何能更高效地从海量数据中学习。

那么,在解决全面获取和疾速解决数据问题上,要先别离弄清楚如何解决“全面”和“疾速”的问题。“全面”,须要将每一个与用户交互的触点,线上、线下的全渠道数据交融;“疾速”,须要以准实时的流式数据处理机制,进步数据到模型、以及模型参数更新的时效性。随着 IoT 终端的多样化和终端计算能力的晋升,端计算和云计算联合,能进一步晋升举荐系统对用户反馈的及时应答。

面对海量简单的数据,咱们既要进步模型零碎的相对算力、零碎解决数据绝对量和 TB 级的简单模型服务,也要晋升模型构造对海量数据的适配度,在后一个问题上,彭长平示意更看好 AutoML 技术走向成熟,比方咱们目前在 NAS 网络结构搜寻工作上,成果曾经追平了业余算法工程师长期调优的模型构造,不久的将来,置信就能取代调模型构造的炼金术师们。

彭长平认为:

工业界的举荐零碎,没有单项的核心技术。举荐零碎中算法占据主导、人绝对被动,不论是用户还是商家,对算法出错的容忍度都很低,零碎只有收集到尽可能全和尽可能高时效的数据、采纳更高效的算法、打磨好每一个细节,用户和商家才会信赖举荐零碎。

随着技术的提高,衣、食、住、行、娱,每一个畛域都将进入供过于求的状态。能够预感,随着 5G 和 IoT 的遍及,人和电子设备打交道,会越来越依赖于举荐技术,甚至不是一套平台级的举荐零碎,而是每个人在每一个畛域,都须要一名个性化的举荐“助理”。

直播预报

如果你对以上内容还意犹未尽,想和彭长平老师进行间接交换,那么,机会来了!

下周一晚  20:00(9 月 7 日),彭长平将作客 InfoQ 线上公开课,带来《京东电商举荐零碎的利用实际》精彩分享,对电商场景下用户趣味拓展感兴趣的小伙伴肯定要来看哦!

正文完
 0