共计 4511 个字符,预计需要花费 12 分钟才能阅读完成。
图片起源:https://revolutionmotors.ca/b…
作者:原点、正超
一、冷启动问题介绍
1 什么是冷启动
在举荐零碎中,存在着成千上万的用户,也存在着成千上万的物品,举荐零碎的实质工作是为用户举荐其感兴趣的物品。在这外面,用户和物品都是不断更新的,如何给新用户举荐其感兴趣的物品,如何把新物品举荐给对其感兴趣的用户,就是举荐零碎的冷启动问题。
所以,举荐零碎的冷启动问题,次要包含用户冷启动、物品冷启动两大类。
2 冷启动的重要性
用户的流动、不确定性是客观存在的事实,物品的上架、更新、下架也是客观存在的事实,在当今信息过载的时代,用户的不确定性体现的更加显著,如何给这些不确定性的用户举荐好的物品,是举荐零碎的次要职能之一。既然用户和物品都是一直产生的,在互联网上是一种常态,那么冷启动问题就会随同产品的整个生命周期。
互联网上的每个产品都在关注 MAU、DAU,在这个流量为王的时代,一个产品是否存活、是否很好的存活,用户起了至关重要的作用。新用户对产品是否称心,是否留存,间接关系到一个产品的用户增长和收益增长。在商业畛域,顾客就是上帝,在互联网上,这句话仍然实用,并把这句话体现的酣畅淋漓。
另外,一个产品是否对其物品新陈代谢,是吸引用户的关键所在,从某种意义上来讲,物品的好坏间接决定了一个产品的好坏。
所以,如何解决好新用户、新物品问题,即冷启动问题,对于举荐零碎来说十分重要。
3 冷启动的办法
依据用户和物品的不同特点,将采取不同的冷启动办法,接下来别离论述。
3.1 用户冷启动
非个性化举荐
热门举荐是一个不错的办法,尽管没有个性化,然而很多人都有从众心理,依据二八准则,把热门物品举荐给新用户,是否满足 80% 用户的需要。比方热门电影、热门歌曲、热门短视频的举荐。
利用注册信息举荐
当初很多 app 均要求用户注册之后能力应用,所以能够依据这些注册信息进行个性化举荐,比方婚恋网站,能够给男士举荐美女,为美女举荐帅哥等。
另外还能够依据注册的年龄、地区、职业、学历、支出等信息造成人物画像,而后依据这些人物画像进行个性化举荐。
依据趣味点进行举荐
当初有些 app 要求用户在应用之前抉择本人的趣味点,以便举荐零碎可能很好进行的举荐,比方新闻类 app 要求用户抉择感兴趣的标签,游戏类 app 要求用户抉择感兴趣的游戏品种,音乐类 app 要求用户抉择感兴趣的曲风等等。
基于大量行为进行举荐
有些用户活跃度比拟低,行为也比拟少,然而能够依据这些少有的用户行为进行个性化举荐,比方用户看过某个短视频,则能够依据这个看过的短视频进行举荐。
采纳试探的办法进行举荐
探测利用的办法是举荐零碎罕用的办法之一。首先随机给用户举荐几个物品,而后依据用户的反馈获取用户的趣味。这种办法次要实用于较少耗费用户工夫的 app 上,能够疾速的定位用户的趣味,比方新闻类,短视频类 app。
依据趣味迁徙策略进行举荐
有些公司有比拟成熟的 app,或者一个 app 上有多类举荐,则能够借助其余的用户趣味进行迁徙举荐,比方有些 app 即举荐音乐,也举荐短视频,则能够依据用户对音乐的趣味点举荐相干的短视频。
3.2 物品冷启动
基于 side information 进行举荐
物品人造具备某些属性信息,比方商品的商家、分类、价格等,再比方音乐的语种、格调、曲风、乐器等,举荐零碎则能够依据这些根本信息举荐给相应感兴趣的用户。
基于大量行为进行举荐
有些物品具备大量的行为信息,则能够依据这些大量的行为信息进行个性化举荐,比方某个用户残缺播放了某个短视频,则能够把这个短视频举荐给类似的用户。
采纳试探的办法进行举荐
探测利用的办法同样也实用于物品的冷启动,首先把一个冷启动的物品随机分发给一批用户,依据用户的反馈举荐给相应感兴趣的用户。
4 冷启动办法的评估指标
评估一个冷启动办法的好坏,次要思考以下三点:
覆盖度
第一个须要思考的评估指标是覆盖度,覆盖度的大小间接决定了线上成果的好坏,如果覆盖度过低,线上覆盖范围内的成果再好,整体的成果也会大打折扣。对于后面叙述的办法,基于 side information 的物品冷启动办法和非个性化的用户冷启动办法覆盖度均很高,简直能够笼罩 100%。而基于大量行为的用户冷启动办法和依据趣味迁徙的用户冷启动办法要求就绝对严苛一点,其覆盖度就没那么高了。
准确度
第二个须要思考的评估指标是准确度,比方依据趣味迁徙的用户冷启动办法因为有较多的用户信息,其举荐的准确度就绝对很高,而如基于 side information 的办法,尽管覆盖度很高,但其准确度就不那么高了。
可解释
举荐零碎中的举荐可解释性,无论对于用户还是对于举荐零碎来说都十分重要,当初很多举荐零碎也越来越器重举荐的可解释性。同样,对于冷启动问题,好的可解释性,也有利于晋升举荐的准确度。比方依据趣味点进行的用户冷启动办法,就能够很好的为用户解释举荐的物品。
从上述几个评估指标来看,没有一个办法占据所有的长处,所以实际中的举荐零碎,也是多种冷启动办法并存,以达到多种办法长处互补的成果。
上述咱们简要介绍了冷启动问题的定义,解决两类冷启动问题的个别办法,以及评估冷启动办法的好坏规范。接下来将介绍在在音乐举荐零碎中,咱们对于解决歌曲冷启动问题的实际计划。
二、云音乐歌曲冷启动实际
1 业务背景
目前入驻网易云音乐的独立音乐人超 40 万,独立音乐人每天有大量优良的新作品公布,如何疾速精准的将这些优良的新作品散发到指标听众的播放列表中,实现歌曲的冷启动进而进入歌曲成长体系是网易云音乐的举荐零碎要解决的一个重要问题。
冷启动歌曲因为其特殊性,很难间接套用针对非冷启动歌曲建设的举荐模型,因而须要针对冷启动歌曲建设一套无效的歌曲举荐模型。
2 歌曲冷启动面临的问题
2.1 歌曲特色缺失
冷启动歌曲面临的基本难题是短少用户对歌曲的历史交互数据,从而导致特色和样本的缺失。
短少歌曲统计特色
包含歌曲的各类行为,如播放,下载,珍藏,分享等行为的次数和转化率特色,这类特色通常是歌曲召回和排序模型中重要组成部分,冷启动歌曲因为不蕴含这些特色无奈间接应用现有模型。
短少样本来训练冷启动歌曲的 embedding 向量
举荐零碎中召回和排序模型中的歌曲 embedding 通常是端到端训练失去的,而冷启动歌曲不存在于词表内,无奈间接失去对应的歌曲 embedding 示意。
2.2 业务可解释性
歌曲冷启动零碎的终极目标还是服务于业务,除了实现将冷启动歌曲胜利散发进来这一指标外,还心愿冷启动的过程尽量具备可解释性。一个具备可解释性的冷启动零碎,将更好的帮忙业务去解答诸如什么样的歌曲更容易冷启动胜利这类问题,从而为后续冷启动歌曲提供成功经验。
3 解决方案
解决歌曲冷启动的核心思想还是尽量减少可用数据,利用最宽泛的办法是利用 side information 的冷启动办法,这类办法通常实现简略且,对数据特色的要求低,同时具备良好的业务可解释性。
上面将从冷启动歌曲召回和冷启动歌曲的排序两个角度别离介绍基于内容标签的冷启动计划。
3.1 冷启动召回
因为无奈收集到冷启动歌曲的用户交互行为记录,通常无奈对冷启动歌曲应用惯例的 i2i 或向量进行召回,但能够退而求其次,利用冷启动歌曲的内容标签进行召回,召回的过程如下图
第一步,召回局部将冷启动歌曲对应的内容标签做预处理归一化,包含仅保留主曲风,小语种归一,专辑艺人和演唱艺人对立等。
第二步,冷启动的歌曲依照内容标签进行归类,每一类外部依照带工夫衰减的转化率给予召回候选分,候选分的计算形式为:
由三个局部组成
第 1 局部:工夫衰减因子,days 示意冷启动天数,T 示意半衰期,这部分整体示意的意思是越是近期的新歌曲分数越高。
第 2 局部:平滑的标签转化率,具体的计算形式为
like7d 和 play7d 别离示意最近 7 天歌曲在平台内的珍藏人数和播放人数,k 用于调节初始转化率。这部分示意应用冷启动歌曲的标签维度的转化率示意冷启动歌曲转化率。
第 3 局部:冷启动歌曲自身的平滑转化率,整体计算过程达到的成果是:1)应用平滑转化率作为召回候选分;2)冷启动初期无冷启动歌曲转化数据,则应用冷启动歌曲对应的内容标签转化率代替;3)随着冷启动散发工夫推动,歌曲内容标签转化率作用缩小,逐步被理论歌曲的转化成果代替。
3.2 冷启动排序
与召回局部相似,排序时无奈间接应用冷启动歌曲的特色,但能够进化为应用冷启动歌曲的标签特色,借用非冷启动歌曲举荐排序模型训练的曲风,语种和艺人的统计特色以及 embedding 向量来示意冷启动歌曲的缺失特色。
排序局部模型构造如下图
蕴含歌曲侧和用户侧特色构建,以及用户和冷启动歌曲的排序模型。
歌曲侧
将针对非冷启动歌曲训练的排序模型中的曲风,语种和艺人对应的 embedding 向量以及歌曲标签对应的统计特色导出。而后依据冷启动歌曲的曲风、语种和艺人标签别离查问 embedding 和统计特色。
用户侧
计算用户对非冷启动歌曲曲风、语种和艺人维度的偏好序列,查问 embedding 并做 pooling 后将用户的标签偏好示意为对应的偏好向量。
排序模型:该局部对用户曲风,语种和艺人三个维度的向量进行内积计算匹配分,而后加上歌曲标签维度统计特色以及用户维度属性特色输出逻辑回归模型预测用户是否。模型的训练时在用户对非冷启动歌曲的交互样本上进行,训练实现后失去每个的权重输入。
线上预测
因为用户侧偏好向量、用户属性特色和冷启动歌曲侧标签转化率和歌曲标签向量均能够在离线实现,线上预测时只须要依据歌曲标签查问 embedding,而后别离与用户偏好标签进行匹配,最初别离乘以逻辑回归模型中每个维度权重输出 sigmoid 即可失去用户对冷启动歌曲的排序分。线上预测时计算量少,预测速度快。
最初,失去用户对候选的冷启动歌曲的打分后,取 top 歌曲插入现有歌曲举荐零碎的散发流量中,实现对冷启动歌曲的散发。
4 业务成果
掂量冷启动歌曲是否胜利散发进来最间接的指标即是冷启动歌曲的曝光覆盖率,即有过歌曲曝光的用户中有多少用户曾曝光过冷启动歌曲。但因为冷启动歌曲不肯定全是高质量,给用户举荐了品质不高的歌曲可能影响用户播放体验,因而不能无限度的散发冷启动歌曲。一个好的歌曲冷启动零碎应该是对现有歌曲举荐零碎无影响或影响尽量小的根底上,让更多的冷启动歌曲被散发进来。
下图比照了线上试验状况,退出冷启动举荐的召回和排序作为实验组,无冷启动举荐作为基准组的试验成果。试验期间在不影响现有歌曲举荐零碎用户体验指标前提下,退出歌曲冷启动零碎的实验组相比基准组的冷启动歌曲曝光覆盖率获得了绝对减少 40% 以上显著晋升。
5 小结
本局部介绍了基于标签的歌曲冷启动举荐办法,该办法简略无效,是目前网易云音乐歌曲举荐零碎中重要的组成部分,是构建衰弱的音乐散发生态系统的重要基石,为泛滥冷启动新歌的成长提供了第一步的助力。
在本系列的后续内容中,咱们将持续分享云音乐在冷启动这一经典问题上的更多解决办法和实践经验,敬请期待。
本文公布自网易云音乐技术团队,文章未经受权禁止任何模式的转载。咱们长年招收各类技术岗位,如果你筹备换工作,又恰好喜爱云音乐,那就退出咱们 staff.musicrecruit@service.ne…