作者:闲鱼技术 - 兆晗
背景与挑战
— — “ 水果糖小椿 M39 暂挂 ”
— — “ 列表科幻?”
不知大家是否读懂下面的对话,但在闲鱼,这样的对话每天都在产生。数据显示,闲鱼约 30% 的用户年龄不满 25 岁。理解这些 95 后的趣味偏好,对闲鱼服务年老用户,实现精细化经营有着非常重要的意义。因而,咱们心愿用数据挖掘的形式,对用户的趣味偏好进行打标,创立具备闲鱼特色的趣味标签体系,为闲鱼的精细化经营提供物料,进步用户对闲鱼的活跃度和忠诚度。
相比于商品的结构化信息,兴趣爱好的表白具备更强的灵活性。其范畴简直没有限度,能够是一个很小众的畛域,如抽盲盒、徒手攀岩;也能够是一个很宽泛的格调,如复古风,暗黑系。因而,如何做到高效精准地了解用户,是趣味标签建设面对的最大挑战。
闲鱼 x ChinaJoy 投合年轻人爱好
思路
在趣味标签建设初期,咱们首先梳理了了解用户趣味偏好的 3 个关键点:
- 灵便的趣味表达方式:不限度于结构化的表达方式,趣味偏好可能横跨了用户工作、学习等多个场景,渗透到衣食住行的各个方面,单纯用品牌、行业等结构化的词汇很难形容得精确而残缺
- 趣味表白具备唯一性:咱们调研了闲鱼的趣味畛域的要害内容,发现尽管趣味表白的形式多变,但表白的内容具备很强的唯一性。如 JK 系列、盲盒系列,都是以专有名词为主,独特的圈子文化使得趣味类词汇简直不会产生歧义
- 思考到闲鱼趣味人群是从 0 到 1 的实际,亟需疾速搭建可用的标签体系,咱们的构建形式必须疾速高效,能够批量化地进行生产
基于以上 3 点思考,咱们对业内常见的标签体系生产方式进行了调研。业内常见的标签生产方式能够分为 1)模型预测 和 2)行为统计 两种。
模型预测的形式通过构建机器学习模型,对用户在某个趣味点上的感兴趣水平进行预测打分,得分越高,趣味越浓重,通常可分为有监督和无监督两类。该办法的长处是准确率高,毛病是必须有足够体量的样本,且为了保障准确性,往往采纳二分类的办法,每种趣味都要收集足够的样本别离构建模型,效率低且计算成本高。
行为统计的办法是基于用户历史在趣味内容上的行为进行统计打分,通常会思考行为类型、行为频次和行为工夫衰减等因素,得分越高趣味越浓重。该办法计算简便、可解释性强,但因为统计信息没有泛化和自学习的能力,须要在统计的同时思考到覆盖率和时效性。
在这里,咱们在比照了业内计划后,联合本身业务特点,确定了以行为统计形式为主,具备个性化标签定制能力的标签体系建设计划。对大部分可能被惟一形容的趣味畛域,咱们通过筛选趣味畛域内的关键词,找到对关键词内容产生互动行为的用户进行打标。对于一些关键词匹配无奈精确召回的场景,咱们再进行个性化的建设。
解决方案
趣味标签体系解决方案
上图是趣味标签体系的整体解决方案。主流程是基于平台内商品 / 内容的文本信息进行文本分词荡涤,与经营同学提供的关键词进行文本匹配,召回趣味畛域对应的商品 / 内容等行为标的。再通过计算用户对商品 / 内容的行为,汇总失去用户 - 趣味畛域的得分,汇总生成趣味人群。在用关键词召回时,对于一些无奈枚举或者行业经验不足的状况,咱们通过关键词关联进行了补充。
得益于圈子文化喜爱标榜共性的特点,95 后的大部分趣味畛域都能够用具备惟一意义的关键词来形容。因而,了解用户趣味的问题就转化成了以下两个问题:
- 如何通过关键词召回趣味人群
- 如何筛选适合的关键词
如何通过关键词召回趣味人群
选型初期,咱们与闲鱼社区的工程团队一起,探讨了两套计划:
计划 1:间接计算用户 - 关键词之间的关联关系,并将这种关联关系导入到在线平台,实现在线或近线的检索召回。这种形式具备很好的灵活性和可扩展性,但可能会存在因为关键词分词而带来的歧义。例如,当我想找到搜寻了「复旧 摄影」的用户时,「复旧摄影」可能会被分词为「复旧」和「摄影」别离进行召回,这就可能召回的是搜寻了「复旧 口红」和「日系 摄影」的用户,影响了人群打标的准确性。此外,全量的用户 - 关键词关联数据量十分大,会在很大水平上影响检索效率。思考到初期重点经营长尾趣味畛域,咱们将实现形式调整为计划 2。
计划 2:通过用户 - 商品 - 关键词的形式进行关联。通过多年积淀,闲鱼平台汇合了丰盛的用户行为数据。咱们首先通过关键词匹配对应的商品,匹配内容蕴含商品的题目、形容等文本信息,商品的汇合作为趣味内容的表白。接着统计用户在召回商品上的行为(如浏览、珍藏、互动、交易等),并在行为类型、行为频次和行为工夫上进行加权,失去「用户 - 商品」的行为水平得分。因为趣味标签属于长周期标签,所有用户打标流程都能够放在离线计算实现,再将打标好的数据导入线上平台,依靠闲鱼弱小的人群经营平台和精准投放链路,实现最终的人群精准经营。
实践上,用户在趣味商品上的所有「用户 - 商品」行为得分加和即为用户 - 趣味得分。然而在做趣味粒度的汇总时,咱们心愿可能将用户在平台的其余行为偏好也纳入思考——因为趣味畛域绝对较为长尾,有些用户尽管对趣味畛域商品有过一些行为,但综合察看能够发现该用户在平台十分沉闷,对其余畛域的行为偏好可能还更加浓重——这种用户如果在排序中十分靠前,会对那些在平台活跃度个别,但对趣味畛域非常关注的用户造成打击。而咱们构建趣味标签的其中一个重要指标,就是为了可能拉动长尾的趣味类用户在平台更多地发现适宜本人的内容和雷同爱好的用户,进而晋升长尾流量的活跃度与粘性。为此,咱们在计算用户 - 趣味得分时,借鉴了文本开掘中的 TF-IDF 算法,计算该趣味畛域对用户的重要水平。
通过关键词与用户行为计算用户 - 趣味得分
TF-IDF 是一种文本开掘算法,用以计算某个单词对一篇文章的重要水平。其次要思维是:如果某个单词在一篇文章中呈现的频率高,并且在其余文章中很少呈现,则认为此单词可能很好地标记文章的主题,具备良好的辨别能力。TF-IDF 其实是 TF*IDF,其中,
体现了该单词在单文件中的呈现频率;
体现了该单词在文件汇合中的类别辨别能力。
单词在同一份文件中呈现的频率越高,且文件汇合中蕴含该词的文件数越少,阐明单词的文本分类能力越强,越能体现文件主题。
这里,咱们将一个趣味畛域看做一个单词,一个用户看做一个文件,全量用户看做文件汇合,则用户在不同趣味畛域的 TF-IDF 可示意为
通过这种形式,咱们能够真正对趣味畛域有偏好的用户,标记为趣味人群。
如何筛选适合的关键词
趣味畛域关键词的筛选次要采纳「典型关键词 + 热搜词」的形式。典型关键词由业务同学基于经营教训给出,往往蕴含了如经典产品系列,入门级汉服品牌等最能体现圈子文化的词汇。通过这些关键词,咱们能够召回根底行为人群。但 95 后门追新求变的性情使得趣味圈子里的生命周期短,更新换代十分快。针对这个问题,咱们以根底人群为规范,计算了人群近期热搜词,同样作为关键词进行人群召回,在保障人群规模的同时保障了人群的时效性。
「典型关键词 + 热搜词」找到畛域关键词
下图是一个 JK 人群的关键词召回示意,图中由内而外别离是「标签 - 外围词 - 热搜词」。
JK 标签关键词云
对于一些较为宽泛的趣味畛域,如动物,宠物等,咱们心愿可能深刻到更加细分的畛域进行经营。但因为畛域自身范畴很大,业务同学也无奈枚举所有细分畛域。这种状况下,咱们充分利用了团体内成熟的类目体系,以最细叶子类目名称(如宠物类目下还能够细分为猫,狗,鱼,仓鼠等叶子类目,动物下还有多肉,盆景等叶子类目)作为初始关键词,通过关联关系找到更多同一细分畛域下的衍生关键词,从而行成细分畛域的关键词汇合,召回对应人群,造成标签。下图为宠物类目标细分示意图,图中由内而外别离是「细分畛域叶子类目 – 衍生关键词 – 趣味畛域词」
宠物标签关键词云
还有一些趣味畛域,很难通过繁多关键词进行精确的形容。以复旧念旧类趣味为例,领有这种趣味偏好的用户,其本质上是对“复旧”这一形象的格调概念有趣味,它涵盖的商品或内容往往横跨美妆、服饰、绘画、摄影甚至珍藏等多个畛域。这种状况下,咱们同样基于关联关键词的思路,召回与复旧相干的关键词组成词组,进行文本匹配和用户召回。
利用成果
目前标签体系曾经实现了第一阶段的建设。第一阶段重点对 95 后最热衷的趣味畛域进行打标,成绩如下:
- 标签数量 20+,精准笼罩 95 后趣味畛域,如 JK、lolita、汉服、二次元等
- 95 后群体中已有超过 50% 的用户打上了趣味标签,为业务精细化经营提供了充沛的资源
除了笼罩量上的冲破,标签体系同样在理论业务中拿到了投放成果,验证了人群的准确度。在一期建设实现后,咱们将标签体系利用于闲鱼的直播业务,带来了理论的成果晋升:
- 比照以往默认的内容展现,趣味人群 - 趣味畛域主播的匹配形式点击转化成倍晋升,显著进步举荐效率
- 因为趣味类主播在首页曝光、点击量的晋升,长尾的趣味内容类主播取得了更多的流量,很大水平上晋升了主播的积极性
将来布局
因为我的项目工夫紧急,趣味标签以疾速实现业务指标为准则进行了初版建设,后续随着业务的倒退,咱们的标签体系也会逐步欠缺
- 在现有关键词发现的根底上,欠缺关键词开掘能力,可能自动化地嗅探到畛域内要害词汇,晋升人群召回效率
- 减少语义向量示意,进一步晋升关键词召回的准确率和覆盖率
- 丰盛用户的行为信息,在现有的行为信息根底上,减少用户在社区、本地化或娱乐等场景下的行为,对用户进行更加丰盛和全面的刻画
原文链接
本文为阿里云原创内容,未经容许不得转载。