作者:闲鱼技术-莫癫
业务背景闲鱼直播业务上线后面临的最大问题是增长问题。闲鱼BI同学剖析发现,比照短时观看和长时观看人群,发现两局部人群有较显著的趣味阶段性差别。 业务心愿在了解直播、主播和用户的根底依据趣味对头部优质直播精准投放, 放大头部主播马太效应实现直播转化和观看工夫的增长。
指标简略概括须要达成两个后果:
在三周内实现精准投放平台,积淀根底经营平台的基础设施;业务上保障头部直播间场均转化uv达成肯定指标,转换率失去显著晋升;那么单纯借助算法模型实现优质直播举荐,是否也能够达成业务上的指标?而后事实却是,巧妇难为无米之炊。 直播上线工夫短, 播放和观看场次无限, 使得模型的训练没有足够的样本间接去了解用户对直播的趣味, 平台也未对主播直播内容做强控实现内容的结构化。那么就须要将经营对直播畛域教训与BI剖析、算法联合, 在了解用户、直播和直播间的根底上,实现对直播间到趣味人群的投放,并积淀平台化能力。
实现计划给趣味人群投放实时直播间的第一步是要实现对人的了解,包含C端用户以及主播的了解,其次是直播的了解。了解的后果最终会以趣味人群、主播人群的形式与页面资源位关联,造成人(用户)货(直播)场(资源位)的初步匹配。 用户的了解依赖于用户的特色数据,包含闲鱼用户根底特色,搜寻、浏览、公布、交易等商品相干行为记录,互动行为特色和用户趣味标签特色等。这些特色对实时性要求不高,大部分特色通过离线计算产出,后续通过离线计算形式对不同数据起源的特色归一化。 用户所有特色会同步到人群圈选平台,通过交并差的形式实现人群圈选,进行人群预览和导出。 平台整体设计 圈选的人群数据是以userId和人群Id的映射表形式保留离线,与投放的配置进行联结后失去<用户, 资源位, 主播>的关联关系,而后关系数据会同步到图数据库Igraph,提供给算法在线举荐时查问关联直播实现按趣味举荐和曝光。受限的是整体的曝光流量有额度的,算法会基于模型,在无限PV额度内对在线直播间实现较优的抉择。 上面具体论述是怎么实现用户了解和直播间投放的。
用户了解对用户了解的惯例特色生产不是个难事, 而用户的趣味标签须要针对闲鱼用户从零开始, 补救这方面能力的缺失。 趣味标签次要是通过剖析用户历史行为产生的行为文本,找出其与畛域标签波及到词组的关联性。 蕴含如图商品和帖子的各类行为文本,目前数据在逐步补充中。 经营会整顿不同畛域的关键词词组作为输出, 匹配到关联度高的用户关联上畛域标签特色。 要实现趣味标签的产出, 要解决三个问题: 存储、检索和相关度计算。 趣味标签产出(计划一) 如图计划一是最后构想计划, 整体流程如下:
关键词结构化: BI同学实现行为文本明细的解决, 包含数据源归一、去重和UDF解决分词, 并依据关键词频次和预设权重算分。 输入结构化后的用户行为文本明细, 包含用户ID、实体ID、关键词列表和关键词对应的分值列表;打标规定DSL化:对经营输出的行业趣味要害词组进行分词后转成数据库可执行的DSL;趣味用户DUMP: 执行DSL检索出与输出关键词匹配的结构化行为文本, 进行用户去重, 实现用户趣味标签关联;人群圈选: 基于用户趣味标签和其它特色数据做交并差后导出最终人群, 该步骤是在二方人群圈选平台进行;整个计划是可行的, 而且具备很好的灵活性, 离线局部可不断完善和丰盛结构化行为文本, 工程测专一于DSL可视化优化和整个数据流的流转提效, 整个平台能够良性迭代进化。 然而该计划确难以履行, 次要存在以下问题:
能给的工期短, 要求2到3周实现所有链路性能上线并撑持业务验证, 实现该计划是简直不可能的;存储老本微小, 测算大略须要30PB的在线存储资源, 这对于一个未验证价值的业务来数也是不可能申请到的;有同学兴许很快发现, 从文本结构化到检索特定趣味用户的过程不就是一个能够用搜索引擎实现的业务场景吗? 最大的问题依然是估算问题, 搭建搜索引擎也是个不小的老本,而且从搜索引擎dump大量数据存在着重大的性能问题,同时也无奈反对BI同学在整个流程中进行优化。 搜索引擎根本流程 在线计划是比拟现实的, 能够实现经营利用本人的行业教训自助实现趣味标签关联和人群圈选。因为上述客观条件限度, 最终咱们抉择了离线关联用户和趣味标签的形式, 疾速接入局部趣味标签, 而后逐步推进在线计划的形式。 这里得益于BI同学全面的能力, 实现了“离线搜索引擎”, 以及防患未然积淀了局部用户趣味标签。 这样整体计划就是这样的:
...