关于大数据:标签评分海量标签如何进行系统治理

60次阅读

共计 2399 个字符,预计需要花费 6 分钟才能阅读完成。

本篇是「标签画像系列」的第四篇,此前咱们曾经介绍过了标签画像体系建设方法论、标签体系设计与加工、标签加工与落库,这次咱们来介绍一下「标签评分」。

标签评分是标签治理的一个重要措施,通过给标签打分,可清晰直观的从各个维度评估标签,把握标签实在应用状况,进行标签继续优化,助力业务经营。同时,也能帮忙数据团队判断哪些标签更应该投入计算与存储资源,正当布局集群资源。

一、为何要应用标签评分?

通过后期标签体系设计、标签加工,标签终于能够上线,让业务人员应用,施展价值了!

随着标签上线一段时间后,咱们开始关怀每天占用计算资源与存储空间,跑进去的上百个标签,业务同学真的用到了多少,业务收益是否能笼罩数据老本呢?标签上线后,其品质怎么样,是否存在老规定不实用、须要继续优化的状况?

带着这一问题,咱们须要用一种办法来评估标签上线后的应用状况,标识各个标签的价值。参考电影评分、花呗评分等模式,咱们决定也给标签打个分、排个序,简单明了。

二、标签评分模型

标签评分模型,通过思考咱们选取了 5 个维度作为评分入参:

标签总评分 = a 标签应用度评分 + b 标签关注度评分 + c 标签品质评分 + d 标签继续优化读评分 + e * 标签平安度评分

其中标签应用度、标签关注度、标签品质、标签继续优化度作为外围维度,标签平安度可依据理论状况思考是否纳入。a、b、c、d、e 是权重,总和为 100%。

01 标签应用度评分

标签应用度,用以评估标签被剖析、内部零碎的应用状况。

在袋鼠云标签产品中,标签有这几种应用场景:

• 标签援用:如原子标签被衍生标签利用、衍生标签被组合标签援用等,基于该场景,计算“标签援用次数”指标。

• 标签剖析:标签在标签圈群、群组画像、群组比照、显著性剖析等画像剖析性能中被剖析的状况,计算“标签剖析次数”指标。

• 标签调用:标签通过数据 API 被内部利用查问的次数,计算“标签调用次数”指标。

基于以上 3 个指标,咱们首先采纳 Sigmoid 函数将指标转化为评分,再将各个指标的评分加权汇总成标签应用度评分。

02 标签关注度评分

标签关注度,用以评估被搜寻、查看、珍藏的状况。

袋鼠云标签产品中,标签关注度与以下场景无关:

• 标签搜寻:标签在标签市场被用户搜寻的状况,计算“标签搜素次数”指标。

• 标签查看:标签被点击查看根底信息、剖析页面等的次数,计算“标签查看次数”指标

• 标签珍藏:收藏该标签的用户数,计算“珍藏用户数”指标

以上 3 个指标可反映标签的关注热度,咱们仍然采纳 Sigmoid 函数将指标转化为评分,再将各个指标的评分加权汇总成标签关注度评分。

03 标签品质评分

标签品质,用以评估用户被打标状况,反映标签规定的合理性。

当咱们定义了标签和标签值,通过计算之后,标签值打在用户身上的很少,那阐明咱们的规定执行不合理。比方咱们定义了“活跃度”这个标签,分为“高沉闷、中沉闷、低活跃度”等,但实在被打上的这个标签的用户,低于 70%,还有很大一部分比例是空值,未打上该标签,阐明咱们制订的标签值规定有破绽,须要欠缺。

零碎将计算每个标签的“标签覆盖度”,将覆盖度归一化为分数,转化成评分。

04 继续优化度评分

继续优化度,用以评估标签上线后,是否后续再去优化该标签。

在客户的生命周期中,一直有新用户流入、缄默用户散失。公司策略调整、产品公布等都会影响客户行为,这些变动咱们须要以数据的形式出现,所以咱们须要一直依据业务调整、客户变动调整咱们的标签策略,以谋求可通过标签间接地、迅速地反映客户状况,领导业务经营。

继续优化度,咱们通过“标签优化次数”指标来评估,指标签上线后标签被编辑再次公布的的次数。咱们同样采纳 Sigmoid 函数将指标转化为评分。

05 平安度评分

标签平安度,不能反映标签的热度,但也将其作为了标签评分的一个维度,可依据企业状况思考是否纳入。

在袋鼠云标签产品中,标签平安相干的策略有:

• 标签的可见度:标签可编辑、可查看的用户范畴

• 标签应用是否须要申请受权:标签公布后,其他人应用该标签,是否须要申请审批

• 标签是否进行行级权限管制:下面咱们管制了标签的列权限,行级权限反映该标签是否设置了行级权限

• 标签是否脱敏:标签是否进行脱敏

依据标签的平安度策略配置状况,咱们也采纳评分的形式来评估。

基于以上 5 个维度的评分,咱们依据后面提的公式加权汇总,失去总评分。

三、标签评分的利用

基于标签评分,为了更加直观的让标签管理员、业务人员查看热门标签、缄默标签等,通过排行榜的形式出现:

01 热门标签排行榜

基于标签的应用度、关注度、继续优化度 3 个角度来计算标签的热门评分,展现 TOP N 的热门标签。

02 缄默标签排行榜

热门的标签的反向排序便是缄默标签,缄默标签阐明这些标签使用率很低,可思考定期下线,节俭集群资源。

03 综合排行榜

综合排行榜便依据标签的综合评分进行排序,从标签应用度、关注度、继续优化度、品质、平安等几个维度评估,全面评估标签。

04 标签应用度、关注度、继续有优化度、品质、平安分榜单排行

用户可依据本人更加关注的维度,查看标签应用度、关注度、继续优化度、品质、平安各个子维度的排行榜。同时,可查看各个标签的具体指标,如应用度维度,可查看各个标签的以后援用次数、剖析次数、调用次数,针对具体指标具体分析,满足不同的标签剖析场景。

标签评分模型上线后,咱们须要依据理论状况调整不同维度的权重,合乎本身理论状况。当通过一段时间的利用,大家认可这套评估逻辑之后,便能够将动态化的评分展现转化为动态化的告警、自动化治理等,可设置标签品质告警、评分告警,主动告诉标签管理员、责任人等。

以上便是在产品中利用的评分逻辑,心愿对大家有所帮忙,也可提出不同思路优化评分模型,达到更好的标签治理成果。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack/Taier

正文完
 0