关于大数据:标签评分海量标签如何进行系统治理

本篇是「标签画像系列」的第四篇，此前咱们曾经介绍过了标签画像体系建设方法论、标签体系设计与加工、标签加工与落库，这次咱们来介绍一下「标签评分」。

标签评分是标签治理的一个重要措施，通过给标签打分，可清晰直观的从各个维度评估标签，把握标签实在应用状况，进行标签继续优化，助力业务经营。同时，也能帮忙数据团队判断哪些标签更应该投入计算与存储资源，正当布局集群资源。

一、为何要应用标签评分？

通过后期标签体系设计、标签加工，标签终于能够上线，让业务人员应用，施展价值了！

随着标签上线一段时间后，咱们开始关怀每天占用计算资源与存储空间，跑进去的上百个标签，业务同学真的用到了多少，业务收益是否能笼罩数据老本呢？标签上线后，其品质怎么样，是否存在老规定不实用、须要继续优化的状况？

带着这一问题，咱们须要用一种办法来评估标签上线后的应用状况，标识各个标签的价值。参考电影评分、花呗评分等模式，咱们决定也给标签打个分、排个序，简单明了。

二、标签评分模型

标签评分模型，通过思考咱们选取了5个维度作为评分入参：

标签总评分= a 标签应用度评分 + b 标签关注度评分 + c 标签品质评分 + d 标签继续优化读评分 + e * 标签平安度评分

其中标签应用度、标签关注度、标签品质、标签继续优化度作为外围维度，标签平安度可依据理论状况思考是否纳入。a、b、c、d、e是权重，总和为100%。

01 标签应用度评分

标签应用度，用以评估标签被剖析、内部零碎的应用状况。

在袋鼠云标签产品中，标签有这几种应用场景：

• 标签援用：如原子标签被衍生标签利用、衍生标签被组合标签援用等，基于该场景，计算“标签援用次数”指标。

• 标签剖析：标签在标签圈群、群组画像、群组比照、显著性剖析等画像剖析性能中被剖析的状况，计算“标签剖析次数”指标。

• 标签调用：标签通过数据API被内部利用查问的次数，计算“标签调用次数”指标。

基于以上3个指标，咱们首先采纳Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签应用度评分。

02 标签关注度评分

标签关注度，用以评估被搜寻、查看、珍藏的状况。

袋鼠云标签产品中，标签关注度与以下场景无关：

• 标签搜寻：标签在标签市场被用户搜寻的状况，计算“标签搜素次数”指标。

• 标签查看：标签被点击查看根底信息、剖析页面等的次数，计算“标签查看次数”指标

• 标签珍藏：收藏该标签的用户数，计算“珍藏用户数”指标

以上3个指标可反映标签的关注热度，咱们仍然采纳Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签关注度评分。

03 标签品质评分

标签品质，用以评估用户被打标状况，反映标签规定的合理性。

当咱们定义了标签和标签值，通过计算之后，标签值打在用户身上的很少，那阐明咱们的规定执行不合理。比方咱们定义了“活跃度”这个标签，分为“高沉闷、中沉闷、低活跃度”等，但实在被打上的这个标签的用户，低于70%，还有很大一部分比例是空值，未打上该标签，阐明咱们制订的标签值规定有破绽，须要欠缺。

零碎将计算每个标签的“标签覆盖度”，将覆盖度归一化为分数，转化成评分。

04 继续优化度评分

继续优化度，用以评估标签上线后，是否后续再去优化该标签。

在客户的生命周期中，一直有新用户流入、缄默用户散失。公司策略调整、产品公布等都会影响客户行为，这些变动咱们须要以数据的形式出现，所以咱们须要一直依据业务调整、客户变动调整咱们的标签策略，以谋求可通过标签间接地、迅速地反映客户状况，领导业务经营。

继续优化度，咱们通过“标签优化次数”指标来评估，指标签上线后标签被编辑再次公布的的次数。咱们同样采纳Sigmoid函数将指标转化为评分。

05 平安度评分

标签平安度，不能反映标签的热度，但也将其作为了标签评分的一个维度，可依据企业状况思考是否纳入。

在袋鼠云标签产品中，标签平安相干的策略有：

• 标签的可见度：标签可编辑、可查看的用户范畴

• 标签应用是否须要申请受权：标签公布后，其他人应用该标签，是否须要申请审批

• 标签是否进行行级权限管制：下面咱们管制了标签的列权限，行级权限反映该标签是否设置了行级权限

• 标签是否脱敏：标签是否进行脱敏

依据标签的平安度策略配置状况，咱们也采纳评分的形式来评估。

基于以上5个维度的评分，咱们依据后面提的公式加权汇总，失去总评分。

三、标签评分的利用

基于标签评分，为了更加直观的让标签管理员、业务人员查看热门标签、缄默标签等，通过排行榜的形式出现：

01 热门标签排行榜

基于标签的应用度、关注度、继续优化度3个角度来计算标签的热门评分，展现TOP N的热门标签。

02 缄默标签排行榜

热门的标签的反向排序便是缄默标签，缄默标签阐明这些标签使用率很低，可思考定期下线，节俭集群资源。

03 综合排行榜

综合排行榜便依据标签的综合评分进行排序，从标签应用度、关注度、继续优化度、品质、平安等几个维度评估，全面评估标签。

04 标签应用度、关注度、继续有优化度、品质、平安分榜单排行

用户可依据本人更加关注的维度，查看标签应用度、关注度、继续优化度、品质、平安各个子维度的排行榜。同时，可查看各个标签的具体指标，如应用度维度，可查看各个标签的以后援用次数、剖析次数、调用次数，针对具体指标具体分析，满足不同的标签剖析场景。

标签评分模型上线后，咱们须要依据理论状况调整不同维度的权重，合乎本身理论状况。当通过一段时间的利用，大家认可这套评估逻辑之后，便能够将动态化的评分展现转化为动态化的告警、自动化治理等，可设置标签品质告警、评分告警，主动告诉标签管理员、责任人等。

以上便是在产品中利用的评分逻辑，心愿对大家有所帮忙，也可提出不同思路优化评分模型，达到更好的标签治理成果。

袋鼠云开源框架钉钉技术交换qun（30537511），欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息，开源我的项目库地址：https://github.com/DTStack/Taier

关于大数据:标签评分海量标签如何进行系统治理

一、为何要应用标签评分？

二、标签评分模型

01 标签应用度评分

02 标签关注度评分

03 标签品质评分

04 继续优化度评分

05 平安度评分

三、标签评分的利用

01 热门标签排行榜

02 缄默标签排行榜

03 综合排行榜

04 标签应用度、关注度、继续有优化度、品质、平安分榜单排行

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:标签评分海量标签如何进行系统治理

一、为何要应用标签评分？

二、标签评分模型

01 标签应用度评分

02 标签关注度评分

03 标签品质评分

04 继续优化度评分

05 平安度评分

三、标签评分的利用

01 热门标签排行榜

02 缄默标签排行榜

03 综合排行榜

04 标签应用度、关注度、继续有优化度、品质、平安分榜单排行

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复