关于大数据:想要精准营销从学习搭建一套对的标签体系开始丨DTVision分析洞察篇

47次阅读

共计 3643 个字符,预计需要花费 10 分钟才能阅读完成。

在人与人打交道的过程中,咱们会在有意无意间给四周的人通过贴标签的形式进行大抵的判断,比方好谈话的、难相处的、聪慧的、爱冷落的……贴标签就是用最快的速度将人和事归类,这是人类使用“模式识别”意识世界、进行社会交往最便捷的形式之一。

而在企业的数字化转型过程中,搭建标签体系也早已不是什么神秘的事件。在数字经济时代的明天,各行各业都早已意识到了数据的重要性,开始开掘数据的价值。标签体系,正是将数据承载的信息和价值进行了具象化的出现。通过采集用户在产品中的应用痕迹,进行标签剖析、客户洞察,再落地到理论的企业精细化经营过程中去。能够说,标签是从理论业务场景登程,解决理论的业务问题的一个过程。

然而,落地到标签体系理论的设计与落地中来,却并不是那么简略,欲速不达的事件。很多人都在做,却从第一步开始就做错,更不用说能带来真正的价值。那么到底应该如何利用和了解标签体系,这个系列将联合数雁的我的项目交付教训进行具体的解说,明天先来聊聊标签的设计与加工,个别须要通过以下几个步骤:

· 标签体系设计

· 标签模型设计

· 标签加工与更新

· 标签利用

一、标签体系设计

标签服务于业务利用场景,好的标签体系设计可能让业务人员在应用时随需随取,及时查问出须要的数据,就算不具备这个标签,业务人员也能够本人疾速加工进去,无需寻求数据开发人员的帮忙。那须要做到

·标签类目划分正当

·标签涵盖的数据源丰盛,标签欠缺

·后续扩展性高,即基于根底标签加工出新的标签时,方便快捷

标签体系的设计个别会依照以下步骤:

1、数据梳理

依据现有业务背景,以及数据,梳理出大略的标签体系。如企业个别数据大略来源于这几局部:

● 用户根底数据

用户 ID、性别、年龄、手机号、邮箱、身份证号、会员等级等根底信息。

● 业务交易数据

如在批发畛域,用户产生的每一笔交易都会有记录,如下图:

● 用户行为数据

如用户在 APP、PC、小程序等的浏览、点击、珍藏、评论行为,可反映出用户的行为特点。

● 流动 / 积分数据

会员商城的 cha 会员等级、积分兑换等数据。

● 售后投诉数据

客户投诉、售后解决等数据。

基于对数据的梳理,可进行标签根本体系的梳理,梳理出一部分有价值的标签。

2、基于 OLP 模型体系化梳理标签

OLP 模型是目前比拟通用的建设标签体系的模型,OLP 指“实体 - 关系 - 属性”模型,用下方场景举例:

· 实体:指对象,如人、书籍、门店等,可针对每个实体建设一套标签体系

· 属性:实体带的特色,如人有性别、年龄属性,书籍有价格、内容属性,门店有售卖渠道、地址地位等属性,属性是一种类型的标签

· 关系:通过动作产生关系,如基于购买动作,人和书籍产生关系,基于这个动作可产生生产时段偏好、领取形式偏好等标签

基于该模型,对标签进行查漏补缺,梳理出标签类目与标签。

3、定义标签与加工口径

· 标签中文、英文名:标签的中文名称、英文名称

· 标签所属类目:标签所属一级、二级、三级类目

· 标签类型:依据不同维度的划分,采纳其中一种。比方统计类标签、预测类标签、自定义标签等,亦或是原子标签、衍生标签、组合标签、算法标签等

· 标签值定义:定义每个标签的标签值,如“近一个月买入金额区间”标签,可依据购买金额的区间段定义“零 / 低端”、“一般”、“中端”、“准高端”、“高端”等标签值

· 标签含意(形容):形容该标签业务含意,如“最近 30 天的购买商品的金额区间,对用户消费力进行评估”

· 标签业务口径:标签以哪个数据定义为准,如“用户沉闷城市”标签,以用户购买次数最多的城市为口径加工,而不是浏览次数、评论次数等

· 标签技术口径:形容该标签从哪个表的哪个字段取值,SQL 取数逻辑是什么

· 业务方起源:该标签的业务需求方是谁

· 标签更新周期:形容标签更新频次,天 (如 T +1、T+ 2 等)、周、月、小时、分钟更新等

· 标签更新优先级:同一时间端跑多个标签时,若资源无限,先跑优先级高的标签

基于以上工作,最终得出一份标签体系表,以这份表和业务方最终确认标签划分、标签与标签值、标签加工口径是否有疑义,没问题,便可进入标签开发环节。

二、标签模型设计

进入具体开发之前,需思考标签模型层设计,在数仓加工进去哪些数据,标签产品加工哪些数据。标签模型仍旧遵循数仓建模的“ODS-DWD-DWS-ADS”分层设计,基于 DWD、DWS 层形象一层标签模型层,加工标签根底标签,届时在标签产品上让业务人员通过规定可加工生成新的标签。

个别遵循“公共层数据”、“大数据量计算”的标签放在数仓中数据开发写 SQL 实现,“通过规定可定义”、“标签规定常常批改”的标签在标签产品中配置。数仓个别实现:

1、公共层数据

蕴含根底属性数据、根底指标(指标也能够作为一种标签,如最近 30 天购买金额、最近 30 天拜访次数等),这些数据不仅给标签零碎用,也能够给 BI 报表、数据门户应用,所以放在数仓中加工表。

● 根底信息类标签

● 交易类标签

● 行为类标签

2、大数据量计算的标签

如计算历史最高破费金额、商品的历史最高库存、累计生产金额、用户排序等,这些标签的计算基于的数据量大,最好放在 hive 中跑批上线。

在数仓中加工好标签根底表,这些表中的标签个别称之为原子标签,再将该表对接标签产品,在标签产品中进行衍生类、组合类标签加工。

三、标签配置

基于标签模型的设计,一部分根底指标类的标签在数仓已建设实现,一部分标签须要在产品界面上实现。咱们接下来看下业务人员如何在袋鼠云标签产品「客户数据洞察平台」中配置标签。

1、依据业务对象,创立实体、关系

假如一个电商类客户,须要建设一套用户标签体系,则首先创立“用户”实体对象,并在实体对象下接入标签多张根底表,如用户根底信息表、用户行为事件的指标表等,这些表的字段可作为原子标签间接应用,也可作为后续加工衍生、组合标签的根底。

同时,在后续加工衍生标签时,在某些场景上会用到多个实体下的原子标签加工,这时候能够用“关系”将 2 个实体关联起来,如将“用户”实体与“书籍”实体通过用户表的“最近购买商品 ID”、以及书籍表的“书籍 ID”关联起来,便能够用到 2 个表的字段进行某个标签的加工,如下图:

2、读入原子标签

从标签根底表中读入原子标签,进行原子标签的元数据管理。

读入原子标签时,有些字段可能存储的是编号或一些枚举值,但业务人员须要看到具备实在业务含意的值,此处可做一层字典值映射。比方将“省市编号”映射为具体的省市名称。

3、创立衍生标签

基于接入的数据表的原始字段和原子标签,通过“且、或”关系、“求和、去重计数、计数、最大值、最小值、均值”聚合函数、“等于、不等于、小于、小于等于、大于、大于等于、蕴含、不蕴含等”操作符,对源表字段进行加工,生成衍生标签。

如基于用户拜访次数、交易次数,加工“用户活跃度“衍生标签,蕴含“高沉闷”、“个别沉闷”、“睡眠状态”标签值,对用户活跃度进行掂量。

除通过可视化规定加工标签外,也会凋谢 SQL 界面写 SQL 加工标签,因为在理论场景中,客户场景不尽相同,有些简单标签须要 SQL 疾速实现,在产品界面上也可间接操作。

同时,尽管产品上会凋谢基于函数计算的标签加工、SQL 类的标签加工,但还是会倡议客户将公共层的指标类标签、及简单类标签放在数仓中实现,以使标签配置这层轻量,届时进行数据跑批时疾速。

4、创立组合标签

基于原子标签和衍生标签,可进行组合标签的创立,如基于最近交易工夫、最近 1 年交易次数,最近 1 年交易金额区间这 3 个标签,加工“用户综合价值”组合标签,将客户分为“低价值用户”、“个别放弃用户”、“重要倒退用户”等。

5、创立实时、算法标签

· 实时标签:如基于用户实时行为数据通过 Flink 引擎计算实时标签,如用户点击 APP 上的一个商品广告,且退出购物车,判断该客户属于“某类型商品感兴趣用户”,作为客户短期趣味标签。

· 算法标签:如基于用户的基金交易行为,预测该用户属于追涨、杀跌、高抛等哪种类型的客户,作为客户的危险偏好标签。

最终将这些实时与算法标签的元数据可对立接入标签平台对立治理。

标签逻辑创立好之后,同时配置标签的更新周期、更新优先级,进行标签的定时跑批、手动跑批等。

四、写在最初的话

作为「全链路数字化技术与服务提供商」, 袋鼠云始终致力于为客户提供有价值的、全链路的数据服务,也心愿通过更加优质的数据产品和服务助力企业数智化“蝶变”。全新降级的数据智能剖析与洞察平台——数雁 EasyDigit,蕴含客户数据洞察平台 DataTag、指标治理剖析平台 EasyIndex。

其中,客户数据洞察平台,即标签体系构建与客户画像洞察平台。通过标签萃取、标签治理、客群圈选、画像剖析、数据服务,构建以业务价值为导向的标签体系与多样化群组,深度把握客户特色,利用于企业经营与营销,撑持商业化剖析,驱动业务增长,让企业海量数据不再孤立无用,有形的数据发明有限的价值。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

正文完
 0