前言
用户画像根底
用户画像是什么
读完总结
画像简介
用户画像,即用户信息标签化,通过收集用户的社会属性、生产习惯、偏好特色等各个维度的数据,进而对用户或产品特色属性进行刻画,并对这些特色进行剖析、统计、开掘潜在价值信息,从而形象出用户的信息全貌。用户画像可看作企业应用大数据的根基,是定向广告投放与个性化举荐的前置条件,为数据驱动经营奠定了根底。
数据利用体系的档次划分:
1.根底平台搭建:数据平台搭建、数据仓库建设、同一SDK
2.报表与可视化:可配置数据报表以及报表的可视化展示
3.产品经营与剖析:自主提取数据、报表剖析工具
4.精细化经营工具:用户行为剖析、用户画像、数据挖掘、个性化举荐
5.战略决策:决策反对
标签类型
用户画像建模事实上就是对用户‘打标签’,标签可分为
1.统计类标签:如性别、年龄、近7天沉闷时长
2.规定类标签:基于用户行为及确定规定产生,如生产沉闷定义为‘近30天交易次数>=2’,理论开发中因为经营人员对业务更相熟,数据人员对数据结构、散布、特色更相熟,因而规定确定由经营以及数据人员协商确定。
3.机器学习开掘类标签:通过机器学习开掘产生,用于对用户的某些属性或行为进行预测判断。
数据架构
整个工程化计划中,零碎依赖的基础设施包含:Spark,Hive,HBase,Airflow,Mysql,Reids,Elasticsearch。除去基础设施,零碎主体还包含Spark Streaming,ETL,产品端3个重要组成部分。下图是用户画像数仓架构图:
下方虚线框为常见的数据仓库ETL加工流程,行将每日业务数据、日志数据、埋点数据等通过ETL过程,加工到数据仓库对应的ODS层、DW层、DM层中。
两头的虚线框即为用户画像建模的次要环节,用户画像是对基于数据仓库ODS层、DW层、DM层中与用户相干数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive,因为不同的数据库有不同的利用场景,后续须要进一步将数据同步到Mysql、HBase、Elasticsearch等数据库中(不同数据库的利用场景见书)。
用户标签数据在Hive加工实现后,局部标签通过Sqoop同步到Mysql数据库,提供用于BI报表展现的数据、多维透视剖析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化举荐。
次要笼罩模块
搭建一套用户画像计划整体须要思考8个模块建设:
1.用户画像根底:明确用户画像是什么,有哪些模块,明确大抵框架,布局,我的项目排期和人员投入。
2.数据指标体系:依据业务线梳理指标体系。
3.标签数据存储:将标签相干数据存储在数据库中,不同数据库有不同利用场景。
4.标签数据开发:用户画像工程化的重点模块,开发标签数据并买通画像数据和各业务零碎之间的通路,提供接口服务等开发内容。
5.开发性能调优:标签加工、人群计算等脚本上线调度后,为缩短调度工夫,保障稳定性,对开发脚本进行迭代、重构、调优。
6.作业流程调度:标签加工、人群计算、同步数据到业务零碎、数据监控预警等脚本开发实现后,须要调度工具(如Airflow)将整套流程调度起来。
7.用户画像产品化:为使用户数据更好服务业务方,需以产品化状态利用在业务上。相干模块包含:标签视图、用户标签查问、用户分群、透视剖析。
8.用户画像利用:利用用户画像,业务上能够进行用户特征分析、音讯精准推送、客服针对用户的不同话术,对高价值用户的极速退货的VIP服务利用。
开发阶段流程
本节次要介绍画像零碎开发上线的流程以及各阶段的要害产出。
开发上线流程
第一阶段:指标解读:建设用户画像前,首先需明确用户画像服务于企业的对象,再依据业务方需要,明确将来产品建设指标和用户画像剖析之后的预期成果。(总结:明确指标,明确预期成果)
第二阶段:工作合成与需要调研:针对服务对象的需要侧重点,联合产品现有业务体系和‘数据字典’规约尸体和标签之间的关联关系,明确剖析维度。如从用户属性画像、用户行为画像、用户偏好画像、用户群体偏好画像等角度去进行业务建模。(总结:确定剖析维度)
第三阶段:需要场景探讨与明确:数据经营人员依据与需求方沟通后果,输入产品用户画像需要文档,在文档中明确画像利用场景、最终开发出的标签内容与利用形式,并就该文档与需求方重复沟通并确认无误。(总结:明确要开发的标签,明确标签的利用场景,明确业务方需要,输入用户画像需要文档)
第四阶段:利用场景与数据口径确认:数据经营团队外部就开发施行流程达成统一,输入产品用户画像开发文档。
第五阶段:特色选取与模型数据落表:数据分析开掘人员依据需要场景进行业务建模,写好HQL逻辑,将相应模型逻辑写入长期表,并抽取数据校验是否合乎业务场景需要。(总结:写好代码,做好测试)
第六阶段:线下模型数据验收与测试:数据仓库团队人员将相干数据落表后,设置定时调度工作,定期增量更新数据。数据经营人员需验收数仓加工的HQL逻辑是否合乎需要,查看数据是否在正当范畴内。(总结:落表、设置定时调度工作、并抽查测试)
第七阶段:线上模型公布与成果追踪:通过六实现验收后,通过Git进行版本治理,部署上线。上线后通过追踪标签利用成果及业务方反馈,调整优化模型及相干权重配置。(总结:模型上线,成果追踪,调整参数权重)
各阶段要害产出
为保障程序上线的准时和稳固,须要布局好各阶段工作排期和要害产出。
画像体系开发分为一下几个次要阶段:
1.标签开发:依据业务需要梳理标签指标体系
2.ETL调度开发:梳理须要调度的工作间的依赖关系,开发调度脚本和调度监控告警脚本
3.买通数据服务层:买通数据仓库和各业务零碎的接口
4.画像产品化:画产品原型
5.开发调优:为调度工作执行更高效、服务更持重,需对标签计算脚本、调度脚本、数据同步脚本等相干计算工作进行重构优化。
6.面向业务方推广应用:面向业务人员推广画像零碎的应用办法、撰写画像的应用文档,提供业务反对。
画像利用的落地
用户画像最终的价值还是要落地运行,只有业务人员在日常工作中真正利用画像数据、画像产品、能力更好推动画像标签迭代优化,带来流量晋升和营收增长,产出业绩价值。
某用户画像案例
全书以一个理论案例贯通。本节次要介绍案例背景和相干元数据,以及在开发标签中能够设计的表构造款式。
在本案例开发工作中,基于Spark计算引擎,次要波及的语言包含HiveQL、Python、Scala、Shell等。
案例背景介绍
简略介绍(具体介绍见书):图书电商网站,两个需要:
1.内容的精准推送、进步用户的点击转化率
2.建设用户散失预警机制,及时辨认将要散失的用户群体
数据仓库积攒大量业务数据、日志数据、埋点数据。如何充沛开掘积淀在数据仓库中的数据的价值,无效反对用户画像的建设。
相干元数据
简略介绍(具体介绍见书):
可获取数据按类型可分为:
1.业务类数据:指用户在平台高低单、购买、珍藏物品、货物配送等与业务相干的数据。
2.用户行为数据:指用户搜寻某条信息、拜访某个页面、点击某个按钮、提交某个表单等通过操作行为产生(在解析日志的埋点表中)的数据。
波及数据仓库的表次要包含(具体表构造见书):
1.用户信息表(dim.user_basic_info):寄存用户相干信息:如姓名、年龄、性别、电话号码、归属定等信息。
2.商品订单表(dw.order_info_fact):寄存商品订单的各类信息:如订单编号、用户id、用户姓名、订单生成工夫、订单状态等信息。
3.埋点日志表(ods.page_event_log):寄存用户拜访APP时点击相干控件的打点记录。通过在客户端做埋点、从日志数据中解析进去。
4.拜访日志表(ods.page_view_log):寄存用户拜访APP的相干信息及用户的LBS相干信息,通过在客户端埋点,从日志数据中解析进去。
5.商品评论表(dw.book_comment):寄存用户对商品的评论信息。
6.搜寻日志表(dw.app_search_log):寄存用户在APP端搜寻相干的日志数据。
7.用户珍藏表(dw.book_collection_df):记录用户珍藏图书的记录。
8.购物车信息表(dw.shopping_cart_df):记录用户将图书退出购物车的数据。
画像表结构设计
表结构设计的重点是要思考存储哪些信息、如何存储(数据分区)、如何利用(如何抽取标签)这3个方面的问题