前言

用户画像根底

用户画像是什么

读完总结

画像简介

用户画像，即用户信息标签化，通过收集用户的社会属性、生产习惯、偏好特色等各个维度的数据，进而对用户或产品特色属性进行刻画，并对这些特色进行剖析、统计、开掘潜在价值信息，从而形象出用户的信息全貌。用户画像可看作企业应用大数据的根基，是定向广告投放与个性化举荐的前置条件，为数据驱动经营奠定了根底。

数据利用体系的档次划分：
1.根底平台搭建：数据平台搭建、数据仓库建设、同一SDK
2.报表与可视化：可配置数据报表以及报表的可视化展示
3.产品经营与剖析：自主提取数据、报表剖析工具
4.精细化经营工具：用户行为剖析、用户画像、数据挖掘、个性化举荐
5.战略决策：决策反对

标签类型

用户画像建模事实上就是对用户‘打标签’，标签可分为
1.统计类标签：如性别、年龄、近7天沉闷时长
2.规定类标签：基于用户行为及确定规定产生，如生产沉闷定义为‘近30天交易次数>=2’，理论开发中因为经营人员对业务更相熟，数据人员对数据结构、散布、特色更相熟，因而规定确定由经营以及数据人员协商确定。
3.机器学习开掘类标签：通过机器学习开掘产生，用于对用户的某些属性或行为进行预测判断。

数据架构

整个工程化计划中，零碎依赖的基础设施包含：Spark，Hive，HBase，Airflow，Mysql，Reids，Elasticsearch。除去基础设施，零碎主体还包含Spark Streaming，ETL，产品端3个重要组成部分。下图是用户画像数仓架构图：

下方虚线框为常见的数据仓库ETL加工流程，行将每日业务数据、日志数据、埋点数据等通过ETL过程，加工到数据仓库对应的ODS层、DW层、DM层中。
两头的虚线框即为用户画像建模的次要环节，用户画像是对基于数据仓库ODS层、DW层、DM层中与用户相干数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive，因为不同的数据库有不同的利用场景，后续须要进一步将数据同步到Mysql、HBase、Elasticsearch等数据库中(不同数据库的利用场景见书)。
用户标签数据在Hive加工实现后，局部标签通过Sqoop同步到Mysql数据库，提供用于BI报表展现的数据、多维透视剖析数据、圈人服务数据；另一部分标签同步到HBase数据库用于产品的线上个性化举荐。

次要笼罩模块

搭建一套用户画像计划整体须要思考8个模块建设：
1.用户画像根底：明确用户画像是什么，有哪些模块，明确大抵框架，布局，我的项目排期和人员投入。
2.数据指标体系：依据业务线梳理指标体系。
3.标签数据存储：将标签相干数据存储在数据库中，不同数据库有不同利用场景。
4.标签数据开发：用户画像工程化的重点模块，开发标签数据并买通画像数据和各业务零碎之间的通路，提供接口服务等开发内容。
5.开发性能调优：标签加工、人群计算等脚本上线调度后，为缩短调度工夫，保障稳定性，对开发脚本进行迭代、重构、调优。
6.作业流程调度：标签加工、人群计算、同步数据到业务零碎、数据监控预警等脚本开发实现后，须要调度工具(如Airflow)将整套流程调度起来。
7.用户画像产品化：为使用户数据更好服务业务方，需以产品化状态利用在业务上。相干模块包含：标签视图、用户标签查问、用户分群、透视剖析。
8.用户画像利用：利用用户画像，业务上能够进行用户特征分析、音讯精准推送、客服针对用户的不同话术，对高价值用户的极速退货的VIP服务利用。

开发阶段流程

本节次要介绍画像零碎开发上线的流程以及各阶段的要害产出。

开发上线流程

第一阶段：指标解读：建设用户画像前，首先需明确用户画像服务于企业的对象，再依据业务方需要，明确将来产品建设指标和用户画像剖析之后的预期成果。(总结：明确指标，明确预期成果)
第二阶段：工作合成与需要调研：针对服务对象的需要侧重点，联合产品现有业务体系和‘数据字典’规约尸体和标签之间的关联关系，明确剖析维度。如从用户属性画像、用户行为画像、用户偏好画像、用户群体偏好画像等角度去进行业务建模。(总结：确定剖析维度)
第三阶段：需要场景探讨与明确：数据经营人员依据与需求方沟通后果，输入产品用户画像需要文档，在文档中明确画像利用场景、最终开发出的标签内容与利用形式，并就该文档与需求方重复沟通并确认无误。(总结：明确要开发的标签，明确标签的利用场景，明确业务方需要，输入用户画像需要文档)
第四阶段：利用场景与数据口径确认：数据经营团队外部就开发施行流程达成统一，输入产品用户画像开发文档。
第五阶段：特色选取与模型数据落表：数据分析开掘人员依据需要场景进行业务建模，写好HQL逻辑，将相应模型逻辑写入长期表，并抽取数据校验是否合乎业务场景需要。(总结：写好代码，做好测试)
第六阶段：线下模型数据验收与测试：数据仓库团队人员将相干数据落表后，设置定时调度工作，定期增量更新数据。数据经营人员需验收数仓加工的HQL逻辑是否合乎需要，查看数据是否在正当范畴内。(总结：落表、设置定时调度工作、并抽查测试)
第七阶段：线上模型公布与成果追踪：通过六实现验收后，通过Git进行版本治理，部署上线。上线后通过追踪标签利用成果及业务方反馈，调整优化模型及相干权重配置。(总结：模型上线，成果追踪，调整参数权重)

各阶段要害产出

为保障程序上线的准时和稳固，须要布局好各阶段工作排期和要害产出。
画像体系开发分为一下几个次要阶段：
1.标签开发：依据业务需要梳理标签指标体系
2.ETL调度开发：梳理须要调度的工作间的依赖关系，开发调度脚本和调度监控告警脚本
3.买通数据服务层：买通数据仓库和各业务零碎的接口
4.画像产品化：画产品原型
5.开发调优：为调度工作执行更高效、服务更持重，需对标签计算脚本、调度脚本、数据同步脚本等相干计算工作进行重构优化。
6.面向业务方推广应用：面向业务人员推广画像零碎的应用办法、撰写画像的应用文档，提供业务反对。

画像利用的落地

用户画像最终的价值还是要落地运行，只有业务人员在日常工作中真正利用画像数据、画像产品、能力更好推动画像标签迭代优化，带来流量晋升和营收增长，产出业绩价值。

某用户画像案例

全书以一个理论案例贯通。本节次要介绍案例背景和相干元数据，以及在开发标签中能够设计的表构造款式。
在本案例开发工作中，基于Spark计算引擎，次要波及的语言包含HiveQL、Python、Scala、Shell等。

案例背景介绍

简略介绍(具体介绍见书)：图书电商网站，两个需要：
1.内容的精准推送、进步用户的点击转化率
2.建设用户散失预警机制，及时辨认将要散失的用户群体
数据仓库积攒大量业务数据、日志数据、埋点数据。如何充沛开掘积淀在数据仓库中的数据的价值，无效反对用户画像的建设。

相干元数据

简略介绍(具体介绍见书)：
可获取数据按类型可分为：
1.业务类数据：指用户在平台高低单、购买、珍藏物品、货物配送等与业务相干的数据。
2.用户行为数据：指用户搜寻某条信息、拜访某个页面、点击某个按钮、提交某个表单等通过操作行为产生(在解析日志的埋点表中)的数据。
波及数据仓库的表次要包含(具体表构造见书)：
1.用户信息表(dim.user_basic_info)：寄存用户相干信息：如姓名、年龄、性别、电话号码、归属定等信息。
2.商品订单表(dw.order_info_fact)：寄存商品订单的各类信息：如订单编号、用户id、用户姓名、订单生成工夫、订单状态等信息。
3.埋点日志表(ods.page_event_log)：寄存用户拜访APP时点击相干控件的打点记录。通过在客户端做埋点、从日志数据中解析进去。
4.拜访日志表(ods.page_view_log)：寄存用户拜访APP的相干信息及用户的LBS相干信息，通过在客户端埋点，从日志数据中解析进去。
5.商品评论表(dw.book_comment)：寄存用户对商品的评论信息。
6.搜寻日志表(dw.app_search_log)：寄存用户在APP端搜寻相干的日志数据。
7.用户珍藏表(dw.book_collection_df):记录用户珍藏图书的记录。
8.购物车信息表(dw.shopping_cart_df):记录用户将图书退出购物车的数据。

画像表结构设计

表结构设计的重点是要思考存储哪些信息、如何存储(数据分区)、如何利用(如何抽取标签)这3个方面的问题