关于数据分析:读书笔记用户画像方法论与工程化解决方案

2次阅读

共计 3402 个字符,预计需要花费 9 分钟才能阅读完成。

前言

用户画像根底

用户画像是什么

读完总结

画像简介

用户画像,即用户信息标签化,通过收集用户的社会属性、生产习惯、偏好特色等各个维度的数据,进而对用户或产品特色属性进行刻画,并对这些特色进行剖析、统计、开掘潜在价值信息,从而形象出用户的信息全貌。用户画像可看作企业应用大数据的根基,是定向广告投放与个性化举荐的前置条件,为数据驱动经营奠定了根底。

数据利用体系的档次划分:
1. 根底平台搭建:数据平台搭建、数据仓库建设、同一 SDK
2. 报表与可视化:可配置数据报表以及报表的可视化展示
3. 产品经营与剖析:自主提取数据、报表剖析工具
4. 精细化经营工具:用户行为剖析、用户画像、数据挖掘、个性化举荐
5. 战略决策:决策反对

标签类型

用户画像建模事实上就是对用户‘打标签’,标签可分为
1. 统计类标签:如性别、年龄、近 7 天沉闷时长
2. 规定类标签:基于用户行为及确定规定产生,如生产沉闷定义为‘近 30 天交易次数 >=2’,理论开发中因为经营人员对业务更相熟,数据人员对数据结构、散布、特色更相熟,因而规定确定由经营以及数据人员协商确定。
3. 机器学习开掘类标签:通过机器学习开掘产生,用于对用户的某些属性或行为进行预测判断。

数据架构

整个工程化计划中,零碎依赖的基础设施包含:Spark,Hive,HBase,Airflow,Mysql,Reids,Elasticsearch。除去基础设施,零碎主体还包含 Spark Streaming,ETL,产品端 3 个重要组成部分。下图是用户画像数仓架构图:

下方虚线框为常见的数据仓库 ETL 加工流程,行将每日业务数据、日志数据、埋点数据等通过 ETL 过程,加工到数据仓库对应的 ODS 层、DW 层、DM 层中。
两头的虚线框即为用户画像建模的次要环节,用户画像是对基于数据仓库 ODS 层、DW 层、DM 层中与用户相干数据的二次建模加工。在 ETL 过程中将用户标签计算结果写入 Hive,因为不同的数据库有不同的利用场景,后续须要进一步将数据同步到 Mysql、HBase、Elasticsearch 等数据库中 (不同数据库的利用场景见书)。
用户标签数据在 Hive 加工实现后,局部标签通过 Sqoop 同步到 Mysql 数据库,提供用于 BI 报表展现的数据、多维透视剖析数据、圈人服务数据;另一部分标签同步到 HBase 数据库用于产品的线上个性化举荐。

次要笼罩模块

搭建一套用户画像计划整体须要思考 8 个模块建设:
1. 用户画像根底:明确用户画像是什么,有哪些模块,明确大抵框架,布局,我的项目排期和人员投入。
2. 数据指标体系:依据业务线梳理指标体系。
3. 标签数据存储:将标签相干数据存储在数据库中,不同数据库有不同利用场景。
4. 标签数据开发:用户画像工程化的重点模块,开发标签数据并买通画像数据和各业务零碎之间的通路,提供接口服务等开发内容。
5. 开发性能调优:标签加工、人群计算等脚本上线调度后,为缩短调度工夫,保障稳定性,对开发脚本进行迭代、重构、调优。
6. 作业流程调度:标签加工、人群计算、同步数据到业务零碎、数据监控预警等脚本开发实现后,须要调度工具 (如 Airflow) 将整套流程调度起来。
7. 用户画像产品化:为使用户数据更好服务业务方,需以产品化状态利用在业务上。相干模块包含:标签视图、用户标签查问、用户分群、透视剖析。
8. 用户画像利用:利用用户画像,业务上能够进行用户特征分析、音讯精准推送、客服针对用户的不同话术,对高价值用户的极速退货的 VIP 服务利用。

开发阶段流程

本节次要介绍画像零碎开发上线的流程以及各阶段的要害产出。

开发上线流程

第一阶段:指标解读:建设用户画像前,首先需明确用户画像服务于企业的对象,再依据业务方需要,明确将来产品建设指标和用户画像剖析之后的预期成果。(总结:明确指标,明确预期成果)
第二阶段:工作合成与需要调研:针对服务对象的需要侧重点,联合产品现有业务体系和‘数据字典’规约尸体和标签之间的关联关系,明确剖析维度。如从用户属性画像、用户行为画像、用户偏好画像、用户群体偏好画像等角度去进行业务建模。(总结:确定剖析维度)
第三阶段:需要场景探讨与明确:数据经营人员依据与需求方沟通后果,输入产品用户画像需要文档,在文档中明确画像利用场景、最终开发出的标签内容与利用形式,并就该文档与需求方重复沟通并确认无误。(总结:明确要开发的标签,明确标签的利用场景,明确业务方需要,输入用户画像需要文档)
第四阶段:利用场景与数据口径确认:数据经营团队外部就开发施行流程达成统一,输入产品用户画像开发文档。
第五阶段:特色选取与模型数据落表:数据分析开掘人员依据需要场景进行业务建模,写好 HQL 逻辑,将相应模型逻辑写入长期表,并抽取数据校验是否合乎业务场景需要。(总结:写好代码,做好测试)
第六阶段:线下模型数据验收与测试:数据仓库团队人员将相干数据落表后,设置定时调度工作,定期增量更新数据。数据经营人员需验收数仓加工的 HQL 逻辑是否合乎需要,查看数据是否在正当范畴内。(总结:落表、设置定时调度工作、并抽查测试)
第七阶段:线上模型公布与成果追踪:通过六实现验收后,通过 Git 进行版本治理,部署上线。上线后通过追踪标签利用成果及业务方反馈,调整优化模型及相干权重配置。(总结:模型上线,成果追踪,调整参数权重)

各阶段要害产出

为保障程序上线的准时和稳固,须要布局好各阶段工作排期和要害产出。
画像体系开发分为一下几个次要阶段:
1. 标签开发:依据业务需要梳理标签指标体系
2.ETL 调度开发:梳理须要调度的工作间的依赖关系,开发调度脚本和调度监控告警脚本
3. 买通数据服务层:买通数据仓库和各业务零碎的接口
4. 画像产品化:画产品原型
5. 开发调优:为调度工作执行更高效、服务更持重,需对标签计算脚本、调度脚本、数据同步脚本等相干计算工作进行重构优化。
6. 面向业务方推广应用:面向业务人员推广画像零碎的应用办法、撰写画像的应用文档,提供业务反对。

画像利用的落地

用户画像最终的价值还是要落地运行,只有业务人员在日常工作中真正利用画像数据、画像产品、能力更好推动画像标签迭代优化,带来流量晋升和营收增长,产出业绩价值。

某用户画像案例

全书以一个理论案例贯通。本节次要介绍案例背景和相干元数据,以及在开发标签中能够设计的表构造款式。
在本案例开发工作中,基于 Spark 计算引擎,次要波及的语言包含 HiveQL、Python、Scala、Shell 等。

案例背景介绍

简略介绍 (具体介绍见书):图书电商网站,两个需要:
1. 内容的精准推送、进步用户的点击转化率
2. 建设用户散失预警机制,及时辨认将要散失的用户群体
数据仓库积攒大量业务数据、日志数据、埋点数据。如何充沛开掘积淀在数据仓库中的数据的价值,无效反对用户画像的建设。

相干元数据

简略介绍 (具体介绍见书):
可获取数据按类型可分为:
1. 业务类数据:指用户在平台高低单、购买、珍藏物品、货物配送等与业务相干的数据。
2. 用户行为数据:指用户搜寻某条信息、拜访某个页面、点击某个按钮、提交某个表单等通过操作行为产生 (在解析日志的埋点表中) 的数据。
波及数据仓库的表次要包含(具体表构造见书):
1. 用户信息表(dim.user_basic_info):寄存用户相干信息:如姓名、年龄、性别、电话号码、归属定等信息。
2. 商品订单表(dw.order_info_fact):寄存商品订单的各类信息:如订单编号、用户 id、用户姓名、订单生成工夫、订单状态等信息。
3. 埋点日志表(ods.page_event_log):寄存用户拜访 APP 时点击相干控件的打点记录。通过在客户端做埋点、从日志数据中解析进去。
4. 拜访日志表(ods.page_view_log):寄存用户拜访 APP 的相干信息及用户的 LBS 相干信息,通过在客户端埋点,从日志数据中解析进去。
5. 商品评论表(dw.book_comment):寄存用户对商品的评论信息。
6. 搜寻日志表(dw.app_search_log):寄存用户在 APP 端搜寻相干的日志数据。
7. 用户珍藏表(dw.book_collection_df): 记录用户珍藏图书的记录。
8. 购物车信息表(dw.shopping_cart_df): 记录用户将图书退出购物车的数据。

画像表结构设计

表结构设计的重点是要思考存储哪些信息、如何存储 (数据分区)、如何利用(如何抽取标签) 这 3 个方面的问题

正文完
 0