共计 1821 个字符,预计需要花费 5 分钟才能阅读完成。
简介:本文介绍如何应用 Databricks 进行广告成果归因剖析,实现一站式的部署机器学习,包含数据 ETL、数据校验、模型训练 / 评测 / 利用等全流程。
作者:冯加亮 阿里云开源大数据平台技术工程师
本文介绍如何应用 Databricks 进行广告成果归因剖析,实现一站式的部署机器学习,包含数据 ETL、数据校验、模型训练 / 评测 / 利用等全流程。
内容要点:
在当下的信息化时代,用户每天都会收到媒体投放的广告信息,如何做到精准广告投放,能够通过剖析广告产出后果来正当调配广告渠道。
归因剖析 (Attribution Analysis):通过归因分析模型,剖析不同渠道的店铺客流量数据,量化评估影响客户生产的流动因子。
面对多且杂的数据,Databricks 如何通过一站式数据分析平台和 Delta Lake 架构简化执行过程。
1.png
一、数据 ETL
2.png
本文通过归因分析模型,剖析不同渠道下的 NewYork City 快餐店的人流量数据,量化影响人们去快餐店生产的次要流动因子。
首先,从不同的媒体网站,获取剖析须要的人流量的数据,模仿 SafeGraph 月度的人流量数,将数据存储到 Bronze 层。而后,进行数据荡涤,将每月的工夫序列数据,每日拜访次数,存储到 Silver 层,将影响快餐店人流量的数据汇总至 Gold 层,进行进一步校验,确定是否满足要求。
3.png
接下来,对相干字段进行筛选,筛选出须要的字段,将店铺每日拜访的人流量展现进去。
本文的数据是 8 月店铺的人流量,如果进行机器学习模型训练,还须要引入不同快餐店的人流量数据,来丰盛该数据工程。
4.png
为了丰盛数据工程,数据工程师创立了赛百味的 fastfood 数据集,模仿广告投放、社交媒体、门户网站的流量参数,将人流量的具体情况,默认到这个 food traffic 表中。
5.png
通过调用谷歌的 Google Trends API,来丰盛 food traffic 的数据。而后,将聚合后的数据写入 delta gold table 里,实现数据的 ETL 工作。
Google Trends,即常说的谷歌趋势,是谷歌基于搜寻数据推出的一款剖析工具。它通过剖析谷歌搜寻引挚每天数十亿的搜寻数据,通知用户某一关键词或者话题,各个期间在谷歌搜索引擎中展现的频率及其相干统计数据。
二、机器学习
6.png
实现 ETL 的相干工作之后,进入机器学习模块,将不同起源的人流量数据,对立到 Data Lake 架构里。通过数据荡涤,失去须要的数据。而后,对数据进行校验,确定是否满足机器学习的模型训练需要。
7.png
通过应用预测模型,量化不同渠道的人流量,对最终生产进行预测。
接下来,利用模型,整合各个媒介渠道影响客流量的百分比,对广告投放的优化提出可行性的见解。
如上图所示,第一张表是整个纽约州不同城市间的人流分布图,第二张表是 New York City 的人流分布图。通过上图,能够直观看到不同城市间的人流量差距较大,所以要对纽约州的每个城市进行独自的剖析。
8.png
接下来,应用 Plot features 对数据进行校验,应用 Pandas 数据框进行数据搜寻,数据解析。
9.png
通过 Python 绘图,能够看到数据的散布状况,比方广告投放的间断状况,以及社交媒体网站的浏览状况。
10.png
实现上述操作后,对数据集的整体散布进行校验,得出 feature 散布合乎预期。综上所述,该数据集满足 Xgboost 学习训练的要求。
11.png
接下来,应用 Xgboost 机器学习框架进行训练。通过调整参数,抉择一个绝对损失较小的训练模型,对该模型进行理论预测,从上图能够看到,红色线是预测后果,蓝色线是实在的客户流量。
12.png
通过该模型进行理论预测,得出社交媒体对客流量的影响,占总体的 50.7%,网页浏览对客流量的影响,占总体的 39%。故得出,不同渠道的广告对客流的影响,真实有效。
13.png
综上所述,利用 SHAP 模型整合各媒介渠道客流的百分比,通过绘制图表,可能精确找到影响客流量最大的因子。社交媒体和 home 页面拜访是推动客流量最无效的渠道,所以估算调配能够有的放失,从而进步整体销售或市场份额。
三、Demo 演示
操作演示视频
https://developer.aliyun.com/…
产品技术咨询
https://survey.aliyun.com/app…
原文链接:http://click.aliyun.com/m/100…
本文为阿里云原创内容,未经容许不得转载。