关于后端:使用-Databricks-进行营销效果归因分析的应用实践Databricks-数据洞察公开课

简介：本文介绍如何应用 Databricks 进行广告成果归因剖析，实现一站式的部署机器学习，包含数据 ETL、数据校验、模型训练 / 评测 / 利用等全流程。
作者：冯加亮阿里云开源大数据平台技术工程师

本文介绍如何应用 Databricks 进行广告成果归因剖析，实现一站式的部署机器学习，包含数据 ETL、数据校验、模型训练 / 评测 / 利用等全流程。

内容要点：

在当下的信息化时代，用户每天都会收到媒体投放的广告信息，如何做到精准广告投放，能够通过剖析广告产出后果来正当调配广告渠道。
归因剖析 (Attribution Analysis)：通过归因分析模型，剖析不同渠道的店铺客流量数据，量化评估影响客户生产的流动因子。
面对多且杂的数据，Databricks 如何通过一站式数据分析平台和 Delta Lake 架构简化执行过程。

1.png

一、数据 ETL
2.png

本文通过归因分析模型，剖析不同渠道下的 NewYork City 快餐店的人流量数据，量化影响人们去快餐店生产的次要流动因子。

首先，从不同的媒体网站，获取剖析须要的人流量的数据，模仿 SafeGraph 月度的人流量数，将数据存储到 Bronze 层。而后，进行数据荡涤，将每月的工夫序列数据，每日拜访次数，存储到 Silver 层，将影响快餐店人流量的数据汇总至 Gold 层，进行进一步校验，确定是否满足要求。

3.png

接下来，对相干字段进行筛选，筛选出须要的字段，将店铺每日拜访的人流量展现进去。

本文的数据是 8 月店铺的人流量，如果进行机器学习模型训练，还须要引入不同快餐店的人流量数据，来丰盛该数据工程。

4.png

为了丰盛数据工程，数据工程师创立了赛百味的 fastfood 数据集，模仿广告投放、社交媒体、门户网站的流量参数，将人流量的具体情况，默认到这个 food traffic 表中。

5.png

通过调用谷歌的 Google Trends API，来丰盛 food traffic 的数据。而后，将聚合后的数据写入 delta gold table 里，实现数据的 ETL 工作。

Google Trends，即常说的谷歌趋势，是谷歌基于搜寻数据推出的一款剖析工具。它通过剖析谷歌搜寻引挚每天数十亿的搜寻数据，通知用户某一关键词或者话题，各个期间在谷歌搜索引擎中展现的频率及其相干统计数据。

二、机器学习
6.png

实现 ETL 的相干工作之后，进入机器学习模块，将不同起源的人流量数据，对立到 Data Lake 架构里。通过数据荡涤，失去须要的数据。而后，对数据进行校验，确定是否满足机器学习的模型训练需要。

7.png

通过应用预测模型，量化不同渠道的人流量，对最终生产进行预测。

接下来，利用模型，整合各个媒介渠道影响客流量的百分比，对广告投放的优化提出可行性的见解。

如上图所示，第一张表是整个纽约州不同城市间的人流分布图，第二张表是 New York City 的人流分布图。通过上图，能够直观看到不同城市间的人流量差距较大，所以要对纽约州的每个城市进行独自的剖析。

8.png

接下来，应用 Plot features 对数据进行校验，应用 Pandas 数据框进行数据搜寻，数据解析。

9.png

通过 Python 绘图，能够看到数据的散布状况，比方广告投放的间断状况，以及社交媒体网站的浏览状况。

10.png

实现上述操作后，对数据集的整体散布进行校验，得出 feature 散布合乎预期。综上所述，该数据集满足 Xgboost 学习训练的要求。

11.png

接下来，应用 Xgboost 机器学习框架进行训练。通过调整参数，抉择一个绝对损失较小的训练模型，对该模型进行理论预测，从上图能够看到，红色线是预测后果，蓝色线是实在的客户流量。

12.png

通过该模型进行理论预测，得出社交媒体对客流量的影响，占总体的 50.7%，网页浏览对客流量的影响，占总体的 39%。故得出，不同渠道的广告对客流的影响，真实有效。

13.png

综上所述，利用 SHAP 模型整合各媒介渠道客流的百分比，通过绘制图表，可能精确找到影响客流量最大的因子。社交媒体和 home 页面拜访是推动客流量最无效的渠道，所以估算调配能够有的放失，从而进步整体销售或市场份额。

三、Demo 演示
操作演示视频

https://developer.aliyun.com/…

产品技术咨询

https://survey.aliyun.com/app…

原文链接:http://click.aliyun.com/m/100…

本文为阿里云原创内容，未经容许不得转载。