关于r:译-解密-Google-的营销归因模型最佳实践

48次阅读

共计 4282 个字符,预计需要花费 11 分钟才能阅读完成。

假如你是一个市场营销人员,你在进行一个市场营销流动。你想晓得这个流动实际上的成果如何。能够看的指标比如说,你的网站流量,注册,转化率,或者任何你心愿进步的货色。

或者,让咱们假如你是一个产品人,而后你想晓得一个特定的性能或者产品公布实际上是如何影响用户流动的,他们在产品上破费的均匀工夫,等等。

这听起来很简略,因为你只须要比拟流动前后的测量值(如营销流动),或者比拟两组测量值(如 A/B 测试)。然而,实际上很难在事实世界中掂量这种影响,因为有许多属性能够影响后果(例如页面浏览量)。这就是所谓的乐音。

谷歌也遇到了同样的问题,Kay Brodersen 和谷歌的团队建设了这个叫做“因果影响”的算法来解决这个问题,并将其作为一个 r 包开源。

基本上,它建设了一个基于多个可比对照组 (或市场) 的贝叶斯构造工夫序列模型,并应用该模型来预测 (或预测) 事件产生后时间段的一系列基准值。

所以,假如咱们的网站在日本有如下独特的页面浏览量。

红色圆圈代表咱们进行营销流动时的页面视图。这就是咱们所说的影响事件,它能够是一个公关布告,一个新版本产品的公布等等。

当初,通过 因果影响 算法,咱们能够基于其余国家的页面视图数据建设一个模型,来预测同一时间段的一系列预期值,假如这些国家没有产生这样的影响事件。这是一个基线,表明了如果没有这次事件,咱们在日本的预期数字。如上面的橙色线所示。

一旦咱们失去了这个基线,咱们就能够计算两行之间的差别,理论值 (蓝线) 和预期值(橙线),并将这些差别作为事件的理论影响。上面的绿线代表实在的影响。

咱们能够累积自事件产生以来所有受影响的值,并查看任何给定点以内的总受影响值。上面的紫色线条示意这个。

这样,咱们就能够更好地掂量此类流动 (例如市场推广流动) 的投资回报率 (ROI),即便咱们不确定该流动是否是惟一的影响起源。 因果影响 算法帮忙您疾速取得这些信息,以便您能够充满信心地及时调整您的口头。

通过 Exploratory v3.5,咱们在 营销影响剖析 中增加了这个 因果影响 算法反对,以便咱们的用户可能快速访问这个算法,并以统计的形式考察这些事件的影响。

首先让咱们看一下 因果影响 算法,而后咱们能够看一下如何在 Exploratory 外部拜访它。我将持续应用市场营销流动作为一个例子,以使它更容易了解,但当然,这个算法能够用于不仅仅是评估市场营销成果。

因果影响算法简介

对于因果影响算法是如何工作的,有一些事件须要理解。

如前所述,该算法的外围是建设一个基于多个 控制组 的贝叶斯构造工夫序列模型,并在调整 控制组 测试组 之间的大小差别后结构一个 综合工夫序列基线

那么什么是 对照组 测试组 呢?为了简化这个问题,能够将 Group 看作市场,如日本、美国、西班牙等。

对照组 vs. 测试组

控制组 是咱们没有事件,如营销流动,因而咱们不心愿看到任何影响,掂量咱们的趣味的事件。

测试组 是咱们举办这次流动的中央,并且冀望在肯定水平上对咱们趣味的掂量产生影响。

例如,如果咱们在日本进行营销流动,咱们想晓得这个流动对页面浏览量有什么影响,那么日本是 测试组 (或市场),其余国家如美国、西班牙等是 控制组(或市场)。

基线

那么,什么是 “综合工夫序列基线” 呢?

这基本上是一系列咱们冀望的没有影响事件的值。为了预测这些数值,与其余典型的预测 / 预测算法不同,这些算法会依据测试组自身过来的数据建设预测模型,该算法基于对照组预先时间段的理论数据建设模型,并预测基线值。

这意味着,控制组须要与测试组 类似或相干,以便算法可能以牢靠的形式预测测试组的基线值。

相干对照组

那么如何抉择 “类似或相干” 的对照组呢?

因果影响算法能够通过在回归系数上搁置一个尖峰和平板先验散布,从给定的数据中主动挑选出最有用的组。

然而 Kim Larsen@Uber 在他的 MarketMatching R 包页面 上介绍了一个更好的办法。留神,这并不是要替换因果影响算法的控制组抉择逻辑,而是通过增加额定的抉择步骤作为预处理来补充它。

假如咱们有日本和美国的独特页面访问量数据,如下所示。

咱们能够简略地运行相干算法来计算这两个组之间的相关性,然而这会疏忽大小。咱们能够做的另一种办法是计算线之间的欧几里德间隔。然而,在工夫序列数据上计算这些数据可能有点辣手,因为有一种称为 “长期移位” 的景象,这种景象常常产生在工夫序列数据上。简略地计算这样的间隔就能够疏忽这样的变动,并假如它是更远的间隔。

看看上面的图表。

这两条线并没有在完全相同的工夫上的起伏,然而通过观察它们,咱们能够看到两条线之间的一些相似之处。上面曲线 (彩色) 的高和低比上方曲线 (红色) 的来得晚一点。因而,依据 一对一 的映射来计算间隔,也就是同一时间轴点上两个数据点之间的差别,能够疏忽这种“长期移位”,并且能够将这两条线标记为“不同”而不是“类似”。

这就是动静工夫规整技术的用武之地。DTW 技术容许在计算间隔时进行 一对多 的映射。换句话说,它能够计算一行的 5 月 1 日和另一行的 5 月 1 日、2 日、3 日之间的间隔。所以它能够看起来像上面。

The above images are from this blog, which describes this technique very well using R.

下面的图片来自这个博客,它很好地形容了这种技术应用 R。

利用 DTW 算法,咱们能够理论计算出这两条线的间隔,因而能够认为这两条线比没有 DTW 算法时更类似或更相干。当然,在 R 中有一个名为 dtw 的包能够实现这一性能!这就是为什么我喜爱 R!

因而,基本上咱们能够应用 DTW 算法来找到最类似的控制组到测试组,并将它们作为预测器传递给因果影响算法,而后让算法产生奇观!

这就是咱们如何实现探索性因果影响算法反对。不仅使得拜访算法变得更加容易,而且咱们还尝试通过自动化控制组抉择,使得应用默认设置生成高质量的后果更加容易。咱们称之为 市场影响剖析

当初,让咱们看看如何在 Exploratory 中应用它。

如何在 Exploratory 中应用它?

示例数据和场景

咱们将应用谷歌剖析数据。它有《时代》、《国家》和《独特页面浏览量》栏目,因而咱们能够看到从 2016 年 9 月到 2017 年 6 月期间按国家分列的 150 个国家的页面浏览量。

当初让咱们假如,咱们在 2017 年 5 月 10 日在日本进行了一次营销流动,咱们想晓得这次流动是否对独特的页面浏览量产生了影响。这里须要留神的一点是,咱们没有在美国、英国、西班牙等其余国家发展这样的流动。

配置根底

咱们能够通过抉择“运行剖析”->“运行市场影响剖析”下的加号按钮进入 市场影响剖析

首先,设置一个蕴含日期 / 工夫信息的时间轴列。

您能够设置工夫数据的分组形式。例如,与其按小时进行比拟,不如按天进行汇总。

接下来,您须要抉择一个度量列,在本例中,即“uniquePageViews”列。默认状况下,咱们能够放弃聚合函数为‘sum’。

当初,您能够设置一个蕴含 Control 组候选项的列,在本例中是 Country。

设置哪个值是 Test 组,在本例中,是日本。这将计算间隔日本和所有其余国家之间应用 DTW 算法外部。最初,设定流动日期,这是咱们发展营销流动的工夫。

配置附加参数

有许多参数能够微调右侧的模型,然而上面两个值得在这里提及。

建设基线的市场数目

设置要应用多少个市场来构建综合基线。它将依据下面提到的 DTW 算法抉择最类似的市场,而后将它们传递给因果影响剖析算法。

缺失值解决

在工夫序列数据中存在 NAs 是很常见的。例如,你的网页可能每天都有来自美国这样的国家的拜访,但可能没有来自尼泊尔这样的国家。所以咱们提供了一些选项来填补 NA。

  • 特定值 — 默认值为 0
  • 样条插值
  • 线性插值
  • 上一个值

了解后果

运行它之后,您将在后果数据中取得一系列度量值。

让咱们逐个将它们可视化,以便更好地了解后果数据。

理论

这是示意日本在时间轴上的独特页面浏览量的理论值。

赛事工夫理论进场人数

这示意事件日的页面浏览量。它只对事件日有价值,其余日子填充 NA。最好在图表中应用它来批示事件产生的工夫,因而您心愿将标记设置为‘Circle’,而不是默认的‘Line’。

预料之中

这是基于控制组的模型结构的合成基线。上面的绿线示意这个基线。

你能够通过点击属性菜单并抉择‘Range’来显示置信区间。

影响

这基本上是理论值和预期值之间的差别。你能够把这个数字看作是营销流动带来的页面浏览量,因而得名“影响力”。上面的红线示意这个。

累积影响

这只是自事件日期以来累积的影响值。因而,您能够将其视为营销流动在给定工夫点之前带来的总页面浏览量。紫色的线条示意了这一点,咱们能够看到,到目前为止,该事件带来了 3795 个独特的页面浏览量。

哪些市场被用作控制组?

如上所述,‘市场影响剖析’通过应用 动静工夫规整 算法主动运行预测器 (控制组) 的抉择,并将抉择的预测器传递给幕后的 因果影响 算法。因而,这里不言而喻的问题是,哪些市场最终被用于这种模式?

你能够在市场影响剖析配置对话框中将“输入类型”参数设置为“市场候选人排名”

这将产生一个蕴含间隔、相关性和排名数字的市场 (或国家) 列表。

正如您所看到的,排名仅仅基于间隔排名(dist_rank),然而您能够通过像上面这样扭转对话框中的权重设置来混合间隔和相关性。

这将产生一个略有不同的排名。

正如您曾经看到的,您能够快速访问这个神奇的 “因果影响剖析” 算法的精彩之处。有了 动静工夫规整算法 的帮忙,抉择最好的控制组能够更容易地产生更高质量的后果。

咱们称这个性能为 “市场影响剖析”,当然你也能够把它用在其余科目上,超过市场营销的世界。例如,如果你有一组学区的学生测试后果类似,而你只在一两所学校尝试了不同的课程,你能够应用这个算法来掂量影响。市场影响剖析能够产生微小 影响 的用例还有很多。(不是双关语!) ???? 我期待着听到您将如何应用它为您的具体用例!

高兴市场影响剖析!????

如果你还没有 Exploratory Desktop,你能够从这里收费注册。如果你当初是一名学生或老师,那么它是收费的!

参考资料

原文作者:Kan Nishida 译者:Harry Zhu 英文原文地址:
https://blog.exploratory.io/a…

作为分享主义者 (sharism),自己所有互联网公布的图文均听从 CC 版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog…,如果波及源代码请注明 GitHub 地址:https://github.com/harryprince。微信号: harryzhustudio
商业应用请分割作者。

正文完
 0