关于大数据:HashTable-在蚂蚁转化归因中的极致运用

作者：开七蚂蚁团体数据技术专家

本文围绕 hash cluster 表使用及 Shuffle 过程原理进行探讨，欢送各位开发者退出大数据计算 MaxCompute 社区：https://developer.aliyun.com/group/maxcompute

概述

蚂蚁的转化归因在初期运行两个多小时的状况下，进行了一系列优化，其中建设hash cluster表及强制hash关联及Shuffle的手动干涉进行remove操作此局部优化占了较大比重。本文则次要讲述hash cluster表的一些使用。

Hash cluster表具备两个作用：

存储预排序的重排压缩。Hash cluster表采纳分桶排序操作，若雷同的值反复度高，则能够达到更好的压缩成果。
上游工作的Shuffle Remove。Hash cluster表因为采纳对指定字段分桶操作，上游若一些关联、聚合操作与分桶键策略雷同，则会进行Shuffle Remove操作。MaxCompute操作中，Shuffle是低廉的，因而有必要在优化阶段尽可能移除不必要的Shuffle。什么状况下能够移除Shuffle？简略来说就是数据自身曾经具备某些数据分布个性，刚好这个数据分布个性满足了上游算子对这份数据的散布要求，就不须要再做Shuffle，这个也是Hash cluster表的重要利用场景。

前言

转化归因工作加工绝对较简单，在此对其中关键步骤做个阐明：

1、源头分三局部，拜访日志数据A，点击日志数据B，接入的事件数据C，此三局部数据表已设置为4096分桶的hash表。

2、以上三局部数据以用户进行分组，别离传入用户的点击、拜访和事件数据，通过udf解决失去单用户的归因后果数据（以字条串返回）。

3、返回以用户粒度的后果数据进行字段拆分后以用户的事件id进行收缩，收缩后关联用户事件数据补充事件数据后其它字段。

4、上一步关联后的后果数据以日志id进行收缩，收缩后的数据关联拜访和点击日志数据失去日志中的其它一些补充字段。

以上步骤按单用户数据处理过程流程大抵如下：

以支付宝领取线来讲，最后总计运行两个来小时，加工逻辑步骤有近十来个工作。后续进行了udf优化并逻辑合并为一个script，图2右局部。

图(3)

优化过程

中间状态

以下工作是在通过多任务合并为一script工作后内容，其中源头输出表点击(mid\_log\_clk\_xxxx\_di)和拜访(mid\_log\_vst\_xxxx\_di)表建设hash cluster，而事件表是以事件代码为二级分区的一般表（事件表是通过页面通过不同的事件码在线接入后生成不同的工作产出的表），以领取线为例，工作革新后稳固在半小时左右，但目前随着事件减少有所增长。

点击拜访建表次要内容

CLUSTERED BY (user_id ASC) SORTED BY (user_id ASC,log_id ASC) INTO 4096 BUCKETS

整体运行图如下，相比原来十来个工作，无论是日常运行、历史回刷都变的绝对简洁。

在此过程中集体剖析若事件输出表能在运行过程中变hash cluster的话，那上游按理可再缩小一些Shuffle操作，尝试对事件表减少 DISTRIBUTE BY user\_id SORT BY scene\_type,order\_id 操作且设置参数set odps.sql.reducer.instances=4096，但测试发现上游对此无感知，分割MaxCompute 开发人员得悉目前暂无此性能。

接入事件hash表不能在运行中失去那只能再减少一个工作把事件数据插入一cluster表供工作应用，但因为在主链路上，减少的工夫影响整体产出工夫，但以领取线几个亿数据量为例，插入cluster表整体3分钟左右，建设cluster后整体执行图如下：

以上执行图曾经相当简略，运行速度相比原来工作及减少的上游整体也有肯定的晋升，然而发现两主task中，m3和m4同样都是4096实例，都是按用户分桶进行的散发，按理此两M应该是能够Shuffle remove进行合并的，问及MaxCompute开发人员大抵是一些简单操作后属性失落后不能打消Shuffle。

最终状态

尽管图5的执行打算相对来说曾经十分简洁，但一些理论后果与认知不同时总想找到问题出在哪里。因而，我对工作中的一些sql嵌套进行档次缩小，对一些关联先拆解再缓缓减少，在此过程中发现减少了一个小表的mapjoin会导致上游须要进行Shuffle（实践上小表mapjoin不影响主表散发），其中一个黑名单列表，数据量少且近三年都无减少数据，因而间接革新为固定值传入，另外一个小表在最初再进行mapjoin关联，最终执行图如下，只有一个主的task，十分简洁。

以下为m2中的算子，非常复杂，但无需Shuffle执行效率十分高。

执行后果

最终执行时长不到20分钟，绝对原先缩小一半，而且耗费的cu及内存都有所升高，转化归因整体链路产出提前20分钟+。

总结

1、本文的一些优化整体是基于 Hash Clustering Table的建设，在创立Hash表时须要思考分桶键的设定，并不是说肯定要所有的关联键设置为分桶键，在思考Hash的一些工作性能的同时，也须要思考表的存储压缩大小。

2、针对MaxCompute平台的一些策略原理，首先须要有本人的一些本身认知，很多时候不肯定是一两个文档可能说分明，更须要一些实际的测试来加深知识点的了解。

3、MaxCompute很多方面曾经十分智能及高效，心愿在主动的优化方面能够更加智能 。

【 MaxCompute公布收费试用打算，为数仓建设提速 】新用户可0元支付5000CU*小时计算资源与100GB存储，有效期3个月。 立刻支付>>

关于大数据:HashTable-在蚂蚁转化归因中的极致运用

概述

前言

优化过程

中间状态

最终状态

执行后果

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:HashTable-在蚂蚁转化归因中的极致运用

概述

前言

优化过程

中间状态

最终状态

执行后果

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复