乐趣区

关于hash:HashTable-在蚂蚁转化归因中的极致运用

概述

蚂蚁的转化归因在初期运行两个多小时的状况下,进行了一系列优化,其中建设 hash cluster 表及强制 hash 关联及 Shuffle 的手动干涉进行 remove 操作此局部优化占了较大比重。本文则次要讲述 hash cluster 表的一些使用。
Hash cluster 表具备两个作用:
· 存储预排序的重排压缩。Hash cluster 表采纳分桶排序操作,若雷同的值反复度高,则能够达到更好的压缩成果。
· 上游工作的 Shuffle Remove。Hash cluster 表因为采纳对指定字段分桶操作,上游若一些关联、聚合操作与分桶键策略雷同,则会进行 Shuffle Remove 操作。MaxCompute 操作中,Shuffle 是低廉的,因而有必要在优化阶段尽可能移除不必要的 Shuffle。什么状况下能够移除 Shuffle?简略来说就是数据自身曾经具备某些数据分布个性,刚好这个数据分布个性满足了上游算子对这份数据的散布要求,就不须要再做 Shuffle,这个也是 Hash cluster 表的重要利用场景。

残缺内容请点击下方链接查看:

https://developer.aliyun.com/article/1209042%20?utm_content=g…

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

退出移动版