关于sql:如何写出高性能的-SQL-Join-join-实现和最佳实践

Join是数据库和数仓中最罕用的一个感怀了。在关系型数据库的数据模型中，为了防止数据冗余存储，不同的数据往往放在不同的表中，分为事实表和维度表，这样做能够极大的节俭数据存储空间。然而在剖析数据时，则须要通过join把多表关联起来剖析。能够说，做数据分析，绕不开的一个话题就是join。而join有多种类型，在应用上有不同的应用形式，而在实现上也有不同的实现形式。不同的应用形式和实现形式，则会造成性能上的天差地别。本文尝试由表及里梳理join的应用和外部实现形式，通过理解外部实现，理解如何写出一个高性能的join SQL。

join类型

SQL Join从大的分类上，分为Inner Join，Outer Join，Self Join和Cross Join。

Inner join

内连贯Inner Join是最罕用的一种连贯形式。左右表通过谓词连贯。只有既在左表呈现的行、又在右表呈现的行才满足条件，也就是左右表的交加。语法是 select A.x, B.y from A join B on A.x = B.y 内连贯不辨别左右表的程序，A inner join B 等同于 B join A。

Inner Join又分为 Equal join和Non Equal Join（Theta Join）。区别在于，Equal join是在连贯条件中，左表的某个字段等与右表的某个字段。而Theta Join的连贯条件，不是一个相等条件，有可能是大于或者小于条件。

Outer join

Outer Join包含Left Join，Right Join， Full Join。各个join的不同点参考上图。

Left Join返回左表的全副行，不管这些行是否和右表匹配。这些数据中，又分为两类，别离是匹配右表的数据和不匹配右表的数据。对于左右表交加的局部，即匹配右表的数据，别离输入左右表的列。对于不在交集中的局部，即不匹配右表的数据，输入左表的列值，右表的列值为null。left join不能够左右调换。

right join和left join对称，返回右表的全副行，不管这些数据行是否和左表匹配。这些数据中，又分为两类，别离是匹配左表的数据和不匹配左表的数据。对于左右表有交加的局部，即匹配左表的数据，输入左右表的列。对于不在交集中的行，失常输入右表的列，而左表的列卫null。right join也是不能够左右调换的。但left join和right join是左右对称的。即一个left join能够转写成right join。 A left join B 等同于A right join B。

full join是left join和right join的综合，返回的是左右表的并集。在后果中蕴含三局部数据，别离是左右表的交加（同时匹配左表和右表的数据）、只匹配左表的数据、只匹配右表的数据。对于左右表的交加数据，输入左右表的列值。对于只匹配左表的数据，输入左表的列，右表的列为null。对于只匹配右表的数据，输入右表的列，左表的列为null。

Inner Join和Outer join的区别

Inner Join和Outer Join的区别在于，Inner Join的后果是左右表中同时存在的行，即两个表的交加，也就是后果都在左右表外部。而Outer Join的后果中，可能蕴含不属于本表的行，如下图中的left join、right join和full join，有些后果是属于本表内部的，所以称为outer join。

Cross Join

Cross join是两个表的的笛卡尔积，即左表和右表的N*M种组合。这种个别很少用到，毕竟不是所有的组合都是有意义的。个别在组合后，再加上筛选条件，抉择出局部有意义的后果。应用形式如：A cross joinSelf Join

Self Join

顾名思义，就是本人join 本人，左右表都是本人，可能是inner join，也可能是outer join。

Semi join

Semi Join是半连贯，从一个表中返回的行与另一个表中数据行进行不齐全联接查问（查找到匹配的数据行就返回，不再持续查找）。典型的查问如in和exists查问。

Anti Semi join

Anti-semi-join 从一个表中返回的行与另一个表中数据行进行不齐全联接查问，而后返回不匹配的数据。典型的查问时not exists和not in。

例如 select * from A where not exists (select B.y from B)

join实现形式

理解零碎实现，有助于咱们写出性能最佳的SQL。如果不做任何优化，一个奢侈的Hash算法是怎么做的？用两层循环，顺次遍历左表和右表的每一行，而后断定连贯条件，如果满足连贯条件，则输入该行。这种做法称为Product Join（点积join）。

for rowX in left_table:
for rowY in right_table:
if rowX match rowY
output rowX and rowY

这种做法尽管能达到目标，但显然这种做法的工夫复杂度是O（N*M)，速度是十分慢的。于是有了下边几种更加疾速实现形式。

Sort Merge

首先对左右表排序，而后把两个排好序的表依照多路归并算法，合并两个排序表。排序的工夫复杂度是O(nlog(n)),归并工夫简单的是O(n)。整体工夫复杂度是O(nlog(n))。

Hash Join

Hash Join的算法是对右表构建Hash表，而后遍历左表，依据join key的hash值到hash表中寻找。因而右表称为build side，左表称为probe side。

构建Hash表的工夫复杂度是O(n)。probe的工夫复杂度也是O(n)。更重要的时，Hash Join能够用来做分布式join，当数据量太大时，能够把数据Hash到不同的机器上，雷同的数据Hash到同一个机器上匹配。能够利用分布式机器解决大数据的join问题。

BroadCast Hash Join

HashJoin要求把左右表都计算Hash，而后依照Hash key散发到其余机器上执行join。如果数据很大的话，shuffle的代价就很大。这个时候就能够辨别下状况，如果另一张表也很大，那只能乖乖的Hash做分布式解决了；但如果另外一张表很小，则能够间接把这个小表播送拷贝到大表所在的机器上，这样大表就防止了shuffle。

Shuffle Sort Merge Join

对于大表和大表的join。除了Shuffle hash Join，还能够用shuffle sort merge join，区别在于，Hash Join依照特定的hash key shuffle到固定机器上。而shuffle sort merge join能够依照一个更加宽泛的partition key shuffle到固定机器上。同一个partition的数据，shuffle到同一台机器上，再依照单机的sort merge算法join。

关系型数据库和数仓的不同做法

咱们在上文探讨join的实现形式时，有一个隐含的前提是，数据是存在数仓中的。数据量比拟大，是多partitoin存储的，左右表更是在不同机器上存储的。而单机的关系性数据库，左右表的全副数据存储在同一个机器上，因而两者的算法存在很大不同。对于数仓而言，人造的须要shuffle数据，把左右表挪动到同一个机器上。不过，依据表的大小，有不同的优化计划。如果一个表很小，那么只须要播送这张小表就够了；如果两个表都很大，那么只能乖乖的shuffle两张表了。

Equal join和None Equal join

如果join连贯条件中，全都是相等条件，那么在join时，就能够间接依照连贯条件进行shuffle，同时依照hash key构建hash表，这样probe的时候，就可能利用hash表在O(1)级别查找数据。

但如果连贯条件中蕴含了非相等条件，或者蕴含or，那么在连贯时，只能逐行验证条件了。

最佳实际

上文介绍了SQL的应用形式和外部实现，通过理解外部实现，咱们能够大抵理解到如何写出一个高性能的join 语句了

1: 尽量大表join小表，不要大表join大表。
2: 在连贯条件中应用相等条件和and条件，不要有or条件。
3: 尽量应用inner join或者outer join，不要应用cross join。

原文链接

本文为阿里云原创内容，未经容许不得转载。

关于sql:如何写出高性能的-SQL-Join-join-实现和最佳实践

join类型

Inner join

Outer join

Cross Join

Self Join

Semi join

Anti Semi join

join实现形式

Sort Merge

Hash Join

BroadCast Hash Join

Shuffle Sort Merge Join

关系型数据库和数仓的不同做法

Equal join和None Equal join

最佳实际

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于sql:如何写出高性能的-SQL-Join-join-实现和最佳实践

join类型

Inner join

Outer join

Cross Join

Self Join

Semi join

Anti Semi join

join实现形式

Sort Merge

Hash Join

BroadCast Hash Join

Shuffle Sort Merge Join

关系型数据库和数仓的不同做法

Equal join和None Equal join

最佳实际

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复