关于数据库:双11实时物流订单最佳实践

简介：随着双11的开启，物流业也迎来了年度大考。2021年双11期间，递四方作为物流仓储服务方，布局仓库和分拣点超40+个，50w+平米作业场地，单日订单峰值达千万级别，海量购物订单由递四方配送到家，消费者由尾款人秒变收货人。

作者 | 梅酱
起源 | 阿里技术公众号

随着双11的开启，物流业也迎来了年度大考。2021年双11期间，递四方作为物流仓储服务方，布局仓库和分拣点超40+个，50w+平米作业场地，单日订单峰值达千万级别，海量购物订单由递四方配送到家，消费者由尾款人秒变收货人。

一业务介绍

递四方成立于2004年，守业在深圳，是国内最早的国内物流和寰球仓储服务物流供应链服务商，次要为从事跨境电商的客户、平台以及普通用户提供仓储物流服务，以GPN(直发订单)和GFN(海内仓储)两张网络为客户提供更好的寰球跨境电商优质生态环境，致力于帮忙中国企业走向寰球，目前在寰球超过100+家分支机构，服务寰球约100万家跨境电商商户与超过2亿跨境电商终端用户。

二业务挑战

为了应答双11单日峰值达到千万级别订单的情况，递四方使用大数据正当优化资源，提前做好寰球仓储人力、物力、运力配置，保障仓储各流程高效、有序进行。从往年10月中下旬开始，上海转运核心和东莞转运核心相继启动。截至目前，递四方陆续在华东、华北、华南新建、扩建超级枢纽、揽收仓至40余个，持续加大在全国的布局；在国内领有40个+分公司/分拨服务网点，全国50万+平方米办公/作业场地面积。

在业务方面，递四方借助自主研发分拣零碎和云技术，疾速进行条码辨认，按指令分拣，实现称重分拣一体化全面笼罩，保障每一票货物都可自动识别、精准分拣出库。称重及分拣，已从传统人工模式降级为100%人工管控模式。此外，递四方信息科技的黑科技硬件——红光在此次“双11”首次亮相。在分拣效率不变的状况下，递四方信息科技用光幕等技术手段，对分拣机落格包裹进行核验，将库内错分率升高至万分之三，达到业界领先水平。尤其针对仓库环节，一直加大对库内的自动化、数字化、智能化建设，联合大数据、AI算法、云计算等伎俩进行零碎的研发降级，引进高科技设施来晋升产能、保障时效。

随着双11期间订单量剧增、利用的复杂度晋升，咱们的业务零碎也禁受着严厉的挑战，原来的实时数仓架构曾经不能满足业务以后的需要。在寻找新的解决方案时，咱们比照了业界罕用的大数据实时查询数据库，比方HBase、ClickHouse、Druid，但在千亿级别数据多表连贯查问时都遇到了瓶颈，无奈满足业务实时性、服务稳定性的要求。

实时数仓在递四方的利用场景利用次要有以下几个方面：揽收、库内操作、仓间调拨、清关交邮预警监控，这外面蕴含着单票运行操作的每一个步骤。这些场景都须要做到实时监控，并且实时做出决策来进步物流的的整体时效。尤其是在双十一高峰期的状况下，如果人力或资源分配有余，很容易使某一环节梗塞，进而影响整体物流的时效。在技术的层面，咱们有很多个业务零碎，这些零碎之间既有一致性也有独立性，一个简单指标波及到多个零碎多张表，因而咱们实时数仓对表连贯查问能力十分强，而且对数据的更新插入速度也有着很高的要求。

往年双11，咱们对撑持业务的实时数仓零碎进行了降级，通过新一代基于flink+hologres的实时数仓零碎，在物流订单量相较于去年减少多倍的状况下，依然可能实时监控每一票订单的物流状况、每一个仓库的作业状况，并且实时数仓整体老本降落50%，真正做到了“多、快、好、省”。

上面咱们将会具体介绍递四方实时数仓的降级演进之路。

三递四方实时数仓之路

1 实时数仓1.0

在刚开始做第一版实时数仓的时候，工夫窗口比拟紧，咱们要把无限的精力放到数据建模以及业务开发中，所以在比照了数据库的吞吐性以及解决能力后，咱们抉择了ADB。ADB在数量大很大的状况下，查问速度、插入速度都很快，而且反对DTS、OTTER等数据同步接入，同步性能很好。

数据源是阿里云的PolarDB、MySQL、RDS等数据库，采纳阿里云的DataWork数据同步，把增量数据实时同步到ADB中，而后在ADB中做数据实时的计算，数据的任务调度在DataWork中实现。

然而过后遇到了一个十分大的问题，就是ADB的并发无限，计算工作消耗了大量的资源。在各种大屏、实时报表拉取数据的时候，高并发的状况下，ADB的提早很高，给咱们实时服务稳定性带来了十分大的挑战。

2 实时数仓2.0

经验了第一个版本的实时数仓后，咱们总结了实时数仓的两个重要个性，一是实时，二是服务的稳定性。

第一个版本的实时数仓不能很好地满足稳定性，咱们决定对新的实时数仓进行一个深刻的钻研和摸索，在阿里云上看到了很多对于Hologres的利用，其性能体现极其杰出，带来了不错的成果。在比照了业界不同的实时数仓架构后，咱们最终抉择了Flink+Hologres组合作为实时数仓。

这里一共有2条门路：

第一条门路是：通过DTS把Binlog数据同步到DataHub，而后应用Flink从DataHub中生产数据，把计算结果存储在Hologres中，这条门路次要是用于计算一些拜访频率高且数据量大的数据，比方待揽收单量、入库单量、待实现单量等。
第二条门路是：业务零碎的Binlog数据通过DataWorks同步到Hologres中。Hologres中分了3层，ODS层用于寄存原始数据，间接加载原始日志、数据，数据放弃原貌不做解决。个别状况下，以增量的形式从业务零碎导入到ODS层，数据模型和粒度都与业务零碎保持一致。DWD层数据明细层，对ODS层数据进行荡涤。DWS为汇总层，次要寄存宽表。这里次要是思考到粒度的不一样，在Hologres中多表连贯查问可能施展其最大的作用。整个架构的任务调度依赖于DataWorks。

本次采纳的批流一体即席计算查问混合模式，既施展了Flink流计算的能力，也充分利用了Hologres弱小的连表查问能力。互联网广泛使用的HBase、ClickHouse、Druid等作为实时查询数据库，咱们的业务复杂度是互联网的若干倍，这些实时数据库并不能齐全满足咱们的需要，架构互有优劣，但咱们的架构是将来五六年内业务高速增长的最佳抉择。

四递四方与实时数仓Hologres

1 为什么抉择Hologres

那么为什么会抉择Hologres呢？通过调研发现它有几个特点，比拟适宜理论状况。

第一是Hologres的实时能力，满足目前递四方的实时数仓需要，反对百亿级表与亿级表之间的JOIN，秒级查问响应，还反对实时写入、批量数据导入，领有超高导入性能，且并发能力极强。
第二是Hologres 采纳存储计算拆散架构，数据存储在阿里云分布式文件系统pangu中（类比开源HDFS），不便按需独自扩大计算或者存储。对疾速行业来说，大促和日常所须要资源不一样，可能疾速扩缩容，满足业务的动静需要。同时Hologres反对异构数据源交互剖析以及离线数据和实时数据的联邦查问，Hologres曾经和MaxCompute无缝买通，可能间接在Hologres中减速查问MaxCompute离线表。
第三是保护成本低、运行稳固，Hologres作为实时数仓存储老本大概是ADB的1/3。资源灵活性高，能够像MaxCompute一样灵便的升降配置，与阿里云大数据组件兼容性高，能升高运维老本和进步研发效力，不会对技术架构带来很大累赘。

2 Hologres利用场景

在面向剖析OLAP零碎外面，Hologres承当了实时和离线数据的查问，因为Hologres既反对高并发写入，又可能满足及时查问，同时还可能反对OLAP剖析，在咱们的不同粒度的表进行连贯的时候，可能充分发挥其劣势。上面列举2个不同的场景对其做一个具体的阐明。

场景一：库内操作场景

实时的数据从Binlog解析到ODS层，同时微批工作将分钟级别（范畴可调）的统计数据计算到DWS宽表，同时跟离线的数据进行插入更新，就能够失去实时的全量数据表，调度采取DataWorks的调度，每5分钟调度1次。

场景2:仓间调拨场景

对于一些数据量小的表，依赖于Hologres弱小的Join能力，通过视图来构建DWS中间层，如下图所示：

DWD是对ODS层过滤的视图，DWS层是DWD层聚合层的宽表，每次查问DWS层的时候，就相当于所有表从新查问了一次。这种查问语句是非常复杂的，对于关系型数据库来说，可能有性能瓶颈会十分迟缓。然而对于Hologres来说，毫秒级别查问实现毫无压力，做到了实时响应，并且节俭了调度资源，同时也晋升了查问的灵活性。

3 Hologres目前的有余

在应用Hologres期间也发现的一些不满足理论需要的中央：一是非空列不能建设索引，多个亿级别表连贯在没有索引的状况下，查问速度降落。二是Hologres兼容Postgre生态，但反对的函数不多，在开发上与MaxCompute相比有肯定的难度。

五业务价值

整个双11期间，递四方通过降级实时数仓技术，基于Flink+Hologres搭建的实时数仓撑持了实时大屏的高频刷新拜访，实时监控物流动静，促成了业务高效运行，让消费者的快递更快到家。整个架构降级给业务带来的价值有以下几个方面：

稳固：基于Hologres继续高稳固的输入，整体双11期间不论是实时数据写入、还是数据的读取都体现出了极强的稳定性。整个双11期间，真正做到了0故障率。

实时：实时的揽收、库内操作、直达调拨等实时大屏，对咱们的经营提供了十分强有力的实时数据撑持，整体时效比去年进步了不少，给用户带来良好的物流体验，进步了公司的服务水平。

云原生：除了下面两个外围价值之外，因为双11期间是流量高峰期，比日常流量高出上千倍，通过Hologres能够实现动静扩缩容，满足咱们对资源的不同需要，从而也升高了运维老本。

这是递四方参加的第7个双11狂欢节，递四方在这次的物流大考中交出了称心的答卷。随着业务迅猛增长，递四方也在一直演进背地的实时数仓技术来撑持更丰盛的仓储物流场景，让物流从“手工化”逐步转变为“智能化”。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于数据库:双11实时物流订单最佳实践

一业务介绍

二业务挑战

三递四方实时数仓之路

1 实时数仓1.0

2 实时数仓2.0

四递四方与实时数仓Hologres

1 为什么抉择Hologres

2 Hologres利用场景

3 Hologres目前的有余

五业务价值

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:双11实时物流订单最佳实践

一 业务介绍

二 业务挑战

三 递四方实时数仓之路

1 实时数仓1.0

2 实时数仓2.0

四 递四方与实时数仓Hologres

1 为什么抉择Hologres

2 Hologres利用场景

3 Hologres目前的有余

五 业务价值

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

一业务介绍

二业务挑战

三递四方实时数仓之路

四递四方与实时数仓Hologres

五业务价值

发表回复取消回复