关于数据库:中国邮政邮科院-X-StarRocks统一OLAP平台大幅降低运维成本

邮政科学研究规划院有限公司（以下简称“邮科院”），作为中国邮政团体有限公司的科研智库单位，专一于战略规划、企业治理、工程设计、物流配备、智能终端、品质检测、标准化钻研等畛域，在助力中国邮政策略转型和经营倒退中施展着重要撑持作用。

邮科院数据组负责全院大数据体系架构的建设，撑持日常 BI 经营剖析、科研数据产品、物流数据、网点画像等业务场景。邮科院数据组通过应用 StarRocks，对立了实时和离线的剖析场景，替换了 ClickHouse、Presto、MySQL 等零碎，解决了原有多套零碎带来的运维和应用复杂性，简化了数据 ETL 流程，同时大幅晋升 OLAP、Adhoc 等场景的查问效率。本文次要介绍邮科院数据组基于新一代极速全场景 MPP 数据库 StarRocks，在数据服务体系和数据利用场景中的实际和摸索。

“作者：谢翔，
邮政科学研究规划院有限公司寄递研究所数据组负责人，专一于数仓建设、数据分析等畛域钻研。”

随着科研数据积攒越来越大，数据规模和体量也急剧收缩。科研的原始数据通常来源于研报抽取、日志埋点文件、业务数据库、三方接口等。过来通常基于 CDH/Hadoop 等大数据分布式计算框架和数据集成工具，构建离线的数据仓库，并对数据进行适当的分层、建模、加工和治理，构建各类剖析主题。邮科院数据体系中积淀了诸多研报主题数据，例如：电商流量数据，物流企业财务数据，行业报告相干的数据等。

下层数据利用对查问的响应提早和时效性要求高，会将数据通过数据同步工具同步到 MySQL、ElasticSearch、Presto、HBase、ClickHouse 等数据库系统中，来撑持下层数据利用的查问要求。

邮科院的大数据总体架构如下图所示，从下到上能够分为数据接入层、数据计算层、数据服务层和数据应用层。

数据计算层应用科研工作各剖析场景下产生的模型 / 计划 / 业务的明细数据，进行离线数据计算，对 TB 级别的明细数据进行调度、聚合、计算，在数仓里积淀出大量明细表、聚合表和最终的数据报表。

数据计算层生成的各类数据表，会同步到数据服务层，由数据服务层提供接口给数据应用层应用，满足不同的数据业务需要。

数据服务层的愿景是凋谢数仓能力，建设对立的数据服务进口，针对不同的数据业务剖析场景（数据规模、QPS、UDF 反对、运维老本等），原有架构在底层应用了不同的查问引擎：

大数据量、低 QPS：应用 Hive、Presto、ClickHouse 等基于 Hadoop 生态的离线批工作计算框架和 MPP 数据库来解决。
小数据量、高 QPS：应用 MySQL、ElasticSearch、HBase、MongoDB 等关系型 / 非关系型数据库来解决。

应用多套查问引擎，咱们遇到如下问题和挑战：

离线 / 实时 ETL 工作过多，解决逻辑大部分为简略聚合 / 去重，聚合表数量宏大，导致经营和运维上的成本增加；
针对中等数据量、中等 QPS 的查问场景，如何能兼顾数据规模的同时，有较敌对的查问响应提早；
大数据量下插入、更新的实时数据场景无奈失去反对，例如：网点画像、实时数据导入、邮路门路、研报数据汇总等。

针对如上的问题和挑战，咱们的指标是寻求尽可能少的 OLAP 引擎，利用在明细表上现场计算来解决 ETL 工作、数仓表过多问题，同时须要兼顾在数据规模、查问 QPS、响应耗时、查问场景方面的衡量。

目前市面上 OLAP 引擎百花齐放，诸如 Impala、Druid、ClickHouse、StarRocks。通过一番调研，咱们最终抉择了 StarRocks。StarRocks 是基于 MPP 架构的剖析型数据库，自带数据存储，整合了大数据框架的劣势，反对主键更新、反对现代化物化视图、反对高并发和高吞吐的即席查问等诸多长处，人造能解决咱们上述的问题。

StarRocks 曾经投入生产环境，次要作为离线 / 实时数据的 OLAP 数据库应用。离线数据次要存储于 HDFS 中，通过 DataX 工作批量同步数据到 StarRocks；另一部分实时数据次要存储于 Kafka 中，应用 StarRocks 的 routine load 性能实时将数据从 kafka 写入到 StarRocks。

在没有引入 StarRocks 之前，咱们应用的底层引擎是 MySQL、Presto on HDFS 和 ClickHouse 等零碎，对明细表 / 聚合表进行查问。这几种形式都存在着不少问题：

MySQL 解决上亿规模的数据，无论应用分库分表、分区表、集群化部署的 PolarDB 计划，都会存在慢查问、数据库扛不住、运维艰难的困境；
Presto on HDFS 的计划更偏差于剖析型数据业务，尽管能存储海量的数据，计算能力不错，惟一致命的在于无奈满足在线业务的高吞吐 QPS，查问比拟难做到毫秒级。
ClickHouse 对 Join 反对较弱，只能应用大宽表建模，不够灵便，另外运维也比较复杂。

在引入 StarRocks 替换 MySQL、Presto 和 ClickHouse 后，StarRocks 带来的业务成果如下：

撑持了在线报表查问 + 数据分析业务，服务于对内经营 + 对外行业剖析的数据产品，报表业务查问大部分耗时在毫秒级别，剖析型业务查问大部分耗时在秒级别；
反对 10 亿规模的明细表查问，月、季、年等维度统计数据现场算聚合统计、精准去重等，查问耗时都能管制在 500ms 以内；
千万级别的多表的 Join 和 union 查问，通过 Colocate Join 个性优化，查问响应在秒级。

另外，咱们还将 StarRocks 利用到实时数据分析场景，StarRocks 在实时数据分析次要有如下劣势：

实时写入性能 ：目前 StarRocks 反对 HTTP 形式的 Stream Load，能够自定义的分钟级别微批写入，以及 Routine Load 性能，能够将 Kafka 的数据实时同步到 StarRocks 中，满足以后实时数据分析业务；
对立离线和实时剖析 ：实时数据和离线数据更好的在 StarRocks 中进行交融，灵便撑持利用，数据存储策略通过 StarRocks 动静分区的性能进行主动治理；
SQL Online Serving：高效的 SQL 即席查问能力，可能兼容业界规范的 SQL 标准，撑持业务灵便简单的拜访，进步取数开发的效率。

邮科院数据组引入 StarRocks 生产集群，解决了数据服务层单表亿级别规模、高 QPS 数据场景下引擎的空白，间接凋谢明细表准实时查问的能力，给各项目组下层数据业务和 BI 零碎提供了更多的抉择和自由度，同时将大大减少数仓中大量 ETL 工作、聚合表、报表，升高了数仓 ETL 的运维压力和保护老本，StarRocks 综合性价比拟原有的 MySQL、Presto、ClickHouse 等同类产品晋升数倍以上。
将来，邮科院在 StarRocks 的利用和实际上还有不少布局：

除了 unique 和 duplicate 数据模型，将来会将合乎的数据场景迁徙至 aggregation 模型，并应用物化视图，进一步升高数仓开发保护老本，升高查问提早；
StarRocks on ES 的性能也值得咱们深挖和摸索，解决原生 ES 集群无奈反对跨索引 Join 的能力；
更多数据应用层的场景接入 StarRocks，例如网点画像服务、邮路路径分析等，将进一步拓展 StarRocks 在实时数据写入、批量数据更新场景中的利用；
与科研数据分析平台、数仓平台深度买通，欠缺数据整体架构，作为数据团队的基础设施去保障稳定性和服务；
思考应用多云架构，自主可控的数仓架构能够灵便的在多云间切换迁徙，升高繁多云厂商的依赖，管制老本进步可用性。
……

最初的最初，感激 StarRocks 技术团队给予的激情、靠谱的答疑解惑和技术支持！！！

关于数据库:中国邮政邮科院-X-StarRocks统一OLAP平台大幅降低运维成本

业务背景

业务痛点

OLAP 引擎选型

StarRocks 利用实际

总结和布局