关于apache-doris:应用实践-蜀海供应链基于-Apache-Doris-的数据中台建设
导读:蜀海供应链是集销售、研发、洽购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业,因其业务比较复杂,2020 年底实现了以 Apache Doris 为外围的架构降级,并在 2021 年开始建设以 Apache Doris 为外围的数据中台。本文将从数据接入,数据服务编排,数据安全,Doris 利用等方面进行介绍。作者|蜀海供应链大数据团队负责人 王永绪 业务背景蜀海供应链是集销售、研发、洽购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业,为宽广餐饮连锁企业及批发客户提供整体食材供应链解决方案服务。因其业务比较复杂,2020 年底实现了以 Apache Doris 为外围的架构降级,并在 2021 年开始建设以 Apache Doris 为外围的数据中台。 在应用 Doris 之前,咱们采纳了 CDH 这套数据平台,用了很多组件,但其链路过长,并且开发和保护老本比拟大,最初没有引入一个很好的 OLAP 零碎。 因为咱们的数据历史包袱比拟轻,通过对 Apache Doris 的调研和测试,决定应用以 Apache Doris 为外围建设数据平台,它有以下劣势: 同时反对高并发点查问和高吞吐的 Ad-hoc 查问。同时反对离线批量导入和实时数据导入。同时反对明细和聚合查问。兼容 MySQL 协定和规范 SQL。反对 Rollup Table 和 Rollup Table 的智能查问路由。反对较好的多表 Join 策略和灵便的表达式查问。反对 Schema 在线变更。反对 Range 和 Hash 二级分区。高可用,能容忍局部节点挂掉。运维简略,部署,保护,降级都比较简单,不依赖内部组件。架构图如下: 因为之前曾经对元数据,数据服务,接入数据品质,血缘关系的建设做过介绍,本文将从数据接入,数据服务编排,数据安全,Doris 利用等方面进行介绍。 数据接入数据接入性能是数据开发的重要一环,咱们开发了一套数据接入零碎,在 Web 端操作,实现零代码数据接入到 Doris,以下为次要性能介绍: 订阅 MySQL Binlog,入仓到 Doris 表。订阅 Kafka Topic,入仓到 Doris 表。数据动静荡涤,在页面编写代码即可实现数据入仓之前的转换。接入工作合并,为节俭资源,反对分库分表在一个工作接入,反对多个 TOPIC 在一个工作接入。动态数据品质校验,配置字段品质规定,进行接入数据品质校验。入仓加密,再接入过程中,能够对敏感数据进行加密后再入到 Doris 表。谬误数据管理,因为网络或者数据谬误等起因,在页面可实现数据的从新入仓。数据接入链路监控,比方谬误数据监控,数据生产链路异样监控,数据生产链路异样监控,工作数据接入趋势图,集群数据接入趋势图等。数据接入工作列表: ...