关于大数据:多点DMALL-×-Apache-Kyuubi构建统一SQL-Proxy探索实践

随同着国家产业降级的推动和云原生技术成熟，多点 DMALL 大数据技术也经验了从存算一体到存算拆散的架构调整变迁。本文将从引入 Kyuubi 实现对立 SQL Proxy 的角度讲述这一摸索实际的历程。

多点 DMALL 成立于 2015 年，提供一站式全渠道数字批发解决方案 DMALL OS，目前已与 130+ 连锁批发企业、近 1000 家品牌达成单干，笼罩 5 个国家和地区。作为一站式全渠道数字批发解决方案服务商，多点 DMALL 通过数字化解构重构批发产业，提供端到端的商业 SaaS。计划整体涵盖了从商品抉择、供应商引入、仓储供应链治理、门店经营、用户精准营销的整个产业链，实现了人人、事事、物物在线。

Apache Kyuubi 是网易数帆发动开源的一个分布式和多租户网关，用于在 Lakehouse 上提供 Serverless SQL，社区目前已汇集海内外百余名贡献者。

作为 DMALL OS 数字化能力的技术底座，大数据平台历经屡次迭代安稳撑持了公司 To B 业务的发展。随同着国家产业降级的推动和云原生技术成熟，多点 DMALL 大数据技术也经验了从存算一体到存算拆散的架构调整变迁。本文将从引入 Kyuubi 实现对立 SQL Proxy 的角度讲述这一摸索实际的历程。

第一代的大数据技术次要采纳传统 Hadoop 开源技术栈，简直所有的企业搭建大数据集群都是从 HDFS、Hive 和 YARN 开始的。除了 Apache 开源组件组合外，许多企业也会选用 CDH、HDP 等商业发行套件，不便运维和部署。随着技术的成熟，传统的 Hadoop 技术开始裸露一些毛病：

1. 部署运维老本高

Hadoop 生态组件所需根底硬件资源较多，组建集群时须要谨慎设计和调整，部署老本高，前期运维复杂度高。

2. 集群隔离，资源节约

大数据集群部署时经常须要独自申请机器，与业务服务集群资源隔离。总体来看，两个集群的潮汐景象都存在，大数据集群白天较为闲暇，业务服务集群夜间用户使用量低，隔离部署的形式会产生较大资源节约。

3. 存储老本继续升高

大数据集群的数据量是始终增长的。纵使企业做了冷热拆散的设计、定时归档的解决，也只是减缓了增长趋势，仍旧无奈解决存储老本始终升高的现状。当然，除了上述毛病，还有 NameNode 元数据压力过大、组件版本互相制约等问题。这些毛病对于企业外部应用尚且能够优化解决，然而作为一家须要为客户提供定制化服务的企业，尤其面对日益突出的“性能”、“老本”、“平安”、“稳定性”等外围问题，多点 DMALL 意识到必须做出扭转。

To B 的企业商业逻辑和 To C 的差异很大，在大数据畛域的差异更大。

1. 精密的老本治理

To C 的大数据平台使用者多是企业外部员工。应用大数据平台产生的老本独自计算，个人用户不会为这些资源耗费间接买单。但在 To B 模式下，使用者根本都来自 B 端企业客户，客户要为其资源应用付费。这就意味着作为服务提供商须要精细化老本，尽最大可能降低成本能力取得客户的认可。

2. 更低的应用门槛

企业外部应用的大数据平台，员工背景可控。To B 的大数据平台面对的环境要简单很多。客户以后的信息化水平、员工技能等都不雷同，大数据平台须要提供更多形式、更低门槛来帮忙客户的应用。

3. 更快的交付效率

须要进一步简化技术架构和实现，采纳标准化的伎俩小时级交付新环境，节省时间同时进一步升高后续运维难度。这样当前逐步造成疾速规模化复制的能力，输入批发数据中台解决方案。

上述技术背景和商业背景的倒退，对多点 DMALL 的大数据技术基座继续提出更高的要求。在继续优化降级的过程中，多点 DMALL 的大数据集群架构经验了从传统 Hadoop 生态迈向云原生，从存算一体到存算拆散的架构变迁。

接下来，咱们将具体讲述这一变迁的背景及其设计，以及 Kyuubi 在其中承当的角色和优化实际。

与其余大部分企业一样，多点 DMALL 最开始采纳的是传统 Hadoop 技术栈构建数据中台 UniData，强依赖 CDH 发行版，采纳 IDC 物理机 / 云主机集群部署。在即席查问中，咱们采纳自研的对立平安网关 UniSQL 连贯用户和底层引擎。UniSQL 可为用户提供平安校验、血统采集、SQL 审计、限流、白名单、查问降级、查问后果限度等平台管控级性能，最后只反对对接 Impala 和 Hive 查问引擎。很显著基于查问速度的劣势，平台用户会优先选择 Impala 作为查问引擎。随着平台的推广和用户量的减少，咱们发现这样的架构存在不少问题。

1. Impala 资源缓和

Impala 的资源缓和景象越来越频繁，因其自身资源隔离较为简单，也没有 HiveServer2 提供的原生查问条件管制等，使得整体可用性升高。尽管咱们在优化中通过平台层面补救进行局部 SQL 的拦挡，然而仍然无奈齐全阻挡局部占用大量资源的 SQL 执行。

2. Hive 查问速度不佳

相比于 Impala，Hive 查问速度不佳，用户体验较差。一方面，MapReduce 工作会产生大量长期小文件，影响运维人员的判断；另一方面，MapReduce 工作报错经常很费解，用户从 Hive 执行日志中无奈间接获取，须要运维人员去 YARN 治理页面搜寻查问详细信息，带来较大的运维老本。

3. YARN 集群潮汐景象重大

如图所示，YARN 所在的集群是为大数据独立搭建的基于 IDC/ 云主机的集群。实际中发现，YARN 集群的潮汐景象非常明显，凌晨时分随同着大量离线工作的启动，集群资源十分缓和；白天任务量很少，Impala 的大量应用意味着 Hive 查问量少，集群总体使用量较为闲暇。基于上述的起因，咱们思考引入 SparkSQL 作为即席查问的另一个可选项，在 Impala 资源缓和时，将 Impala 的查问资源疏导入 YARN 集群中，同时缩小 Hive 的查问以晋升用户整体的查问速率。选型过程中 Kyuubi 进入了咱们的眼帘。

### 架构设计

事实上，这不是咱们第一次调研 Kyuubi。早在 Kyuubi 正式开源时，咱们便尝试引入 Kyuubi 作为多租户代理工具，刚巧赶上过后公司技术倒退方向的优先级调整，这一尝试临时搁置。起初在需要的驱动下，咱们开始从新引入 Kyuubi，这时 Kyuubi 曾经到了 1.5.2 版本。现行的架构曾经稳固在多个集群运行，为了尽可能减少架构调整，保障引入过程中集群其余工作及服务的稳定性，最终引入 Kyuubi 后即席查问波及的总体架构图如下：

### 优化摸索

线上环境中曾经有 UniSQL 作为对立平安网关，Kyuubi 所承当的角色仅聚焦于多租户的 Spark SQL 代理。为了适配其余底层组件等起因，咱们对 Kyuubi 进行了局部调整：

1. 在现有的 CDH 环境下，为了匹配 Sentry 的权限管控和 YARN 的资源调度，咱们批改了 Kyuubi 提交 Spark 的执行命令，不应用 proxy-user 和 -queue 的参数，间接切换用户提交；

2. 因为平安组件应用 Sentry 进行权限管控的，在网上也没有开源产品能够提供 SparkSQL 基于 Sentry 的校验，咱们只好独自适配实现了针对 Sentry 的 Spark Extension；

3. 基于 Kyuubi 提供的 kyuubi.engine.initialize.sql 参数，将咱们原来为 Hive 和 Impala 提供的 UDF 迁徙到 SparkSQL 服务中，Kyuubi 在初始化 Spark 时便主动加载对应的 jar 包和 Function，用户切换引擎时应用无感知；

4. 为了不便用户从 Impala 切换到 Spark SQL 查问，咱们定制化反对了局部 SQL 语法，例如 invalidate metadata 进行元数据被动刷新等；在用户的应用中，咱们也进行了一系列参数优化。例如设置 spark.files.overwrite=true不便局部用户反复提交 jar 包以及测试自定义 UDF 函数；设置 spark.sql.autoBroadcastJoinThreshold=-1 敞开主动 Broadcast 以进步稳定性等。

### 遗留问题

在原有架构中，咱们以最简略的形式引入 Kyuubi，为客户提供了另一种查问引擎的可能，然而这样的引入很显著存在其短板：

1. JDBC 链路太长

用户从发动的 JDBC 连贯到最终开始执行 SQL，两头须要别离通过 UniSQL 和 Kyuubi 服务。多个连接池的治理晋升了总体的连贯治理复杂度，在报错时更是不易剖析查找。有赖于 Kyuubi 和 UniSQL 的稳固，在理论应用中暂未发现因多个连接池连贯导致的重大影响，但危险和隐患仍旧存在。

2. SQL Proxy 角色重叠

同为 SQL Proxy，UniSQL 和 Kyuubi 的角色存在重叠，很显著这样冗余的设计并不利于将来架构的倒退。

3. Spark 版本不对立

基于历史起因，现有架构中咱们为用户提供的是 Spark 2.4.6 和 Spark 2.3.1 版本，然而 Kyuubi 是须要搭载 Spark 3.x 版本。引入 Spark SQL 查问，又不能贸然将之前的版本“一刀切”，咱们只好临时独自为 Kyuubi 部署 Spark3.x 版本。这就造成当初集群中存在不对立的 Spark 版本，减少运维的难度。

4. Zookeeper 版本不对立

咱们应用的 CDH 发行版版本为 5.16.2，搭载版本为 3.4.5 的 Zookeeper。Kyuubi 的 HA 同样须要依赖 ZooKeeper，然而通过咱们测试，应用 3.4.5 的 Zookeeper 会呈现删除节点失败的状况，从而导致 Kyuubi Server 主动敞开。通过剖析，这一 BUG 在更高版本中修复结束。最终，咱们只好独自部署 3.6.1 版本的 Zookeeper 供 Kyuubi 应用。

5. Sentry 权限与 Spark 的对接不易

CDH 限定了集群的权限治理服务为 Sentry。家喻户晓，Sentry 的设计架构简略，缺失更细粒度的权限管制，包含视图、行、列等。而且 Spark 没有原生反对 Sentry 的权限管控形式。尽管咱们开发了针对 Sentry 的 Spark Extension 进行权限管控，更细粒度的管控仍旧是咱们很头疼的中央。

随着多点 DMALL 全面 To B 转型，为越来越多的 B 端客户提供批发全渠道解决方案，须要具备在多云部署环境下提供更具性价比、可复用的大数据底层基座和平台工具链。咱们也终于等到了一个契机，彻底甩开历史包袱，设计搭建存算拆散、轻量级、可扩大、云中立大数据集群架构。

侥幸的是，Spark on K8s 的技术趋于成熟，咱们得以全面拥抱云原生。在 K8s 的基座上，咱们合并了大数据计算集群和业务服务集群，甩开 CDH 的版本限度，剥离 Hadoop 生态的强依赖，充分利用对象存储，简化运维和部署，升高用户应用老本。

思考到上一版架构中的局部遗留问题，在降级架构设计中，通过具体的调研、剖析和选型，Kyuubi 也正式替换 UniSQL 作为 SQL Proxy，负责多套查问引擎的对立代理服务。

在降级架构中，咱们充分考虑到之前版本不统一的状况，合并并简化了技术选型，使整体架构更轻量级和可扩大：

应用 Kyuubi 作为对立 SQL Proxy，那么 Kyuubi 就须要满足之前 UniSQL 为代表的代理服务的全副辅助性能，包含审计日志、实时监控、限流、动静参数批改、权限管控等。因而咱们深刻学习了社区的实践经验和最优举荐，依据场景和需要，欠缺了 Kyuubi 的服务。以下为咱们局部实际后果。

SQL 审计

作为对立代理层，须要对所有 SQL 和连贯进行具体的记录，包含用户、SQL、执行工夫、执行后果等。这样的数据并非实时应用，而是用于后续回溯查找问题，或者进行用户操作习惯的统计分析。侥幸的是，Kyuubi 提供了 EventHandler 的形式，收集了十分残缺的信息。在 Kyuubi1.6.1 中，反对应用下列参数将相干记录落在本地日志中：

kyuubi.backend.server.event.json.log.path
kyuubi.backend.server.event.loggers

本地日志并不不便统计分析，咱们须要更灵便的形式。最终咱们抉择仿照原生 JsonLoggingEventHandler 类，继承 EventHandler 自定义将所需日志写入 Kafka 中。后续再通过大数据平台的性能，落地到 Hive 或其余引擎中用于回溯剖析。

实时监控

以后即席查问的应用状况如何、连贯数量、失败起因等，都须要实时监控查看。Kyuubi 提供了十分残缺的指标监控能力，咱们也复用外部运维平台的监控体系，选用了 Prometheus + Grafana 作为实时监控的载体。

相干参数：

kyuubi.metrics.reporters

限流

不同平台和用户的应用形式不同，容易导致连接数暴发，从而影响 Kyuubi 服务的稳定性。因而，限流是必须要纳入思考的。Kyuubi 提供了局部参数进行限流：

kyuubi.server.limit.connections.per.user
kyuubi.server.limit.connections.per.ipaddress

尽管这些参数限度到了单用户的连接数，甚至单用户单 IP 的连接数，然而这些参数是对所有用户对立的，而且 Kyuubi 服务启动后不能动静批改。就咱们的应用教训来看，反对针对不同用户动静设置不同的连贯限度将是一种更灵便的形式。但以后的性能也能根本满足限流管控要求，最终决定针对这个场景咱们不做代码批改，期待社区将来可能提供更精密的管控性能。

参数动静传递

线上环境不足适合的形式进行参数传递，这个遗憾在新的架构中得以补救。通过 Kyuubi 提供的自定义动静参数传递形式，实现 SessionConfAdvisor 类后对接配置核心。参数将在每次启动 Session 的时候动静拉取，也能较好的满足不同用户不同资源分配的场景：

kyuubi.session.conf.advisor

当然，为了缩小对不同环境参数的自定义 jarb 包治理，咱们调整了传入该类的参数，增加了KyuubiConf，这样不同环境部署的 Kyuubi 主动能够传入对应的配置核心门路等信息，自定义的 jar 包也能够环境无关，缩小代码运维的复杂度。

基于 Ranger 的权限校验

甩开了 CDH 对于 Sentry 的强制要求，新的架构选用 Ranger 进行权限管控。因而能够间接应用 Kyuubi 提供的 auth-extension 进行权限校验。不过为了晋升整体的鉴权效率，咱们从新设计了鉴权体系，将鉴权能力集中在新的鉴权服务 RAC 中，防止每一个 Spark 工作都在 Driver 本地落地一份 Ranger 权限策略。在这样的思路下，对于 Kyuubi 提供的 auth-extension 也做了适配性的批改。不过这不影响这个工具的便捷性：

spark.sql.extensions=org.apache.kyuubi.plugin.spark.authz.rangerRangerSparkExtension

只不过，就社区的更新速度来看，auth-extension 更新频率很高，咱们在测试中发现了一些问题，包含视图权限、长期 Function 权限等问题，修复后都还没来及脱敏奉献给社区，社区就在 master 分支修复公布了。瞎话说，这也导致咱们的这个插件更新十分苦楚，咱们须要一直批改，一直适配。这也是咱们越来越拥抱社区的起因，只有社区提供了性能，通过测试后咱们便删除自定义代码，不便将来更新，也是尽可能跟着社区一起成长吧。

主动合并小文件

Kyuubi 提供的主动合并小文件工具是纯开箱即用的，Spark3.3 版本次要依附 rebalance 逻辑。通过咱们的测试，同样的起源表，同样写出 10 个分区，写出文件从近 2000 个放大到 10 个，落地工夫也从 7min 放大到 40s，不仅升高了集群元数据的压力，更无效晋升了整体工作效率。

spark.sql.extensions=org.apache.kyuubi.sql.KyuubiSparkSQLExtension

查问条件限度和扫描分区数限度

即席查问中，绝大部分探索性的查问都不须要大量的数据，后果数据量过大会引起 Driver 的压力过大，从而影响查问的稳定性以及用户的体验。社区最新提供了 HTTP 的异步获取的形式，然而这样的形式波及到上下游改变，还在性能测试中。

依照线上环境的教训，咱们将后果条数限度为 1000 条，针对不同的场景，这个参数也能够动静批改，根本满足返回后果要求。

spark.sql.watchdog.forcedMaxOutputRows

Hive 反对限度查问 SQL 中分区表必须带分区条件的严格模式，Kyuubi 也提供了相似的性能，可反对管制扫描分区数的限度。只是管制扫描分区数对于不同场景的须要不同，咱们还没有正式利用这个性能，须要在实践中动静增加参数应用。

spark.sql.watchdog.maxPartitions

服务日志切分

之前运维教训发现，Kyuubi 服务在 logs 下写入的服务日志始终增量写入，发现的时候单文件日志曾经达到了 90G。新架构下咱们吸取教训，批改了 log4j2.properties，将日志按大小和日期拆分，仅保留最近 7 天的日志，彻底解决这个隐患。

自由选择资源组

在公司的理论应用中，一个 user 是能够在多个 group 中的，依照 Kyuubi 原生的提供的以 group 为引擎隔离 level 的状况下，会默认取该用户的第一个 group。咱们将其批改成了通过 JDBC 参数能够抉择 group 的能力，当然也包含了安全性校验，不容许歹意应用不属于本人的 group。

Volcano 调度器的模板文件

Spark 官网文档中针对 Volcano 的调度器应用参数如下：

spark.kubernetes.scheduler.name=volcano
spark.kubernetes.driver.pod.featureSteps=org.apache.spark.deploy.k8s.features.VolcanoFeatureStep
spark.kubernetes.executor.pod.featureSteps=org.apache.spark.deploy.k8s.features.VolcanoFeatureStep
spark.kubernetes.scheduler.volcano.podGroupTemplateFile=podgroup-template.yaml

其中，最初这个参数 spark.kubernetes.scheduler.volcano.podGroupTemplateFile 须要是本地的 yaml 文件。咱们针对这个批改了提交命令，反对动静生成模板文件进行提交。

咱们也在依据原始架构中用户的应用反馈，继续优化升级版架构的设计，一直调整打造存算拆散、轻量级、可扩大、云中立的大数据集群。

依据应用反馈，咱们下一步将重点关注以下优化点：

1. 单点引擎稳定性不佳，当一个 SQL 将该引擎查挂后，下次再查问会先报错后启动新的引擎。这对于用户的应用不太敌对。通过钻研社区里其余企业的分享，下一步咱们将关注资源池模式和引擎高可用的设计，以晋升用户的应用友好度。

2. 精细化老本管控是降级架构的重中之重，然而原生的 Spark SQL 无奈将资源拆分到 SQL 粒度。这里也是咱们下一步须要重点冲破的内容，为用户提供清晰的老本数据。

3. 大数据基座上除了咱们提供的大数据平台产品外，常有其余业务零碎申请间接应用大数据相干资源，最典型的就是 JDBC 链接。白名单将是咱们须要重点实现的性能。除了用户登录校验外，还能验证起源平台，对应用起源做出限度。

总结来看，咱们从 Kyuubi 正式开源时开始关注，到现在的 1.6.1 版本，越来越欣慰地发现，每次降级都会有新的性能补充和思考。咱们也在降级中逐步缩小自定义代码，应用 Kyuubi 社区提供的新个性。咱们会继续跟踪社区动静，并将实践经验反哺社区，参加推动 Kyuubi 的倒退。

关于大数据:多点DMALL-×-Apache-Kyuubi构建统一SQL-Proxy探索实践

技术背景

行业技术发展趋势

To B 的大数据平台建设趋势

多点 DMALL 的大数据技术倒退

存算一体架构下的即席查问优化

架构背景

存算拆散架构下的对立 SQL Proxy 实际

架构背景

降级架构设计

实际计划

下一步摸索方向