关于后端:StarRocks-存算分离技术探索活动回顾

2023 年 8 月 17 日，StarRocks 社区举办了云原生湖仓的第二期 Meetup –“StarRocks 存算拆散技术摸索”，本场直播超过万人观看，热闹非凡。来自芒果 TV、阿里云 EMR 团队、火山引擎 EMR 团队以及 StarRocks 社区的技术专家与大家独特探讨了 StarRocks 存算拆散技术及利用实际等话题。

本文总结了技术交流活动的要害内容和视频材料，感激社区每一位小伙伴的反对和参加，将来咱们也会持续与大家分享更多优质的内容！

讲师：丁凯 StarRocks Active Contributor

2023 年 4 月，StarRocks 3.0 版本正式推出存算拆散架构，新架构极大地加强了零碎的弹性扩大能力，并升高了计算与存储的总成本。能更好的解决存算一体架构面临的老本、弹性、资源隔离等挑战。

StarRocks 存算拆散借助对象存储，可帮忙用户节俭高达 80% 的老本，并可实现秒级的弹性伸缩能力。通过优化的 Cache 技术，可能实现媲美存算一体的性能。另外，在存算拆散构造中，StarRocks 实现全新的数据组织形式，实现了数据多版本能力，为将来实现 Time Travel 等高级能力打下基础。通过 Global Compaction 能够反对将来将 Compaction 任务调度至专用集群，升高对业务的影响。将来版本还将引入 Multi-warehouse 性能，通过不同的 Warehouse 承载不同的工作负载，实现资源硬隔离，让业务之间互不烦扰。

目前，多家企业用户已胜利将 StarRocks 的存算拆散利用于电商订单剖析、金融业务数据分析和制造业设施数据分析等场景，并获得了稳固的上线成绩。

将来，StarRocks 存算拆散将领有：

更弱小的能力：包含晋升冷数据查问性能，FE 存算拆散，主动弹性等一系列重磅性能
更简便的应用体验：包含晋升零碎可观测性，升高用户性能调优老本以及更灵便的数据分享能力等
更欠缺的生态系统：将与其余引擎（如 Spark 等）实现更严密的集成

讲师：黄立超芒果 TV 产品技术核心资深大数据研发工程师

在搭建极速对立的流批剖析架构方面，芒果 TV 充分利用了 StarRocks 的卓越性能。通过精美地交融流式和批量数据处理，他们胜利地实现了高效的数据处理和剖析，为用户提供了极速的剖析能力。

目前，芒果 TV 外部数据出现如下特点：

数据规模：每日新增数据达 200GB，新增数据条数达 40 亿条，历史数据总量已达 100TB。
导入工作：涵盖超过 150 个同步表，10 个 Routine load 工作，4000+ Broker load 工作。
查问申请：峰值查问 qps 超过 200，每日查问总数达 10 万次以上，均匀查问耗时仅为 150 毫秒。

在存算一体的架构下，因为存储限度以及本地数据引发的扩缩容提早问题，StarRocks 在芒果 TV 的利用更多地作为数据服务的无益补充。通过充分利用 StarRocks 的个性，胜利解决了一些特定场景下的查问减速和实时剖析等难题。

引入存算拆散架构后，芒果 TV 不仅可能持续享受 StarRocks 弱小的数据分析能力，还能因存算拆散所带来的低成本和极强弹性能力而受害。将来，芒果 TV 将全面引入 StarRocks，并借助存算拆散架构的劣势，保障性能的同时进一步加强弹性，降低成本。

讲师：杜军令火山引擎云原生开源大数据平台 EMR 技术专家

火山引擎 EMR 目前曾经集成的 StarRocks 存算一体版本面临多重挑战，包含运维复杂度高、容错性要求严格、灵活性有余以及综合老本较低等问题。

火山引擎 EMR 基于 StarRocks 的存算拆散版本，积极探索与实际，带来了以下显著劣势：

更低的老本：通过将数据存储与计算离开，计算与存储能够独立扩大，无效升高了老本
更好的弹性：拆散后的计算节点能够独立扩大，从而大幅提高了 StarRocks 数据库的扩展性，使其可能更好地应答一直增长的数据负载。
更好的资源隔离：存储与计算拆散使得用户能够一份数据多处计算，用户能够为每种业务调配独立的计算资源，之间互不烦扰，但又共享数据，带来更好的资源隔离性
进步可靠性：专用存储个别领有更好的数据可靠性，这也有助于保障数据的安全性和稳定性。

目前，火山引擎 EMR 基于 StarRocks 曾经在游览、在线教育和游戏等多个行业获得了广泛应用，证实了其在不同畛域的可靠性和适用性。

将来，火山引擎 EMR 将持续深入 StarRocks 的云原生化，实现读写拆散，并充分利用 AI 技术进行主动优化，例如依据数据分布智能抉择存储和计算资源。此外，引入数据热度分级存储的概念，将进一步升高冷数据存储老本。

讲师：王晓龙阿里云技术专家

EMR Serverless StarRocks 是开源 StarRocks 在阿里云上的全托管服务，用户可通过 EMR Serverless StarRocks 灵便地创立和治理 StarRocks 集群以及数据。几个月前 StarRocks 3.0 版本正式推出了存算拆散架构，EMR 团队也想要借力社区，基于 StarRocks 存算拆散架构降级 Serverless 产品架构。

在过来的两个多月的工夫里，EMR 团队同社区的同学严密合作，对存算拆散的整体能力做了认真梳理与测试。通过多轮验证，StarRocks 3.1 存算拆散版本在阿里云环境下无论是稳定性、性能还是性能齐备度，以后存算拆散性能与存算一体曾经根本对齐，例如：

存算拆散带 cache 导入性能与存算一体的单正本模式相当，甚至优于存算一体的 3 正本模式；
高频导入 PK 模型测试场景中，存算拆散相较于存算一体，性能差距仅为 10-20%；
在带 cache 的状况下，存算拆散的查问性能与存算一体版本持平。

综上所述，存算拆散版本已达到了生产应用的程度。接下来，阿里云 EMR Serverless 也将正式推出基于 3.1 版本的存算拆散版实例。

将来，阿里云 EMR 团队将持续与 StarRocks 社区严密单干，一直演进 EMR Serverless StarRocks 的存算拆散架构，继续在性能、稳定性等方向上深度优化，例如 PK 模型、Compaction、冷查等典型场景，同时晋升易用性及可观测性。

🎬更多精彩内容请查看演讲视频：https://www.bilibili.com/video/BV13N41167J8/

📖PPT 材料下载：https://forum.mirrorship.cn/t/topic/8359/2

💬 StarRocks Feature Groups：

StarRocks 社区为了让用户在应用新 features 时能更加得心应手，设立了蕴含 “物化视图”、“湖仓剖析”和“存算拆散” 等的用户群，欢送小伙伴们入群对特定 feature 进行深刻交换！

下方扫码增加小助手，回复关键字 存算拆散 / 湖仓剖析 / 物化视图 即可退出对应的用户小组！👇🏻

本文由 mdnice 多平台公布

关于后端:StarRocks-存算分离技术探索活动回顾

议题一：解锁数据分析新境界：探秘 StarRocks 存算拆散

议题二：StarRocks 在芒果 TV 的利用实际

议题三：火山引擎 EMR 在 StarRocks 老本优化上的思考

议题四：阿里云 EMR Serverless StarRocks 云原生化摸索与实际