2023 年 8 月 17 日,StarRocks 社区举办了云原生湖仓的第二期 Meetup –“StarRocks 存算拆散技术摸索”,本场直播超过万人观看,热闹非凡。来自芒果 TV、阿里云 EMR 团队、火山引擎 EMR 团队以及 StarRocks 社区的技术专家与大家独特探讨了 StarRocks 存算拆散技术及利用实际等话题。
本文总结了技术交流活动的要害内容和视频材料,感激社区每一位小伙伴的反对和参加,将来咱们也会持续与大家分享更多优质的内容!
议题一:解锁数据分析新境界:探秘 StarRocks 存算拆散
讲师:丁凯 StarRocks Active Contributor
2023 年 4 月,StarRocks 3.0 版本正式推出存算拆散架构,新架构极大地加强了零碎的弹性扩大能力,并升高了计算与存储的总成本。能更好的解决存算一体架构面临的老本、弹性、资源隔离等挑战。
StarRocks 存算拆散借助对象存储,可帮忙用户节俭高达 80% 的老本,并可实现秒级的弹性伸缩能力。通过优化的 Cache 技术,可能实现媲美存算一体的性能。另外,在存算拆散构造中,StarRocks 实现全新的数据组织形式,实现了数据多版本能力,为将来实现 Time Travel 等高级能力打下基础。通过 Global Compaction 能够反对将来将 Compaction 任务调度至专用集群,升高对业务的影响。 将来版本还将引入 Multi-warehouse 性能,通过不同的 Warehouse 承载不同的工作负载,实现资源硬隔离,让业务之间互不烦扰。
目前,多家企业用户已胜利将 StarRocks 的存算拆散利用于电商订单剖析、金融业务数据分析和制造业设施数据分析等场景,并获得了稳固的上线成绩。
将来,StarRocks 存算拆散将领有:
- 更弱小的能力:包含晋升冷数据查问性能,FE 存算拆散,主动弹性等一系列重磅性能
- 更简便的应用体验:包含晋升零碎可观测性,升高用户性能调优老本以及更灵便的数据分享能力等
- 更欠缺的生态系统:将与其余引擎(如 Spark 等)实现更严密的集成
议题二:StarRocks 在芒果 TV 的利用实际
讲师:黄立超 芒果 TV 产品技术核心资深大数据研发工程师
在搭建极速对立的流批剖析架构方面,芒果 TV 充分利用了 StarRocks 的卓越性能。通过精美地交融流式和批量数据处理,他们胜利地实现了高效的数据处理和剖析,为用户提供了极速的剖析能力。
目前,芒果 TV 外部数据出现如下特点:
- 数据规模:每日新增数据达 200GB,新增数据条数达 40 亿条,历史数据总量已达 100TB。
- 导入工作:涵盖超过 150 个同步表,10 个 Routine load 工作,4000+ Broker load 工作。
- 查问申请:峰值查问 qps 超过 200,每日查问总数达 10 万次以上,均匀查问耗时仅为 150 毫秒。
在存算一体的架构下,因为存储限度以及本地数据引发的扩缩容提早问题,StarRocks 在芒果 TV 的利用更多地作为数据服务的无益补充。通过充分利用 StarRocks 的个性,胜利解决了一些特定场景下的查问减速和实时剖析等难题。
引入存算拆散架构后,芒果 TV 不仅可能持续享受 StarRocks 弱小的数据分析能力,还能因存算拆散所带来的低成本和极强弹性能力而受害。将来,芒果 TV 将全面引入 StarRocks,并借助存算拆散架构的劣势,保障性能的同时进一步加强弹性,降低成本。
议题三:火山引擎 EMR 在 StarRocks 老本优化上的思考
讲师:杜军令 火山引擎云原生开源大数据平台 EMR 技术专家
火山引擎 EMR 目前曾经集成的 StarRocks 存算一体版本面临多重挑战,包含运维复杂度高、容错性要求严格、灵活性有余以及综合老本较低等问题。
火山引擎 EMR 基于 StarRocks 的存算拆散版本,积极探索与实际,带来了以下显著劣势:
- 更低的老本:通过将数据存储与计算离开,计算与存储能够独立扩大,无效升高了老本
- 更好的弹性:拆散后的计算节点能够独立扩大,从而大幅提高了 StarRocks 数据库的扩展性,使其可能更好地应答一直增长的数据负载。
- 更好的资源隔离:存储与计算拆散使得用户能够一份数据多处计算,用户能够为每种业务调配独立的计算资源,之间互不烦扰,但又共享数据,带来更好的资源隔离性
- 进步可靠性:专用存储个别领有更好的数据可靠性,这也有助于保障数据的安全性和稳定性。
目前,火山引擎 EMR 基于 StarRocks 曾经在游览、在线教育和游戏等多个行业获得了广泛应用,证实了其在不同畛域的可靠性和适用性。
将来,火山引擎 EMR 将持续深入 StarRocks 的云原生化,实现读写拆散,并充分利用 AI 技术进行主动优化,例如依据数据分布智能抉择存储和计算资源。此外,引入数据热度分级存储的概念,将进一步升高冷数据存储老本。
议题四:阿里云 EMR Serverless StarRocks 云原生化摸索与实际
讲师:王晓龙 阿里云技术专家
EMR Serverless StarRocks 是开源 StarRocks 在阿里云上的全托管服务,用户可通过 EMR Serverless StarRocks 灵便地创立和治理 StarRocks 集群以及数据。几个月前 StarRocks 3.0 版本正式推出了存算拆散架构,EMR 团队也想要借力社区,基于 StarRocks 存算拆散架构降级 Serverless 产品架构。
在过来的两个多月的工夫里,EMR 团队同社区的同学严密合作,对存算拆散的整体能力做了认真梳理与测试。通过多轮验证,StarRocks 3.1 存算拆散版本在阿里云环境下无论是稳定性、性能还是性能齐备度,以后存算拆散性能与存算一体曾经根本对齐,例如:
- 存算拆散带 cache 导入性能与存算一体的单正本模式相当,甚至优于存算一体的 3 正本模式;
- 高频导入 PK 模型测试场景中,存算拆散相较于存算一体,性能差距仅为 10-20%;
- 在带 cache 的状况下,存算拆散的查问性能与存算一体版本持平。
综上所述,存算拆散版本已达到了生产应用的程度。接下来,阿里云 EMR Serverless 也将正式推出基于 3.1 版本的存算拆散版实例。
将来,阿里云 EMR 团队将持续与 StarRocks 社区严密单干,一直演进 EMR Serverless StarRocks 的存算拆散架构,继续在性能、稳定性等方向上深度优化,例如 PK 模型、Compaction、冷查等典型场景,同时晋升易用性及可观测性。
🎬更多精彩内容请查看演讲视频:https://www.bilibili.com/video/BV13N41167J8/
📖PPT 材料下载:https://forum.mirrorship.cn/t/topic/8359/2
💬 StarRocks Feature Groups:
StarRocks 社区为了让用户在应用新 features 时能更加得心应手,设立了蕴含 “物化视图”、“湖仓剖析”和“存算拆散” 等的用户群,欢送小伙伴们入群对特定 feature 进行深刻交换!
下方扫码增加小助手,回复关键字 存算拆散 / 湖仓剖析 / 物化视图 即可退出对应的用户小组!👇🏻
本文由 mdnice 多平台公布