在大数据时代的明天,数据分析技术未然成为数字经济时代最外围生产力!回顾往昔,能够归结为三个典型阶段:
第一阶段 :传统数据仓库时代
应用场景:企业外部 BI
技术实现:基于传统数据库共享存储架构和专门面向剖析型的无共享 MPP 架构
第二阶段 :湖仓并行时代
应用场景:企业外部报表与剖析,更大规模的 ETL 数据工程、行为剖析和画像等新型数据利用剖析,百万级内部客户高并发需要
技术实现:离线数据湖,在线实时数仓
第三阶段 :“云数仓为核心”的古代数据栈时代
需要场景:一个零碎复杂度低、性价比高、简略易用且能够应答更多元、宽泛的场景和产业的数据分析平台计划
技术实现:云原生化、实时对立的新一代云数仓产品
作为古代数据栈时代的主心骨,数仓在企业数字化转型的这场战斗中无疑背负着极为重要的使命。现在的时代又对数仓提出了怎么的要求?云计算的浪潮下,数仓的三个技术发展趋势愈发清晰:
- 实时化:千或万级高并发、毫秒级低提早、高吞吐、走向分钟级的数据产出效率成为了数据分析技术的关键词。
- 统一化:湖仓一体、在离线一体、流批一体等智能湖仓的理念减速了平台和接口的对立;计算模型的交融、多模数据类型反对进一步提高存储计算的效力,升高运维门槛。
- 云原生化:数据仓库联合云的软硬件翻新、资源弹性、安全可靠、随需而用等云原生特色,从根本上带给用户极致性价比和极简应用体验。
将数字化转型新时代中的需要作为产品的规范,SelectDB 趁势而为,应运而生。基于存算拆散的云原生架构研发,SelectDB Cloud 构建于多云之上,并针对简单、多样的企业级数据分析需要打造五大外围特色劣势:极致性价比 / 交融对立 / 简略易用 / 企业级个性 / 开源凋谢 SelectDB Cloud 产品劣势解读 >>> 极致性价比
读懂 SelectDB Cloud 的极致性价比
极致性价比背地的“黑科技”
- 查问引擎的优化:基于 MPP 查问引擎进行优化,反对节点间和节点内并行执行;反对多张大表的分布式 shuffle join;;同时还反对相似 runtime filter 等动静执行技术,通过动静调整执行达到最优的执行效率。通过 colocate join 和 bucket shuffle join 优化可能缩小数据传输,晋升 join 性能。
- 高效的数据处理:采纳了列式内存布局,向量化计算框架。大幅缩小了虚函数调用,进步了 cache 命中率,高效利用了 simd 指令,从而使得算子的性能晋升数十倍。多种存储模式:采纳了列式存储,使得编码、压缩、解决都十分高效;反对多种索引构造来做数据剪枝,减速数据扫描。反对物化视图,无效减速查问时的效率;反对多种存储模型。
- 智能优化策略:采纳了 RBO 和 CBO 联合的智能优化器。行将公布的短门路优化,还可能反对数万 QPS 的并发点查。云原生架构:SelectDB Cloud 云原生架构实现了本地磁盘缓存和对象存储的分层分级存储引擎 ——这样不同层级的存储老本带来综合老本大幅降落;同时在云原生架构实现了计算节点的拆散和弹性,得以令计算资源的随需弹性扩缩容。>>> 交融对立
读懂 SelectDB Cloud 的交融对立
交融对立背地的“黑科技”
- 混合负载:SelectDB Cloud 反对传统 OLAP 场景(实时报表和 Adhoc 剖析等),也反对批量数据处理(ETL/ELT)。开发者在将大批量的离线 ETL 变成实时、小批量和增量的 ETL 后,SelectDB Cloud 可能利用全内存的框架和向量化的引擎来更加高效的解决数据,能够达到几十倍的性能晋升。开发者通过简略、规范的 SQL 语句就能够实现数据加工,SelectDB Cloud 也反对 Java UDF 来实现更加个性化的数据处理逻辑。同时,在云上 SelectDB Cloud 也很便捷的应用独自的 ETL 集群来做隔离。结构化 /
- 半结构化反对:SelectDB Cloud 高效原生反对半结构化数据的高效存储和检索剖析,在升高了零碎复杂性的同时显著晋升了老本和性能的收益。SelectDB Cloud 具备灵便高效存储的能力,反对 Array, JSONB, Map 等复合数据类型和动静 schema 表。同时,SelectDB Cloud 具备丰盛索引构造减速检索剖析,也可能实现高效剖析和解决。
- 湖仓一体:SelectDB Cloud 还能对曾经建设的离线数仓和数据湖进行联邦查问,在实现高性能的同时,不须要迁徙历史数据。SelectDB Cloud 反对便捷的元数据买通,免去了手动创立表面的繁琐,同时可能对热元数据主动 cache,并且可能反对手动和主动刷新;同时,SelectDB Cloud 也反对多种表面的联邦查问 (Hive, Iceberg, Hudi 关系型数据库,ES,以及各种反对 HMS 协定的云数仓)。
简略易用
SelectDB Cloud 具备简略易用的个性,它可能大幅度降低企业技术团队的学习、应用门槛和开发周期,更加高效的开释数据生产力,助力业务倒退和更迭。目前,SelectDB Cloud 是畛域中少有反对 MySQL 连贯协定的数仓。在现在的事务处理畛域,MySQL 曾经被各大公司宽泛采纳,基于此,用户能够应用 MySQL Client、JDBC 和 DBeaver 来连贯应用 SelectDB Cloud,这对于用户来说节俭了很多学习老本,更易于上手,兼容性也更好;另外,SelecDB Cloud 还通过可视化控制台为开发者和管理者提供了许多惯例、高频的性能来反对不同角色对大量的日常治理工作;除此之外,SelectDB Cloud 还能够提供丰盛易用的数据导入形式:包含 HTTP Load、Stage Load 和帮忙周边大数据生态工具进行连贯导入的 Connector 插件,这些性能为企业在数据分析全链路过程带来简略易用的体验。
开源凋谢
在开源凋谢方面,基于 Apache Doris 开发的 SelectDB Cloud 实现了多方面的迭代和优化,但也同样传承了开源技术的凋谢、中立基因。SelectDB 与 Doris 高度兼容,用户能够在 SelectDB Cloud 和 Doris 之间自在、灵便迁徙;同时,作为国内首家实现多云中立的云数仓产品,用户能够在国内外支流云上取得一致性的 SelectDB Cloud 应用体验。在胜利牵手阿里云、华为云、腾讯云和 AWS 后,SelectDB 仍在踊跃的扩充本人的单干生态,不久的未来,用户也将可能通过 Google 和微软的云端享受到 SelectDB 的极致数据分析服务。
企业个性
SelectDB Cloud 是一款面向企业研发,开箱即用的生产级数据仓库,在企业生产中,对于数据安全的保障非常重要,针对此,SelectDB Cloud 提供一系列相应的企业个性反对,从而帮忙企业平安、稳固地进行简单的企业数据管理。SelectDB Cloud 四大解决方案通过落地赋能企业数字化转型,SelectDB 立足于理论的业务场景视角,将本身产品劣势与多种数据分析方向和场景进行交融,正式推出了通过实际验证的四大解决方案,如图所示。
面向企业外部的现代化数据平台
- 现状剖析:
以后企业广泛应用典型的湖仓并行架构计划,既有面向批量的多个组件、也有面向交互剖析的多个组件,甚至不止一个湖一个仓。这样的数据平台解决方案存在的问题次要集中在复杂性高、性价比低、实时性差。 - 技术优化:
采纳了 SelectDB Cloud 的现代化数据平台计划将对立数据仓库和数据湖到繁多平台,提供面向企业外部的 BI 报表和 Adhoc 剖析,以及批量和增量 ETL 数据处理。它的特点就是以 SelectDB 云数仓为核心:提供三种数据集成形式(ETL、轻量 ELT、联邦查问)将数据接入到 SelectDB;存算拆散架构升高资源老本、多计算集群设计实现计算隔离、多云统一保障开放性;繁多数仓提供多种剖析负载的反对。 - 计划收益:
复杂性升高,老本和门槛降落:治理老本降落,数据平台收敛为了一个以云数仓为核心的架构。并且云数仓是一个云服务,不须要客户本人运行和保护;使用者应用的门槛升高了,不须要学习多套零碎。平台的经济性晋升,提供了极高的性价比:综合资源老本升高,数据只存一份,存算拆散、冷热分层、弹性扩缩容发挥优势;数据链路大大缩短,采纳新型 ELT 数据集成和 SelectDB 世界领先的性能为平台实时性带来质的晋升。多云可用,与开源零碎的数据自在迁徙,成为一个凋谢的零碎,客户不必放心本人被锁定。
面向内部客户的报表与剖析
- 现状剖析:
面向客户的报表和剖析场景很多,比方面向站长的站点统计报表和剖析、面向广告主的广告投放报表和剖析平台等,这类场景的利用特点是高并发,低延时;数据流延时低;数据不丢不重;反对数据更新。 - 技术优化:
高并发方面,采取分区、分桶裁剪,sort key 裁剪,和点查的短门路优化;在查问速度上,采纳物化视图,预聚合模型,和向量化的 MPP 查问引擎;另外,反对了 Flink CDC 和高频次小批量导入;反对事务性两阶段导入;基于云的对象存储做数据长久化;同时,应用 repalce if not null,可能以小批量的模式便捷更新数据。 - 计划收益:
全面晋升:SelectDB Cloud 针对报表场景可能达到上万并发;可能做到毫秒级别响应;针对数据流延时低的诉求,数据可见性最快能够做到秒级别;数据牢靠,不丢不重。基于 SelectDB Cloud 的计划,某用户的广告业务场景,实现了上万 QPS 的高并发,查问延时 99 分位 200ms 以内,每天新增数十亿条记录。
用户画像与行为剖析
- 现状剖析:
行为剖析场景有三个特点,别离是表构造继续疾速变更、剖析简单、查问提早要求低。而用户画像的场景有两个特点,标签实时更新和疾速人群圈选。 - 技术优化:
针对上游数据源,将数据同步到 SelectDB Cloud 做实时行为剖析,冷数据同步到数据湖中做低成本数据存储及开掘;在存储层,行为数据抽取出标签数据分层存储;在查问层则提供了丰盛的剖析函数,创立正交位图高性能物化视图,实现准确去重和留存剖析等;在数据管理层则实现了保护高性能表构造变更及宽表局部列更新操作的反对。计划收益:能够做到行为剖析在 3000 亿沉闷数据的场景下,均匀提早小于 10s,P95 提早在 20s 左右。用户画像在千亿数据下实现 10 个标签秒级人群预估和圈选,100 个标签 10 秒级。
日志存储与剖析
- 现状剖析:
日志存储与剖析场景特点就是数据写入吞吐量大,还要实时可见;数据量大,还要成本低;交互式查问速度快,且反对半结构化、非结构化文本检索、按工夫排序。 - 技术优化:
在写入优化方面,采纳了客户端实时小批量写入,服务端内存攒批写入和时序 compaction 机制;从存储老本动手,设计了列式存储、倒排索引、高压缩比算法以及存算拆散、冷热分层;同时,检索优化则采纳了倒排索引疾速精准定位到匹配的行,工夫排序的时序存储模型和动静剪枝的 TopN 算法。 - 计划收益:
相比传统的计划,SelectDB Cloud 可能达到 4.2 倍写入性能晋升,仅占用 1 / 5 的磁盘空间,便达到 2.3 倍的查问性能晋升。
** 携手共赴星辰大海“SelectDB Partners”
单干打算公布 **
在云原生时代势不可挡的明天,SelectDB 心愿可能像“星星之火”一样,通过和生态内的搭档携手并进,落地笼罩至更多企业、行业的业务场景,为企业的数字化转型之路提供“能够燎原”的势能。基于此,SelectDB 在发布会上正式公布了“SelectDB Partners” 合作伙伴打算,对解决方案合作伙伴、服务合作伙伴和销售合作伙伴这三大类搭档进行招募,以此共谋翻新成长之路。秉持着“凋谢共赢”的单干理念,SelectDB 也为合作伙伴制订了一系列针对技术单干、市场单干、销售单干的相干权利,心愿通过业余的培训与反对、技术计划共创、品牌流动与产品推广反对、商机共享等笼罩市场开辟多链路的助力,帮忙每一位 SelectDB Partner 更好地倒退。尽管仅成立一年,但 SelectDB 在迅速倒退之下,曾经失去畛域内各行各业优良搭档的认可,并且与他们开启了策略单干,目前,SelectDB 已陆续开始与合作伙伴们共建数据中台、BI 利用等平台级解决方案,并发展了互联网、金融、政府、制作等行业级的解决方案构建。
为数而生,因云而新,将来一路同行!SelectDB 产品发布会泛滥精彩纷呈的内容,请返回 SelectDB 视频号查看残缺发布会!