共计 9172 个字符,预计需要花费 23 分钟才能阅读完成。
导读:
9 月 25 日,2023 飞轮科技产品发布会在线上正式召开,本次产品发布会以 “新内核、新图景” 为主题,飞轮科技 CEO 马如悦全面解析了现代化数据仓库的演进趋势,发表立足于多云之上的 SelectDB Cloud 云服务全面凋谢 , 减少了全新的公有仓库(BYOC)产品模式,同时公布了更加自主可控的 SelectDB Enterprise 企业版。飞轮科技联结创始人兼 COO 连林江介绍了基于 SelectDB 的多个场景解决方案以及生态单干模式,来自同盾科技、趣丸科技以及观测云的多位客户代表为大家分享了基于 SelectDB 的架构降级在实在业务场景中带来的收益,将来飞轮科技将保持以“客户价值”为出发点引领技术革新、以“凋谢共赢”为核心理念携手更多合作伙伴,为行业注入新的生机。以下内容依据飞轮科技 CEO 马如悦演讲内容整顿:收费试用 SelectDB Cloud:https://cn.selectdb.cloud/
间隔上一次产品发布会曾经有近一年的工夫,在这一年的工夫里,咱们对于技术趋势、对于客户服务、对于市场需求都有了更加深度的思考,因此咱们的外围产品 SelectDB 也有了更加长足的提高,因而很快乐能够给大家分享这一年咱们所获得的成绩——这就是咱们明天发布会的主题 “新内核、新图景”,新内核指的是 SelectDB 产品内核将全面采纳最新公布的 Apache Doris 2.0 版本,新图景指的是新的产品定位与产品状态,接下来将为大家一一论述。
数据仓库的现代化趋势
纵观数据仓库的倒退历程,数据仓库的演进经验了三个阶段,第一阶段即在 2010 年之前,以 Teradata、Greenplum、IBM Netezza 为代表的传统数据仓库占据支流。2010 年前后,随着谷歌三驾马车的问世,基于 Hadoop 的大数据平台成为大数据分析的基座,成为第二阶段的事实标准。现在曾经进入第三阶段,现代化的数据仓库产品开始涌现,这些产品兼顾了传统数据仓库的可靠性和性能劣势,以及对大数据的高效解决和实时剖析能力。
总体而言,数据仓库的三大现代化趋势为 实时剖析、湖仓交融以及云原生化。
实时剖析:大规模实时数据上的极速查问
随着工夫的推移,数据的利用价值逐渐降落
过来,大多数企业应用的传统数据仓库 / 大数据平台次要是对历史数据进行批量剖析,如果能对数据进行实时剖析并将剖析后果实时使用到业务之中,毫无疑问将会进一步利用好数据的实时价值并驱动业务提高。因而到现在时代,数据分析逐步从原来的批量解决演变到当初的实时处理。
以业务剖析需要的变动为例,越来越多的企业开始采纳实时报表和实时仪表盘展现数据,取代了传统跑批工作生成的报表。而从批量生成的动态报表到交互式剖析也是另一个典型趋势,过来咱们只须要跑一份动态报表,而现如今当初很多公司外部都有大量的数据分析师,须要与零碎进行疾速互动实时产出剖析后果。此外,数据后果不再仅限于人应用,逐步转向为机器和算法应用的实时决策零碎。这些变动清晰地展示了一个新的趋势:数据从批量解决逐步转向实时剖析已成为必然。
与此同时,过来数据分析系统次要是给外部的经营决策或数据统计来应用,而随着业务的倒退、数字化转型的深入,越来越多的数据分析开始面向业务的内部客户,次要场景包含广告营销报表、物流实时看板、保险客户剖析和交易明细查问等。这些都是数据分析需要由内到外的转换,这种转变也要求咱们的剖析零碎可能适应更多样化的业务场景。
在应答大规模数据的实时剖析时,外围挑战来自两个方面:
- 随着数据实时写入数据库,咱们面临的挑战之一是如何以更低的提早提供数据。咱们须要升高数据传输和解决的提早,以进步数据的新鲜度,并及时处理最新数据的变动。
- 对于下层数据利用而言,如何提供更快的查问、升高查问耗时。咱们须要继续优化查问性能,进步查问的疾速响应度,以满足下层数据利用的性能需求。
SelectDB 实现了大规模实时数据的极速查问
那么 SelectDB 是如何解决实时剖析的难点呢?一方面是 SelectDB 实现了 大规模数据的实时导入与实时存储:
- 秒级的数据实时更新(主键表)与追加:SelectDB 实现了实时数据的秒级可见,在主键表和非主键表上实现了高效的实时更新和追加,相比之下,许多传统数据仓库甚至包含当初宽泛应用的 Snowflake 和 Redshift 往往只能反对批量更新、甚至没有主键表的反对,很难实现高频率的实时更新。
- 数据库 CDC / Kafka 流式数据同步:实时数据仓库的上游数据源往往来自 TP 数据库或 Kafka 音讯队列,为此 SelectDB 内置了数据库的 CDC(变更数据捕捉)性能以及 Kafka 的流式数据同步性能,可能实现秒级的数据同步。
- 毫秒级轻量化表模式批改:不止数据能够实时写入和更新,对于表的模式(Schema)也须要进行疾速变更,以适应当今疾速变动的业务环境。而 SelectDB 可能毫秒级提供 Schema 批改的性能,同时 Schema 批改期间齐全不影响在线业务的运行
- 丰盛的半结构化数据类型反对:随着不同类型的数据一直减少,半结构化数据类型也日益常见。SelectDB 通过引入 Array、Map、JSON 等数据结构,可能高效反对半结构化数据类型的存储和解决需要。
在查问方面,SelectDB 实现了多种查问负载上的极速剖析性能 :
- 高并发点查问:SelectDB 实现了单节点 30000 QPS 的超高并发,真正具备了在一套架构下同时满足高吞吐的 OLAP 剖析和高并发的 Data Serving 在线服务的能力,大大简化了混合工作负载下的技术架构,为用户提供了多场景下的对立剖析体验。
- 大宽表查问:家喻户晓,ClickHouse 在解决大宽表查问方面表现出色,而在 ClickHouse 所发动的数据库性能排行榜 Clickbench 中,2022 年 10 月 SelectDB 首登榜单即斩获榜单第一名的问题,这进一步证实了 SelectDB 在解决大宽表查问方面具备杰出的性能。
- 多表 Join 查问:多表 Join 是 Apache Doris 一以贯之的劣势,同样也是 SelectDB 的外围劣势。在 SSB 和 TPC-H 等多表 Join 的测试中,SelectDB 性能最多能够达到 ClickHouse 的 100 倍、Greenplum 的 5-10 倍;
- 增量库内 ELT:过来 Spark 被宽泛用于批处理的 ETL,而 Flink 则专一于实时 ETL。SelectDB 提供了内置的增量 ETL 性能,绝对于 Spark 具备更高的实时性,并且更易于应用。
湖仓交融:开放性和高性能能够兼得
在大数据畛域,存在泛滥的零碎和组件,它们往往在架构中扮演着不同的角色。而随着时代的提高,架构“减负”已成为企业倒退的重要指标。数据仓库在性能方面表现出色,而数据湖则以其开放性和可能存储各种数据的劣势而受到青眼。然而无论湖或仓在场景上都具备肯定的局限性,因而现在咱们正处于数据湖和数据仓库交融的阶段,要想充分利用数据仓库的高性能和数据湖的开放性,整合这两者变得至关重要。
对于现代化的数据仓库,湖仓对立交融的最重要个性有两个方面:
- Federated Query Engine: 作为一个联邦查问引擎,数据仓库能够拜访各种数据湖上的表格局,包含存储在 HDFS、S3 上的 CSV、Parquet、JSON 等文件,以及查问 Iceberg、Hudi、Delta Lake 等数据湖中的数据。
- Open Data Lake: 数据仓库还能够作为一个凋谢的数据湖,供 Spark、Flink、Trino 等查问引擎进行查问。这种能力在数据湖与数据仓库交融的背景下,成为数据仓库须要展示的一个重要特点。
在以后的数据湖与数据仓库的交融趋势中,大多数通常只关注了前一方面,而数据仓库的格局开放性很少被提及。在当今这个数据类型多样且数据负载宏大的时代,数据仓库可能也将面临数据迷信或其余模式的大规模分布式计算,如果不凋谢数据格式,那么 Spark、Python 之类的工具将无奈应用。
而以上两方面 SelectDB 都进行了大量的技术创新,以实现更加彻底的湖仓交融能力。
作为一个高效的联邦查问引擎,SelectDB 能够通过创立数据目录的形式与内部数据源进行映射,例如能够将 Hive、Elasticsearch、Iceberg 等数据源映射为内部表,SelectDB 将自动更新源数据,并主动进行内部数据的高速缓存。
以 Hive Catalog 为例,在创立 Catalog 实现后将主动进行数据映射,一旦实现即可轻松地切换 Catalog 并间接进行数据查问。同时数据目录的更新操作是按需的,能够指定要查问的库和表进行更新,也能够利用插入语句(INSERT INTO)将查问后果插入到外部表中,这些操作仅需一条命令即可实现,具备更高的易用性。在性能方面,咱们也将 SelectDB 与 Presto/Trino 进行了比照,在雷同集群配置下查问 Hive 上的 ORC 文件,SelectDB 相较 Presto/Trino 具备约 3-5 倍的性能劣势。
如何让 SelectDB 作为凋谢的数据湖格局并被其余计算引擎拜访?这是湖仓交融开放性的重要出现。
在此 SelectDB 提供了基于 Arrow Flight 的 HTTP Data API 高吞吐数据读写接口。家喻户晓,SelectDB 内核 Apache Doris 是兼容 MySQL 协定的,这意味着能够通过 JDBC 进行快速访问。但 MySQL 协定最后是面向报表场景设计的,返回后果数据量个别较少、不善于解决大规模的数据读写操作。
而如果心愿将 SelectDB 作为凋谢的数据湖格局,因而必须具备高度可拓展的读取接口。为此,咱们采纳了 HTTP Data API,能够使客户端以并发形式与多个 BE 进行读取,并提供更高的数据读取能力。无论是应用 Flink Connector、Spark Connector,还是通过 Python SDK(数据迷信、机器学习)都能够快速访问。因而,基于 SelectDB 能够与整个 AI 和数据迷信生态进行良好的整合,这也是将来的重要倒退方向。
云原生化:存算拆散架构下的弹性计算
云原生的外围价值
让咱们来谈谈第三个趋势,云原生。
当谈到云原生时,很多人认为概念比拟宽泛。总体而言,云原生能带来的外围价值如上有四个方面,首先是存算拆散。在云上提供了高质量、低成本的对象存储系统以及 HDFS 等共享存储系统,将大量的历史数据或冷数据迁徙到低成本的存储介质会为企业带来微小的老本节约。其次,存算拆散的个性使得计算变得更加弹性,在业务波峰波谷效应显著的场景中,也能够通过计算资源的弹性调度更好地应答变动。同时,因为进行了存算拆散,计算能够实现更好的负载隔离,齐全能够依据业务需要进行隔离或者进行读写拆散。另外,因为能够共享同一份存储,数据共享变得更加简略。这意味着数据不再须要沉重的迁徙工作,同一份数据能够被多个计算业务共享应用。
让咱们来看看 SelectDB 如何提供云原生能力,简而言之,就是 如何更好地基于云做好存算拆散架构下的弹性计算。
共享存储与本地缓存
在过来的几年里,无关存算拆散和存算一体的争执始终存在。存算一体简略且性能高,因为数据齐全在本地进行读取。计算和存储的解耦只管带来了弹性,但可能会导致性能降落,其外围起因在于,在数据库的查问过程中,谓词须要被下推到存储系统上执行、以过滤掉大量不必要的数据并缩小传输到计算引擎的数据。一旦存储和计算拆散,对象存储系统自身没有计算逻辑,谓词无奈下推到存储层面,因而计算节点将面对大量的数据传输,网络传输老本成为新的瓶颈。
因而即便 MapReduce 和 Spark 之类的批处理零碎都会通过数据近地化调度,尽量将计算推到存储所在的节点上,以缩小数据的传输代价并进步性能,更何况对于查问性能高度敏感的实时剖析零碎。那么,存算拆散架构下存储系统无奈进行谓词下推该如何解决呢?
为了解决以上问题,SelectDB 引入了本地高速缓存(即本地 SSD)用于缓存常常被应用的热数据。当然这里还波及到许多设计细节,包含如何进行缓存、哪些数据应该被缓存、哪些数据能够主动或手动进行干涉,以及在节点伸缩时如何进行缓存的预热和均衡迁徙等。
多计算集群
在存算拆散架构下,SelectDB 提供了多计算集群的能力。多计算集群能够共享一份元数据和数据并且放弃强一致性,因而能够保障多个计算集群之间的负载隔离。这一能力实用于多个利用场景,例如一个集群群用于数据导入、一个集群用于在线查问、一个集群用于离线解决,不同业务部门能够应用不同的计算机群。通过这一能力,计算负载之间能够实现齐全隔离。
计算节点弹性扩缩容
云原生架构强调弹性,可能依据负载需要疾速地进行扩容或缩容。SelectDB 能够反对手动扩缩容,也能够依据特定工夫进行主动扩缩容。此外,它还反对集群的主动启停,当没有负载时会主动进行,有查问负载时会主动启动,这些都会带来了弹性计算的能力,能够节俭计算成本。
总结完以上趋势,咱们也看到 SelectDB 曾经具备了现代化数据仓库的三大能力,因而咱们也将 SelectDB 定义为“面向实时剖析的现代化数据仓库”。
SelectDB Cloud 全面凋谢应用,基于 Apache Doris 2.0 版本打造全新内核
在过来的一年里,咱们邀请了大量客户参加内部测试与共建,长时间的精心打磨也使得咱们的产品具备了更高的成熟度和稳定性。
明天很快乐地宣传,云原生实时 数据仓库 服务 SelectDB Cloud 正式 GA(General Availability),全面凋谢应用! SelectDB Cloud 的全新内核基于 Apache Doris 2.0 版本打造,在实时数据更新、盲测查问性能与自适应能力以及半结构化数据分析场景上都失去了全面的变革。后续任何客户不再须要申请白名单进行测试,您能够自行注册账户并应用咱们的收费试用套餐,来体验咱们的云服务。
在中国市场,咱们曾经上线了阿里云、华为云和腾讯云,并打算在往年四季度上线亚马逊云科技。而在国内市场,咱们曾经上线了 AWS 并打算在往年四季度上线谷歌云(GCP)。因而,您齐全能够依据您的业务需要抉择登陆咱们的国内站点或者中国站点,无论哪个站点都能够应用咱们的收费套餐,尝试咱们最新的性能。
存算拆散架构,带来极致性价比
方才咱们介绍了 SelectDB 在存算拆散方面的能力,包含共享存储、本地高速缓存、多计算集群以及计算节点的弹性扩缩容等,大家也能够通过以上图来理解 SelectDB Cloud 的整体架构:对于企业而言,能够建设多个仓库、每个仓库能够有多个计算集群,这些集群之间共享对象存储,每个集群由多个计算节点组成,计算节点还能够实现弹性扩缩容。这样的架构也为企业带来了极致性价比:
- 存储冷热拆散:对于面向海量数据分析的 AP 零碎而言,不可避免会继续积攒历史数据,而这些历史数据会占据大量存储老本。绝对于价格昂扬的云盘,对象存储的价格低廉且可靠性高,将冷数据卸载至对象存储能够将存储老本升高至原来的五分之一。
- 弹性计算:咱们留神到许多客户计算集群的实在利用率(CPU 利用率)大概只有 20%,这是因为须要满足每天的峰值负载,而大多数工夫内 CPU 利用率绝对较低。通过弹性扩缩容性能,能够依据负载的需要一直地扩大或缩减节点,使 CPU 利用率放弃在 70%-80% 甚至更高,计算效率失去极大幅度晋升、计算成本仅需之前的 25%。
升高运维复杂度,晋升开发效率
除了在升高资源耗费方面进行了大量的设计,SelectDB Cloud 在升高运维复杂度和晋升人员开发效率方面,也提供可视化治理控制台和可视化开发 WebUI 两大工具。
在 SelectDB Cloud 治理控制台,咱们提供了灵便丰盛的配置能力:
- 多云对立治理:在国内站和中国站咱们提供了七朵云,在可视化管制台上能够进行多云的对立治理;
- 云市场买通:与多家云厂商的云市场无缝买通,包含阿里云云市场、华为云云商店、AWS Marketplace 等,能够复用云账号资金、利用云市场扣费渠道进行付费;
- 集群治理:Serverless 化配置,无需配置节点套餐与数量,只需配置所需的 CPU 核数并进行简略配置,即可创立一个集群,最大化缩小节点套餐和集群规模的配置老本;
- 平安连贯:无需过分放心安全性问题,因为 SelectDB Cloud 提供了多种安全性选项,既反对在公网上增加 IP 白名单,也反对私网连贯,最大化保障您的数据安全性。
- 监控与报警:无需额定配置监控和报警零碎,如果已有监控和报警零碎也能够与 SelectDB Cloud 对接。既不便了运维管理人员,同时也为数据库开发人员和业务开发人员提供了便当,更加轻松地创立数据库、查看库表以及治理数据库的权限。
同时咱们还提供了面向开发人员的可视化 Web UI,内置了包含数据查问、数据集成、数据管理和权限治理等在内的多项性能,无需额定装置 Navicat 等工具。
更高的数据安全性,更便捷的云上服务体验
在过来的一年中,咱们发现有很多客户对数据安全和合规性有更高的要求。SaaS 状态下用户只负责数据仓库的应用,数据存储、运维监控、告警处理以及底层资源伸缩等齐全由云厂商负责,对数据合规有高度要求的客户而言存在肯定阻力。为了更好地满足这部分客户的需要,咱们研发了全新 SelectDB Cloud 公有仓库(BYOC,Bring Your Own Cloud)部署状态。
如上图所示,SelectDB Cloud 最后设计时是作为纯 SaaS 的产品状态,这意味着所有的管理控制和数据存储都在 SelectDB Cloud 网络中,咱们为每个客户划分了一个专有的隔离区域,因而也称其为专有仓库,客户端能够通过公网或公有网络的公有链接来连贯到 SelectDB Cloud。
而公有仓库 BYOC 这一解决方案咱们仍将管制面放在 SelectDB Cloud 中,能够享受全托管的服务模式、无需自行保护,并且集群将构建在客户的 VPC 中,这样能够保证数据齐全寄存在客户自有环境中,齐全满足平安合规的要求。与此同时,能够充分利用客户在云服务商的账户折扣,老本上更加可控,此外还能够便捷地与客户 VPC 中的上下游零碎进行买通。
以后 BYOC 还处于预览阶段,正式版将于往年 10 月正式公布,后续停顿欢送大家随时关注。
SelectDB Enterprise 企业版,更加自主可控的公有部署模式
除了构建于多云之上的 SelectDB Cloud 云服务以外,明天咱们公布的另一产品为 SelectDB Enterprise 企业版。
与 Apache Doris 100% 兼容的企业版内核
作为一款公有部署和自治理的系统软件,SelectDB Enterprise 内核基于 Apache Doris 构建,并且与 Apache Doris 100% 兼容。
基于开源软件进行商业化的企业级产品与开源版本有不同的指标,开源的劣势在于通过凋谢合作和疾速迭代来促成技术创新,任何个体或企业都能够为其奉献新性能和个性。而企业版产品更多谋求的是稳定性,呈现问题只须要修复 Bug 即可,而不须要通过频繁降级引入新性能。
因而 SelectDB Enterprise 企业版内核更加重视稳定性,只有在社区性能达到稳固状态后才会将其合入企业版内核,同时引入了严格的品质测试,保障更高的稳定性和更快的破绽修复速度,并且咱们为每个版本提供长达 1-3 年的长周期反对。
SelectDB Enterprise 企业版内核还内置了可视化开发 WebUI,用以晋升数据开发人员的效率。
可视化集群管控工具 SelectDB Enterprise Manager
此外,针对 SelectDB 企业版咱们还提供了可视化集群管控工具。该管控工具不仅能够治理开源的 Apache Doris 内核,还能够治理 SelectDB Enterprise 企业版内核,反对创立、配置、变更、降级、扩缩容等性能,并且能够同时治理多个集群,此外还提供监控、报警、巡检和审计等性能。
目前,SelectDB Enterprise Manager 以后已反对在物理机和虚拟机环境的部署,Kubernetes 和私有云的部署反对正在开发中。换而言之,客户能够应用可视化集群管控工具在任何中央部署 SelectDB Enterprise。如果客户有公有云环境,咱们能够帮助反对与公有云环境对接。
专家级技术支持服务
除了企业版的内核和管控工具,咱们还提供专家技术服务,旨在打消用户在生产环境中应用 Apache Doris 的后顾之忧。作为基于 Apache Doris 的商业化公司,飞轮科技汇集了大量的社区贡献者、Committer 以及 PMC 成员,提供了更加业余的技术支持服务:
- 打消危险:提供例行巡检,及时打消零碎可能的隐患;
- 解决问题:严格的服务 SLA,确保 7*24 小时专属反对,对紧急 Bug 提供天级别的专属修复版本更新;
- 优化零碎:通过对产品培训、业内最佳实际分享,与客户一起优化零碎性能和老本。
自主可控、安全可靠
SelectDB Enterpris 是一个自主可控、安全可靠的解决方案,目前曾经通过了多项安全性认证,包含等保三级以及 6 项 ISO 平安管理体系认证。
同时 SelectDB Enterprise 企业版与泛滥国产零碎生态进行了兼容,取得了十多项零碎兼容认证,包含 飞腾、华为鲲鹏、海光等芯片以及欧拉、麒麟、统信等国产操作系统。对于对自主可控、平安可靠性有要求的企业,能够释怀地应用 SelectDB Enterprise 企业版。
灵便的产品应用和部署状态,飞轮科技期待携手更多客户
感谢您凝听到当初,让咱们一起对明天飞轮科技所公布的多种产品状态进行总结,便于您更清晰地依据需要抉择您适宜的产品。
如果您心愿将运维管理工作齐全交给零碎实现,那举荐抉择全托管的 SelectDB Cloud SaaS 模式,管制面和数据面都在 SelectDB 账户中,便于您最大水平节俭数据仓库的治理工作量。在 SelectDB Cloud 中咱们将出现更彻底地 Serverless 化,无需关注机器配置,实现了更高的弹性和灵活性。
如果您心愿将集群管理工作交给零碎主动实现、对数据合规性要求更高、并且领有本人的云资源账号,举荐应用 SelectDB Cloud BYOC 模式。在这种状态下,管制面依然位于 SelectDB 账户、而数据面则位于您本人的 VPC 中。您只须要进行受权,咱们就能够利用您的账号在 VPC 下进行计算和资源的管控,兼顾平安合规性和云上服务体验。
如果您心愿在物理机、虚拟机、Kubernates 容器平台以及公有云、私有云等任意环境部署集群,或者对平安合规性有着更高要求,能够抉择 SelectDB Enterprise 企业版解决方案。
无论是哪一种计划,期待 SelectDB 都能够为您提供更高效率、更低成本且更省心的抉择。
点击此处即可申请试用 SelectDB,体验其卓越的性能和灵便的利用场景。咱们将为你提供大规模数据极速剖析、湖仓交融、云原生化的应用体验,并将有业余的技术团队与您分割,为您提供具体的试用指南和反对。