关于存储:李飞飞演讲实录-云原生数据库20一站式全链路数据管理与服务

20次阅读

共计 4283 个字符,预计需要花费 11 分钟才能阅读完成。

简介: 5 月 29 日阿里云开发者大会上,阿里巴巴团体副总裁、阿里云数据库产品事业部负责人李飞飞演讲实录。

一、浅谈云原生

(一)云原生,是将来应用云的规范形式

我认为云原生是将来应用云的规范形式,云计算资源无处不在、取之不尽、用之不竭,不必关怀云资源在哪里、有多少。就像明天咱们应用自来水一样,没有⼈会费尽心思思考水从哪里来。

(二)阿里云全面引领云原生分布式数据库倒退方向

阿里云在云原生数据库畛域做了多年的实际、尝试与摸索,与开发者一起成长。咱们认为接下来云原生数据库必须关注和倒退的畛域有以下五个:

1)云原生分布式

将云原生和分布式技术深度交融,将 Share Nothing、Share Storage、Share Everything 架构深度交融。

2)智能化

利用 AI、机器学习的技术,让数据库系统可能实现主动驾驶的能力,让开发者能够更好地治理和应用数据库的服务,如主动调参、索引举荐、异样检测等。

3)平安可信

平安可信的能力非常重要,比如说如何确保数据是全链路的、加密的、平安的,在存储、传输、计算过程中都可能提供平安可信的能力。

4)在离线一体化

缩小数据链路,数据从在线解决、到在线剖析、到离线的存储,是否提供一体化的体验,让开发者能够更简略、更便捷地拜访和解决数据。

5)物联网多模

面对 AIOT、物联网、车联网的蓬勃发展,是否打造一个面向开发者与利用的物联网多模的数据库。

以上是咱们认为接下来十分重要的五个方向,也正因为在这些方向的耕耘,阿里云在去年取得了 Gartner 寰球数据库领导者的冲破。

二、阿里云数据库 – 数据管理生命周期

置信对于任何一个开发者而言,在数据层面最关怀的是数据管理生命周期。上面站在开发者的视角,论述数据的全链路生命周期到底是什么。

第一步是数据的生产和集成,在这一步如何更高效地做数据集成、数据荡涤、数据传输、数据备份。当做完这步当前,下一步是数据的实时处理,这外面就是咱们十分相熟的传统关系型数据库、在线交易、OLTP 等。紧接着就是数据分析和发现,用户如何做数据脱敏、数据的血缘关系等。

以上就是数据管理的生命全周期,咱们在下面构建不同的解决方案,和开发者、合作伙伴一起面向利用、行业、客户去打造最终的 Killer APP。

上面就从生命周期的各个阶段来论述一下咱们为开发者提供了哪些工具,开发者基于这些工具能够做哪些事件。

(一)数据生产与集成

数据生产与集成是数据的第一生命周期,就像新生儿一样,数据来到这个世界必须要经验采集,而后是存储和解决。

如上图所示,在这个过程中阿里云提供了 DTS(Data Transmission Service),反对 17 种以上不同的数据源,能够做实时增量或者全量的同步,让利用十分简洁地实现数据从多元异构的数据源到多元异构的指标端实时的数据同步。

DBS 能够实现跨云的备份、云上云下数据备份的对立,让数据在多云多端之间无缝流动。

DMS(Database Management Service) 能够帮忙用户做工作编排、数据分析、血统剖析等一系列事件。

以上形成了阿里云在数据生产和集成的根底能力。

(二)数据实时处理

数据生产和集成之后是数据的实时处理。

作为开发者,咱们最关怀的就是确保在任何状况下,在线交易场景的利用永远在线、数据永远不失落,在这里咱们提供了不同的抉择。

1)云数据库 RDS:提供企业级数据库自治能力

首先,阿里云提供本人的云数据库 RDS。

每个云厂商都有 RDS,阿里云的 RDS 和其余 RDS 有什么不同呢?

倒退到云原生数据库 2.0,阿里云 RDS 最大的特点就是提供企业级的数据库自治能力 (Autonomous Database Service)。

首先,通过 Kubernetes 构建一个云原生的管控平台,所有的管控能力都进行了微服务化和容器化部署,这样能够屏蔽底层多元异构的资源,为开发者提供一个云原生的开发环境和部署环境。

在这个下面,咱们利用 AI 和 Machine Learning 的技术,构建了主动驾驶数据库平台。为开发者提供了许多能力,比方主动压测,咱们能够主动生成压测数据,让它的工作负载与在实在环境简直一样,这样开发者能够更好地调测在线零碎。另外,咱们提供了索引举荐、参数调优等一系列自动化自治服务能力。

此外,困扰开发者的许多问题,比方在线利用运行速度变得很慢,线程池被打满等,通过 DAS(Database Autonomy Service) 能够帮忙开发者更快更好地发现与解决。

2)云原生关系型数据库 PolarDB

除了阿里云 RDS 之外,云原生数据库 2.0 最外围的能力之一就是云原生关系型数据库 PolarDB。

为了让开发者可能更好地在 PolarDB 上开发利用,咱们确保 PolarDB 100% 兼容 MySQL、100% 兼容 PostgreSQL、高度兼容 Oracle 语法,让开发者实现轻松上云。

很多企业和开发者有向寰球部署的需要,比方在线教育、游戏,须要咱们的利用可能就近服务用户,阿里云推出了寰球部署的能力,称为 Global Database。这示意 PolarDB 能够实现跨 AZ(Available Zone) 的部署,实现 RPO 等于 0,非常低的 RTO。通过跨 AZ 的能力数据实时同步,能够实现用户在开发者的利用上就近拜访。

为了让开发者更好地体验到阿里云的产品,咱们推出了 I / O 带宽收费、性价比更高的 PolarDB 实例,价格仅为其余云厂商云原生数据库的 30%—40%。

除此之外,咱们还进行了性能测试。

咱们用开发者十分相熟的 SysBench,连贯事务处理、读写混合测试,测试了 CPU 密集型和 I / O 密集型。

如上图所示,咱们比照了 PolarDB 和 CPU 密集型、I/ O 密集型两个云原生数据库在 SysBench 上的规范性能测试,能够看到 Polar DB 在两种不同工作负载的状况下都展现出十分优异的性能。

3)云原生分布式数据库 PolarDB-X

开发者常常面临海量数据高并发、超高并发的场景。针对这种场景,阿里云推出了 PolarDB-X,即 PolarDB 的分布式版本,也就是将云原生架构存储计算拆散,下面再构建一层架构来反对一体化分布式数据库。

PolarDB- X 反对海量高并发、全局二级索引、HTAP 简单查问、分布式事务、在线弹性扩大。

以上图的全局二级索引为例,它反对 ACID,这样让开发者能够更关注业务利用的开发,而不须要关注分库、分表这样简单的逻辑。

咱们用 X -Paxos 来反对两个数据正本、一个日志正本,而且咱们的三正本能够做到跨 AZ 部署、反对同城跨机房的 RPO 等于 0。

(三)数据分析与发现

实时数据库解决之后,当积攒了大量的交易数据,如何在数据外面发现信息?这就来到了数据分析和发现阶段。

云原生数据仓库 AnalyticDB(简称 ADB)是云原生架构,计算存储拆散,计算资源按需弹性,绝对传统形式,老本能够降落 3 倍。

咱们在这种云原生的架构上实现了冷热数据分层,1TB 能够低至 114 元 / 月,一份存储多种计算是将来数据分析畛域倒退的大趋势,用一个存储多种计算引擎能够让咱们适应工作负载,到底是离线的 ETL、还是在线的交互式剖析,整体老本能够大幅度降落。

利用前文的这些技术,能够帮忙开发者实现在离线一体化的开发和利用,反对离线 ETL 以及在线的交互式剖析,实质上就是将 MTB 架构和 BSP 模型完满地联合在一起。

咱们也高度兼容生态,并且咱们很快会推出 Spark 兼容版,将这些开源的生态在咱们的云原生数仓 ADB 外面完满联合,实现基于负载的智能化调度和混合利用的反对。

(四)数据开发和治理

最初是数据开发和治理。

咱们面向数据库开发者提供一站式的在线数据平台,阿里云的开发者社区反对了几十万数据库开发者利用 DMS 的能力, 拜访和治理多元异构的数据库资源。

DMS 反对开发者们所有耳熟能详的数据库,从阿里云的 PolarDB、PolarDB-X、RDS、AnalyticDB 等,再到 MySQL、Oracle、SQL Server 等。

接入当前,它提供数据资产、数据库设计、数据库开发、数据集成、数据服务等一站式的能力,帮忙开发者实现数据化运维、容灾 / 多活、T+1/ 实时 / 归档、数据集中处理、BI 报表、多维分析等能力。

三、阿里云数据库开源公布

(一)阿里云数据库产品开源门路

阿里云作为寰球云原生数据库的领导者,将成为第一家发表外围的云原生数据库技术进行开源的云厂商,邀请开发者一起共建云原生数据库 2.0。

作为寰球数据库领导者,咱们将云原生数据库 PolarDB for PG Paxos 高可用集群版开源,目前在 Github 上开源公开拜访。

在 9 月份,咱们会推出基于 HLC 混合时钟的高扩大分布式版本,在明年会推出 Share Nothing 的 Sharding 和插件化版本,在 MySQL 生态很早就开源了 RDS AliSQL,现在做一个重磅降级,RDS 会推出 RDS GalaxySQL,之后会推出 Paxos 高可用性版,而后是云原生的分布式版。

(二)阿里云数据库开源打算:打造云原生分布式数据库生态

咱们看一下具体做哪些事件?

上图中是咱们为 MySQL 和 PG 生态两大社区筹备开源的组件。

数据库正在减速云化,云原生以及分布式技术正在重塑数据库整个技术栈。阿里云在本身互联网业务和云数据库服务有丰盛的实践经验,在高可用、分布式、云原生、存计拆散有技术积攒。这些技术以组件和零碎的形式凋谢进去,与开源社区一起共建云原生分布式数据库生态。所有开源的组件都采纳对开发者最敌对的协定,遵循 Apache Version 2.0 协定,欢送开发者和咱们一起共建寰球当先、有中国特色的云原生数据库 2.0 社区。

比方通过开源的 PolarDB for PG 版本,利用 X -Paxos 协定,帮忙开发者疾速实现 RPO 等于 0,兼容及高可用数据库。摈弃传统的主备模式,走向三节点的模式,所有开源的组件都是即插即拔即用,让开发者疾速享受到 PolarDB 的能力,并且基于现有的 PG、MySQL 生态继续倒退,欢送大家退出云原生数据库 2.0 的开源社区。

源码凋谢地址:https://github.com/alibaba/PolarDB-for-PostgreSQL

【相干浏览】

阿里云开源 PolarDB 数据库,与社区共建云原生分布式数据库生态

云原生数据库 2.0:一站式全链路数据管理与服务

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0