共计 8561 个字符,预计需要花费 22 分钟才能阅读完成。
欢送拜访 OceanBase 官网获取更多信息:https://www.oceanbase.com/
本文来自 OceanBase 社区分享,仅限交换探讨。原作者陈小伟。
我是陈小伟,2019 年退出 OceanBase,目前负责 OceanBase 开发者核心的研发。 OceanBase ODC 这几年从一个数据库图形化客户端工具逐步变成一个面向协同开发场景的管控平台。我也看到这几年数据库行业内配套的开发工具也正好是有一些相似的变动,于是造成一个察看,数据库协同开发曾经成为趋势。
OceanBase ODC 这几年从一个数据库图形化客户端工具逐步变成一个面向协同开发场景的管控平台。咱们也看到这几年数据库行业内配套的开发工具也正好是有一些相似的变动,于是造成一个察看,数据库协同开发曾经成为趋势。
为什么?上面我会从三方面进行叙述。
另外在注释开始前,阐明一下本文我想跟大家聊四个局部:第一局部是数据库行业现状,毕竟作为数据库的开发工具,要解决的还是应用数据库的问题。在第二局部咱们从现状去看目前在数据库应用过程中有哪些挑战,以及说咱们的用户是如何去应答这些挑战的,这里也会蕴含蚂蚁团体是如何应答这些挑战的。第三局部咱们基于对国内市场、海内市场常见工具的察看得出结论。第四个局部会联合数据库行业的变动对趋势做进一步洞察。
数据增长带来一系列变动
能够认为,近些年在数据管理畛域的很多挑战根本原因都能够归结到数据快速增长。
数据快速增长
国内调研机构 IDC 公布的《数据时代 2025》预测,寰球数据总量将从 2018 年的 33ZB 增至 2025 年的 175ZB,增长超过 5 倍,这里结构化数据大略占 10%。信通院的报告显示,中国数据库市场规模近几年放弃 25% 左右的年增长率。
外表上咱们看到的是数据存储规模在疾速减少,数据库市场规模在一直增长。
咱们服务的的用户场景有一些具体的例子:
- 某电商零碎应用 60 个节点的数据库集群,每个节点数据规模 20TB 左右,总数据规模超过 1PB;
- 某金融零碎应用的数据库表数量达到 20W,列数量达到 400W;
- 某金融零碎应用的分区数量达到 100W;
- 某制造业零碎应用的 PL 程序包数量达到 4K 个;
从数据库开发者的视角来看,或者说从数据库开发工具的视角来看,咱们其实看到的是这背地数据库的实例数量,数据库实例内存储的对象的数量,应用数据库的业务零碎的数量,以及说数据库厂商的数量,数据库从业人员数量 都是在一直的增长。那咱们晓得变动这个事件啊,质变逐步逐步的是会产生量变的。数据库这个应用过程当中啊随同着上述的诸多变动,而其实就带来了诸多的一些问题,实际上能够认为, 近些年在数据管理畛域的很多挑战根本原因都能够归结到数据快速增长 。
数据库是稳定性基石
数据快速增长,数据库稳定性问题导致的故障也越来越重大。
这里咱们看几个具体的例子:
1、2016 年,某社交网络应用的一名工程师在批改一条 SQL 查问时犯了一个谬误,导致了该公司的服务在寰球范畴内停机。该谬误导致了数据库中某些表的数据无法访问,最终导致了整个零碎的故障。
2、2017 年,某电商企业曾因一次故障而导致其 S3 服务在美国东部地区停机。预先考察发现,该故障是由一个谬误的删除指令引起的,这个指令原本只想删除一小部分数据,但因为编写了烂 SQL,后果导致了整个数据中心的数据失落。
3、2018 年,某云厂商的云存储服务呈现了一个故障,导致一些客户的数据无法访问。考察后发现,这是因为一个工程师在批改数据库的查问语句时犯了一个谬误,导致了整个服务呈现了故障
这几个例子是 ChatGPT 帮我找的,我其实也问了中国大陆地区的状况,然而 ChatGPT 的回复是也有很多例子,然而不可能通知我具体的公司名称,看来目前还是很爱护中国大陆厂商的体面的,这背地不晓得是否有团队在帮忙做一些工作。实际上这些例子咱们去看,比方 烂 SQL 导致的零碎不稳固,在数据规模不大的时候都不成为问题。然而目前的趋势就是数据规模越来越大,这个时候数据库作为保障信息系统稳定性的重要兜底安装,身上的担子就越来越重了。
更加严格的合规监管
数据快速增长,利用数量也一直增长,集体、企业的敏感数据流通范畴更广了,数据带来的隐衷泄露问题也越来越重大。这几年咱们国家从顶层设计、法律法规、行业标准、企业自主意识方面都对敏感数据爱护越来越器重。
这里列举了一些近些年咱们国家颁布的一系列对于保障信息安全的法律法规和行业标准。
1、《中华人民共和国网络安全法》:2017 年 6 月 1 日失效,包含对个人信息的收集、应用、存储和爱护等方面的规定,对违反规定的行为进行了明确的处罚。
2、《中华人民共和国个人信息保护法》:2021 年 11 月 1 日失效,是中国大陆地区首个专门针对个人信息爱护的法律。该法规明确了个人信息的定义、解决规定、权力爱护和责任查究等方面的内容。
3、《中华人民共和国电子商务法》:2019 年 1 月 1 日失效,包含对于个人信息的收集、应用、治理、平安保障等方面的规定,针对电子商务畛域的个人信息爱护进行了标准。
4、JR/T 0223-2021《金融数据安全数据生命周期平安标准》。
5、WS/T 78802021《国家卫生信息资源应用治理标准》。
在数据安全之中,数据库表演至关重要的角色,保证数据不泄露、失落。数据不失落是由 ACID 来保障的,不泄露则须要业务利用零碎来和管理工具一起保障,咱们理解到很多客户曾经开始器重这个问题,然而正在寻找解决方案。解决方案并不遍及,能够看出目前行业的计划还比拟不成体系,配套的开发工具也不够成熟。
协同角色变动
数据量在快速增长,数据库实例数量在快速增长,行业的从业人员也在快速增长,然而不同角色并不是等比例去增长。在十几年前,一个 Oracle DBA 治理的数据库实例规模在 25 个左右,总数据规模在 5TB 左右。那么到当初的数据规模,你会发现如果依照之前的模式,DBA 数量是远远不够的。此外咱们发现数据分析师角色人数逐步在增长,不同角色在和数据库打交道的时候工作形式是不一样的,比方数据分析师简直不会去用 Java 连数据库做事务提交,更多的是写 SQL、Python 脚本等,而后在团队内也有协同的诉求。从比例去看,DBA 和 总协同人数的占比甚至小于 1/100,在大型互联网公司,这个比例曾经靠近 1/1000。
下表是咱们选取了 OceanBase 服务的用户场景的数据库开发协同过程不同角色的人员规模,出于爱护客户信息的须要,这里的人数是一个近似值而不是精确值。
案例 | DBA 人数 | 利用开发人数 | 数据分析师人数 | 业务零碎用户人数 | DBA/ 总人数比例 |
---|---|---|---|---|---|
500 用户规模电商研发团队 | 3 | 500 | – | – | 1/100 |
20 用户规模金融研发团队 | 1 | 10 | 10 | – | 1/20 |
200 用户规模政务零碎业务方 | 3 | 50 | – | 150 | 1/50 |
300 用户规模运营商数据库项目组 | 3 | 300 | – | 30 | 1/100 |
10000 用户规模大型互联网企业 | 20 | 10000 | 2000 | – | 1/600 |
这里 DBA 人数大型互联网公司的比例是很夸大的,从数量级来说曾经靠近 1/1000,但实际上还有一个统计口径的起因。咱们从招聘统计数据发现 SRE 岗位需要曾经超过 DBA 的岗位需要,其中数据库 SRE 和 DBA 的职责其实相似,DBA 更关注数据库自身,而数据库 SRE 更重视整个零碎的可靠性和性能。从大型互联网企业的状况看,平安稳固保障和业务性能开发的人员占比大略是 1:10 ~ 1:5 左右。
应答挑战各有各招
随同数据增长产生了很多变动,这些变动导致各类危险的呈现或者加剧,咱们察看到的挑战包含以下 3 个类别。
- 零碎稳固:数据量一直增长,对数据库稳定性带来危险,烂 SQL 的代价比以往更大、数据备份复原压力凸显;
- 协同效率:数据库数量一直增长,DBA 工作累赘越来越重,权限配置和 SQL 审核效率亟需晋升;
- 数据安全合规:政府和行业监管对数据安全合规越来越严格,企业自身对隐衷数据保护也越来越器重,短少无效的数据安全防护机制,合规危险之雷必须尽快排查。
解决方案列举
应答危险,不同行业、不同规模的企业也采取了很多方法,能够说是各有各的招,这里举一些典型的实际计划:
- 大型传统企业通常洽购数据库特权拜访零碎,基于特权零碎的权限管控、SQL 审核等性能,数据库特权拜访管理系统通常也叫做数据库堡垒机,会和数据库客户端工具集成来实现权限管控,通常这些性能更多的利用于生产环境而不是开发环境;
- 大型互联网企业通常抉择自研平台,有独立团队负责开发保护数据库管控平台,对数据库变更过程、运行过程进行全流程管控;
- 中小型企业公有云大量采纳开源组装,开源产品选择面比拟多,然而通常繁多开源产品反对的数据库类型比拟繁多性能也不够丰盛,所以须要进行组装;
- 中小型企业私有云间接依靠云服务厂商提供的内置服务,比方阿里云 RDS 的用户间接应用 DMS。
蚂蚁团体实际
蚂蚁团体数据库开发的协同过程整体是面向业务 Developer 视角来看的,因为业务侧才是需求方。下图是 Developer 和 DBA 的合作模型,DBA 负责资源布局和审批、部署运维、监控诊断、故障解决、变更审核,开发者负责资源申请、数据库变更。其中资源申请、权限申请、数据库变更等要害操作须要业务方负责人和业务归口的 DBA 审核确认后才能够执行。
一个典型的过程 Developer 依据业务布局在 ODC 界面申请数据库资源,DBA 看到申请单之后实现审核,此时 ODC 会调用 OCP 生成租户并受权给 Developer。
这里列举蚂蚁团体 DBA 日常工作中应用的几个次要的零碎:
- AntMonitor/OCP: 监控告警;
- HNBC:容量大盘和调整迁徙;
- Tars:SQL 诊断故障自愈;
- DLM:数据生命周期治理、历史库、归档 等;
- ODC:数据库开发平台。
上述零碎大部分是 DBA 应用,Developer 和 DBA 协同的主界面则是 ODC。除了根本的资源申请和变更管控,ODC 还提供了一系列用于保障数据安全稳固的性能,比方危险辨认、高危操作管控、勿删应急等性能。
这里也分享一些蚂蚁团体数据库开发协同相干的具体数字和教训:
- DBA/Developer 占比大概为 1:600,每名 DBA 须要服务 300~400 个利用;
- 90% 以上的变更工单是业务本人审批,须要 DBA 审批的高风险变更占比不到 10%;
- 最常见危险包含 不合理的索引批改、变更影响范畴过大等。
协同开发是演进趋势
咱们调研剖析了一些数据库开发工具,范畴波及国内市场、海内市场,包含云服务和桌面软件,有商业工具也有开源收费的工具,通过这些工具咱们能够发现协同开发逐步成为支流。
国内市场工具产品
这里先列一个清单,是这两年从用户侧理解到有在应用的一些工具。
产品 | 厂商 | 商业模式 | Github Stars | 外围性能 |
---|---|---|---|---|
DMS | 阿里云 | 云服务 | – | 阿里云数据库治理 |
Yearning | 集体 | 开源 | 7.4k | SQL 审核、查问 |
SOAR | 小米 | 开源 | 8.3k | SQL 优化改写 |
See | 集体 | 开源 | 1.4k | SQL 审核、优化 |
SQLE | 爱可生 | 开源 | 0.9k | SQL 审核 |
NineData | 玖章算术 | 云服务 | – | 多云数据管理 |
Bytebase | Bytebase | 开源 | 5.1k | Database CI/CD |
此外咱们也看到这两年有一些新的产品呈现,比方 Bytebase、NineData 等。
其中作为云厂商基础设施的,最典型的是 DMS,DMS 是阿里云的数据库开发平安管控产品,相似的还有华为云的 DAS 等。
MySQL 生态,有不少开源工具产品也被大范畴的应用,典型的如 Yearning、SOAR、See 等。
Yearning 反对自动化 SQL 语句审核,可对 SQL 进行自动检测并执行、DDL/DML 语句执行后主动生成回滚语句、审核 / 查问 审计性能、反对自定义审核工作流、反对细粒度权限调配。
SOAR(SQL Optimizer And Rewriter) 是一个对 SQL 进行优化和改写的自动化工具,由小米人工智能与云平台的数据库团队开发与保护。反对 MySQL 语法族协定的 SQL 优化、反对基于启发式算法的语句优化、反对简单查问的多列索引优化、反对 EXPLAIN 信息丰盛解读、反对 SQL 指纹、反对自定义规定的 SQL 改写。
See 把 Inception、SQLAdvisor、SOAR 整合到一起,看起来是集体我的项目,相比 Yearning 提供更多功能,比方反对 SQL 优化倡议,社区活跃度较低。
SQLE,是爱可生开源的一款面向数据库使用者和管理者的 SQL 审核工具,旨在标准 SQL 审核上线流程,进步 SQL 品质。
NineData 的定位更靠近云厂商的数据管理服务,SaaS 状态。
海内市场工具产品
这里也列一个表格,和国内工具产品不同,海内市场商业工具更加成熟,开源工具更侧重于根底开发性能。
产品 | 厂商 | 反对的数据库 | 反对 SQL 查看 | 反对 CI 流水线 | 反对 Git |
---|---|---|---|---|---|
Toad | Quest | Oracle、+ | 是 | 是 | 是 |
ApexSQL | Quest | SQL Server、+ | 是 | 是 | 是 |
Red-Gate | Red-Gate | SQL Server、Oracle、MySQL、PostgreSQL | 是 | 是 | 是 |
dbForge/Skyvia | Devart | SQL Server、MySQL、Oracle、PostgreSQL、SQLite | 是 | 否 | 否 |
Cloud DBeaver | DBeaver Community | 简直是所有类型 | 否 | 是 | 是 |
EverSQL | EverSQL | 简直是所有支流类型 | 是 | 是 | 否 |
Toad 深受 Oracle 用户青睐,作为一个适配 Oracle 的图形化客户端,Toad 相比 PL/SQL Developer 更加古代,性能也更全面。ApexSQL 性能更加丰盛,特地是对 SQL Server 的反对特地欠缺,Toad 是 Quest 公司的产品,2019 年 Quest 收买了 ApexSQL。Quest 还已经被 DELL 收买起初又独立进去了。
Red-Gate 反对的数据库类型很多多,提供 SQL Server、Oracle、MySQL、PostgreSQL 数据库的治理和开发性能,反对 数据库比拟和同步、备份复原、版本控制等,国内开发者应用比拟多的 Schema migration 工具 Flyway 就是 Red-Gate 开源的产品。
Devart 提供多种数据库管理工具,反对 SQL Server、MySQL、Oracle、PostgreSQL、SQLite 等数据库,提供了查看、编辑、比拟、同步、平安治理等多种性能。Skyvia 也是 Devart 公司的一款云数据集成平台,用于将不同的数据源整合在一起并进行数据转换、同步、备份和复原等操作,Skyvia 反对多种关系型数据库和云数据库。Devart 更专一于数据库管理工具,而 Skyvia 更专一于数据集成和转换平台。
Cloud DBeaver 是 DBeaver 的 WEB 化产品,目前性能还比较简单,然而可看出老牌数据库开源工具我的项目往云服务和云原生转型的口头,最近 DBeaver 还集成了 OpenAI,这是另一个热点了。
EverSQL 提供 SQL 检查和优化性能,SaaS 状态,声称有 10W 个用户,主张通过优化 SQL 帮忙用户省钱。
寰球市场工具产品
这里举两个比拟非凡的产品,Navicat 和 Bytebase,这两个产品堪称各有典型性。
作为广受开发者喜爱的数据库图形化客户端工具,Navicat 给大家的印象更多时候是一个面向集体开发场景的工具。实际上 Navicat 也提供了协同能力,如 Navicat Cloud 和 Navicat Server,能够让用户在不同的设施和团队中共享和合作数据库。用户能够将数据库文件保留到 Navicat Cloud 中,从任何设施上拜访和编辑数据库。Navicat Server 则提供了一些高级性能,如用户治理、权限管制和版本控制等,能够帮忙团队更好地治理和爱护数据库。
Bytebase 是 2021 年国内团队做的数据库协同开发工具,也是开源模式,高阶性能须要免费。基于我的项目进行协同,以数据库对象为管控指标。Bytebase 也提供 SQL 查看、数据库变更流程、Git 集成、备份复原 等性能。
数据库开发工具趋势洞察
作为数据库开发工具,咱们在最开始看到是数据增长带来了一系列变动,并且因而带来了零碎稳固、协同效率和平安合规三个方面的问题。这个是大的趋势,咱们认为数据库开发工具须要去解决这些重要的问题,然而具体到数据库开发工具还须要去做哪些考量,咱们不能脱离数据库行业整体的一个格局和趋势。所以首先咱们来看数据库行业的一些现状以及趋势。
海内市场仍是支流
刚开始看到 DMS 的时候,我其实感觉还挺弱小的,不仅撑持了阿里巴巴、蚂蚁团体大规模业务场景下的数据库协同,也实用于各种阿里云数据库产品的开发和管控,性能十分全面。并且我也去找了国外的竞品,比方 AWS/Azure 等产品并没有相似的 DMS 这样弱小的数据库管控性能。我会产生一个错觉,咱们国家是当先世界的,因为咱们人口多,所以咱们数据多,所以咱们的场景最简单,就相似微信、支付宝这样的笼罩 10 亿以上用户的 App,大部分国家就没有机会做进去,不是能力不够,而是环境条件不具备。那么作为入行不久的数据库行业的从业者,我差点也认为,咱们是当先世界的,不仅仅是在分布式数据库内核畛域,在数据库协同工具层面也是一样。
那么事实果真如此吗?数据库全行业看,2021 年寰球数据库市场规模为 697 亿美元,其中中国数据库市场规模为 47 亿美元(约合 305.8 亿元人民币),占寰球 5.2%;美国开源与商业数据库数量根本持平,我国商用和开源占比别离为 83.4% 和 16.6%;国内 MySQL 生态为主,海内 PostgreSQL 生态更沉闷;国内数据库协同开源我的项目较多,海内开源我的项目以面向集体开发者为主,商业数据工具广泛在往 DevOps 方向倒退。
混合云和多云
混合云和多云的倒退能够说是客户驱动云厂商在做产品状态变动,中大型客户不再违心被一家云厂商绑定。咱们看到越来越多的行业场景在做利用架构、数据库架构的时候,混合云和多云成为趋势。这里混合云指的是私有云和公有云混合应用,此时云厂商一站式解决方案不再可用。
HTAP 和多数据源
如果你有关注这几年声量最响的一些数据库守业公司,能够发现大家都在谈 HTAP,HTAP 是数据库新权势必争之地。为什么这么说,因为 TP 和 AP 都有十分优良的产品在做了,其中有一些还有显著的劣势,那么咱们是抉择做一款更加厉害的 TP 产品好呢还是做一款更加厉害的 AP 产品好呢?每个厂商有本人的答案,对于 OceanBase 而言,咱们置信 TP 和 AP 都能够,首先 TP 是咱们的劣势,而 AP 咱们也做的不差,那就是 HTAP。话虽如此,过后实际上这个过程没有那么简略,有很多问题须要去解决,咱们能够预感在几年之内,TP+AP 混合场景仍将是次要场景。然而无论是 TP+AP 还是 HTAP 都对开发工具提出了新的要求,实际上是一套库还是多套库不是最要害的,最要害的是数据协同的角色,写数据的人和剖析数据的人会比以前更加严密的去协同,这个时候数据库开发工具就须要具备绝对应的一些能力,这里列举了几个我认为可能比拟重要的。
- 数据同步;
- 全局对象检索 Metadata Catalog;
- 多角色协同。
趋势解读
下面咱们讲了市场格局、混合云和多云的趋势、还有 HTAP 或者说 TP + AP 这些新的场景,这里咱们汇总一些具体到数据库开发工具方向,将来会是怎么的趋势,我判断会有 5 个趋势。
一、集体开发 –> 多角色协同开发,这是是咱们明天讲的外围,数据库协同开发会越来越风行。
二、Developer Tool –> Data Operation Platform,这一点是对协同开发的延长,从开发工具到数据协同平台,这里有个概念叫做 DataOps 目前为止还不是那么清晰,Gartner 去年的报告对 DataOps 畛域做了一些解读认为说将来三到五年会造成一个清晰的市场,而后咱们也看到信通院的大数据标准化推动委员会也在牵头做 DataOps 相干的概念探讨。对于这一部分坦白讲我也没有看明确,因为实际上咱们都还没有看到有哪个具体的产品就曾经能够自圆其说是一个 DataOps 畛域的解决什么问题的产品。DevOps 这个概念从进去到大家大抵都理解也是有很漫长的过程,那么直到现在我认为 DevOps 也没有解决新的问题,开发、测试、运维这些问题还是由对应的工具在帮忙解决。
三、TP + AP & HTAP 场景反对,咱们会看到数据库开发工具会兼具 TP 场景和 AP 场景下的性能。
四、集成和被集成,集成次要是账号零碎、审批零碎的集成,被集成则是须要产品可能提供 API 易于二次开发。
五、开源 和 SaaS,这一条是我认为从 2 个方面去看,一个是云,目前哪怕国内市场数据库 60% 以上的份额曾经在云上了,而后大家还不违心被一家云厂商绑定了,所以跨云的 SaaS 是很天然的论断;另一个方面软件业的开源趋势应答寰球市场的劣势,特地是在当初跨地区、跨云的场景下,在数据管理畛域,被寰球更宽泛的客户信赖十分重要,那么你的服务状态肯定是 SaaS,而后你还须要用最低的老本获取更多地区的客户信赖,答案就是开源了。所以我认为将来的趋势,开源和 SaaS 都是必然。
结语
数据的一直增长带来数据库稳定性、数据安全、协同效率等三大挑战,云数据库、混合云、HTAP 等数据库技术和应用趋势又给数据库开发工具提出新的性能要求,数据库开发工具须要提供更加欠缺的性能,帮忙 DBA 减轻负担,从而晋升数据库开发和运行效率、保障数据库稳固运行。
欢送拜访 OceanBase 官网获取更多信息:https://www.oceanbase.com/