关于数据库:华东师范大学副校长周傲英未来中国需要什么样的数据库

38次阅读

共计 4269 个字符,预计需要花费 11 分钟才能阅读完成。

本文为华东师范大学副校长,CCF 会士周傲英传授在第一届 OceanBase 开发者大会带来的分享。欢送拜访 OceanBase 官网获取更多信息:https://www.oceanbase.com/


3 月 25 日,第一届 OceanBase 开发者大会在北京举办,华东师范大学副校长,CCF 会士周傲英传授带来了《将来, 中国须要什么样的数据库?》的分享,从他的视角为大家介绍了数据库技术倒退的趋势、行业的机会,还有咱们所肩负的使命。

以下为演讲实录:

很快乐又来到 OceanBase 的会场,对于中国将来须要什么样的数据库,是我特地想讲的内容,我从 1985 年读研究生的时候开始学习数据库,通过多年的倒退,中国终于迎来了数据库倒退的新机遇。 明天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个次要方面开展。

利用驱动翻新的数据库

简略回顾一下数据库,从更高的维度来看,数据库属于什么样的技术领域?如果数据是电能(power),须要把电送到千家万户,咱们就须要一个赋能平台,要有电力的基础设施,此时,我感觉数据库就属于基础设施外面的一个重要内容,并且它具备先锋性的作用。

开展讲讲赋能平台,“赋能”这个词是互联网的概念,当初曾经被宽泛应用,当初咱们到处讲的“赋能”,英文是 In-power,也就是说它的主语应该是 power,能力赋能其它的。这个角度来说数据库就是赋能平台的概念,最早在 50 多年前曾经呈现,当初曾经到了宽泛的赋能平台,当初就来分享一下,咱们在和 OceanBase 单干中对分布式数据库的了解。

大家都晓得,咱们在学计算机专业的传统专业课程中,有四门课是咱们这个业余独有的——编译、操作系统、数据库、网络,而这四门课程中,只有数据库成为了一个独立的行业。操作系统中的 Windows 不是独自卖 Windows,编译也没有独自卖编译的,网络是卖硬件的、没有卖软件的。从这个角度来说,在数据库产业的倒退过程中,Benchmark 基准评测起到了很好的作用,也标准了这个行业的倒退,让大家绝对偏心、有序地竞争。

▋ 数据库为金融而生

数据库是作为金融技术、金融科技而诞生的,反对的是 Mission-Critical 的利用,Mission-Critical 是人财物的准确治理,为了做到“准确”,咱们须要数据库。最早的数据库从 COBOL (Common Business-Oriented Language,最早的商用编程语言) 里诞生。2000 年,美国因为千年虫(Y2K)的历史遗留问题,把很多在海边独居的老人请回来改代码,那时候的代码还是 COBOL 代码,最早的社保和医保零碎都是用 COBOL 来写的。2020 年疫情刚开始时,因为很多医保、社保在这一年马上要兑付,很多老人再次被请回来改代码。

由此可见,数据库是晚期最经典的金融科技, 是典型的“利用驱动翻新”的案例。

▋ 数据库的倒退历史

20 世纪 50 年代,COBOL 开始呈现;60 年代,COBOL 被定义为数据系统语言,第一个图灵奖获得者艾伦·佩利(Alan J.Perlis)在 CODASYL 会议上提出了 DBTG 报告;80 年代,数据库概念达到高峰,关系型数据库开始呈现,数据库由此开始缓缓被人承受,并由此开始广泛传播,也是在这个过程中,两个图灵奖获得者诞生了。

数据库的发展史是 IT 技术创新史的缩影,数据库的的胜利是利用翻新的胜利。用利用驱动翻新的数据库,在实践和技术的相互促进中,造成了数据库波澜壮阔倒退的几十年。尽管数据库技术在一直倒退中越发胜利,然而任何胜利的案例都有它粗浅的教训: 本来咱们认为一个关系数据库可能解决所有问题,但在大数据和谷歌的“三驾马车”概念进去之前,大家如同都在悲叹数据库如同解决不了数据的问题,直到”One Size Fits a Bunch”(即一类利用能够有一个数据库)概念的提出。

我跟国外学者交换时,他们也很认可我的理念:学数据库的人应该了解数据库的形象,关系数据库就是对语义的形象,事务处理就是对业务逻辑的形象, 分布式数据库就是阳振坤老师讲到管帐、记帐、转帐这些业务逻辑的形象,而 Benchmark 是对性能、对能力、对标准的形象,正是形象成就了 30 多年的数据库产业的倒退。

数据之于数字化转型

从当初的角度来看,咱们怎么来做新的数据库?“Data is power(数据是新能源)”的实践,是 2016 年马云学生在云栖大会上讲的,这个 Power 指的是电,数据给生存带来的粗浅扭转好比一百多年前,电的诞生对生存带来的粗浅扭转一样。

尽管四五十年前曾经有人意识到数据的重要性,但咱们对于数据宽泛意义上的重要性是互联网教会咱们的。从“蒸汽能 (Steam Power)”到“电能 (Electric Power)”再到“数据能 (Data Power)”,每次 Power 的扭转实际上不仅仅是一次产业的微小扭转,它带来还有国内格局的基本扭转。

在蒸汽时代之前的马能(Horse Power)时代,中国占据世界核心位置几百年甚至上千年;到了蒸汽时代,英国占据了世界的核心位置;再到了电能时代,美国就取代了英国。而当初的“数据能”时代给中国带来了机会,也给数据库人带来了机会,咱们在走向世界地方的路上。

数字经济不是产业的数字化、数字的产业化,这是十分外表的景象,实质上它会带来整个经济格局的扭转。 就像电能时代,在把蒸汽时代所有的产业都做一遍的同时,也诞生了一批簇新的产业,比方通信、IT,数据是把人类从工业文化带入数字文化的一个重要能源。

当初咱们讲的数字化转型中,数据对于数字化的作用,就像电对于电气化转型一样。2020 年 4 月上旬,美国微软公布了 Microsoft Power Platform,在这个平台上将微软所有的性能汇合在了一起。

尽管它没有说这个 Power 指什么,但却强调了 Microsoft Power Platform 是助力数字化转型的低代码平台,当初微软的 Word、Excel、PowerPoint 产品里都融入了 GPT4,所以它讲的 Power 就是 Data,如果把 Microsoft 摘掉,Power Platform 就是咱们的电力基础设施,电力、电网、远距离超高压传输电网,始终到家里的配电盘以及变电站外面的变压器,整个这一套就是 Power Platform,它的基本目标要把数据大众化,把开发大众化,把 AI 大众化。

把数据大众化,就是要让大家都能简略地应用数据,要低代码甚至零代码,这是它的根本逻辑,其倒退的最高境界就是 AI 大众化,所以咱们要做数据赋能平台,也就是马老师以前提到的数据中台。

咱们要把数据中台翻译成 Data Power Platform,从而彰显 Data is power。数据库是数据中台的重要性能,基本目标就是咱们要意识 Data,晓得电压、电流、电阻,咱们才钻研这一套电,咱们要有电网、有继电保护,咱们要让数据技术装备化、大众化、平民化、傻瓜化,这是咱们的基本目标。尽管咱们不见得都了解电,然而咱们每个人都会用电,ChatGPT 也是给咱们这样的路线,让大家不须要编代码就能够把计算机和 AI 用起来。“真正的 AI 时代”开始的基本目标就是要让数据大众化,把数据用好。

互联网时代,咱们对数据库提出十分宽泛的要求,数据库和互联网碰撞到一起,带来十分多的冲击——场景和利用范畴不一样了。本来的数据库必须是数据库的用户能力用,当初的数据库是有个手机就能用。

分布式数据库评测基准

随同着云计算趋于成熟,在这样的状况下,咱们将来的分布式数据库在什么中央,OceanBase 是分布式数据库的探索者。我认为分布式数据库要有云上的零碎,方才咱们都提到数据库要扩容,要智能运维, 如果要让数据库好用,要让赋能平台好用,就不能仅仅只是“One size fits a bunch”,而应该是像阳振坤提出的观点“One Suite fits all”。

以前咱们学分布式数据库时,还没有网络和当初的互联网,当初在利用驱动翻新下,有了互联网,进而有了分布式数据库。

▋ Benchmark 对产业造成十分重要

在华东师范大学和 OceanBase 单干过程当中,咱们认为:Benchmark 对产业的造成十分重要,也是在这个过程中,咱们进行了总结。所以咱们始终在钻研基准,以此来疏导分布式数据库的倒退。

基准是利用需要的形象,有了形象能力疏导,咱们都晓得实际出真知,因为真知造成了实践再疏导实际,正是对立的评测基准疏导着分布式数据库的倒退,咱们对传统的 Benchmark 进行了总结,包含 OLTP 和分布式数据库的总结,在 2022 年有一篇文章,全面地阐述了从 Benchmark 的倒退到分布式数据库的倒退。

数据库历史倒退图

咱们必须形象,而形象肯定要从利用当中来,要理解利用的需要。因为利用的需要对分布式数据库的可扩展性、高可用性、可调度性、弹性十分重要,所以为了做到这一点,须要造成量化的规范,咱们心愿用量化的形式来进行评测。

咱们做了分布式数据库评测的套件 Dike,目前曾经颁布在 Github 下面,叫 dbhummer。Dike 是可插拔的、定量的、动静的、不平衡的一种散布的形式,往年也被选中在 SIGMOD 上进行了发表。咱们的套件从不同的角度来进行评测,只有是分布式数据库,大家都能够在这下面做 PK,心愿以此疏导技术往失常的轨道上倒退,不会造成歹意竞争。

▋ HTAP benchmark

咱们对 HTAP 也做了相应钻研,钻研 HTAP 的 Benchmark 要点,比方:混合负载、抗干扰能力、实时数据获取能力,在对立的业务场景上进行剖析,把 TP 和 AP 放在一起,他们之间会存在穿插,同时保障不同的 HTAP 可横向比拟等等,对整个国内 Benchmark 学术界是一个十分重要的热点问题,目前,华东师大和 OceanBase 正在联结研制新的 HTAP 评测基准 Vodka,咱们对已有的零碎和规范做了比拟,心愿很快能出台规范。

华师大可能在数据库钻研外面放弃领先地位,在国内上放弃肯定的影响力,很重要的一点就是咱们从 2014 年开始,始终在钻研 Benchmark。Benchmark 对业界来说就是规范,它对数据库产业的倒退和学术的倒退十分重要。

最初,数据库是实现赋能最早、最经典的胜利案例,咱们要从更高的角度看这个 Power,并搭建 Data power Platform,把技术大众化作为基本的前途,Benchmark 是疏导数据库倒退的正确路径,咱们初步的方向在同样的套件下面实现用户所心愿的所有性能。

谢谢大家,也祝 OceanBase 越来越好!


欢送拜访 OceanBase 官网获取更多信息:https://www.oceanbase.com/

正文完
 0