关于数据库:阳振坤分布式技术引领关系数据库发展

30次阅读

共计 1985 个字符,预计需要花费 5 分钟才能阅读完成。

近日,HI COOL 寰球创业者峰会在北京召开,OceanBase 创始人兼首席科学家阳振坤受邀缺席了本次大会,并发表了 <u>《阳振坤:分布式技术引领关系数据库倒退》</u> 的主题演讲,分享了寰球支流关系型数据库倒退的几个重要阶段以及对分布式数据库的畅想。

 

以下为分享实录:

从 1969 年 IBM 研究员 E.F.Codd 博士提出了“关系模型”以来,整个数据库行业开始进入关系数据库的时代。通过了几十年的倒退,关系数据库成为了整个社会的要害信息基础设施,明天,咱们所有的生存,不论是交通、通信、商业,还是其余,根本都建设在关系数据库的根底之上。

 

支流关系数据库

 

半个世纪以来,寰球诞生了一些平凡的关系数据库:1970 年代呈现的 Oracle,1980 年代呈现的 DB2、SQL Server,这是三个目前最风行、最优良的商业数据库;1990 年代诞生了目前最风行的两个开源的数据库 PostgreSQL 和 MySQL。从此以后,寰球再也没有诞生新的支流关系数据库。

 

 

关系数据库之所以成为明天信息社会的基础设施,是因为它提供的记账、转账和算账等的性能以及这些性能的事务属性, 即事务的 ACID:原子性、一致性、隔离性和持久性。这些能力为商业、政务、互联网等等提供了很大的便当。

 

 

与此同时,信息社会基础设施的角色,也对关系数据库的零碎稳定性、数据正确性、服务可靠性等提出了很高的要求,再加上关系数据库自身的复杂性和技术挑战,因而研制一个可在生产中应用的关系数据库门槛十分高、难度十分大。

 

集中式关系数据库面临的挑战

 

明天最支流的关系数据库都是集中式的,只管撑持了当今整个信息社会,但集中式数据库面临了很大的挑战。

第一,难以扩大。 集中式实质上其实是个单机零碎,它依赖繁多的共享存储。

第二,老本昂扬。 因为整个零碎的可靠性、稳定性以及性能都建设在单个硬件的可靠性、稳定性和性能的根底上,这使得老本居高不下。

互联网时代的到来让这个问题变得更加重大,在互联网时代之前,比方说商场或银行或酒店柜台,不论有多少顾客,这些柜台的数量是稳固、确定的,此时整个零碎只有依照最大的操作员数量来进行设计、测试,零碎就能很好的工作,不论有多少人排队,零碎的最大流量都不会超过设计流量。

到了互联网时代,每个人、每部手机都成了一个操作员,整个业务的流量,增长了 100 倍、1000 倍甚至是更多,并且业务流量在短时间内还可能迅速减少或升高,此时如果还依照最大的流量来搭建零碎,可能要搭建一个几亿个操作员的流量的零碎,甚至更大。

不止如此, 访问量、并发量的激增还带来了数据量的微小增长,企业须要对这些数据进行剖析解决(即算账),但这个数据量曾经远远超出了单个集中式数据库的存储容量。 对于交易解决,人们还能够对业务做拆分,把业务拆小,让每个拆小后的业务能够运行在一个单机数据库上,就像人员和轻型配备能够离开用多架小飞机进行空运一样。然而,当人们要对这些海量数据进行剖析解决的时候,就必须有一个容量足够大的数据库,就像一些重型配备,比方坦克、大炮等,无奈拆小后用小飞机空运,而必须有大飞机才行。对于数据库,这种大飞机就是分布式数据库。

 

分布式数据库是大势所趋

 

过来的几十年来,学术界讲“One Size doesn’t Fit all”,一个尺寸不能适宜所有人。然而,从企业家的角度来看是另外一回事,因为企业冀望一个零碎能够解决其业务问题,这样能让企业把更多精力放到业务上。

兴许有人说,并不是什么场合都须要像“大飞机”这样的大数据库,分布式数据库只有大企业或者至多大中型企业才须要。 事实上,大、中型企业必定用失去分布式数据库,然而小微企业仍然可能从分布式数据库两头受害。

 

 

以上图这个企业的业务曲线为例,很多工夫业务量都在一个比拟低的水位上,只有某些时段在一个较高的水位上,这也是简直所有企业的业务特色。

明天的服务器的计算和存储能力越来越强悍,依据这个企业的最高业务流量来配置一台高性能的数据库服务器,的确就能够撑持这个企业的业务,然而这有很大的节约。因为在大多数时候,服务器的解决能力没有失去充分发挥。采纳分布式数据库,能够有另外一个思路,平时它的数据库是一台配置比拟低的虚拟机服务器,如果业务流量减少了, 利用分布式的能力随时减少虚构服务器,业务流量更大时,虚构服务器数量还能够再进一步减少,当业务顶峰过了当前,这些虚构服务器就能够逐渐减掉,这样大幅度降低了企业老本。

 

 

关系数据库的研制十分困难,分布式关系数据库的研制更加艰难,分布式关系数据库是否可行?这儿咱们一起看两个事实中的例子。 一个是 Google 的 Spanner,可能很多人理解它是从分布式存储间接跨到分布式数据库的;另一个是中国的 OceanBase 数据库,是从半分布式数据库到高可用数据库再到分布式关系数据库,尽管两者的技术门路不一样,然而后果是必由之路。

我的汇报就到这里,谢谢大家。

正文完
 0