共计 4215 个字符,预计需要花费 11 分钟才能阅读完成。
腾讯云数据库始终致力于推动数据库根底钻研翻新、数据库产学研单干生态建设,助力国产数据库学术人才培养和技术创新生态建设倒退。
为让更多数据库从业者理解数据库畛域的最新研究成果,相熟更多行业前沿发展趋势,更好地摸索前沿技术翻新,8 月 16 日下午,腾讯云数据库邀请到华南师范大学二级传授 汤庸、长江学者 毛睿、中国人民大学传授 卢卫和腾讯云数据库专家工程师 智雅楠带来主题为“数据库技术的倒退与利用”的前沿学术分享直播。本期为大家带来各位专家的分享精髓,都是硬核干货!
一、数据管理与数据利用
汤庸,学者网创始人、华南师范大学二级传授
数据库的目标在于数据管理与利用。数据管理上,对于结构化、可形式化的数据,采纳数据库技术进行治理;对于半结构化、非结构化的数据,使用大数据技术进行治理。数据利用上可分为数据库利用、数据智能。以查问为例,数据库利用会返回对立的后果,绝对比拟精确;数据智能则相似于数据检索,会返回较多相干的后果,不肯定精确。在数据管理与利用的过程中,则须要用到数据库技术与数据迷信。
数据管理方面,汤庸传授以 TempDB 时态数据管理软件为例,分享时态数据库的相干内容。TempDB 在逻辑上应用双时态数据模型,应用 ATSQL2 语言,反对电子政务、电子商务、决策反对等信息处理系统中的时态利用;同时,TempDB 在技术上基于关系数据库管理系统 MySQL 平台、采纳 JAVA 语言进行底层开发,具备较强的可移植性以及部署不便。
在具体概念上,工夫数据与时态信息是两个不同的概念,工夫数据是指“工夫作为一种数据类型”,包含工夫点、区间、跨度等,可用于 Allen 工夫关系演算、工夫粒度转化;时态信息是指“工夫做为信息维度”,在陈说信息的同时加上工夫属性。时态数据库的相干概念还包含:三种工夫数据、四种时态数据库以及两个非凡变元。
在实践层面上,时态数据库实践是对关系型数据库实践的拓展,又可分为历史关系数据模型 HRDM、双时态概念模型 BCDM 两种实践。在具体实现上,时态数据库也须要反对 DDL、DML、查询语言,以及须要反对时态束缚。
TempDB 是基于时态查询语言 ATSQL2 开发的时态信息处理前端构件,实质上是中间件。TempDB 可作为独立平台来应用,也能够通过集成类库包,将时态信息处理需要不便地集成到利用中,从而进步软件的生产率和可重用性。汤庸传授从语言标准、体系架构、实例数据库、运行界面(交互方式)、利用模型等方面具体介绍了 TempDB 的无关状况。
联合最新的行业钻研趋势,汤庸传授还对时序数据库和时态数据库进行了辨别,并分享了目前时态数据管理与利用的难点。
数据利用方面,汤庸传授以 TSCHOLAT 大数据智能利用为例进行分享。
以后,很多学者在进行科研教学时都须要进行社会化合作,这种合作往往须要基于内容(集体学术背景、学术信息、教学资源等),要求 可信、实时、无效。
基于上述痛点,TSCHOLAT 即学者网应运而生。学者网是次要面向学者的社交网络、科研教学合作平台,指标是为学者们提供自主可控空间以及可信交流平台。汤庸传授从学术空间、学术圈感知与可信交换、学术自媒体、群组合作平台、教学合作空间、学术门户、大数据智能剖析等方面全面介绍了学者网的性能。
绝对常见社交网络而言,学者网有更丰盛、更聚焦的数据外延,是独特的科研教育大数据生产者,次要是以学者为核心的图数据,外围迷信问题是学者关联剖析。依据其数据特点,学者网在时态数据利用上进行开发,发展学者影响力剖析、学者时态关系与学者时态常识图谱钻研等方面的工作。
二、大数据泛构:应答多样性挑战的通用数据处理模式
毛睿,长江学者,深圳大学特聘传授,博士、博导
在毛睿老师看来,迷信在于通用。基于这种理念,他提出了 大数据泛构技术——一种可应答多样性挑战的通用模式,并建设了基于度量空间的通用大数据处理实践框架。
过来包含 Hadoop、Spark 等,更多是擅长于某种特定场景,性能繁多。数据库的胜利为大数据的倒退带来了启发,即要走通用倒退路线。目前,通用的大数据管理剖析零碎曾经成为行业痛点。
以后大数据处理次要围绕 volume 和 velocity 这两个挑战 ,对于 variety 挑战的钻研绝对较少。通用的数据处理技术因其宽泛的适用性和绝对低的均匀开发保护老本,始终受到商业数据库管理系统的青眼。 大数据泛构(big data genhierarchy)把数据抽象成度量空间中的点,仅利用数据间间隔的三角不等性进行数据的治理和开掘等工作,具备高度的通用性,无望成为下一代通用数据处理系统的重要组件。
专用和通用零碎往往交替倒退。一个技术诞生之初更多是专用零碎,随着场景、技术的积攒更加丰盛,将逐步走向通用。要把一个技术做成通用的根本技术手段,可从多样化着手:
- 将 variety 数据抽象成对立的数据类型;
- 将 variety 间隔形象成对立的间隔函数;
- 在以上根底上,针对对立的类型、间隔的特点进行大数据管理剖析。
同时联合度量空间实践,即可取得一个覆盖面更广、更通用的数据处理模式。
三、分布式数据库的多级一致性及构建技术
卢卫,中国人民大学传授、博士生导师
金融行业尤为重视“准”,即数据的一致性,数据不能出错。但不同业务场景对一致性或者“准”的了解、要求并非都一样。这将会对数据库一致性技术创新带来简单的挑战。卢卫老师以三类场景为例:
在证券交易中,其一致性蕴含两个层面:即 交易必须正确、交易必须严格有序,卖出和买入股票必须实时可见,这是要求最高的。
第二类场景中,比方转账,首先要求保障精确,其次交易并非严格有序,即我转给他人的金额,他人不肯定能实时可见(提早到账)。这对一致性的性能要求有所弱化。
第三类场景中,常见的比方 12306,首先当然交易必须精确,一张票不能卖两次;然而基于数据库关系模型,多个用户能够同时拜访一个数据。这就可能会呈现 12306 中显示有票但无奈购买的状况。
由此可见,数据库一致性实践并不能具体的形容每一种用户对于一致性的要求。
过来集中式时代,零碎架构依赖于对立的调度,因而可串行化模型也能达到严格可串行化的精确成果。然而,当来到去中心化的分布式数据库时代,如果依然依赖集中式调度,性能和可扩展性都无奈满足利用的需要。过来集中式的 IBM 小型机、EMC 存储、Oracle 数据库(IOE)在解决小规模的数据场景时是适合的。然而这种架构模式的问题在于,当数据量比拟大或者业务场景比拟密集时,集中式就会成为整个零碎的累赘。
严格串行化尽管能保证数据的准确性,但也带来了较多的问题。以 Google Spanner 为例,Google Spanner 反对严格可串行化,然而严格可串行化要求有一个原子钟,或者有一个核心授时器(实质上是因为协调器和协调器之间短少一个协调),因此导致性能较低,难以被广泛应用于理论业务场景中。
针对以上分布式一致性的窘境,中国人民大学 - 腾讯协同翻新实验室钻研提出“多级一致性”的事务处理理念,并利用于腾讯分布式数据库 TDSQL 产品中。该技术蕴含严格可串行化、程序可串行化、可串行化三大隔离级别,可针对不同利用场景要求,极大地均衡性能与一致性要求,满足金融及各类企业场景的分布式事务处理需要。
在这一套去中心化的事务处理机制、多种隔离级别的一致性对立建模技术根底上,中国人民大学 - 腾讯协同翻新实验室同时钻研提出双向动静工夫戳调整算法,使得 TDSQL 可在一套零碎内实现高性能多级一致性反对。
分布式环境下提出多级一致性模型,确保 TDSQL 无任何数据异样,且具备高性能的可扩展性,解决了分布式数据库在金融级场景利用的最核心技术挑战,使得国产分布式数据库实现在金融外围零碎场景的可用。基于此,TDSQL 是以后国内惟一进入国有大型银行外围零碎正式投产的国产分布式数据库。
四、云环境下如何构建一个弹性伸缩、高性价比的分布式数据库存储引擎
智雅楠,腾讯云数据库专家工程师
分布式数据库 TDSQL 的指标是云环境下如何构建一个弹性伸缩、高性价比的分布式数据库存储引擎,即把数据库打造成一种服务,用户随取随用,把简略留给用户,把简单留给本人。
一方面,用户能够像应用单机数据库一样应用分布式数据库,同时业务体验又能具备有限扩大的计算能力、有限扩大的存储能力、伸缩过程用户无感知、100% 兼容 MySQL、高牢靠高可用、反对存储过程 trigger、不必需指定 shared key 等个性。另一方面,还须要做到高性价比,用户须要多少资源就用多少资源。
为了实现这个指标,TDSQL 抉择了扩展性不受限制的云原生 Share Nothing 架构。在构建过程中,对多维度的数据粒度划分、数据平滑迁徙技术、集群的负载平衡 三方面进行技术创新冲破,包含实现智能数据天文感知、代价估算数据分布策略、基于 AI 的无服务弹性可伸缩技术等,可感知系统故障法则,建设高精度的数据库资源容量预测模型,进行智能资源调度、麻利弹性伸缩、数据布局优化、要害参数主动调优、分布式共识协定同步与通信优化,造成高可用、高效率的弹性计算能力,做到低成本反对大规模突发性业务。
作为国内当先的数据库厂商,腾讯云数据库始终致力于推动数据库根底钻研翻新、数据库产学研单干生态建设,通过校企联结实验室共建,面向青年学者的 CCF- 腾讯犀牛鸟基金与腾讯犀牛鸟科研专项等,与高校、科研机构构建起“产学研”一体的长期单干,将技术研究成果转换为利用落地,校企联结继续输入前沿技术翻新与示范性利用。
腾讯云数据库负责人潘安群学生与腾讯高校单干总监 刘婷婷女士为现场分享嘉宾颁发荣誉证书
腾讯云数据库诞生自腾讯外部业务金融级场景,历经海量场景十余年研发打磨,具备金融级分布式、云原生、实时剖析、企业级通用等能力,目前已服务金融、政务、工业制作等行业超过 50 万家客户。腾讯企业级分布式数据库 TDSQL 是国内首家利用于互联网分布式银行外围零碎、银行传统外围零碎,也是首家帮忙国内银行外围零碎从 IBM 大机下移至国产分布式架构的国产分布式数据库。目前,腾讯 TDSQL 曾经帮忙 20 余家金融机构实现外围替换,国内 TOP 10 银行机构服务占比超过 6 家。TDSQL 也很好了反对了第七次全国人口普查,以及腾讯会议、衰弱码等国计民生的数字化利用。
将来,腾讯云数据库将持续加大对数据库产学研单干生态的投入,通过与腾讯高校单干、计算机与数据库畛域学术组织等内外部合作伙伴单干,继续开掘更无效的产学单干模式,增强产学交换互动,助力国产数据库人才培养和技术创新生态建设。