为了帮忙大家及时理解中国数据库行业倒退现状、梳理以后数据库市场环境和产品生态等状况,从2022年4月起,墨天轮社区行业剖析钻研团队出品将继续每月为大家推出最新《中国数据库行业剖析报告》,继续流传数据技术常识、致力促成技术创新与行业生态倒退,目前已更至第十一期,并公布了共计122页的2022年度剖析报告。
3月《中国数据库行业剖析报告》已正式公布(点击即可跳转,欢送大家下载查阅),本期报盘点了墨天轮“中国数据库风行度排行”、产品投融资等业内资讯以及相干政策讲话,以此出现以后数据库行业前沿动静与政策引领现状。
本月报告详尽展现SQL技术的起源演进、技术要点与发展趋势,重点解析NL2SQL实现原理、利用场景及挑战趋势。最初,精选几款国内外典型的NL2SQL利用产品与模型作为案例,介绍其工作原理、性能等个性。望为大家摸索NL2SQL如何充当智能接口、实现人与数据库的多元交互带来倡议和启发。
一、数据库排行榜及前沿动静
本章节目录
- 3月中国数据库风行度排名剖析
2023年3月的墨天轮中国数据库风行度排行榜共260个数据库参加排名,榜单前十用一句话能够概括为:榜单前八较上月岿然不动,GBase奋勇向前重返第九。在本月排行榜前三中,OTO组合曾经间断四月持重开局,TOP3顺次是OceanBase、TiDB和openGauss,且前三甲均为开源数据库,这表明开源给数据库产品带来更多的生机,风行度也随之水涨船高。此外,GBase凭借多年积淀反超AnalyticDB以第九名亮相。
本月排行榜十名之后,有一些数据库产品在排名上较上月有了显著的晋升,诸如亚信科技旗下企业级数据库产品AntDB本月排名回升一位至第12名;火山引擎的剖析型数据库产品ByteHouse排名较上月回升55个位次至第27名;Kyligence本月排名较上月晋升47个位次至第32名等。
- 数据库行业倒退动静
为帮忙大家对以后数据库行业最新政策有更深刻的理解,本次报告特梳理了2022年至今习主席对于信创倒退的相干重要讲话,并对3月7日颁布的组建国家数据局相干事宜进行了具体整顿。此外,展现了国内市场要闻资讯,诸如数仓巨头Teradata退出中国市场、中国软件终止对易鲸捷3.89亿增资认购、InfluxDB厂商实现5100万美元E轮融资等,此处因篇幅所限仅截选局部内容,具体内容可查阅报告。
二、SQL技术倒退历程回顾
本章节目录
SQL的历史能够追溯到1970年,IBM公司的Edgar Codd发表了将数据组成表格的利用准则(Codd’s Relational Algebra)。20世纪70年代末,Codd零碎的雏形建成,并且诞生了结构化查询语言SQL,1979年ORACLE公司首先提供商用SQL,IBM公司在DB2和SQL/DS数据库系统中也实现了SQL,从此大家开始宽泛应用SQL与数据库进行交互。
以后,SQL曾经在数据库中失去了宽泛的利用,并获得了重大进展。本章节具体介绍了SQL技术的起源演进、根本概述、执行原理与技术要点,同时也梳理了其所面临的挑战与自动化、智能化与安全性等将来发展趋势。受篇幅所限此处仅展现局部内容。
以后,SQL技术面临的挑战包含众厂商SQL不兼容、无奈辨认简单的句子和推理、当解决大规模数据时SQL查问性能降落、须要反对多种数据类型以及面临着歹意攻打和黑客攻击的威逼等等。为了应答这些挑战同时升高用户的应用老本,进步工作效率,SQL在将来将出现自动化、智能化发展趋势,同时将更加晋升在安全性方面的反对。报告对挑战与将来发展趋势均进行了详细分析,欢送大家查阅报告。
三、NL2SQL交互技术解析
本章节目录
以后,大量信息存储在结构化和半结构化知识库中,对于这类数据的剖析和获取须要通过SQL等编程语言与数据库进行交互操作,但SQL的应用难度限度了非技术用户,给数据分析和应用带来了较高的门槛。人们迫切需要技术或工具实现自然语言与数据库的交互,因而诞生了NL2SQL工作。早在20世纪中后期,人们就曾经开始尝试通过自然语言间接拜访数据库中存储数据,但受技术水平限度发展缓慢。直到2015年AI的倒退和自然语言解决的翻新,人们又从新关注这一畛域。
本章节次要整顿了NL2SQL技术的实现原理、利用场景及挑战、发展趋势等,并对以后支流的NL2SQL训练数据集进行了介绍,这里为大家摘选了局部内容。首先为大家介绍NL2SQL的定义与简述。NL2SQL(Natural Language to SQL)是语义解析畛域的一个子工作,顾名思义是将自然语言转为SQL语句。它能够充当数据库的智能接口,让不相熟数据库的用户可能疾速地找到本人想要的数据,改善用户与数据库的交互方式。
训练数据集层面。目前支流NL-to-SQL数据集次要有 WikiSQL(Salesforce)、 Spider(耶鲁大学&Salesforce)、 SParC(耶鲁大学& alesforce)。截至2023年3月, 在三大公开数据集榜单前三名中,国内模型占比绝大部分席位。以后Text-to-SQL数据集大部分是英文数据集, 代表性中文SQL解析数据集有NL2SQL(追一科技)、Cspider(西湖大学)、DuSQL(百度)。
利用场景与倒退挑战层面。以后应用NL2SQL最广的是BI报表等OLAP零碎,用户能够十分不便的通过文字统计分析数据并生成报表,另外还用于智能搜寻、智能问答、商业智能等畛域。但同时也面临着中文数据集不足、查问用意转换SQL不足背景常识撑持、模型成熟度、私有化部署难等方面的挑战。本章节均进行了具体分析,大家可查阅报告理解。
四、国内外产品利用案例
报告最初一章则选取了几款国内外典型的NL2SQL利用产品与模型作为案例,首先是BI利用,蕴含Power BI Q&A 自然语言发问工具、Tableau的Ask Data自然语言交互工具、Amazon的云反对业务剖析服务Quicksight以及Apache Doris与思必驰推出的自助对话式BI等,别离能够帮忙用户查问数据并从中获取所需的后果,具备智能问答、智能剖析、可视化等性能。
其次,重点展现了OpenAI的Codex模型及其利用解读,另外,官网最新消息示意Codex模型在3月22日将进行反对,OpenAI倡议所有用户从Codex切换到ChatGPT背地的GPT-3.5 Turbo模型,这也表明了OpenAI对通用大模型的信念。
最初,整顿了以后国内几款专用模型的工作原理与技术价值,蕴含蚂蚁团体SeaD、人民大学RESDSQL-3B、上海交大 RASAT、北京大学RAT-SQL-TC与达摩院Graphix-T5。此处仅展现本章节中局部内容,大家能够下载报告获取更多内容。
本文仅对3月《中国数据库行业剖析报告》的局部内容进行了摘录、整顿,更多残缺、具体内容大家能够下载报告全文理解,也欢送各位数据行业同道交换、探讨、建言献策,咱们一起见证、独特助力中国数据库产业的发展壮大!
报告全文下载地址:https://www.modb.pro/doc/100166
往期报告下载
- 2022年4月-2023年3月中国数据库行业剖析报告合辑
- 2022年中国数据库行业年度剖析报告
更多精彩内容尽在墨天轮数据社区,围绕数据人的学习成长提供一站式的全面服务,继续促成数据畛域的常识流传和技术创新。增加社区墨天轮小助手(VX:modb666)可获取更多技术干货。