乐趣区

关于数据库:2023年3月中国数据库行业分析报告正式发布带你了解NL2SQL技术原理

为了帮忙大家及时理解中国数据库行业倒退现状、梳理以后数据库市场环境和产品生态等状况,从 2022 年 4 月起,墨天轮社区行业剖析钻研团队出品将继续每月为大家推出最新《中国数据库行业剖析报告 》, 继续流传数据技术常识、致力促成技术创新与行业生态倒退,目前已更至第十一期,并公布了共计 122 页的 2022 年度剖析报告。

3 月《中国数据库行业剖析报告》已正式公布(点击即可跳转,欢送大家下载查阅),本期报盘点了墨天轮“中国数据库风行度排行”、产品投融资等业内资讯以及相干政策讲话,以此出现以后数据库行业前沿动静与政策引领现状。

本月报告详尽展现 SQL 技术的起源演进、技术要点与发展趋势,重点解析 NL2SQL 实现原理、利用场景及挑战趋势。最初,精选几款国内外 典型的 NL2SQL 利用产品与模型 作为案例,介绍其工作原理、性能等个性。望为大家摸索 NL2SQL 如何充当智能接口、实现人与数据库的多元交互带来倡议和启发。

一、数据库排行榜及前沿动静

本章节目录👆

  • 3 月中国数据库风行度排名剖析

2023 年 3 月的墨天轮中国数据库风行度排行榜共 260 个数据库参加排名,榜单前十用一句话能够概括为:榜单前八较上月岿然不动,GBase 奋勇向前重返第九。在本月排行榜前三中,OTO 组合曾经间断四月持重开局,TOP3 顺次是 OceanBaseTiDBopenGauss,且前三甲均为开源数据库,这表明开源给数据库产品带来更多的生机,风行度也随之水涨船高。此外,GBase 凭借多年积淀反超 AnalyticDB 以第九名亮相。

本月排行榜十名之后,有一些数据库产品在排名上较上月有了显著的晋升,诸如亚信科技旗下企业级数据库产品 AntDB 本月排名回升一位至第 12 名;火山引擎的剖析型数据库产品 ByteHouse 排名较上月回升 55 个位次至第 27 名;Kyligence 本月排名较上月晋升 47 个位次至第 32 名等。

  • 数据库行业倒退动静

为帮忙大家对以后数据库行业最新政策有更深刻的理解,本次报告特梳理了 2022 年至今习主席对于信创倒退的相干重要讲话,并对 3 月 7 日颁布的组建国家数据局相干事宜进行了具体整顿。此外,展现了国内市场要闻资讯,诸如数仓巨头 Teradata 退出中国市场、中国软件终止对易鲸捷 3.89 亿增资认购、InfluxDB 厂商实现 5100 万美元 E 轮融资等,此处因篇幅所限仅截选局部内容,具体内容可查阅报告。

二、SQL 技术倒退历程回顾

本章节目录👆

SQL 的历史能够追溯到 1970 年,IBM 公司的 Edgar Codd 发表了将数据组成表格的利用准则(Codd’s Relational Algebra)。20 世纪 70 年代末,Codd 零碎的雏形建成,并且诞生了结构化查询语言 SQL,1979 年 ORACLE 公司首先提供商用 SQL,IBM 公司在 DB2 和 SQL/DS 数据库系统中也实现了 SQL,从此大家开始宽泛应用 SQL 与数据库进行交互。

以后,SQL 曾经在数据库中失去了宽泛的利用,并获得了重大进展。本章节具体介绍了 SQL 技术的起源演进、根本概述、执行原理与技术要点,同时也梳理了 其所面临的挑战与自动化、智能化与安全性等将来发展趋势。受篇幅所限此处仅展现局部内容。

以后,SQL 技术面临的挑战包含众厂商 SQL 不兼容、无奈辨认简单的句子和推理、当解决大规模数据时 SQL 查问性能降落、须要反对多种数据类型以及面临着歹意攻打和黑客攻击的威逼等等。为了应答这些挑战同时升高用户的应用老本,进步工作效率,SQL 在将来将出现 自动化、智能化 发展趋势,同时将更加晋升在 安全性 方面的反对。报告对挑战与将来发展趋势均进行了详细分析,欢送大家查阅报告。

三、NL2SQL 交互技术解析

本章节目录👆

以后,大量信息存储在结构化和半结构化知识库中,对于这类数据的剖析和获取须要通过 SQL 等编程语言与数据库进行交互操作,但 SQL 的应用难度限度了非技术用户,给数据分析和应用带来了较高的门槛。人们迫切需要技术或工具实现自然语言与数据库的交互,因而诞生了 NL2SQL 工作。早在 20 世纪中后期,人们就曾经开始尝试通过自然语言间接拜访数据库中存储数据,但受技术水平限度发展缓慢。直到 2015 年 AI 的倒退和自然语言解决的翻新,人们又从新关注这一畛域。

本章节次要整顿了 NL2SQL 技术的实现原理、利用场景及挑战、发展趋势等,并对以后 支流的 NL2SQL 训练数据集 进行了介绍,这里为大家摘选了局部内容。首先为大家介绍NL2SQL 的定义与简述。NL2SQL(Natural Language to SQL)是语义解析畛域的一个子工作,顾名思义是将自然语言转为 SQL 语句。它能够充当数据库的智能接口,让不相熟数据库的用户可能疾速地找到本人想要的数据,改善用户与数据库的交互方式。

训练数据集层面。目前支流 NL-to-SQL 数据集次要有 WikiSQL(Salesforce)、Spider(耶鲁大学 &Salesforce)、SParC(耶鲁大学 & alesforce)。截至 2023 年 3 月,在三大公开数据集榜单前三名中,国内模型占比绝大部分席位。以后 Text-to-SQL 数据集大部分是英文数据集,代表性中文 SQL 解析数据集有 NL2SQL(追一科技)、Cspider(西湖大学)、DuSQL(百度)。

利用场景与倒退挑战层面。以后应用 NL2SQL 最广的是 BI 报表等 OLAP 零碎,用户能够十分不便的通过文字统计分析数据并生成报表,另外还用于智能搜寻、智能问答、商业智能等畛域。但同时也面临着中文数据集不足、查问用意转换 SQL 不足背景常识撑持、模型成熟度、私有化部署难等方面的挑战。本章节均进行了具体分析,大家可查阅报告理解。

四、国内外产品利用案例

报告最初一章则选取了 几款国内外典型的 NL2SQL 利用产品与模型作为案例,首先是BI 利用,蕴含 Power BI Q&A 自然语言发问工具、Tableau 的 Ask Data 自然语言交互工具、Amazon 的云反对业务剖析服务 Quicksight 以及 Apache Doris 与思必驰推出的自助对话式 BI 等,别离能够帮忙用户查问数据并从中获取所需的后果,具备智能问答、智能剖析、可视化等性能。

其次,重点展现了 OpenAI 的 Codex 模型 及其利用解读,另外,官网最新消息示意 Codex 模型在 3 月 22 日将进行反对,OpenAI 倡议所有用户从 Codex 切换到 ChatGPT 背地的 GPT-3.5 Turbo 模型,这也表明了 OpenAI 对通用大模型的信念。

最初,整顿了以后国内几款 专用模型 的工作原理与技术价值,蕴含蚂蚁团体 SeaD、人民大学 RESDSQL-3B、上海交大 RASAT、北京大学 RAT-SQL-TC 与达摩院 Graphix-T5。此处仅展现本章节中局部内容,大家能够下载报告获取更多内容。

本文仅对 3 月《中国数据库行业剖析报告》的局部内容进行了摘录、整顿,更多残缺、具体内容大家能够下载报告全文理解,也欢送各位数据行业同道交换、探讨、建言献策,咱们一起见证、独特助力中国数据库产业的发展壮大!

报告全文下载地址:https://www.modb.pro/doc/100166

往期报告下载

  • 2022 年 4 月 -2023 年 3 月中国数据库行业剖析报告合辑
  • 2022 年中国数据库行业年度剖析报告

更多精彩内容尽在墨天轮数据社区,围绕数据人的学习成长提供一站式的全面服务,继续促成数据畛域的常识流传和技术创新。增加社区墨天轮小助手(VX:modb666)可获取更多技术干货。

退出移动版