关于人工智能:SQL-查询引擎的未来图景

48次阅读

共计 3520 个字符,预计需要花费 9 分钟才能阅读完成。

对于 SQL 查问引擎的将来,寰球的数据和剖析服务提供商都在进行踊跃的摸索和实际,明天咱们转载了数据分析师 Lori Lu 发表在 Medium.com 的博客,文章将探讨 SQL 查问引擎在大数据分析中的现状与将来,心愿对大家有所启发。


2021 年 9 月,马特·图尔克(Matt Turck)发表长文《前沿战报:2021 年机器学习、人工智能和数据(MAD)倒退图景》(Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape),为咱们绘制了 MAD 生态系统在 2021 年的宏观视图。

第一次看到马特文中异样丰盛的生态系统地图时,我立即感触到了 CIO 们在进行技术选型时的苦楚,以及数据产品公司销售们在强烈的市场竞争中的挣扎。然而,这仅仅是大数据生态系统翻新之路的开始。随着数据仓库和湖仓一体开始涉及寰球各个组织和机构,毫无疑问,这一图景会变得更拥挤。


2021 年机器学习、人工智能和数据(MAD)倒退图景(局部厂商)

依据多年来对榜单上的各个顶级玩家的剖析和追踪,我发现其实每个供应商都有其独特的价值和市场契合点,包含 Databricks, Firebolt, ClickHouse 等在内的一些初创公司最近也热度很高 …… Kyligence 则致力于打造下一代企业级智能多维数据库,帮忙企业简化数据湖上的多维数据分析。总之,这一畛域的开拓者们正在一直突破数据分析畛域的现状,致力于为客户发明更多的价值。

这一景象的背地是?

我的答案听起来可能有些消极 —— 一家供应商的解决方案往往很难满足来自各行业的、多样化的剖析需要,以及一直变动的客户场景,比方实时剖析、OLTP、OLAP 以及各种混合剖析场景等。

问题不止于此

当今市场,各个供应商都专一于为特定的买家群体定制化解决特定场景下的挑战,并据此造成本人独特的竞争力。也因而,任何一家如果想要取代其余所有的竞争对手,就必须自研一款实用于所有场景的通用大数据分析引擎,但这简直是不可能。因而,这也是为什么咱们说:世界上不存在一款 All-in-One 万能大数据分析引擎!

所以企业也只能针对不同的剖析场景来洽购不同的查问引擎。无论是为了防止供应商锁定,还是为了填补支流云厂商不违心涉猎的行业空白,在将来,这一趋势都将继续下去。最终,每家公司都须要洽购不止一款数据分析产品,也因而须要在不同零碎中保留数据,而这无疑将造成一种新型的数据孤岛。

数据孤岛?

这当然不是各大企业想要的。随着各行业数字化转型的减速,企业在重建现代化数据分析架构的同时,绝不想绕回已经的老路,也就是再去打造一座座的数据孤岛。

那该如何解脱这一困境?

为防止新的数据孤岛的呈现,咱们应从新构想并设计新一代的 SQL 查问引擎,这个查问引擎应能提供位于去中心化的查问引擎 / 数据源之上对立的查问入口:

对于终端数据消费者而言,这一中间层为他们创立了一个繁多的入口,使他们可能通明地拜访数据孤岛;

对于技术供应商而言,他们能够最大限度地施展本人的劣势,专一于解决已明确定义的问题;

对于买家 / 需求方而言,他们能够充分利用所有供应商的特长,而无需放心集成工作。

最重要的是,这一中间层应该能为客户发明更多的价值:它能提供超强的性能,并兼具可扩展性和低成本等特点。

咱们深信将来的 SQL 查问引擎应具备如下特点:在去中心化的数据源之上提供一个对立查问入口,并反对以老本最优的形式实现对数据的高并发、低提早、实时拜访。

Kyligence 查问引擎的设计正是基于这些考量,接下来我将简略介绍 Kyligence 查问引擎设计的底层逻辑。

新一代 SQL 查问引擎是通过从新设计,在去中心化的数据源之上兼具超强性能和可扩展性。

性能与老本

首先,我置信性能和老本是很多客户在选型时会思考的重要因素。Kyligence 的智能多维数据库产品及解决方案应用云原生、分布式等技术,通过空间换工夫的形式反对高性能的 OLAP 计算,并能适应任何状态的数据湖,以一种老本最优的形式为下层剖析利用提供高性能的查问能力。


数据的指数增长将不再影响老本和查问性能

多维数据库的次要长处包含:

可实现性能晋升和反对高并发查问:对查问后果进行预处理(也就是说,大量计算在离线工作过程中曾经实现),随时能够为上游数据消费者提供服务。因而,在查问运行时,计算能力次要用于检索查问后果并将其回传给消费者。所以 Kyligence 引擎能在不就义性能的前提下更好地应答大量并发查问。

有助于降低成本—— 预计算的查问后果,也就是索引,将尽可能被复用,并反对分段或分区刷新。从久远来看,多维数据库将为客户带来大量的老本节俭。

去中心化数据源之上的对立查问入口

现代化的剖析型数据库位于数据 APP(或消费者)和去中心化数据源之间,可作为对立查问入口。作为一个中间层,它反对用户轻松连贯不同数据源,无需再去关怀每个数据源的连贯形式。

Kyligence 反对多种数据源,包含 HDFS、Hive、RDBMS 及其他云存储。这与联邦查问的概念有所不同。

举个例子,比方在某些场景中,客户可在 Kyligence 平台中为每个数据源独自创立一个我的项目;这样,不同事业部的终端用户就能够通过各自的 BI 工具间接拜访构建在不同数据源之上的数据模型。Kyligence 还为 DevOps 团队提供了一个对立的平台来实现数据访问控制。

此外,Kyligence AI 加强引擎能够检测常见的查问特色和模式并主动构建索引,以进步查问性能,防止因为重复地解决雷同的查问而节约算力。借助 AI 加强引擎,Kyligence 针对 PB 级数据集实现了亚秒级的规范 SQL 查问响应,大大改善数据分析的体验,助力业务用户疾速发现海量数据中的业务价值,驱动商业决策。

除此之外,Kyligence 还将为客户实现如下价值:

价值点 1|湖仓一体时代的数据治理

多维模型能够被设想成一个参差的宽表汇合,Kyligence 的多维模型能够很好地解决反复查问带来的老本增长和宽表爆炸的问题,从而升高整体领有老本(TCO)。

应用 Kyligence 的智能多维分析平台的另一个益处是,它能够帮忙您治理、打消和复用 ETL 管道。为不便了解,咱们将向您介绍 Kyligence 多维数据库的应用背景。

您能够将 Kyligence OLAP 模型看作一组平表,即 Kyligence 中的索引。接下来,我将通过一个简略的场景来阐明它的工作原理。

2021 年,Kyligence 的一个客户遇到了平表数量激增的问题,起因在于每个团队习惯应用由本人开发的表,表的复用状况不太现实。采纳 Kyligence 作为其数据管理工具后,所有团队都开始在 Kyligence 平台内合作并创立共享数据模型。Kyligence 多维数据模型将会主动为所有团队生成 ” 平表 ”,并智能治理 ” 平表 ” 的复用和生命周期,Kyligence 帮忙客户将平表的数量从上千万张缩小到一个较正当的程度。

价值点 2|符合 Data Mesh 数据网格最佳实际

如果您理解 Data Mesh 的概念,您可能会发现 Kyligence 与 Data Mesh 中所要求的 ” 数据基础设施作为中心化共享服务平台 ” 理念高度符合:

Kyligence 受治理的数据集市符合了 Data Mesh 中数据域的概念;

Kyligence 基于去中心化的数据源之上的对立查问入口符合了 Data Mesh 中数据所有权和架构的去中心化;

……

在过往单干的企业中,不少客户习惯依照各畛域划分的我的项目和模型,并据此进行数据管理。这些企业会将 Kyligence 平台作为企业的共享数据基础设施,提供给所有成员应用。

本文转自 Medium.com,原文链接为:https://medium.com/@LoriLu/th…

对于 Kyligence

上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 加强的高性能剖析引擎、对立 SQL 服务接口、业务语义层等性能,Kyligence 提供老本最优的多维数据分析能力,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发等行业客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等寰球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成寰球合作伙伴关系。目前公司曾经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

正文完
 0