关于数据:从智能湖仓架构的技术演进看现代化数据平台的发展方向

85次阅读

共计 4391 个字符,预计需要花费 11 分钟才能阅读完成。

在 2021 年初全年技术趋势瞻望中,数据湖与数据仓库的交融,成为大数据畛域的趋势重点。直至年末,对于二者的探讨仍然热烈,行业内的次要分歧点在于数据湖、数据仓库对存储系统拜访、权限治理等方面的把控;行业内的次要共识点则是二者联合必能升高大数据分析的老本,进步易用性。

而此类争执,又反映了行业在大数据处理畛域的外围诉求:如何通过数据湖、数据仓库的设计,无效满足现代化利用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库交融相干的“智能湖仓”。为什么“智能湖仓”能够更智能地集成数据湖、数据仓库和其余数据处理服务?“智能湖仓”架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,咱们看到了“智能湖仓”架构的当初和将来构想。

被宽泛关注的“智能湖仓”架构

了解“智能湖仓”架构的当初和将来,须要先理解它的过来。早在 2017 年,“智能湖仓”架构就已初具雏形。过后,亚马逊云科技公布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了买通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查问。

这件事件启发了“智能湖仓”架构的造成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式公布“智能湖仓”。如果从晚期的技术摸索开始算起,在 2021 亚马逊云科技 re:Invent 大会上公布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。现在,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志剖析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具能够实现数据的自在流动与对立治理。

具体而言,“智能湖仓”架构下,首先须要突破数据孤岛造成一个数据湖;其次,须要围绕着数据湖,在不同利用场景为用户提供相应的剖析工具;另外,须要确保数据在湖、仓以及专门的服务之间可能自在挪动;此外,须要确保用对立的形式去治理湖外面数据的安全性、访问控制和审计;最终,须要可能采纳低成本的办法将湖、仓各自的劣势无效利用起来,并利用人工智能等翻新伎俩进行翻新。

就像 Amazon Redshift 在 2012 年公布时,疏导了云原生数仓的倒退方向一样,“智能湖仓”架构一经公布就引发业内宽泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业位置,另一方面是因为此架构在技术上的翻新思路可能为行业带来一些新的思考。

“智能湖仓”更强调“架构”而非“产品”,更强调数据的自在流动与对立治理,以及基于湖仓的“智能翻新”。现在,“智能湖仓”架构不是简略地将湖与仓买通,而是将湖、仓与专门构建的数据服务连贯成为一个整体,让数据在其间无缝挪动。面对向 TB 级、PB 级,甚至 EB 级增长的数据,“如何存”和“如何用”不再是绝对孤立的话题。“智能湖仓”向行业传递了一个信号:企业须要对立数据分析工具,实现数据在整个数据平台的自在流转。

不论是企业数据管理理念的视角,还是在技术视角下,“智能湖仓”架构被宽泛关注也意味着,随着数据湖和数据仓库的边界在逐步淡化,基于两者的大数据处理体系的架构正在被重构。

“智能湖仓”架构下,重构中的大数据基础设施

这种重构大略能够分为几个维度来了解,其中最重要的是更强的数据安全、治理和数据共享能力,更麻利的构建形式,更智能的翻新伎俩。

数据安全、治理和共享,重点聚焦跨湖、跨仓库甚至跨企业的数据流通和治理,致力于实现真正意义上的数据跨域互通;更麻利的构建形式则要将企业的敏态谋求晋升到极致,Serverless 能力的利用是其要害;更智能的翻新伎俩则把 AI/ML 能力和大数据治理并入对立领域,防止走入“为了大数据而大数据”的误区。

在 2022 年,当咱们再次谈起数据湖和数据仓库的交融问题时,蕴含以上关键点的“智能湖仓”架构,很可能成为被业内重点参考的构建思路之一。

更强的数据安全、治理和数据共享能力

数据的平安、治理和共享,原是大数据的本职工作,但当数据达到 PB 乃至 EB 级,须要跨多个区域、组织、账户进行数据共享或数据交互时,企业有些时候并非不想细颗粒度治理数据,而是无奈治理。这种颗粒度的权限管制往往比单机零碎设计或者繁多的分布式系统要简单得多。所以,数据治理成为了“智能湖仓”重要的发力点。

在 2021 亚马逊云科技 re:Invent 大会上,撑持数据对立治理和自在流动能力的“智能湖仓”组件 Amazon Lake Formation 公布了多项新性能。除了之前早已反对的表和列级平安,Amazon Lake Formation 当初反对行和单元级权限,通过只限度用户对局部数据的拜访权限,让限度拜访敏感信息变得更加简略。

此外,Data mesh 的概念在 2021 亚马逊云科技 re:Invent 大会上也被提及。Data mesh 概念也是 Gartner 提出的十大数据技术趋势之一。在 Data mesh 模式下,“智能湖仓”可能实现畛域数据成为产品、轻松启用细粒度受权、数据更容易被应用、数据调用跨企业可见和联邦的数据管控与合规。这意味着,“智能湖仓”架构下,Data mesh 能够实现跨数据湖的数据共享和计算。亚马逊云科技借助本身数据湖平安、tag 级别的访问控制和共享能力,为 Data mesh 提供了实现形式与伎俩,让 Data mesh 概念走向落地。

更麻利的构建形式

除了更强的数据安全、治理和数据共享能力,更麻利的构建形式也是绝大多数企业当下次要关注的技术创新之一。麻利在企业间的认可度和利用水平越来越高, 而“智能湖仓”本来就是麻利的架构 。在“智能湖仓”架构中,Amazon Lake Formation 可能将建设数据湖的工夫从数月缩短到数天。用户能够应用像 Amazon Glue 这样的 Serverless 数据集成工具疾速实现数据入湖;应用 Amazon Athena 这样的 Serverless 查问引擎间接实现基于 SQL 语言的湖上数据查问剖析。无论是超大型公司还是工作室,都能够从这种麻利的构建形式中疾速获益,提取数据的价值。

为了让构建形式更麻利,在 2021 亚马逊云科技 re:Invent 大会上,亚马逊云科技发表推出更多数据分析服务的无服务器版,借助无服务器的能力,让用户能够更敏捷地构建本人的数据存储、剖析、智能利用解决方案。

  • Amazon Redshift Serverless,让数据仓库更麻利,反对在几秒钟内主动设置和扩大资源,用户无需治理数据仓库集群,实现 PB 级数据规模运行高性能剖析工作负载;
  • Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless,让流式数据接入与解决,反对疾速扩大资源,简化实时数据摄取和流式传输,实现全面监控、挪动甚至跨集群加载分区,主动调配和扩大计算和存储资源,让用户能够按需应用 Kafka;
  • Amazon EMR Serverless 让大数据处理更麻利,用户无需部署、治理和扩大底层基础设施,应用开源大数据框架(如 Apache Spark、Hive 和 Presto)运行剖析型应用程序;
  • Amazon Kinesis Data Streams on Demand 让流式数据分析与实时数据场景搭建更麻利。每分钟能够解决数 GB 的写入和读取吞吐量,而不用预置与治理服务器、存储,在老本和性能之间获得均衡且变得更加简略。

来自亚马逊云科技的数据显示,当初每天有数以万计的用户每天在应用 Amazon Redshift 解决超过 2EB 的数据。寰球最大的制药公司之一罗氏制药(Roche)首席云平台和机器学习工程师 Yannick Misteli 博士示意:“Amazon Redshift Serverless 可减轻经营累赘,降低成本,并帮忙罗氏制药规模化实际 Go-to-Market 策略。这种极简的形式扭转了游戏规则,帮忙咱们疾速上手并反对各种沉重的剖析场景。”

更智能的翻新伎俩

正如 Yannick Misteli 提到的一样,近些年来,底层的技术创新推动业务层的扭转,而业务层的诉求也倒逼底层技术的提高。游戏规则正在技术升级中扭转。现在,“智能”是绝大多数技术的演进指标。在亚马逊云科技的“智能湖仓”架构中,也将“智能”提到了一个相当重要的地位。

“智能湖仓”架构下,数据库服务与人工智能和机器学习深度集成。在具体的产品上,亚马逊云科技提供了 Amazon Aurora ML、Amazon Neptune ML、Amazon Redshift ML 等诸多数据库原生的机器学习服务。

同时,在“智能湖仓”架构中,还有云原生人工智能平台 Amazon SageMaker,它提供了多类机器学习库和开发工具包,帮忙用户疾速构建人工智能利用。当用户须要面对大量数据处理场景时,能够应用 Amazon SageMaker 内置的工具轻松疾速连贯到 Amazon EMR 集群进行大数据处理。而 Amazon EMR Serverless,也帮忙人工智能相干的数据处理与剖析变得足够麻利。

在 Gartner 2021 年公布的报告《Magic Quadrant for Cloud Database Management Systems》中,亚马逊云科技间断 7 年被评为“领导者”,这项报告面向的次要是对各大厂商提供的云数据库、云数据分析工具进行全景评估,并给出最终地位的“测评报告”,含金量可见一斑。亚马逊云科技参加评测的产品均为“智能湖仓”架构中的代表产品,这个“领导者位置”背地代表的技术成熟度不言自明。

咱们能够看到,“智能湖仓”提供的每一款服务工具的迭代,都在向更麻利、更平安、更智能的数据架构指标迈进。数据架构作为企业数字化转型的最底层,也是利用现代化的底层能源。“智能湖仓”带来的数据管理形式的改革,也承载着亚马逊云科技对利用现代化的构想。

写在最初

回到文章开篇提到的问题,目前行业内曾经造成了数据湖和数据仓库的交融必将升高大数据分析老本的共识,次要分歧点在于数据湖、数据仓库对存储系统拜访、权限治理等方面的把控。在这些方面,亚马逊云科技的“智能湖仓”架构围绕这些问题都提供了相干的工具或服务。

无论是在数据基础架构、对立剖析还是业务翻新上,从连贯数据湖和数据仓库到跨数据库、跨域共享,“智能湖仓”在理论的业务场景中并非孤立存在,而是与应用程序严密相连。

底层数据架构的现代化演进,也将为企业乃至全行业带来更大的价值。数据,作为与土地、劳动力、资本、技术并列的“第五大生产因素”,重要性显而易见。现在,亚马逊云科技“智能湖仓”架构在企业中的实际,曾经为企业构建现代化数据平台提供了一条可供遵循的门路。

流动举荐

对于技术圈而言,这一年中,各种技术与畛域的倒退,既站顶峰,也历跌宕。在 2021 年最初时刻,咱们也想凝听来自云计算畛域开发者的声音,为此,云计算开发者有奖调研正式开启,诚邀各位搭档参加,多重好礼等你来领!

正文完
 0