关于数据:从智能湖仓架构的技术演进看现代化数据平台的发展方向
在 2021 年初全年技术趋势瞻望中,数据湖与数据仓库的交融,成为大数据畛域的趋势重点。直至年末,对于二者的探讨仍然热烈,行业内的次要分歧点在于数据湖、数据仓库对存储系统拜访、权限治理等方面的把控;行业内的次要共识点则是二者联合必能升高大数据分析的老本,进步易用性。 而此类争执,又反映了行业在大数据处理畛域的外围诉求:如何通过数据湖、数据仓库的设计,无效满足现代化利用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库交融相干的“智能湖仓”。为什么“智能湖仓”能够更智能地集成数据湖、数据仓库和其余数据处理服务?“智能湖仓”架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,咱们看到了“智能湖仓”架构的当初和将来构想。 被宽泛关注的“智能湖仓”架构了解“智能湖仓”架构的当初和将来,须要先理解它的过来。早在 2017 年,“智能湖仓”架构就已初具雏形。过后,亚马逊云科技公布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了买通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查问。 这件事件启发了“智能湖仓”架构的造成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式公布“智能湖仓”。如果从晚期的技术摸索开始算起,在 2021 亚马逊云科技 re:Invent 大会上公布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。现在,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志剖析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具能够实现数据的自在流动与对立治理。 具体而言,“智能湖仓”架构下,首先须要突破数据孤岛造成一个数据湖;其次,须要围绕着数据湖,在不同利用场景为用户提供相应的剖析工具;另外,须要确保数据在湖、仓以及专门的服务之间可能自在挪动;此外,须要确保用对立的形式去治理湖外面数据的安全性、访问控制和审计;最终,须要可能采纳低成本的办法将湖、仓各自的劣势无效利用起来,并利用人工智能等翻新伎俩进行翻新。 就像 Amazon Redshift 在 2012 年公布时,疏导了云原生数仓的倒退方向一样,“智能湖仓”架构一经公布就引发业内宽泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业位置,另一方面是因为此架构在技术上的翻新思路可能为行业带来一些新的思考。 “智能湖仓”更强调“架构”而非“产品”,更强调数据的自在流动与对立治理,以及基于湖仓的“智能翻新”。现在,“智能湖仓”架构不是简略地将湖与仓买通,而是将湖、仓与专门构建的数据服务连贯成为一个整体,让数据在其间无缝挪动。面对向 TB 级、PB 级,甚至 EB 级增长的数据,“如何存”和“如何用”不再是绝对孤立的话题。“智能湖仓”向行业传递了一个信号:企业须要对立数据分析工具,实现数据在整个数据平台的自在流转。 不论是企业数据管理理念的视角,还是在技术视角下,“智能湖仓”架构被宽泛关注也意味着,随着数据湖和数据仓库的边界在逐步淡化,基于两者的大数据处理体系的架构正在被重构。 “智能湖仓”架构下,重构中的大数据基础设施这种重构大略能够分为几个维度来了解,其中最重要的是更强的数据安全、治理和数据共享能力,更麻利的构建形式,更智能的翻新伎俩。 数据安全、治理和共享,重点聚焦跨湖、跨仓库甚至跨企业的数据流通和治理,致力于实现真正意义上的数据跨域互通;更麻利的构建形式则要将企业的敏态谋求晋升到极致,Serverless 能力的利用是其要害;更智能的翻新伎俩则把 AI/ML 能力和大数据治理并入对立领域,防止走入“为了大数据而大数据”的误区。 在 2022 年,当咱们再次谈起数据湖和数据仓库的交融问题时,蕴含以上关键点的“智能湖仓”架构,很可能成为被业内重点参考的构建思路之一。 更强的数据安全、治理和数据共享能力数据的平安、治理和共享,原是大数据的本职工作,但当数据达到 PB 乃至 EB 级,须要跨多个区域、组织、账户进行数据共享或数据交互时,企业有些时候并非不想细颗粒度治理数据,而是无奈治理。这种颗粒度的权限管制往往比单机零碎设计或者繁多的分布式系统要简单得多。所以,数据治理成为了“智能湖仓”重要的发力点。 在 2021 亚马逊云科技 re:Invent 大会上,撑持数据对立治理和自在流动能力的“智能湖仓”组件 Amazon Lake Formation 公布了多项新性能。除了之前早已反对的表和列级平安,Amazon Lake Formation 当初反对行和单元级权限,通过只限度用户对局部数据的拜访权限,让限度拜访敏感信息变得更加简略。 ...