据 Gartner 2022 年最新趋势剖析,数据分析将成为翻新起源与企业外围能力,数据越来越重要了。在更早前 IDC 和数据存储公司希捷的报告示意,我国产生的数据量从 2019 年的约 9.4ZB 将猛增至 2025 年的 48.6ZB。当初,数据工程师须要面对更加繁冗和宏大的数据、离线场景 / 实时场景 / 流式场景等泛滥不同的剖析场景、多个数据库技术栈并存和与之对应的存储计算成本,很多公司的数据团队往往会被这些海量数据与各类底层集群、基础设施的要求所吞没。
如何降本增效,买通数据分析与存储,进步数据分析的灵活性,同时升高底层资源的运维老本,成为了令技术团队头疼的问题。
智能湖仓,数据分析的下一站已到来
这个时代,驾驭数据的能力是所有决策者“技能清单”里最重要的一项。历史通知咱们,无论哪个行业,率先在行业中把握新工具“利器”是如许重要。
最早的传统型、老式的纯数据仓库曾经不合适半 / 非结构化数据的解决;而单纯的数据湖尽管适宜存储数据,但不反对事务处理,不保证数据品质,并且不足一致性与隔离性。
站在数据价值进口的角度来看,只有各类数据价值平台全面落地利用,大数据的潜能才会被进一步开释。为了实现数据湖和数据仓库之间的无缝流转,买通数据存储和计算的不同的层面,兼顾数据湖的灵活性和数据仓库的成长性,促成企业更无效的工具利用,像亚马逊云科技就提出了“智能湖仓”架构,帮忙企业客户放慢大数据价值实现过程。
以翻新技术厂商亚马逊云科技为例,2020 年在亚马逊云科技 re:Invent 大会上,亚马逊云科技针对数据分析等相干服务推出了“智能湖仓”架构,不过早在 2017 年,亚马逊就公布了 Amazon Redshift Spectrum,该性能使得 Amazon Redshift 在过后就具备了买通数据湖和数据仓库的能力,实现跨数据湖、数据仓库的数据查问。此外,在 2021 年 re:Invent 大会上,亚马逊云科技更进一步,在存算拆散架构根底上,推出 更多数据分析服务的无服务器(Severless)版。
当初,无服务器架构(以 2014 年推出的 Amazon Lambda 为代表)曾经是云原生中最热门的技术类别。无服务器应用程序是由事件驱动的,并通过与技术无关的 API 或音讯收发进行涣散耦合,能够让开发者更关注于构建产品中的利用,而不须要治理和保护底层堆栈。当初,数据分析服务借助无服务器的能力,能够让用户更便捷地构建数据存储、剖析、智能利用解决方案,彻底实现无服务器的数据分析服务,实现底层庞杂数据的高效解决、流转与共享。
可能达到这样的技术水平和高度,离不开工夫的积淀和技术的积攒。想要深刻理解“智能湖仓”,就须要理解它的过来与当初。咱们能看到,亚马逊云科技所推出的无服务器数据分析服务,经验了几个阶段:
(1)2006 年,亚马逊云科技正式推出 Amazon S3,其作为亚马逊第一个云产品,提供了多种经济高效的存储类和易于应用的治理性能,从而满足特定的业务、组织和合规性要求。现在“智能湖仓”就是基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志剖析、机器学习等数据服务。Amazon S3 数据湖的可靠性和大容量的数据存储能力,是确保整个“智能湖仓”架构无效利用的根底。对于软件开发人员来说,当初曾经是无服务器架构的 Amazon S3 能够很低的老本提供可扩大、牢靠且提早低的数据存储基础设施,让开发人员利用云计算的规模劣势,以极低的后期资源投入换取稳固的数据基础设施,非常适合进行疾速技术创新。
(2)Amazon Athena 是一种无服务器的交互式查问服务,用户可能轻松应用规范 SQL 剖析 Amazon S3 中的数据。无需 ETL,具备 SQL 技能的任何人都能够轻松疾速地剖析数据湖中的大规模数据集,这对技术人员的生产力是一种解放!当咱们想应用 SQL 间接进行数据湖上的剖析且不想治理任何集群时,Athena 无疑是一个麻利且疾速开始的抉择。
(3)Amazon Redshift 应用 SQL 在数据仓库、经营数据库和数据湖间剖析结构化和半结构化数据,专一于在急速获取洞察,并交付业务后果,无需思考治理数据仓库等基础设施。而现如今,无服务器版的 Amazon Redshift Serverless 使得数据仓库更加麻利,用户无需亲自设置和治理数据仓库基础设施,即可在几秒钟内轻松运行和扩大剖析,实现 PB 级数据规模的数据分析。目前来说,曾经有很多企业去抉择 Amazon Redshift 构建实时数仓来缩短他们取得洞察的工夫,因为它易于应用,可在任何规模提供牢靠的性能剖析所有数据,也可能是因为 Amazon Redshift 提供比其余云数据仓库高 3 倍的性价比。Amazon Redshift Serverless 是非常适合难以预测计算需要的状况,例如可变工作负载、具备闲暇工夫的周期性工作负载以及具备峰值的稳态工作负载。这种办法也非常适合须要疾速入门的长期剖析需要以及测试和开发环境。
(4)Amazon EMR 也推出了 Serverless 无服务器的版本。开发者能够应用无服务器的形式运行应用开源大数据框架(如 Apache Spark、Hive 和 Presto)构建的程序,在云中运行 PB 级数据分析,而无需配置、治理、优化或爱护集群。用户无需猜想集群大小,Amazon EMR Serverless 具备主动细粒度扩缩,并且提供性能优化的运行时,速度是开源版本的两倍以上。另外,Amazon EMR 在装置 Spark、Hive、Presto 或 Trino 时能够默认装置 Hudi 组件,以实现凋谢格局(如 Apache Parquet 和 Apache Avro)保护 Amazon S3 或 HDFS 中的数据。举个例子,应用 Amazon EMR,技术人员能够将 Parquet 数据集转化为 Hudi 数据集,而无需重写数据集,疾速将现有数据集迁徙至 Apache Hudi 数据集,例如 Amazon S3 上 1TB 的 Parquet 数据集,疏导执行的速度曾经比批量插入快了五倍!
通过理解,CSDN 看到,上述这些仅仅只是亚马逊云科技中的一小部分数据服务及其无服务器版的倒退变动。公布既是无服务器架构的云原生 NoSQL—Amazon DynamoDB,两年前即实现无服务器化的云原生关系型数据库 Amazon Aurora Serverless v1(本周第二代 v2 也已上线),也都是值得开掘的技术创新。
正是随着这些服务的降级与倒退,“智能湖仓”也在向更麻利,更智能的方向演变。也让技术界看到,数据分析的下一站已到来。
扫描二维码,下载亚马逊云科技智能湖仓白皮书,理解更多最佳实际。
全栈式云原生数据分析服务,让数据真正“麻利剖析”
咱们能看到,“智能湖仓”更强调架构,强调数据的自在流动和集中统一治理。“智能湖仓”架构不是简略地将湖与仓买通,而是将湖、仓与专门构建等数据服务连贯成为一个整体,让数据在其间挪动和拜访,进一步实现数据在数据湖、数据仓库,以及在数据查问、数据分析、机器学习等各类专门构建等服务之间按需挪动,从而造成对立且间断等整体,满足客户等各种需要。
亚马逊云科技的“智能湖仓”架构具备灵便扩大、专门构建、数据交融、麻利剖析、开源凋谢等特点。具体来说,背靠 Amazon S3 数据湖存储的高牢靠和大容量,对于数据存储资源弹性伸缩扩大,在此之上,技术人员通过应用亚马逊云科技经验总结的具象产品实力,如交互式查问服务 Amazon Athena、云上大数据平台 Amazon EMR、云数据仓库 Amazon Redshift 等专门构建的数据分析服务,以及数据交融对立治理的架构之下,企业能够无需机器学习教训,应用 SQL 语句,甚至不编写代码,去进行数据分析。这种模式能够大大降低数据人员的技术门槛,让更多数据业务人员去拥抱数据,实现麻利、疾速、低成本的数据分析。
在“智能湖仓”架构下,云原生数据分析服务能够全面笼罩流数据分析、数据湖、Hadoop 等罕用的剖析场景,所有均无服务器化。无服务器的剖析工具让客户无需配置、扩大或治理集群或服务器,也不用放心容量配置,从而能够最大水平地为客户缩小无差别的繁琐工作,让数据真正实现全栈、敏捷地剖析。
面对海量数据与细分环境,亚马逊云科技无服务器的“智能湖仓”架构则将易用、易扩大、高性能、专门构建、平安及智能等个性融于一体,买通数据湖和数据仓库,进一步将各种服务无缝集成,确保数据在不同服务之间顺畅流动,进而帮忙客户尽可能最大水平地进步数据价值,减速翻新,并成为数据驱动型组织。
从亚马逊的技术布局和倒退门路,咱们能看到,全栈、云原生的数据分析时代曾经到来,智能化的湖仓将成为新一代数据平台架构。而借助智能湖仓,与数据相干的技术与业务人员,将能够解脱对底层架构与数据处理技术的多个掣肘,专一于开掘数据的创新性剖析与利用,以发现并抓住任何一个翻新的时机。