关于hadoop:云湖共生释放企业数据价值

4次阅读

共计 3493 个字符,预计需要花费 9 分钟才能阅读完成。

摘要:2021 云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为咱们带来《云湖共生 - 开释企业数据价值》的分享。本文次要从数据湖存储演进之路、数据湖存储 3.0 进化亮点等方面分享了云湖共生带来的企业价值。

摘要:2021 云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为咱们带来《云湖共生 - 开释企业数据价值》的分享。

本文次要从数据湖存储演进之路、数据湖存储 3.0 进化亮点等方面分享了云湖共生带来的企业价值。

以下是精彩视频内容整顿:

数据湖存储演进之路

家喻户晓,数据湖是一个存算拆散的架构。这个架构带来的益处是存储和计算是解耦地部署及扩大的,从而实现整体零碎的弹性能力。我回顾了一下数据湖存储 1.0 时一个客户的状况。他有一个很大的 HDFS 集群,外面存了大量的历史数据,这时候想扩计算了,然而发现计算不能间接 run 在下面,因为会影响到现有集群的稳定性。就要独自扩额定的机器来做计算的集群,扩的时候集群又变宏大了,对运维的稳定性又带来了挑战。所以过后客户就抉择了存算拆散的数据湖技术。益处就是把所有的数据都放到拆散的对象存储下面,就能够持续跑计算集群,run Hadoop 的计算生态。为了兼容对象存储的接口和传统 Hadoop 利用的 HDFS 接口的要求,他还会部署一个 HDFS 的集群,来撑持这样的一个利用。那这个集群,就能够把传统的利用很好的 run 起来,而且他还能够提供性能优化的能力,这是数据湖 1.0 解决的一个问题。

随着数据湖 1.0 大量客户的应用,能够看到下面的利用越来越多。从 Hadoop 的利用到计算引擎,不同的计算引擎再到 AI,下面的计算生态越来越多,对存储容量的扩展性就有了更高的要求。基于这个要求,咱们要解决数据的治理能力。就须要把数据全副存到对象存储上,跟 1.0 相比能够看到,所有的冷热数据,都会存到对象存储里,对象存储就要反对大规模高性能的能力,同样也有一个老的问题要解决。HDFS 一些专有的接口撑持能力,还须要内部的元数据服务,run 一个元数据服务比方 JindoFS,来把传统利用撑持起来,这样就解决 1.0 外面的一些问题。

基于 2.0 咱们深刻的应用,也发现了一些痛点,比方要运维一个内部的元数据集群,同时对于一些存量的数据,你还要做数据导入导出的工作,为此咱们提出了数据湖 3.0。这外面存储架构就产生了一个质的变动。把外置的一个元数据集群,内置到对象存储里,把它做成一个服务化,无需占用客户的资源,通过 SDK 就可能拜访,这样能够缩小运维的难题。而且咱们整个元数据对立之后,能够将历史上就已存到对象存储下面的数据疾速迁徙过去,不须要做数据的拷贝。因而数据湖 3.0,咱们实现了以对象存储为核心,全兼容、多协定、对立元数据的服务。

数据湖存储 3.0 进化亮点

基于数据湖 3.0,咱们能够看到他有如下一些亮点:

  • 多协定接口,拜访雷同存储空间

如图所示,它是一个多协定接口拜访的池子。这个协定能够拜访雷同的数据,这样就能升高利用的门槛,间接对接接口就好,对运维是一个益处

  • 性能加速器,服务端、客户端灵便抉择应用

能够在客户端,服务端抉择不同的加速器来进步性能

  • 全服务化状态,升高客户运维难度

通过服务化的状态部署,升高了计算机器下面部署更多软件的开销,升高了运维的代价,能够让客户更好的应用

  • 元数据互通,存量数据无缝迁徙

底层让对象存储这种平坦的元数据,和基于 HDFS 目录的元数据,相互之间能够互相理解,从而在做存量数据挪动的时候,只做元数据的映射批改,而数据是不必挪动的,这样就能够平滑利用。

  • 冷热分层,极致性价比优化

数据湖 1.0 外面有热数据在 HDFS 外面,冷数据在对象存储外面,当初咱们齐全能够利用对象存储本身提供的,不同规格的存储类型,来实现利用的冷热分层,从而提供极致的性价比

  • 一份数据,多维的元数据形容,零数据拷贝

接口全兼容,疾速实现自建 HDFS 迁徙 OSS 数据湖存储

  • 100% 兼容 HDFS 语义计算引擎无感
  • HDFS/ 对象 一份数据 多协定拜访,元数据互通
  • 对象接口反对 毫秒级原子 10 亿级目录重命名
  • 全服务化 升高运维难度,简略易用

咱们实现了基于 OSS 构建的数据湖存储 3.0. 既然提供了百分之百兼容 HDFS 语义的能力,就能够很容易且疾速实现自建 HDFS 迁徙 OSS 数据湖存储。因为接口兼容了,咱们能够通过一些工具、软件疾速的把数据从自建的 HDFS 拷贝或者迁徙到数据湖存储外面来,而且将来咱们还会做,对于开源 HDFS NameNode 的一种格局解析形式。做了这个格局之后,咱们能够在后盾主动的做迁徙,升高整个迁徙的难度。那同时数据迁徙到 OSS 之后,咱们基于一些验证过的场景,比方一个目录下寄存 10 亿的文件,咱们也能提供对象存储级的目录操作的原子接口,能够实现秒级把这个目录实现重命名,大大的进步计算的效率,这个也是通过场景验证的。

  • OSS 数据湖存储与 CPFS 数据流动,减速 AI 业务翻新
  • 升高 95% 计算等待时间, 大幅晋升训练效率
  • POSIX 语义兼容, 业务利用人造适配
  • CPFS 提供百 GB 吞吐, 高性能共享拜访
  • 数据按需流动, 多种更新模式,高效治理

建完湖之后就要修湖,修湖之后还要拉通、疏通河道,这样才可能让水流到湖外面来。基于 OSS 构建的数据湖,也是同样的情理。咱们欠缺了这个湖之外还买通了跟内部的存储之间的数据流动的通道。

这是典型的跟 CPFS 的一个通道,通过离线迁徙的闪电立方数据迁徙技术,把数据从线下,特地是在 AI 这样的场景下,把他的数据搬到云上,利用云上的技术把数据存起来。而后 CPFS 拉取须要的热数据跟 CPU 联合起来进行训练来满足高要求。比方 CPFS 能够提供百 GB 带宽的能力,疾速的计算,能够升高 95% 的计算工夫,充分发挥 CPFS 的能力。同时计算的后果又能回流归档回到 OSS 这个数据湖外面,在这个湖外面大量的数据,又会跟 EMR、MaxCompute 配合起来进行一些离线的训练,挖取更多的数据价值。所以咱们会一直的去跟内部的存储系统,造成数据的流动,让湖跟里面的河连接起来,造成数据的水网。

基于 OSS 构建的数据湖存储 3.0 的特点

  • 稳固

99.995% 可用性 SLA
12 个 9 数据可靠性
数据不丢不错

  • 平安

全链路数据加密
多种加密算法
一键开启 Tb 级防攻打
敏感数据爱护

  • 弹性

数十 EB 级数据存储实战
单桶万亿级对象
目录原子操作接口

  • 性价比高

久经验证 Tbps 级带宽
稳固的读写时延
当先的冷归档老本降 90%

基于 OSS 构建的数据湖的稳定性是十分好的,99.995% 的这个可用性 SLA,这是十分高的。12 个 9 的数据可靠性,数据基本上不会丢不会错,只有在极限的状况下,比方数据中心因为自然灾害等故障之后才可能引起异样,但咱们通过 3A 这样的技术能够进一步的缓解。我常常跟他人讲一个故事,阿里常说咱们要活 102 年,咱们心愿在这一百年之期,你存进去的数据,100 多年当前去拜访它还是截然不同的。不论后端的数据中心、硬盘、服务器产生任何代次的更换,数据始终在那。第二个就是咱们的平安能力,基于对象存储 OSS 构建的数据湖,残缺的继承了对象存储下面构建的平安能力,全链路的数据加密,丰盛的加密算法,特地是一键开启 TB 级的防攻击能力。昨天有一个客户还在跟我交换,他说他上云最放心的就是被攻打,那咱们这一套防攻打体系是和阿里整个团体的防攻打体系一脉相承,一起共建进去,禁受过双十一打磨的。所以平安这块在咱们构建数据湖的时候,是能够释怀的。至于弹性方面,咱们提供了数十 EB 级的数据存储实战。而且对象存储外面的单桶,反对万亿级的存储能力,这个数据量是十分的宏大的。而且咱们欠缺了对象存储下面的目录原子操作接口,通过这个目录原子操作能够让重命名变得更加的高效。咱们跟 EMR 团队一起配合在一些场景上面,通过这个接口能够晋升,整个计算 30% 的性能。而后性价比方面,久经验证的 Tbps 级带宽,做双十一大促也好,红包流动也好,都是反对的。大家如果用 OSS 就能够晓得,咱们写入的试验和读取的试验,抖动的曲线基本上没有稳定,都是比拟安稳的一条线,有了这个试验,大家做程序设计的时候,各种预期就比拟好计算。往年咱们还公布了当先的冷归档技术。通过冷规档技术,咱们能够把老本升高 90%。也就是说在数据湖外面,不必的数据能够积淀下来,须要的时候再把它找回来,那老本是十分低廉的。就能够做好数据生命周期治理,反对你做好数据治理。

通过下面的这个技术介绍,咱们置信基于 OSS 的数据湖存储 3.0,就像哆啦 A 梦的百宝袋,你能够把各种数据都放进去,兴许你放进去的是垃圾数据,然而你通过数据湖下面的剖析,取出来的却是各种宝贝。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0