关于ios:企业级数据湖最佳实践

5次阅读

共计 3500 个字符,预计需要花费 9 分钟才能阅读完成。

简介:2021 云栖大会云原生企业级数据湖专场,阿里云智能高级解决方案架构师周皓为咱们带来《企业级数据湖最佳实际》的分享。

本文次要分享了数据湖的外围能力及几个最佳实际案例。

以下是精彩视频内容整顿:

一、对立数据存储,多引擎对接,运存拆散

在这一节开始之前,先回顾一下数据湖几个外围的能力:

  • 集中存储、多种引擎对接

各种类型的数据用集中形式对立存储在 OSS,无缝对接如 EMR 等各类计算引擎,反对开源计算生态

  • 数据无需解决、间接存储

对接多种数据输出源,提供便捷的数据接入和数据生产通道,多种类型数据都能够依照原始产生的状态间接存储,随需再进行解决,比照传统数仓 schema 限度构造,更适配业务疾速倒退的利用场景

  • 更灵便架构、运存拆散

存算拆散架构带来十分好的灵活性,通过计算与存储解耦合提供更灵便的零碎架构设计空间,让计算、存储资源具备更好的扩展性,充沛进步资源利用率,极大升高运维治理难度、优化 TCO。这也是本文介绍案例中,客户抉择数据湖计划的一个重要起因。

二、最佳实际案例

Yeahmobi- 挪动互联网广告实际案例

Yeahmobi,作为一家技术驱动倒退的企业国际化智能营销服务公司,次要波及到的就是智能营销业务,每天的业务稳定十分大。如果采纳传统的架构,势必要依照业务的峰值筹备资源,就会造成很多 CPU 资源无奈失去最大化的利用。这也是许多智能营销互联网公司的痛点。基于此,大多企业抉择了数据湖计划。

  • 存储与计算解耦合,让计算资源使用量能够依照线上业务量的变动动静增减,缩小常驻资源量
  • 多种不同类型计算引擎,轻松对接在线广告各种场景所须要的剖析要求
  • 通过数据湖计划,整体 TCO 优化达到 30%,让业务状态更具竞争力

只有将数据存储在数据湖中,计算资源能够依照业务的变动实现动静的伸缩与创立,只需保护一个最小的常驻计算资源就足够了。在这种状况下,再联合兼具半托管和全托管模式的 EMR 动静伸缩计算及剖析的能力,能够极大地升高运维的难度。这也是许多智能营销公司抉择这套数据湖计划的起因。Yeahmobi 抉择这套数据湖计划后,TCO 升高了 30%。

数禾科技 - 互联网金融实际案例

数禾科技是一家互联网金融科技公司,因其所在行业的个性及自身的业务场景需要,对数据的平安可靠性,以及数据访问控制的细粒度都有很高的要求。数禾服务了大量外部和内部用户,数据安全敏感,要求严格的数据权限隔离。其次,整个业务变动也须要十分强劲的吞吐能力来撑持计算及存储。

其实在数禾的倒退过程中,最早采纳的是最常见最通用的大数据集群构建形式既通过服务器搭建,然而很快就发现这种形式无奈跟上业务的疾速倒退:一是存储老本显著增长,一个规范的 HDFS 集群是三个冗余备份,在思考到水位,整个文件系统的开销等因素后,存储老本是显著减少的。二是因为业务的疾速扩容,如果频繁减少 HDFS 集群节点,会影响业务的可用性。

基于以上起因,数禾抉择了阿里云数据湖计划。数据湖采纳 对象存储 OSS 作为底座,无需放心容量的扩大或是小文件的减少。文件数量的疾速减少会对 HDFS 集群的 NameNode 造成比拟大的压力,然而对象存储构造无需放心文件数量减少,哪怕是到万亿级的 object 的数量,也没有任何压力。采纳了数据湖形式当前,多 bucket 切分搭配阿里云的 RAM 体系,能够做到十分细腻度的访问控制。再通过例如 OSS 与 EMR 在软件层单干优化的 JindoFS 计划,可能输入超过 TBS 的吞吐能力,以撑持整个业务的需要,实际操作体验超过自建 HDFS。此外,通过云上弹性资源能力,工作能够随需进行千台规模节点的弹性伸缩,达到降本增效的成果。

数据湖经典应用场景 - 冷热数据分层

模式特点

  • 利用与业务零碎的长期运行积攒了大量的冷数据,一直增长的冷数据对现有集群的存储空间压力大
  • 须要解决冷数据存储空间,同时为拜访频繁的热数据留出性能优化空间
  • 优化冷数据的长期存储老本,要能远低于热数据存储老本,并且冷数据要能便于读取

冷热数据分层是数据湖的一个经典应用形式。利用与业务零碎的长期运行会产生大量冷数据,对整个集群的运维产生十分大的压力。一方面是规模上的压力,通用的大数据集群外面的服务器架构比拟同构导致冷数据的优化的空间不大,如果通过减少高密度的或者异购的机型,在实践中会导致集群运维治理难度的大幅度晋升。另外一方面是在 IDC 环境中,要想疾速扩容,物理集群会受限于很多因素。这也是很多数据湖客户从传统的大数据集群架构往数据湖迁徙的起因。目前曾经有很多客户拥抱了数据湖,全面应用 OSS。无奈一步到位的时候,客户会先将温数据和冷数据先沉降到 OSS。早在 2016 年,OSS 就曾经与 Hadoop 生态充沛交融,Hadoop 3.0 能够间接拜访 OSS,写好的工作不必做任何批改就能够间接运行,大幅缩小了迁徙的难度。迁徙过去之后,OSS 上的智能生命周期治理简略地配置一个生命周期策略,就能够依照规定把冷数据进一步沉降到归档和冷归档类型中,进一步降低成本。

教育科技平台实际案例

客户价值

  • 通过 OSS 多存储类型和数据生命周期治理,实现冷数据长期存储的老本优化,通过云上承载冷数据,IDC 自建集群无需扩容,解决机房空间难题
  • 通过 OSS 数据湖的高可扩展性,无效的帮忙客户解决了大数据存储的性能吞吐问题,躲避了自建 HDFS 文件系统在元数据节点的性能瓶颈
  • 客户曾经在布局进一步通过云上弹性资源去扩容计算资源,减小一次性资源投入

这是一个冷热分层的理论案例。教育平台波及到的业务场景蕴含各种日志的采集,通过应用的日志帮忙学生改良学习。这个客户也面临一个问题,大量日志采集当前对于空间占用会造成十分大的压力。客户又是自建 IDC,很难在一段时间内就实现物理空间的扩容,所以最初抉择了数据湖计划。通过专线买通了 IDC 和阿里云的连贯,应用阿里云的资源扩容现有 IDC,再通过专线将线下的冷数据迁徙到了数据湖中,为线下的业务腾出了空间,压力开释当前,空间就非常灵活了。而后进一步将很多利用日志间接入湖,通过对象存储及多版本能力,为数据可靠性提供更多的保障,同时也应用了冷归档能力将温数据进一步沉降以降低成本。入湖的数据则通过专线拉到本地计算,然而在数据湖的应用过程中,客户想进一步应用云上的计算资源以扩容计算能力,就无需一次性洽购线下的计算服务器,进一步降低成本。

全球化在线游戏实际案例

客户价值

  • 通过日志服务,买通利用日志的采集、投递,贯通实时计算引擎,为后续的用户热力求,用户轨迹,用户登陆,在线人数统计提供数据撑持
  • 通过 OSS 数据湖承载所有日志数据的长期存储,与离线剖析引擎联合,可能更深刻对日志数据进行剖析
  • 寰球统一化架构部署,对于一款面向全球化的游戏,能够保障在寰球任何一个区域都能够应用雷同的部署形式,简化运维部署难度

一款全球化的游戏个别要服务寰球玩家,这就要求寰球统一化架构部署以升高运维难度,而阿里云数据湖在寰球任何一个区域都能够应用雷同的部署形式,能够齐全匹配客户的需要。此外,游戏行业日志的采集十分要害,比方游戏在线人数的大屏展现,就是通过采集应用服务器的日志去做剖析。针对这个客户,咱们采纳了阿里云的日志服务,从千台万台机器规模的应用服务器中实时采集日志,推送到 Flink 中做实时计算,并将后果实时写入到 ClickHouse,提供实时性的查问。OSS 在这个场景中,作为了日志的的永恒存储。SLS 把采集的日志定期投递到 OSS,并且通过 OSS SDK 和一些命令行工具,间接将一些利用日志传到 OSS , 存储到 OSS 的日志能够进一步通过离线剖析,如通过 Spark、Hive 做更大规模的剖析,并将深度剖析的后果再写入到 ClickHouse,提供更多的剖析查问。

小鹏汽车 - 主动驾驶实际案例

数据湖与各种存储产品之间是无缝买通的。在这个主动驾驶案例中,咱们提供了一套残缺的从采集到存储到剖析的计划。闪电立方提供了车载的部署能力,解决了主动驾驶场景下每天采集的大量路面数据的存储问题,采集完当前通过就近的接入点疾速地存储到 OSS 数据湖中去,解决了最初一公里的问题,把数据上传到 OSS 当前,能够间接应用阿里云的各项计算引擎,包含 EMR、MaxCompute 等对数据进行各种各样的荡涤标注和剖析。CPFS 是阿里云上的一款反对大规模并行计算的存储产品,它有十分高的吞吐能力,并且是 posix 语义的。OSS 数据湖与 CPFS 无缝的数据流动,使得训练数据也能传递到 CPFS 中,对数据 GPU 进行剖析,并将最终的后果写回到 OSS 做长期的存储。

不光在互联网畛域,包含主动驾驶、高性能计算等都曾经宽泛的利用数据湖。心愿有更多的用户能够在生产业务中引入阿里云数据湖。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0