关于数据:海量数据拉升背后的成本困扰存算分离成美图降本增效新良方

114次阅读

共计 2698 个字符,预计需要花费 7 分钟才能阅读完成。

摘要: 如何疾速通过云化,实现资源利用率晋升,降本增效,突破传统零碎建设的数据孤岛,成为企业疾速倒退的关键所在。

随着 5G 和 AIoT 技术的倒退,数据量指数级增长,新的数据业务层出不穷。作为数字化时代的先行者,互联网企业利用大数据平台进行客户体验晋升、网络优化、精准营销等业务,“流量变现”带来了丰富的经济效益,同时海量数据的高速无效解决剖析问题也日益凸显,为应答数据量的激增,企业须要通过一直扩容带宽、CDN,减少计算、存储等资源,继续大量的老本投入成为制约企业飞速发展的绊脚石,急需一剂降本增效良方来突破枷锁。

传统大数据中心建设采纳存算一体的架构建设,在进行扩容时需按肯定的存算配比同步裁减,造成了大量的资源冗余,利用率偏低。当先的互联网企业曾经开始应用大数据存算拆散解决方案实现资源价值最大化,存储与计算资源全面云化、灵便配置、弹性伸缩,降本增效。上面一起来看看美图的优良实际:

作为国内当先的互联网企业,美图围绕着“美”发明了美图秀秀、美颜相机、美拍、美图手机等一系列软硬件产品,让用户轻松实现影像变美。自 2008 年 10 月成立以来,迅速扩张,截止日前美图的用户数已达 10 亿 +,海量数据存储 + 准实时处理已达 10PB 级,每天百亿接口调用。

但在继续高速倒退的背地,数据量指数级激增,海量数据存储、解决、剖析等问题日益凸显,何疾速通过云化,实现资源利用率晋升,降本增效,突破传统零碎建设的数据孤岛,成为企业疾速倒退的关键所在。

存算拆散 + 多样性算力助力美图降本增效

在美图原有的大数据中心中,计算和存储资源严密耦合。在这样的集群中,当存储空间或计算资源有余时,只能通过肯定比例对两者同时扩容。例如在平时工夫节点,存储与计算的资源使用率维持在 80%,当达到夜间 18:00-22:00 或节假日的高峰期时,用户的集中应用使得新增数据迎来一个波峰,原有存储空间就满足不了业务的倒退需要,此时需进行扩容操作,计算与存储同步扩容的后果导致存储资源使用率维持在高点,而计算资源利用率有余 50%,新扩容的计算资源就被节约了,经济效率低。

美图采纳了华为云大数据存算拆散计划,对计算与存储资源进行解耦,存储有余扩存储,计算有余扩计算,面对数据激增的浪涌弹性发放,资源灵便部署,计算存储资源利用率整体晋升 40%。

存储方面, 美图原有大数据中心应用原生的 Hadoop 架构存储数据,1:3 的备份形式使得大量存储空间被占用,华为独有的企业级 EC 可将正本率升高至 1:1.09,数据存储容量由原来的 20+PB 升高至 10+PB,存储资源优化晋升 50%。

计算方面, 华为云大数据存算拆散计划反对多样性算力,包含裸金属服务器、云服务器、容器和 Serverless 在内的多种粒度的算力反对,具备弱小的多核解决劣势,对 OBS 存储做了针对性的高并发能力优化,同时还对大数据引擎、操作系统层面及 JDK 等方面进行优化,使得分布式大数据处理性能晋升 20%。面对手机端、APP、不同区域不同部门的应用场景均能轻松应答,计算资源优化超过 10%。

高效的存算拆散架构,当先的存储技术和计算技术,成为了智能数据湖降本增效的三大利器。

“0 革新”平滑迁徙上云 异构兼容降老本

美图本来采纳自建 IDC(数据中心),但受限于物理介质的影响,IDC 机房的空间无限,无奈做到疾速的扩容,难以撑持业务波峰波谷,在下午 18:30 的业务高峰期,全国 20W 终端进行同时下载,高并发将导致 30% 的失败率。若对老旧设施进行更新换代,不仅要思考洽购周期长的问题,昂扬的洽购老本更是重中之重。

基于存算拆散的华为云大数据解决方案齐全兼容开源原生接口,全面兼容支流的大数据生态,让企业大数据利用“0 革新”平滑迁徙上云。美图大数据迁徙中波及数百业务、10PB 级数据、数千数据表 & 工作及上千节点数,华为云智能数据湖通过 CDM 工具批量迁徙历史数据和增量数据,利用 Kafka 流量或者 Nginx 流量复制 / 转发实时数据,因为华为云大数据与原有 IDC 的平台架构不同,为了保持数据信息的一致性,还需通过 HistoryServer 获取所有工作执行的 Stage 的 OutPutSize、InPutSize、RecordsNum 等信息,确保云上云下执行过程完全一致。最终实现美图大数据的全面云化,反对不同芯片的混合部署,反对有限扩容,面对业务顶峰再不会呈现下载失败的状况。既爱护了已有投资,又升高扩容的总成本。

智能数据湖打消数据孤岛 开释数据价值

作为一个坐拥十亿级客户的互联网企业,美图的利用已在 16 亿 + 的设施上进行激活,每月产生 60 亿张照片,月活用户数超 3 亿,数据总量已达 10PB+。海量数据的起源各不相同,各软件设施如美图秀秀、美拍、美艳相机等,各区域各业务部门等数据流均属于自建零碎模式,在原有的大数据中心无奈做到数据的对立标准、对立治理,海量数据被划分在一个个集群之中,无奈实现互通共享,数据反复拷贝率高,数据应用老本高、效率低。例如在美拍中生成的照片,若通过美图秀秀进行二次编辑,数据则需通过美拍零碎中进行调取复制再转到美图秀秀零碎中进行解决,数据在流通过程中尤为过五关斩六将,效率低下。

1. MRS 服务 100% 兼容开源大数据生态,联合周边丰盛的数据及利用迁徙工具,可能帮忙客户疾速实现自建平台的平滑迁徙,整个迁徙过程可做到“代码 0 批改,业务 0 中断”。

MRS 反对 WrapperFS 个性,提供 OBS 的翻译能力,兼容 HDFS 到 OBS 的平滑迁徙,解决客户将 HDFS 中的数据迁徙到 OBS 后,即可实现客户端无需批改本人的业务代码逻辑的状况下,拜访存储到 OBS 的数据。

  1. MRS 基于鲲鹏处理器进行软硬件垂直优化,充沛开释硬件算力,实现高性价比

MRS 反对华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,应用华为自研的操作系统 EulerOS、华为 JDK 及数据减速层,充沛开释硬件算力,为大数据计算提供高算力输入。在性能相当状况下,端到端的大数据解决方案老本降落 30%。

2020 年 9 月 23-26 日,华为将于上海举办第五届 HUAWEI CONNECT,携手来自寰球的业界思维首领、商业精英、技术大咖、先锋企业、生态合作伙伴、利用服务商以及开发者等,独特探讨行业数字化的倒退方向,展现 ICT 畛域的当先技术、产品和解决方案,分享成功实践,构筑凋谢、共赢的衰弱产业生态,共创行业新价值。

除了上海四天现场外,咱们将开启寰球直播 & 互动(包含主题演讲、峰会、专题演讲、线上展厅等),为您打造线下线上全场景体验之旅。敬请关注!

号外!!!华为云官网开发者推广招募打算正在炽热进行中,点击立刻理解详情

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0