共计 2001 个字符,预计需要花费 6 分钟才能阅读完成。
COS 数据湖存储引领大数据存储和主动驾驶存储发展趋势数据是企业的外围资产,随着数据规模的快速增长,企业对存储性能和性能的要求也在一直减少。对云厂商和企业用户来说,如何在晋升业务性能的同时降低成本是一微小挑战。11 月 26 日在 QCon 大会上,腾讯云数据湖存储研发负责人严俊明和技术专家程力受邀分享了数据湖存储的关键技术,并分享了数据湖存储在大数据及主动驾驶场景下的落地实际,助力用户业务降本增效。
上面,让咱们一起回顾下两位老师的精彩演讲内容
数据湖是一种可拓展的技术架构,将数据存储、计算、剖析、AI 等能力集成整合为一款多元化的解决方案,从数据中开掘价值;反对多种数据源,无缝对接各种计算剖析和机器学习平台,突破数据孤岛;利用私有云对象存储做数据湖存储底座,让数据具备高弹性扩大、高持久性、高可用性,并升高了存储老本。
数据湖存储的底座 - 可靠性 12 个 9 的 ZB 级海量对象存储 COS
对象存储 (Cloud Object Storage) COS 是腾讯云推出的无目录层次结构、无数据格式限度,可包容海量数据且反对 HTTP/HTTPS 协定拜访的分布式存储服务。技术架构应用了 YottaStore 自研存储引擎,单集群最多可扩大至百 EB 数据规模,弹性伸缩策略让数据主动进行缩容或扩容,帮忙用户平缓度过业务暴发期。
COS 推出的新一代高可用机制,保障机房故障时读写申请失常执行,业务拜访可用性达到 99.995% 以上,让用户近乎无时无刻能够拜访到数据。此外,COS 新一代同城多活架构基于 Block EC 能力,将小文件在多正本层暂存,积攒成逻辑 Block 后进行 EC 编码,在利用 EC 编码技术将数据分块、分机房存储,数据可靠性晋升至 12 个 9 以上,为数据安全保驾护航。
COS 作为一款云端存储产品,用户无需进行传统硬件的洽购、部署和运维,从而节俭了运维工作和托管老本;反对按量付费,且无容量限度,用户无需事后领取任何预留存储空间的费用;COS 还提供多样化的存储类型,笼罩数据热、温、冷和离、在线存储能力,用户更可通过生命周期治理进行数据降冷,进一步降低成本。
COS 三级减速 GooseFS 打造大数据存储行业性能标杆
客户为教育行业当先企业,原在友商云中自建大数据集群,但在双减的背景下面临严厉的老本压力,须要降级集群运行和保护老本。原有的存算一体技术架构弊病也逐步凸显,用户计算和存储资源配比无奈按需调整,存储占用容量高导致节点数量无奈缩减,使得存储资源利用率不高,不足弹性能力,客户大数据业务的架构降级势在必行。
腾讯云存储将客户原有的存算一体计划革新为 EMR+COS 存算拆散计划,通过 GooseFS 缓存层和元数据减速晋升数据拜访性能,COS 减速对 COS 热数据做读减速,客户整体作业执行工夫缩短 20%;此外大量应用基于 AMD 的 SA2 低成本机型再叠加对象存储 COS,仅局部节点部署 GooseFS Server,该存算拆散计划帮忙客户升高 40% 以上老本。
数据湖加速器 GooseFS 赋能混合云,助力主动驾驶训练
近几年间,主动驾驶行业飞速发展,越来越多的车企抉择数据上云。车企 IDC 通过云联网同腾讯云建设高速网络连接,数据在私有云存储和 IDC 存储之间自在流动,无缝应用云上弹性计算资源,帮忙用户聚焦本身业务。
腾讯投入构建主动驾驶云专区,供全套 DevOps 工具,联结主动驾驶行业优良的算法、仿真引擎和产业链生态利用,造成以主动驾驶数据为外围、服务算法研发与继续迭代优化的闭环解决方案,提供牢靠、平安、稳固的主动驾驶专有云服务。
在存储层面,依据业务需要,客户抉择可抉择存储一体机 TStor OneCOS 和对象存储 COS 产品,通过 GooseFS 系列产品(全家桶),全面笼罩主动驾驶业务场景,减速大数据和 AI 训练业务。
GooseFS 系列产品(全家桶):
GooseFS:计算端 COS 缓存,提供 HDFS、POSIX 语义,利用计算节点资源,为数据预处理、训练场景,提供低成本、海量小文件读取减速服务。
GooseFS-Lite:计算端轻量级 COS 数据接入,提供 POSIX 语义;针对仿真大文件、高吞吐数据读取场景。
GooseFSx:高性能并行文件缓存,高度兼容 POSIX 语义;为数据预处理、模型训练提供数据输入(写)服务,反对 Windows 零碎对接能力。
这里分享一位主动驾驶行业高端车企的案例,客户在 AI 训练的过程中,将训练、仿真、测评、模型、地图等数据存储在本地 IDC,存在硬盘老本过高,EKS 集群数据无奈共享等痛点。主动驾驶专云解决方案将采集到的车辆原始数据先写入本地 IDC,之后通过 TStor OneCOS 将数据上传到云上对象存储 COS,为客户在本地 IDC 提供海量、低成本对象存储服务。
原始数据在进行预处理后(抽帧,标注),生成训练数据集;黑石 GPU 集群通过 GooseFS 缓存减速,运行 TensorFlow 训练任务。这里 GooseFS 缓存服务来大幅晋升存储性能,进步业务效率。