5 月 26 日,2023 数据基础设施技术峰会在苏州举办,腾讯云首席存储技术专家温涛受邀缺席并分享了腾讯云当先的存储技术在 AIGC 场景中的利用,通过对 AIGC 业务流程和场景的提炼,从内容生成、内容审核和内容智理三要素介绍了如何智能的存储和治理数据。上面咱们一起回顾下温涛的精彩分享。
从去年年底到今年年初,由新版本的 ChatGPT 公布开始,寰球掀起了一股 AIGC 的话题狂潮。AIGC 触发了内容生成的反动,也引爆了泛滥行业颠覆式的翻新。人工智能忽然就从高科技研究课题,演进为渗透到咱们每个人生存中的商业产品。
AIGC 是应用人工智能技术生成内容的工具,它蕴含了文本、音频、图像、视频的生成,以及这几者之间的跨模态生成。我认为 AIGC 的商业化落地节奏,大抵能够分为三个阶段:
1. 通用场景的利用落地
- 垂直行业的利用落地
3. 创新型综合场景的利用落地
通用场景是基于单纯的文本、图片、音视频的 AI 生产内容技术,提供给设计、媒体、娱乐、客服征询等没有太强行业属性的企业和集体,解决绝对根底的 AI 市场需求。代表性的利用包含了 ChatGPT 和 Midjourney。这个场景依赖的技术绝对比拟成熟,曾经具备很多理论的商业化落地。
垂直行业是进一步把 AIGC 的能力和具体行业特点相结合,提供给强行业属性的企业,来晋升技术和服务水平,进步行业生产效率。比方主动驾驶和医疗生物基因。这类利用目前还处于商业化前的基于预训练根底之上的 Fine Tuning 阶段,技术方面的问题基本上可能失去解决,商业模式也比拟明确,商业化落地节奏属于正在进行时。
创新型综合场景所对应的行业,是比拟新兴的具备前瞻性和实验性的场景,以机器人和元宇宙为代表。在这类场景,AIGC 只是核心技术的一部分,还依赖硬件和商业模式等计划的翻新。这类场景还处于技术储备和商业落地摸索阶段。
目前腾讯云 AIGC 存储解决方案,聚焦在通用场景和垂直行业这两类 AIGC 利用的反对。尤其是在图片、音视频和主动驾驶畛域有了很多尝试、验证和落地。
咱们在理论我的项目中对 AIGC 业务解决流程进行了梳理。依照程序,流程次要分为数据收集、数据预处理、特色工程、模型训练、利用推理这几个环节,也能够聚合为模型训练和利用推理两个阶段。
在理论的我的项目中,咱们理解到客户对训练场景的存储能力有几个要求:
1. 因为在每一个环节的前后,都波及对数据的存储、加工、治理和流动,所以须要一种数据湖状态的对立存储来简化对数据的治理,进步数据流动的效率,并减低数据流动所带来的老本
- 大模型训练须要极高的算力,算力越大,训练速度越快,综合老本越优。训练过程中须要对数据进行读取和写入,须要存储性能和算力造成匹配,否则容易成为整个解决流程的短木板。
- 鉴于对 AIGC 生成物的侵权和合规性要求,在推理阶段须要对生产的内容进行审核和治理。
通过对业务流程和场景诉求的总结提炼,AIGC 的外围因素,能够归结为内容生成、内容审核和内容智理三个因素。其中内容生成包含大模型训练和推理平台构建;内容审核包含对图片、文本和音视频等生成物的内容审核和数据处理;内容智理包含对生成物的内容分类、标注、内容特色的生产和查问 … 腾讯云在 AIGC 场景的存储解决方案,就是根据这三个外围因素来进行设计的。
接下来,我会围绕这三个外围因素,从数据存储与治理的角度,别离介绍腾讯云的解决之道。
内容生成之道
咱们应用了数据湖存储来满足场景的要求,利用对象存储 COS 实现了通过一种存储类型,来满足各个环节对存储的需要,无需数据迁徙,即可实现数据的对立接入,和数据的自在流动。同时利用数据加速器 GooseFS 的缓存减速能力,大幅度晋升了数据处理和训练性能。应用 COS+GooseFS 的数据湖存储计划,也大大降低了 AIGC 零碎的存储老本。
什么是 GooseFS?
GooseFS 是一种利用计算侧资源实现数据缓存减速的存储服务,实用于大数据分析、AI、HPC、基因测序、渲染等多种场景,配合 COS 对象存储,为客户提供低成本高性能的存储能力。
GooseFS 有以下几个特点:
- 多协定反对:能够对接 HDFS、FUSE 和 S3 等多种协定;
- 反对云原生部署:能够通过容器化部署,也能够和 Hadoop 进行集成;
- 能够应用内存和 SSD 等不同性能的介质作为缓存介质,实现多级缓存,依据不同的缓存介质,GooseFS 能够提供 2~10 倍的性能晋升。
如何实现多级缓存减速?
面向不同的业务场景,会有不同的数据量和不同的性能要求。以 AIGC 场景为例,对于 NLP 和 GPT 场景,训练所需的数据量通常在 10~100TB,所需的存储空间不大,然而 IO 模型属于每次字节级的读操作,对时延要求很高。应用 GPU 节点自带内存的残余空间作为缓存的存储介质比拟适合,不须要额定配置 SSD。而对于 ViT 和 Diffusion 这类图片模型训练场景,数据量通常在 100T~1PB,就不适宜放在内存里,选用本地的 SSD 介质能够达到更优的性价比。对于须要长期寄存的原始数据,就能够放在 COS 里做长久化,从而降低成本。通过 GooseFS 多级缓存减速机制,就可能精细化的满足各种不同场景的性能要求。
因为训练场景须要读取海量文件,就须要缓存零碎反对对海量文件规模的治理能力。咱们来看看 GooseFS 在程度和垂直两个方向别离是如何实现的。
程度方向上,也就是在跨节点方向上,GooseFS 采纳分布式元数据架构,通过分布式 KV 治理元数据,元数据规模能够按需横向线性扩大。
垂直方向上,也就是在节点外部,GooseFS 利用 Numa 绑核绑内存来部署 KV 过程,从而使单节点能够部署多个分布式 KV 过程。
通过上述两个方向上的技术,GooseFS 能够反对治理百亿文件规模的元数据,满足单集群治理海量训练数据集的需要。
AIGC 训练时到底可能反对多大的体量的文件数?如何保障存储系统性能?要害的点就是元数据管理。
GooseFS 反对 Master 的多机并发读,元数据服务由一个 Leader Master 和若干 Follower Master 形成,Follower Master 承载跟 Leader 一样的读流量,元数据 QPS 性能随着 Master 节点的数量呈线性减少。从而能够提供百万级 QPS 的元数据拜访能力。
GooseFS 也反对私有化部署,来构建混合云缓存计划。基于数据湖搭建混合云大模型训练平台,做到一份 Dataset,多地训练。通过这个计划,在数据湖上保留一份数据,能够通过缓存的机制把数据带到任何计算相干的地点去。
除了数据减速以外,腾讯云面向 AIGC 训练场景提供了端到端的解决方案。基于腾讯云高性能计算集群 HCC、TACO 训练减速、TCCL 网络减速、GooseFS 数据减速,构建了 AIGC 大模型训练和推理利用平台。
存储方面,依附 COS 的海量存储能力 +GooseFS 的数据减速能力,提供高性能低成本的存储,可为 AI 集群训练疾速提供数据。
计算方面,高性能计算集群 HCC 通过自研服务器提供最新代次 A800、H800 实例。通过 TACO Train 减速套件,提供软硬件协同优化,反对训练性能晋升 30% 以上。
网络方面,基于自研星脉网络架构,提供最高 3.2Tbps RDMA 网络,联合自研拥塞控制算法及 TCCL 汇合通信库减速分布式训练通信效率。
内容审核之道
腾讯云数据万象 CI 基于深度学习的文本、图片、音视频检测技术,联合腾讯深耕内容畛域积攒的海量训练数据,能够精准高效辨认出生成数据中的敏感信息。提供包含色情、涉政、暴恐、广告等多种合规问题的审核能力。对 AIGC 的输出和输入环节进行把控,帮忙客户躲避经营危险。
CI 整合了腾讯多个前沿实验室的技术能力,包含了 AI 实验室的根底算法能量流、优图实验室的图像识别能力、多媒体实验室对编解码的钻研,以及天御实验室的平安风控算法。同时具备腾讯多年在泛互行业的实践经验。此外 CI 还打造了无代码,0 根底入门,无需下载,省时好用的智能解决工具 - 智能工具箱,升高技术接入门槛。
内容智理之道
AIGC 存储解决方案复用了腾讯企业网盘的一些能力,能够对 AI 生成物提供权限划分、在线编辑、协同办公等企业化文件治理能力,助力终端用户和企业客户更好的对 AI 生成物进行治理,晋升工作效率。
总结
腾讯云存储解决方案,围绕 AIGC,提供了涵盖内容生成、内容审核和内容智理的全生命周期的数据存储与治理解决方案,很好的做到了高性能和低成本两个指标方向的兼顾,为基于海量数据的 AI 训练提供了松软的存储与治理的数据底座。