关于图像识别:AIGC数据处理与存储解决方案

2次阅读

共计 3959 个字符,预计需要花费 10 分钟才能阅读完成。

2023 年数智中国 AIGC 科技周· AI 云智上海专场在普陀区召开。流动以“智能涌现”、“算力解围”、“超过事实”三大篇章开启,第一篇章以“智能涌现”揭幕、重塑数实交融终极愿景;第二篇章“算力解围”,以 AI 为引擎,以计算为基石,构筑数字底座;第三篇章“超过事实”,引领“空间计算”新时代,进入“虚实相生”新阶段。

数智中国 AIGC 科技周开幕式

杨冠军 腾讯云存储解决方案专家架构师

针对在 AIGC 的场景下,如何解决在 AIGC 训练过程中数据的存储和数据处理的问题,杨冠军从三个方面进行介绍与解读:一是 AIGC 对存储提的新需要;二是介绍腾讯云能够给用户提供的整体存储解决方案;三是腾讯云提供的整体数据处理计划。

AIGC 的新需要:模型训练与利用推理的述求

我国每年产生的数据量出现十分大的增长趋势,这个前提还是前两年 AIGC 场景仍未呈现的状况。而当初从 UGC 到 AIGC 当前,置信整个行业产生的数据量会比这个更为宏大,如何解决这些数据,这些数据怎么利用到零碎上?这都对数据存储带来了更大的需要和挑战。

从最后收集的原始数据,基于这些数据做数据处理,产生对应预处理后的数据,而后再给前面的训练模型,能够看到在整个模型训练的过程当中,会带来很大的数据量增长,也带来了对数据的对立存储的需要。

腾讯云对此训练场景总结的需要有三点:一是数据湖的对立存储。在整个 AIGC 的过程当中,数据存储的量十分大,它带来的存储需要就须要用数据湖来解决,防止数据孤岛的问题。二是在各个业务的处理过程当中,数据流动的需要,这些数据如果用一些传统的文件存储的话,就会遇到数据孤岛的问题,因而须要一个对立存储来对其提供服务。第三是高吞吐和低提早,在 AIGC 的场景下,GPU 的算力是罕见和低廉的,客户心愿整个训练是跑的越快越好,对 GPU 应用的越满约好,这就对底层的存储提出了一个要求:越快的把数据读出来,越快的提供给下层训练,这样价值才是最高的。

在 AIGC 业务解决流程中,利用推理场景外围需要次要由内容审核与数据智理两局部组成。将训练好的模型部署后,并通过服务模式提供给用户,通常的逻辑就是用户提供 prompt,基于 prompt 生成一些数据。无论是文生文,文生图,还是视频等,这都要海量数据的存储,在腾讯云上都是通过对象存储来提供。而在这些数据生成的过程当中,基于有国家平安合规的监管要求,就须要用到腾讯云提供的内容审核和数据处理的能力。同时针对这些数据,用户心愿它可能有一些数据智理的性能,这里基于咱们对 AIGC 业务的梳理,用了一个智能的智,前面会具体的介绍该需要。

腾讯云存储解决方案

AIGC 的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储 COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理利用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。

AIGC 的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储 COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理利用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。​

最右边显示的是腾讯云提供的专门的数据迁徙上云服务,能够把用户收集到的数据、或友商上的数据导入腾讯云 COS 对象存储上。两头这部分形容的就是咱们提到的一站式存储解决方案,最底层是腾讯云海量存储的底座 -COS 对象存储,下面通过 GooseFS 和 GooseFSx 两种产品,来实现 AIGC 场景下数据预处理的减速、模型训练中的 POSIX 拜访的需要。

在数据爆炸性增长的时代,对象存储永远是最正当的存储底座,下面这个图是腾讯云对象存储 COS 的整体服务框架,在这个架构当中,最底层就是腾讯云自研的分布式对象存储引擎 Yotta,它可反对单集群 1 万台服务器,单集群 EB 级的存储,对原始的数据和 AIGC 生成的数据做对立数据湖存储是非常适合的。另外 COS 对象存储提供了规范、低频、归档、深度归档等多种存储类型,反对通过生命周期治理的形式来做适合的降本,让客户在领有一个海量的存储系统的同时,并且不会付出太高的存储老本。

在对接客户的数据预处理需要中,咱们发现通常节点本地有很多的闲暇磁盘能够利用,腾讯云 GooseFS 是一个分布式缓存零碎,能够无效的把计算节点的这些磁盘利用起来,来减速对底层对象存储的拜访,提供更高的读性能给下层利用。另外 GooseFS 也反对罕用的多种协定,包含了 HDFS、FUSE 及 S3 协定。在不同的利用场景下,GooseFS 能够无效的晋升下层利用拜访 COS 的性能,根本有 2 到 10 倍的性能晋升。

上面介绍下 GooseFS 在数据预处理场景下的最佳实际,其部署计划次要有低成本、高性能及高牢靠三个特点。低成本:GooseFS Worker 部署在计算节点上,利用计算节点 NVME SSD 作为缓存介质,提供 PB 级别缓存空间;高性能:通过 VPC 网络买通数据流,多节点能够构建 TB/ s 的吞吐能力;高牢靠:GooseFS Master 独自部署,3 节点通过 RAFT 协定保障 GooseFS 集群的高可靠性。

在 AIGC 的训练场景里,很多的拜访都是基于文件的接口,这跟传统的 HPC 或者是 AI 的场景里通过 POSIX 的语义拜访是统一的,咱们的 GooseFSx 产品提供的就是齐全兼容 POSIX 语义拜访的能力。

相比传统客户本人部署分布式文件存储服务,GooseFSx 整体有如下长处:
1. 全托管云服务,一键式购买发货,省去部署、调测等运维工作;
2. 齐全兼容 POSIX 文件语义,工作负载无需进行任何改变;
3. 按创立容量计费,按量付费、弹性扩容,防止资源闲置;
4. 主动部署客户端软件,将 GooseFSx 挂载到主机的本地目录;
5. 采纳分布式架构,性能随节点扩大而线性增长;

上面我重点介绍下 GooseFSx 与 COS 数据的自在流动的能力,这在基于 COS 提供数据湖对立存储,而后下层利用须要 POSIX 文件拜访的场景里是十分重要的。
1.COS 上的 Object 依照 Key,以雷同的目录构造射到 GooseFSx 上;
2. 关联多个存储桶:数据加速器能同时对多个存储桶进行减速;
3. 双向流动:能够从 COS 加载,并将新生产的文件沉降到 COS;
4. 自定义流动的策略:基于整个存储桶或自定义前缀、进行加载或沉降;
5. 增量同步:再次加载或沉降时,仅同步增量的数据
6. 数据流动工作:治理数据流动,输入工作报告,保障数据流动完整性,简略易用;

腾讯云数据处理计划

数据万象是腾讯云提供的一站式智能平台,整合腾讯当先的 AI 技术,打造数据处理百宝箱,提供图片解决、媒体解决、内容审核、文件解决、AI 内容辨认、文档服务等全品类多媒体数据的解决能力。

腾讯云外部有多个实验室,数据万象整合了腾讯前沿实验室技术能力,如 AI 实验室:根底算法;优图实验室:图像识别;多媒体实验室:编解码钻研;天御实验室:平安封控算法,联合腾讯行业当先业务最佳实际,如腾讯音乐:降噪、拆散等场景;腾讯视频:视频指纹、编解码等场景;腾讯新闻:图文审核等场景;腾讯全民 K 歌:歌唱评分、音乐标签等场景。

在 AIGC 的场景外面,目前大家关注最多的还是文本,随着前面多模态模型的倒退,会有越来越多的文生图、文生音频、文生视频场景,甚至还会有基于图片生成一段视频的形式。数据万象对这些能力都是笼罩的,包含图片的解决、音频解决及视频解决的能力。

国家始终有内容合规和审核的要求,在数据万象的性能中,还包含了内容审核的能力,无论是针对文本、音频还是视频,数据万象都提供了一整套的内容审核解决方案和能力,基于存储在 COS 上的数据,你能够十分不便的做业务内容审的对接。

总结来看,腾讯云提供的一站式数据处理有如下三点劣势:
一是便捷的染指,无论是对象存储还是数据万象,都是一体化的平台,提供一站式的存储和内容审核的计划;
第二是精准的模型,基于腾讯云对接的泛滥客户,咱们针对 AIGC 场景做了专门的审核模型和一些专项的优化;
第三是更高的性能,数据存储在对象存储上,其调用审核和解决都是在同一个园区内,这个流程加载和解决的时延是非常低的;

数据万象还有一个很棒的性能就是智能检索服务。在 AIGC 的时代,随着本人领有的数据越来越多,数据检索的需要也会越来越大。比方咱们在个人电脑上有几十 GB 的数据,检索到适合的数据就会让人感觉艰难,而随着 AIGC 的倒退,用户领有的数据会到 TB、PB 的量级,这个状况下要搜寻到适合的数据就会更加艰难。在大模型呈现后,咱们发现通过这种智能检索服务对文本、图片、视频做特征提取,而后把提取后的特色存储下来,前面再基于输出的文本做对应特色的匹配,这样搜寻的丰盛度和准确性都是很高的。

以后腾讯云数据万象反对的智能检索服务有:文搜图,图搜图,图搜视频,视频搜视频。智能检索服务的底层是数据万象的大语言模型,它是腾讯云基于受权的商业数据以及自有业务数据进行预处理抽取,机器翻译,模型荡涤,图文配对,人工校对等解决工作,而后训练进去的一个垂直畛域大模型。

在理论的利用需要中,智能检索服务能够无效的利用在多种图片检索场景,总结而言,数据万象有三点劣势:
一是通过智能扣图来建设特色库更为准确;
二是反对文本、图片的多种的检索状态,提供 API/SDK 的拜访形式较为便捷;
三是底层是腾讯云数据万象的自研的大语言模型,它可提供秒级的检测的后果;

总结回顾

围绕 AIGC,腾讯云提供了生成、审核、智理全生命周期的存储和数据处理解决方案,分为上面三个局部:
第一是数据生成,腾讯云有对象存储 COS、GooseFS、GooseFSx 对接咱们的大语言模型的训练,推理平台的构建;
第二是内容审核,通过数据万象中的内容审核来做一些合规性的审核,以此保障整个平台的平安;
第三是数据智理,通过智能检索的服务来做特色的匹配和查问,疾速满足下层业务需要。

正文完
 0