共计 7990 个字符,预计需要花费 20 分钟才能阅读完成。
引言
近期,AIGC 相干产品如同雨后春笋个别不断涌现。但在技术层面,大家广泛的关注点更多集中在性能方面,却常常疏忽了存储对推理和训练效率的影响,以及 AIGC 内容可能带来的合规危险。咱们特邀腾讯云存储的产品负责人 崔剑老师和益企研究院创始人、腾讯云 TVP 张广彬老师(狒哥)围绕以上话题展开讨论。
AIGC 大模型须要通过多年的积攒和海量数据训练,能力达到目前的阶段。它是一个非常复杂的技术工程,波及到顶层的训练框架,两头的管控调度,以及底层的计算存储网络等各个层面的资源反对。
上面从存储的角度来探讨,为了让 AIGC 成长得更快,咱们须要做哪些具体的工作。
存储计划是 AIGC 模型业务落地的重要撑持
崔剑:
想求教一下狒哥,你从事存储畛域这么多年,应该接触过不少业界利用 AIGC 技术的团队。您能剖析一下存储计划对于整体 AIGC 模型的理论利用和商业化,到底有多大的影响力呢?
张广彬:
当初大家都在探讨大模型的参数量大小和 GPU 算力、网络等方面,而咱们作为存储畛域的从业者,会很容易地思考到海量数据的存储拜访。在 ChatGPT 刚衰亡的时候,我也看到一些存储厂商试图通过吸引人的题目来探讨大模型,然而阅读文章后却发现只是蹭热度的内容,让我感到悲观。
如果咱们真正深刻探索,会发现大模型对存储的性能要求十分高。举例来说,像英伟达的参考架构中,就提到了要有专门的存储网络,而且存储网络最好为 GPU 服务器提供 40 GB 的单节点(读)带宽。当然,这个要求还因利用类型而有所不同。以自然语言解决(NLP)为例,一个节点须要 4 GB/ s 的读取性能,写入则须要 2 GB/s。如果是压缩图像处理,比方 ImageNet,要求可能会高一倍,而如果解决的是高清视频或无压缩图像,则最好是 10 倍,即(读)40 GB/s 和(写)20 GB/s。这是十分高的性能要求,如果利用到单个计算节点上,会给零碎带来十分大的压力。即便深度学习工作中次要以读取为主,但这种压力也十分微小。我认为这是一个物理集群级别的问题,当然,你也能够在云上构建,但我认为这样的性能级别和要求在云上也是一样的。
崔剑:
是的,站在云解决方案的角度来看,腾讯云及其存储团队往年上半年收到了许多中国初创公司和大公司的需要,心愿建设基于云资源的大型模型训练平台。咱们作为云服务商,也为他们提供了很好的资源储备和解决方案。
例如咱们为国内一些当先的文生文和文生图平台提供存储服务。这些平台层级很高,这里的“高”并不仅仅指数据量的大小,还包含高质量的半结构化数据,因为他要训练模型的话,素材物料的准确性和精度很重要,这里的数据起源分两种。他们会从欧洲、北美一些成熟资源提供方获取一些曾经训练好的半结构化数据,让本人的大模型平台实现从 0~1 的冷启动。之后会再依据业务垂直的场景,基于本人这些场景下的积攒,产出一些新的素材来喂给大模型。整体的这些半结构化数据素材量其实是很大的,针对这些海量数据,咱们的第一步是帮忙用户解决原始素材的集中和传递的问题,因为这些素材可能来自不同的资源口,例如海内网站或本地 IDC。在这一步,咱们提供了欠缺的腾讯云存储迁徙服务,通过离线、在线、增量和全量等形式,帮忙开发者们将训练素材集中在一起。
资源会集过去当前,咱们比拟举荐将素材存储到腾讯云的对象存储 COS 中,素材存储到 COS 存储桶之后,会进行一些前置的荡涤和标注工作,相似于主动驾驶中的数据筛选,而后抉择出高质量和精确的数据,进一步传输到之前提到的 GPU 节点中。此外,因为读取大量训练素材对带宽的需要很高,所以咱们还在 COS 存储桶和 GPU 计算之间提供了欠缺的减速缓存层。其实在 AIGC 大模型训练中,先不说前面的工程环节,在第一步素材的收集整理就曾经是一项相当具备挑战性的工作,好在咱们通过团体外部积攒,以及对外服务 to B 客户的经验总结,曾经积淀了成熟的解决方案,也心愿后续能帮忙更多客户解决相似的问题。
大模型对存储带来了全新挑战?
大模型训练过程中,集群内的 GPU 成千上万,过程旷日持久,服务器或 GPU 等环节产生故障难以避免,故障复原面临两难:回滚时间段过长会影响我的项目工期,过短又对存储系统的写入性能提出了很高的要求……
张广彬:
以前大家常常说高性能计算是计算机皇冠上的明珠,AI、云计算和大数据都从中受害。我也有个惯性思维,会把它套到一些大的科学计算外面去,认为大模型训练把数据装进去当前,两头生成两头后果,会一直地就往回写的,并且感觉它的频率相对来说在它整个工作期间比例并不是很高。然而,我前段时间与一些从事大模型训练的敌人聊了聊之后有了新的意识,他们通知我,我的想法不对。像 ChatGPT 这样的模型就用了 1 万个 GPU,并且在高负载下间断工作数十天甚至更长时间进行训练。在如此宏大的规模下,每天可能会有 GPU 卡或 GPU 服务器产生故障。为了应答故障,就要设置 Checkpoint。以前大家可能每天设置一个检查点,但在大模型训练的场景下,万一故障可能须要回滚 24 小时,这样的(工夫)损失是无奈接受的。
因而,当初偏向于把 Checkpoint 设得更短。比方腾讯可能是每 15 分钟写一个检查点,据说文件大小可达到 TB 级别。尽管不是频繁写入,但仍须要同步写入。如果写入工夫过长会影响训练工作的失常进行,因而对写入的性能要求十分高。某个厂商提供的计划显示,一个检查点的写入须要 65 GB/s 的写入性能。只管不是频繁产生,但每一次写入的峰值会越来越高,这是十分宏大的工作量。
崔剑:
从 to B 服务方的角度看,我和狒哥理解得完全一致。大模型训练的确须要进行 Checkpoint 回滚的过程,起因狒哥曾经很透彻地解释了,因为在训练过程中可能会呈现废单或须要回退到某个阶段,回退并非为了退化,而是为了后退。只有保留 Checkpoint 这种备份机制,当呈现问题时,我能力疾速回退到之前的状态,而后基于回退点持续进行新的训练和剖析。如果停下来的话,会节约贵重的 GPU 工夫,因为 GPU 卡很低廉,咱们心愿充分利用它们。为了进步利用率,咱们须要提前创立一系列 Checkpoint 备份机制,以备不时之需。所以这个环节对于国内外各家平台都是必要的,然而也给基础设施层面提出了挑战。
狒哥提供的数据十分有参考价值,特地是 Checkpoint 回写的频率。从每天一次回写到几小时一次,甚至一小时屡次回写,我看到的是客户回写速度越来越快,这也代表着他们的算力和卡的数量越来越高。因为在雷同的训练框架下,如果 GPU 算力高、卡多或者下层训练框架调优得好,就能更快地达到下一个阶段,须要更频繁地进行 Checkpoint 回写。咱们很快乐看到客户在下层调优方面越来越欠缺,回写速度越来越快,这代表着独特的倒退。
只管回写得越来越快对于云服务来说是一个挑战,但咱们违心承受这个挑战。其实这也是云的劣势之一,云能提供较大的写入带宽,无论是几十 MB 还是几十 GB 都能做到。相比之下本地 IDC 搭建环境,为了存储资源的 IO 速度与底层资源的能力去“堆硬盘”,从老本角度来看很难做到很高的天花板。而咱们的云服务背地是整个腾讯云的集群,具备很大的弹性开释能力。所以我很乐意见证开发者敌人们的平台成长,同时咱们团队也在一直地优化底层能力与解决方案,以匹配大家对底层存储越来越高的弹性和资源诉求。心愿通过咱们的致力,以及咱们腾讯云团队、计算网络各个团队的独特作用下,能让大家做大模型训练的效率越来越高。
高并发带来存储资源有余“症”多级减速 + 弹性计划是良药
COS 是开发者十分相熟的底层对象存储服务,然而理论状况可能须要咱们进一步探讨原生对象存储的可行性。例如,当面临大数据集超出显存限度、大型模型频繁进行数据交换导致 IO 瓶颈等问题时,咱们须要寻找更多的解决方案。
张广彬:
咱们会更关注硬件方面,就是 IaaS 层以下的局部,当然也包含云存储。以英伟达提供的参考架构为例子,它实际上是分为三层,即分级存储或缓存策略。本地 GPU(俗称显卡)服务器外部的内存个别是 TB 级别的,比方能够装备 2TB 内存,带宽能够超过 200GB/s。这是除 GPU 显存以外性能最好的存储,它在性能上体现优良,但容量较小,适宜寄存一些不是特地宏大的自然语言解决模型的数据集。
那么对于更大的数据集,应该如何解决呢?GPU 服务器本地装备了 NVMe 存储(俗称固态盘即 SSD,NVMe 是其中较不错的通信协定),容量个别为几十 TB 级别,带宽大概为五六十 GB/s。尽管容量大了一个数量级,但性能和带宽绝对较低,它十分实用于一些压缩图像处理工作,比方 ImageNet 等利用的数据集能够寄存在本地缓存中,从而防止频繁拜访内部存储。
但如果数据集十分大,比方像 4K 视频或未压缩的高清图片,或者一些离线推理工作,本地缓存无奈包容,那可能仍需拜访(内部)存储,无论是 COS 还是其余存储形式。这可能是数据集读取一次的状况。依据我理解的状况,如果依照这个数量级,数据集可能在几十 TB 以上,单个节点超过几十 TB 以上,就不再适宜本地缓存了。不晓得在云上,这种状况是否能失去一些改善或增强?
崔剑:
腾讯云的用户往往是大规模的,思考云的起因是因为他们有大量的资源耗费。因而,腾讯云须要提供解决大规模存储、吞吐和减速的计划。开展说一下,腾讯云对象存储 COS 是腾讯云存储的底层服务,海量数据全副都存储在 COS 外面,它承载全量数据作为一个源站。
在模型训练过程中,咱们对 GPU 进行了模型训练,GPU 位于算力集群的前端,而 COS 则在其后。通常状况下,咱们须要将一批数据(例如三天为一批)一次性从 COS 中加载到算力集群的本地,而后再在本地进行一些向量化的 AI 训练。首先,一次性的拉取动作其实耗费蛮大的,同时数据到了本地或者本地的某个环境后,又会进行屡次的数据交换。因而,咱们充分考虑了客户的痛点,提供了整体的数据库存储三级减速解决方案。第一级减速是在机房级别预热数据,确保用户的训练数据提前加载到 GPU 算力所在的机房;第二级减速是通过相似 HDFS 的命名空间来解决大数据批处理荡涤的工作,防止间接在对象存储上进行操作;第三级减速是通过 GooseFS 文件系统将数据部署到用户的 GPU 集群本地,以晋升 IO 性能。这三级减速计划帮忙用户解决了大数据处理和 AI 训练中的痛点,并显著晋升了吞吐能力。腾讯云胜利地帮忙了许多 AIGC 平台实现高带宽读取需要。如果您对这些计划感兴趣,能够试用应用相干产品。
GooseFS 能够灵便地部署到用户的本地 GPU 集群。如果通过下层的算力去读一个远端的 COS 的话,只管 COS 弹性资源很多,但因为各家云都会有一个单通道带宽限度,腾讯云是每个 Bucket 会给您 15GB/s 的读带宽,听起来可能是不太够的。所以说如果选用近计算端的这套文件系统缓存的计划当前,把您 GPU(节点)本地的 NVMe 的盘全副用起来,充沛地开释本地盘的性能,整体的吞吐能力能够从 15GB/s 的带宽涨到 TB 级别的吞吐能力,间接晋升一个数量级,帮忙了 AIGC 的平台更好地去承接住海量高带宽要求。这里也是简略地做一个分享,如果大家有一些趣味的话也能够去理解一下咱们相干的产品。
另外在数据管理方面,腾讯云提供了多级存储解决方案,包含从“热到冷 ” 的规范存储、低频存储、归档存储和深度归档存储,共波及 5~6 档存储。腾讯云依据不同档位的存储需要匹配性能和容量,同时在硬件和软件层面进行翻新。软件层通过多个版本的迭代,从三正本到当初的 EC 技术,腾讯云在应答数据冗余方面积攒了丰盛教训。例如 QQ 空间海量的图片小文件,腾讯云采纳的 Block EC 技术在小文件写入时先写正本,正本状态下能让用户以比拟快的速度去读。多个小文件正本停留一段时间当前,通过引擎把它拼成个大文件,而后大文件再一点一点地刷新版本。通过这样的方法,把海量小文件的治理老本降下去。在海量数据管理这块,咱们腾讯云深耕了很多年,也违心把这些技术红利释放出来,让更多的用户体验到技术创新带来的价值与便当。
数据多方交互,成倍的内容合规危险如何治理?
在 AIGC 畛域,除了老本治理和容量性能外,推理产物的治理也是一个要害思考因素。用户在应用过程会沉积出宏大的内容库,这里外面难免会滋生一些涉黄、涉政、恐怖主义等不良内容,针对这个问题,咱们该如何解决?
张广彬:
以前是用户去产生内容,即 UGC;当初变成了 AIGC。AI 只有它响应了,就能够一直地生成内容,将来它的内容量可能会超过 UGC。此外,AIGC 有时候也会受到人为疏导的影响,人们会无意诱导机器答复一些问题,甚至问一些敏感的问题。当越来越多人应用 AIGC,其内容库将更容易产出危险内容,如色情、恐怖主义等等。
另外,我认为窃密也是危险方面要思考的因素。比方,之前三星的某位工程师向 ChatGPT 发问,后果导致一些秘密泄露。无论是爱护机器、AIGC 平台还是用户方,都须要强有力的措施,否则应用 AIGC 技术所带来的危险可能会超过收益。能够分享一下腾讯云在这方面的一些教训吗?
崔剑:
腾讯云存储团队在 AIGC 浪潮之前,曾经在数据处理和审核畛域积攒了多年教训。咱们服务的腾讯内外部的业务中,在搭配 CDN 散发之前就进行了相干的预处理,包含根底解决和数据审核。腾讯云提供的产品——数据万象,就是提供这方面的服务,它可能解决和审核存储在腾讯云上的数据,为用户提供多样化的解决能力。比方,压缩图片体积、调整视频和图片的尺寸、格局转换、增加水印等都能够轻松实现。国内对数据的审核环节十分的严格,特地是对于涉黄涉暴和政治敏感等违规内容的审查,腾讯云的解决方案倡议用户将推理产物通过数据万象的审核和 ” 绿化 ” 解决。
腾讯云给 AIGC 平台企业提供服务时发现,上游的用户不仅包含集体,还包含企业,这意味着须要为 B 端用户提供闭环解决方案,以治理为上游企业的客户提供的推理产物。对此,腾讯云企业网盘可能是一个适合的解决方案,它能够解决企业外部协同编辑、散发和备份的需要。
腾讯云企业网盘是一个企业级的产品,与集体网盘不同,它能够满足企业的需要。企业应用网盘能够解决三个痛点:协同编辑、散发和备份。协同编辑能够通过相似腾讯文档的性能实现多人同时编辑一个文档。散发方面,通过网盘生成外链,能够平安地将文件分发给团队成员,并可配置平安码、明码和有效期等参数。备份方面,企业能够在网盘中同步员工电脑上的数据,使外围材料对立备份并防止信息泄露的危险。
观众发问环节
可实现国内的训练数据资源对立或者单纯进行大规模训练吗?
崔剑:
从辩证的角度来看,我认为这位观众的想法是有情理的。他想通过整合寰球可取得的非打算和半打算训练数据,通过弱小的训练来晋升模型的成果,使其变得更加智能。
如果咱们国内有这样一个平台,并且心愿不断改进和倒退,咱们须要对立各类训练数据资源。这是一个倒退方向。以后看,各方面都在迅速倒退,但我认为将来可能会涌现出一些强势的领导者,通过单干、行业单干或政府单干形式,获取获取更多高质量的训练素材,成为畛域的引领者,为咱们的用户提供更好、更高质量的推理后果。
另一方面,咱们也看到一些特定畛域的玩家,比方气象、娱乐、生物医疗等垂直畛域,他们在垂直畛域中经营。他们首先不须要这个畛域之外的信息,这些信息只会烦扰他们。他们首先须要大量素材,但在我集体看来,当垂直利用呈现时,除了素材沉积外,谋求素材的品质也很重要。
这些畛域的厂商须要在品质上下功夫,并且须要在原始素材的筛选上下工夫。在之前的一次分享中,我与开发者敌人们探讨过一些相干问题,例如,他们认为如何进一步提高训练成果?除了计算能力和更好的模型调优之外,原始素材的品质也很重要,这取决于标注的准确性。在 AIGC 畛域的标注与传统的主动驾驶或生物计算畛域的标注不完全相同。因而,我认为咱们须要提出更业余、间接的问题,并通过问答的形式取得一组问题和答案,以更好地训练咱们的大脑使之更聪慧。
所以,咱们须要同时关注资源和素材的沉积,并器重素材的品质,这是我的观点。
张广彬:
大数据时代中的那句 ” 进来的是垃圾,进来的也是垃圾 ” 在这里还是的确实用。
AIGC 技术在其它场景的性能和成果如何?是否受到特定因素限度?
崔剑:
对于 AIGC 技术在其余场景中的性能和成果如何评估,咱们关注一些量化指标。比方,运行一轮物料所需的工夫,整体带宽等。更艰深些讲,咱们思考一个问题,在雷同的工作下,它能在 8 小时内实现还是 6 小时内实现?
对于两小时的差距,可能是背地花了 2000 个小时或者通过长时间的思考才将性能晋升。这里的晋升可能是多方面的,后面咱们探讨了存储层面的优化,抉择更好的云存储和多级减速,以确保存储不耽搁计算工夫。此外,高性能网络波及各种协定、容器技术、高性能 GPU 服务器也都是重要的因素。
另外,训练框架是一方面,咱们通常应用开源框架。其中有许多参数和技巧,关上某个参数可能会受到其余参数的影响,这与数据库调优相似,须要教训的积攒,所以我认为这是一项复合性的工作。
张广彬:
是的,所以相比数据库调优,这可能更加简单,否则怎么叫炼丹呢?甚至 OpenAI 也抵赖存在肯定必然性。
不同类型的数据,对存储和计算资源的需要是否不同?
张广彬:
后面咱们有提到过,原则上来说数据越大所需资源性能越高。
崔剑:
了解文字实际上就是将其切分为问与答的模式,将问题和答案中的词语进行分词。而后将这些关键词转化为向量,并在训练过程中存储到向量数据库中等等。
文生图要更难一点,须要咱们先去帮忙 GPU“大脑”去了解这张图,其实后期做的标注工作很重要,咱们先须要去通过一些前置的 AI 解决,去把这个图片外面的要害元素提取进去,“通知它”这张图里各元素具体的含意。视频相当于把每一帧看做一个图片,所以视频相比图片难度又晋升了一个量级。从这个逻辑来看,文本、图像、视频难度是递增的。
如何评估存储技术在训练大型模型的性能体现?是否有参考规范?
崔剑:
我次要从可用性、老本和性能三个方面来评估:
可用性:在抉择存储解决方案时,首要关注的是其稳定性和数据保护能力。云上的对象存储服务如腾讯云的对象存储(COS)提供了高于 99.995% 的可用性和 12 个 9 的可靠性。确保存储底座的可用性和可靠性程度是外围。
老本:商业化的存储解决方案须要思考关注的是——单位存储的老本,例如每 GB 每月或每 GB 每天的费用。咱们官网上有对应的报价,能够通过横向比照来评估云上对象存储的价格水平。腾讯云多年来专一于升高底层老本,并将老本劣势传递给客户,综合商业化评估来看,咱们价格和性能体现还是不错的。
性能:存储解决方案的性能体现间接影响计算效率和体验。关注的指标包含 IO 带宽、提早和读写性能。特地是对于大规模的 AI 模型工程训练平台,例如 GPU 集群,对存储的拜访性能要求高。掂量存储对计算效率的影响,存储速度快则计算效率高,带宽和 IOPS 等指标可用于评估性能是否达到预期。
计算资源受限时,如何正当调配利用资源实现最佳训练成果?
崔剑:
AIGC 训练的计算局部十分重要,其中外围是应用 GPU 训练大型模型。在 GPU 之前,还有数据荡涤和标注等环节,能够采纳弹性化的算力计划来防止计算资源成为瓶颈。对于训练环节来说,GPU 卡目前比拟稀缺,所以次要取决于您可用的卡片数量。如果卡片更多,计算能力可能更高,但如果卡片无限,您须要正当布局和安顿。首先要测试每张卡的性能,并依据测试后果合理安排工作,以防止达不到预期并影响后果输入。总体而言,调度正当和资源利用率是次要方向。
结语
AIGC 畛域的存储计划在推理和训练效率中起着重要撑持作用。咱们必须关注存储资源对大模型、高并发和多方交互带来的挑战,并妥善处理内容合规危险。
将来,多级减速和弹性计划将成为解决存储资源有余的要害,同时须要思考特定因素限度和不同数据类型的需要差别。通过建设评估规范和正当分配资源,推动存储技术创新,为 AIGC 畛域带来更高效、牢靠和可继续的倒退,推动人工智能的边界一直拓展。