关于aigc:从云存储的角度浅显的聊一聊-AIGC

6次阅读

共计 2824 个字符,预计需要花费 8 分钟才能阅读完成。

正所谓:桃李春风一杯酒,江湖夜雨十年灯。

人工智能在过来十年中从实验室走向产业化生产,在语音辨认、文本辨认、视频辨认等感知畛域获得了微小冲破。

当初,你要是还没听过“通义千问”、“通义听悟”,出门都不好意思和他人打招呼。那么,以其为代表的 AIGC(AI Generated Content)又是如何凭实力每每破圈,其倒退更是经验了怎么的烈火烹油、鲜花着锦呢?

明天,咱们就来聊一聊。

聊之前,先插播一段广告:《算力赋能 AIGC 专题训练营》炽热开营,阿里云技术专家保姆式教学,利用文件存储 NAS 和机器学习平台 PAI,搭建当下最热的 AIGC 利用,戳这里 >>,立刻参加!

一、从模拟到发明,AIGC“天生要强”

说到 AIGC,就不得不说与其绝对应的 PGC(Professional Generated Content) 和 UGC(User Generated Content)。不论是 PGC 还是 UGC,都是以人作为内容的次要生产者(最早的“以人为本”的概念甚至能够追溯到两千多年前的管仲),而 AIGC 是以 AI 为外围来生产内容,因而二者有着显著的不同。

AIGC 技术次要波及自然语言解决 NLP(蕴含自然语言了解 NLU 和自然语言生成 NLG)、AIGC 生成算法、预训练模型、多模态等。这些技术实质上是应用 AI 算法对大量训练数据集进行学习,寻找已有数据的法则并适当触类旁通,从而使 AI 取得智能数字内容孪生能力、编辑能力、创作能力。

传统的 AI 偏差于剖析能力,个性化举荐就离不开它。但,当初,时代变了,版本改了。与传统的 AI 相比,在算法、算力、数据这三驾马车的拉动下,AIGC 青出于蓝而胜于蓝。

简略来说,次要有三大显著劣势:

首先是“无中生有”。让 AI 从感知、了解世界降级到生成、发明世界。传统模式中,AI 就像机械版王语嫣,考究“笔笔有来历”,给出的答复都出自当时存入的数据库。生成式 AI 在收到指令信息后,却会进行创造性地再创作。比方,生成式 AI 模型能够基于实在的人脸,生成事实世界中并不存在的人脸。

其次是“自我训练”。一杯茶一套题,目不转睛搞学习。AIGC 生成算法使得机器能够在海量数据上进行无监督预训练,不须要班主任盯梢,大大缩短了训练工夫,智能气味拉满。在此之前,模型机器训练(如主动驾驶)非常依赖人工数据标注,一旦转换场景就须要从新标注,须要消耗大量人力且低效。

最初是“走向通用”。能做到“举一反三”的通用人工智能,是人工智能的终极现实,AIGC 作为全村的心愿,正逐步凑近这个现实。在多模态技术的反对下,预训练模型向横跨文本、图像、语音、视频的全模态通用模型倒退。这对好 CP 携手,同一个 AIGC 模型能力高质量地生产出多种类型的内容。

二、“三剑合璧”,驱动 AIGC 全面提速

2021 年之前,AIGC 生成的次要还是文字,主动写稿神器的存在感满满。现在,新一代模型能够解决的格局内容多点开花,不论是文字、图像,还是代码、音视频,统统不在话下。近日国家互联网信息办公室公布的《生成式人工智能服务治理方法(征求意见稿)》,就明确指出生成式人工智能包含基于算法、模型、规定生成文本、图片、声音、视频、代码等内容的技术。

AIGC 高质量内容产出的背地,离不开大型跨模态预训练模型的成熟。这是因为随着参数规模和模型性能的一直晋升,大语言模型 LLM(即 Large Language Model,参数个别在百亿以上 ) 在自然语言解决、计算机视觉、跨模态等畛域展现出较好的拓展性,并且一直扩大利用边界,继续推动 AIGC 的利用落地。

阿里“通义千问”大模型,就是由宏大数据集训练而成。要晓得,数据决定了机器学习算法的性能、泛化能力、利用成果;数据获取、标注、荡涤、存储也是机器学习瓶颈之一。“通义千问”弱小的通用语言能力背地,是超过 10 万亿的参数量。同时,通义千问还引入了常识图谱技术,对各类常识进行分层、演绎、关联,从而给出更为精确、全面的答案。阿里将凋谢通义千问的能力,为每一家企业打造本人的专属 GPT(一种预训练的语言模型)。

须要留神的是,AI 大模型的推理、训练高度依赖 GPU 芯片,就像唐僧离不开排头兵孙悟空。短少芯片会导致算力有余,算力有余意味着无奈解决宏大的模型和数据量。所以,不同厂商的 AI 模型会存在智商差距。有的能下笔成章,有的还在牙牙学语。

此外,AIGC 不仅须要大模型、大数据和高算力“三剑合璧”,也须要一个稳固、高效、平安的数字基础设施,来反对其实现生成、存储和传输内容的整个过程,并尽可能防止反复建设、缩小数据挪动的工作量。

云计算基础设施(包含高性能芯片、存储、计算、网络等)作为算力底座,重要性日益凸显,能够为 AICG 利用以及产业倒退提供可继续倒退的保障。因而,不少公司抉择把模型开发这项“AI 炼丹”的工作通过云来实现,以绝对较低的老本,满足突发性的算力需要。踊跃迎接 AIGC 时代的阿里云,也为客户架起了“炼丹炉”。

三、云存储“牵手”AIGC,老本更低、性能更高

AI 大模型的研发动辄要超千亿参数,其难度不容小觑。当下,在 AI 大模型赛道中,巨头派、海归派、守业公司转型派、学院派等各路选手争奇斗艳。国外头部企业偏差于通用场景下的 AIGC 能力,国内在 AIGC 利用方向更加场景聚焦。不过,有的选手在倒退 AIGC 业务的过程中,不可避免地遇到了一些挑战:

  • 数据贯通整个 AI 训练环节,存储存在孤岛,须要多套存储系统,在多零碎间频繁搬迁数据,存储效率低;
  • 训练模型须要百万级图片 / 文本素材,数据长期保留带来存储较高的老本;
  • 在大模型训练任务场景,动辄须要几百甚至几千张 GPU 卡的算力,服务器节点多、跨服务器通信需要微小,使得网络带宽性能成为 GPU 集群零碎的瓶颈。

为了革除这些“拦路虎”,更好地倒退 AIGC 业务,就须要一套成熟的计划,来承载训练、推理环节所须要的海量数据。

■ 低成本

应用阿里云对象存储 OSS 构建对立的数据存储底座,生命周期分层策略升高冷数据的存储老本。同时提供传输减速计划,升高海内用户的等待时间;围绕业务流动峰谷,文件存储 NAS 进行弹性扩缩容,进一步节省成本。

■ 高性能

文件存储 CPFS 不仅提供高达百 GB 的拜访带宽,能够满足成千盈百个节点同时拜访的需要,同时反对数据流动性能,减速训练环节的数据读写性能。同时,CPFS 配合 PAI- 灵骏智算集群在模型训练上实现了 3 倍以上的减速成果,并且凭借自研高性能网络技术栈,进一步打消性能拓展的瓶颈;在推理场景下,文件存储 NAS 提供了多机 GPU 计算所需的标准文件接口、多机写和读一致性,以及高聚合吞吐性能。

AI 就像继承绝世武功且不走寻常路的江湖游侠,走的是下层路线,打的素来就是排行榜前列的,比方 AlphaGo 一上来就对战顶尖棋手,而 AIGC 则像是一个厚积薄发的一代宗师,借鉴独门心法,开宗立派。当初,AIGC 曾经成为各路英豪必争之地,在影视、娱乐、元宇宙等畛域更是一直地揭开新的篇章。

点击立刻收费试用云产品 开启云上实际之旅!

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0