正所谓:桃李春风一杯酒,江湖夜雨十年灯。

人工智能在过来十年中从实验室走向产业化生产,在语音辨认、文本辨认、视频辨认等感知畛域获得了微小冲破。

当初,你要是还没听过“通义千问”、“通义听悟”,出门都不好意思和他人打招呼。那么,以其为代表的 AIGC(AI Generated Content)又是如何凭实力每每破圈,其倒退更是经验了怎么的烈火烹油、鲜花着锦呢?

明天,咱们就来聊一聊。

聊之前,先插播一段广告:《算力赋能 AIGC 专题训练营》炽热开营,阿里云技术专家保姆式教学,利用文件存储 NAS 和机器学习平台 PAI,搭建当下最热的 AIGC 利用,戳这里>>,立刻参加!

一、从模拟到发明,AIGC “天生要强”

说到 AIGC,就不得不说与其绝对应的 PGC(Professional Generated Content)和 UGC(User Generated Content)。不论是 PGC 还是 UGC,都是以人作为内容的次要生产者(最早的“以人为本”的概念甚至能够追溯到两千多年前的管仲),而 AIGC 是以 AI 为外围来生产内容,因而二者有着显著的不同。

AIGC 技术次要波及自然语言解决 NLP(蕴含自然语言了解 NLU 和自然语言生成 NLG)、AIGC 生成算法、预训练模型、多模态等。这些技术实质上是应用 AI 算法对大量训练数据集进行学习,寻找已有数据的法则并适当触类旁通,从而使 AI 取得智能数字内容孪生能力、编辑能力、创作能力。

传统的 AI 偏差于剖析能力,个性化举荐就离不开它。但,当初,时代变了,版本改了。与传统的 AI 相比,在算法、算力、数据这三驾马车的拉动下,AIGC 青出于蓝而胜于蓝。

简略来说,次要有三大显著劣势:

首先是“无中生有”。让 AI 从感知、了解世界降级到生成、发明世界。传统模式中,AI 就像机械版王语嫣,考究“笔笔有来历”,给出的答复都出自当时存入的数据库。生成式 AI 在收到指令信息后,却会进行创造性地再创作。比方,生成式 AI 模型能够基于实在的人脸,生成事实世界中并不存在的人脸。

其次是“自我训练”。一杯茶一套题,目不转睛搞学习。AIGC 生成算法使得机器能够在海量数据上进行无监督预训练,不须要班主任盯梢,大大缩短了训练工夫,智能气味拉满。在此之前,模型机器训练(如主动驾驶)非常依赖人工数据标注,一旦转换场景就须要从新标注,须要消耗大量人力且低效。

最初是“走向通用”。能做到“举一反三”的通用人工智能,是人工智能的终极现实,AIGC 作为全村的心愿,正逐步凑近这个现实。在多模态技术的反对下,预训练模型向横跨文本、图像、语音、视频的全模态通用模型倒退。这对好 CP 携手,同一个AIGC 模型能力高质量地生产出多种类型的内容。

二、“三剑合璧”,驱动 AIGC 全面提速

2021 年之前,AIGC 生成的次要还是文字,主动写稿神器的存在感满满。现在,新一代模型能够解决的格局内容多点开花,不论是文字、图像,还是代码、音视频,统统不在话下。近日国家互联网信息办公室公布的《生成式人工智能服务治理方法(征求意见稿)》,就明确指出生成式人工智能包含基于算法、模型、规定生成文本、图片、声音、视频、代码等内容的技术。

AIGC 高质量内容产出的背地,离不开大型跨模态预训练模型的成熟。这是因为随着参数规模和模型性能的一直晋升,大语言模型 LLM(即Large Language Model,参数个别在百亿以上)在自然语言解决、计算机视觉、跨模态等畛域展现出较好的拓展性,并且一直扩大利用边界,继续推动 AIGC 的利用落地。

阿里“通义千问”大模型,就是由宏大数据集训练而成。要晓得,数据决定了机器学习算法的性能、泛化能力、利用成果;数据获取、标注、荡涤、存储也是机器学习瓶颈之一。“通义千问”弱小的通用语言能力背地,是超过 10 万亿的参数量。同时,通义千问还引入了常识图谱技术,对各类常识进行分层、演绎、关联,从而给出更为精确、全面的答案。阿里将凋谢通义千问的能力,为每一家企业打造本人的专属 GPT (一种预训练的语言模型)。

须要留神的是,AI 大模型的推理、训练高度依赖 GPU 芯片,就像唐僧离不开排头兵孙悟空。短少芯片会导致算力有余,算力有余意味着无奈解决宏大的模型和数据量。所以,不同厂商的 AI 模型会存在智商差距。有的能下笔成章,有的还在牙牙学语。

此外,AIGC 不仅须要大模型、大数据和高算力“三剑合璧”,也须要一个稳固、高效、平安的数字基础设施,来反对其实现生成、存储和传输内容的整个过程,并尽可能防止反复建设、缩小数据挪动的工作量。

云计算基础设施(包含高性能芯片、存储、计算、网络等)作为算力底座,重要性日益凸显,能够为 AICG 利用以及产业倒退提供可继续倒退的保障。因而,不少公司抉择把模型开发这项“AI 炼丹”的工作通过云来实现,以绝对较低的老本,满足突发性的算力需要。踊跃迎接 AIGC 时代的阿里云,也为客户架起了“炼丹炉”。

三、云存储“牵手” AIGC,老本更低、性能更高

AI 大模型的研发动辄要超千亿参数,其难度不容小觑。当下,在 AI 大模型赛道中,巨头派、海归派、守业公司转型派、学院派等各路选手争奇斗艳。国外头部企业偏差于通用场景下的 AIGC 能力,国内在 AIGC 利用方向更加场景聚焦。不过,有的选手在倒退 AIGC 业务的过程中,不可避免地遇到了一些挑战:

  • 数据贯通整个 AI 训练环节,存储存在孤岛,须要多套存储系统,在多零碎间频繁搬迁数据,存储效率低;
  • 训练模型须要百万级图片/文本素材,数据长期保留带来存储较高的老本;
  • 在大模型训练任务场景,动辄须要几百甚至几千张 GPU 卡的算力,服务器节点多、跨服务器通信需要微小,使得网络带宽性能成为 GPU 集群零碎的瓶颈。

为了革除这些“拦路虎”,更好地倒退 AIGC 业务,就须要一套成熟的计划,来承载训练、推理环节所须要的海量数据。

■ 低成本

应用阿里云对象存储 OSS 构建对立的数据存储底座,生命周期分层策略升高冷数据的存储老本。同时提供传输减速计划,升高海内用户的等待时间;围绕业务流动峰谷,文件存储 NAS 进行弹性扩缩容,进一步节省成本。

■ 高性能

文件存储 CPFS 不仅提供高达百 GB 的拜访带宽,能够满足成千盈百个节点同时拜访的需要,同时反对数据流动性能,减速训练环节的数据读写性能。同时,CPFS 配合 PAI-灵骏智算集群在模型训练上实现了 3 倍以上的减速成果,并且凭借自研高性能网络技术栈,进一步打消性能拓展的瓶颈;在推理场景下,文件存储 NAS 提供了多机 GPU 计算所需的标准文件接口、多机写和读一致性,以及高聚合吞吐性能。

AI 就像继承绝世武功且不走寻常路的江湖游侠,走的是下层路线,打的素来就是排行榜前列的,比方 AlphaGo 一上来就对战顶尖棋手,而 AIGC 则像是一个厚积薄发的一代宗师,借鉴独门心法,开宗立派。当初,AIGC 曾经成为各路英豪必争之地,在影视、娱乐、元宇宙等畛域更是一直地揭开新的篇章。

点击立刻收费试用云产品 开启云上实际之旅!

原文链接

本文为阿里云原创内容,未经容许不得转载。