关于人工智能:被称为下一代风口的AIGC到底是什么

27次阅读

共计 4951 个字符,预计需要花费 13 分钟才能阅读完成。

近期,短视频平台上“AI 绘画”的概念爆火,ChatGPT 这一词条也刷爆了科技圈,而这些概念同属于一个畛域——AIGC。2022 年 12 月,Science 杂志公布的 2022 年度迷信十大冲破中,AIGC 入选。
那么,被称之为是 AI 下一代风口的 AIGC 到底是什么?

AIGC 的概念

AIGC 全称为 AI-Generated Content,即利用人工智能技术来自动生产内容。具体可基于生成反抗网络 GAN、生成扩散模型和大型预训练模型等人工智能技术,通过已有数据寻找法则,并通过适当的泛化能力生成相干内容的技术。
AIGC 曾经成为继 PGC(Professional Generated Content,业余生产内容)和 UGC(User Generated Content,用户生产内容)之后新型的内容创作形式。

AIGC 是继 PGC 和 UGC 后又一内容创作形式
图片起源:A16Z,中金公司

其实 AIGC 的概念并非往年才呈现,在此前,相似于微软小冰等人工智能作诗、写作、创作歌曲的产品就属于 AIGC 的畛域。但 2022 年以来,AIGC 又集中暴发,国内外的科技巨头公司和投资公司纷纷入局,其起因可能在于以下几点:
1. 文本 - 图像生成模型 Stable Diffusion 的正式开源,包含程序和训练好的模型。这给了后继创业者一些高起点的机会,有利于更宽泛的 C 端用户遍及。
2. 深度学习算力、互联网数据规模扩张以及生成扩散模型和多模态预训练模型等技术的疾速倒退,使人工智能技术也随之迅速倒退。从最后的文字生成逐步倒退为多模态和跨模态的内容生成。
3. 现在各类社交和流媒体平台的遍及,也驱动着内容生产方式的演变。
4. 外部环境因素影响。在经济低迷期间,科技行业会抉择相应收敛开销,并将重点放在像是人工智能商业化这类更求实的中央。

AIGC 的倒退历程

事实上,应用计算机生成内容的想法自上个世纪五十年代就曾经呈现,晚期的尝试侧重于通过让计算机生成照片和音乐来模拟人类的创造力,生成的内容也无奈达到高水平的真实感。联合人工智能的演进改革,AIGC 的倒退能够大抵分为以下三个阶段:
晚期萌芽阶段(1950s-1990s),受限于科技程度,AIGC 仅限于小范畴试验。1957 年,莱杰伦·希勒 (Lejaren Hiller) 和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,实现了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966 年,约瑟夫·韦岑鲍姆 (Joseph Weizenbaum) 和肯尼斯·科尔比 (Kenneth Colbv) 共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来实现交互式工作。80 年代中期,IBM 基于隐马尔可夫链模型发明了语音管制打字机“坦戈拉(Tangora)”,可能解决两万个单词。

世界上第一个机器人“伊莉莎(Eliza)”

沉积积攒阶段(1990s-2010s),AIGC 从实验性向实用性逐步转变。深度学习算法、图形处理单元 (GPU)、张量处理器(TPU) 和训练数据规模等都获得了重大突破,受到算法瓶颈的限度,成果有待晋升。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)拆卸的人工智能零碎通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部齐全由人工智能创作的小说《1 The Road》。2012 年,微软公开展现了一个全自动同声传译零碎,通过深度神经网络(DNN)能够主动将英文演讲者的内容通过语音辨认、语言翻译、语音合成等技术生成中文语音。

世界上第一部齐全由人工智能创作的小说《1 The Road》

疾速倒退阶段(2010s- 至今),深度学习模型一直迭代,AIGC 获得突破性停顿。尤其在 2022 年,算法取得井喷式倒退,底层技术的冲破也使得 AIGC 商业落地成为可能。上面列举了一些迄今为止具备代表性的算法模型,其中次要集中在 AI 绘画畛域:

  • 2014 年 6 月,生成式反抗网络(Generative Adversarial Network,GAN)被提出。
  • 2021 年 2 月,openAI 推出了 CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。
  • 2022 年,扩散模型 Diffusion Model 逐步代替 GAN。

上述三个算法是以后 AIGC 的技术外围,下述算法模型大部分都是以此为根底。

  • 2018 年 12 月,NVIDIA 推出 StyIeGAN,能够主动生成高分辨率图片。目前已降级到第四代模型。
  • 2019 年 7 月,DeepMind 推出 DVD-GAN,能够生成间断视频。
  • 2021 年 1 月,OpenAI 推出 DALL-E,是首个引起公众宽泛关注的文本生成图像的模型之一。
  • 2022 年 2 月,开源 AI 绘画工具 Disco Diffusion 公布。
  • 2022 年 3 月,Meta 推出 Make-A-Scene 这一 AI 图像生成工具。
  • 2022 年 4 月,OpenAI 推出了 DALL-E-2,在图像分辨率、真实感和新性能上进行了降级。
  • 2022 年 4 月,AI 绘画工具 MidJourney 公布。
  • 2022 年 5 月,Google 推出 Imagen,同样是文本生成图像的模型。
  • 2022 年 6 月,Google 推出 parti,与 Imagen 性能雷同,但在模型算法、模型参数和图像成果等方面做了降级。
  • 2022 年 7 月,开源 AI 绘画工具 Stable Diffusion 公布。
  • 2022 年 9 月,Meta 推出 Make-A-Video,能够从文字生成视频。
  • 2022 年 10 月,Google 提出 Imagen video,同样是文字生成视频的模型。
  • 2022 年 11 月,Stable Diffusion 2.0 公布,在模型算法、图像品质和内容过滤等方面做了降级。
  • 2022 年 11 月,openAI 推出 AI 聊天机器人 chatGPT。
    对于上述算法模型的具体原理和剖析,能够期待咱们的下一篇文章哦~   

    AIGC 的利用场景

    AIGC 在面向不同对象和不同场景时,具备弱小的自适应创作能力,因而被利用在了多种场景。具体包含:

    【图像生成】

    该畛域目前发展势头最猛,且落地产品较多。依据应用场景,可分为图像编辑工具和端到端图像生成。图像编辑包含图像属性编辑(如去水印、格调迁徙、图像修复等)和图像内容编辑(如批改面部特色、换脸等)。端到端图像生成包含基于图像生成(如基于草图生成残缺图像,依据特定属性生成图像等)和多模态转换(如依据文字生成图像等)。
    典型的产品或算法模型包含 EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。

    【视频生成】

    视频生成与图像生成在原理上有肯定相似性,可分为视频编辑(如画质修复、视频特效、视频换脸等)、视频主动剪辑和端到端视频生成(如文字生成视频等)。
    典型的产品或算法模型包含 Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video 等。

    【文本生成】

    基于 NLP 技术的文本生成能够算是 AIGC 中倒退最早的一部分技术,性能也较为多样。依据应用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包含内容续写、摘要 / 题目生成、文本格调迁徙、整段文本生成、图像生成文字描述等性能。交互式文本生成包含聊天机器人、文本交互游戏等性能。
    典型的产品或算法模型包含 JasperAI、Copy.ai、彩云小梦、AI dungeon、ChatGPT 等。

    【音频生成】

    音频生成中的局部技术曾经较为成熟,被利用于多种 C 端产品中。音频生成可分为 TTS(Text-to-speech)场景和乐曲生成两类。其中 TTS 包含语音客服、有声读物制作、智能配音等性能。乐曲生成包含基于结尾旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
    典型的产品或算法模型包含 DeepMusic、WaveNet、Deep Voice、MusicAutoBot 等。

    【游戏生成】

    游戏生成次要包含游戏元素生成和游戏策略生成,其中游戏元素生成包含游戏场景、游戏剧情、NPC 角色等元素的生成。游戏策略生成次要指对战策略,个别基于深度强化学习的技术。
    典型的产品或算法模型包含 rct AI、超参数、腾讯 AI Lab 等。

    【代码生成】

    代码生成次要包含代码辅助的性能,包含代码补全、主动正文、依据上下文生成代码、依据正文生成代码等性能。
    典型的产品或算法模型包含 Github Copilot、Replit、CodeGeeX、Mintlify 等。

    【3D 生成】

    与图像生成和视频生成相比,目前 3D 内容生成还处于较为初级阶段。现有的 3D 生成根本为基于图像或文本生成 3D 模型。
    典型的产品或算法模型包含 Magic3D、DreamFusion、AVAR 等。

    以后 AIGC market map
    图片起源:Leonis Capital
       

    AIGC 图像生成实例

    AIGC 图像生成能带来许多乏味甚至实用的图像,比方以主动驾驶为例,corner case 始终是令感知工程师头疼的问题,不足 corner case 场景的数据集训练进去的算法,往往无奈很好地应答 corner case 场景。
    然而重建或开掘 corner case 场景数据又是一件很艰难的事件,不过当初通过 AIGC 的形式,咱们可能通过算法生成 corner case 场景的图像,如下图所示,展现的就是算法生成的一系列红色大卡车侧翻的图像,尽管生成的图像真实度还有提高空间,然而也给咱们关上了新的一扇大门,大规模的生成用于 AI 算法训练的数据集。
    整数智能也将在后续的 AIGC 系列分享中,给大家分享如何在数据标注、模型训练等畛域充沛应用这些能力。

输出文本:一辆红色大卡车侧翻在高速路地方

输出文本:三辆红色大卡车侧翻在高速路地方

输出文本:十辆红色大卡车侧翻在高速路地方

参考文献

  1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
  2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]// International Conference on Machine Learning. PMLR, 2021: 8748-8763.
  3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications [J]. arXiv preprint arXiv: 2209.00796, 2022.
  4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation [C]// International Conference on Machine Learning. PMLR, 2021: 8821-8831.
  5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [J]. arXiv preprint arXiv: 2205. 11487, 2022.
  6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
  7. 中国信通院《AIGC 白皮书》
  8. 量子位《AIGC:AI 生成内容产业瞻望报告》
  9. 甲子光年《AIGC 爆火的背地,钱都被谁赚走了》
  10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》
正文完
 0