近期,短视频平台上“AI绘画”的概念爆火,ChatGPT这一词条也刷爆了科技圈,而这些概念同属于一个畛域——AIGC。2022年12月,Science杂志公布的2022年度迷信十大冲破中,AIGC入选。
那么,被称之为是AI下一代风口的AIGC到底是什么?   

AIGC的概念

AIGC全称为AI-Generated Content,即利用人工智能技术来自动生产内容。具体可基于生成反抗网络GAN、生成扩散模型和大型预训练模型等人工智能技术,通过已有数据寻找法则,并通过适当的泛化能力生成相干内容的技术。
AIGC曾经成为继PGC(Professional Generated Content,业余生产内容)和UGC(User Generated Content,用户生产内容)之后新型的内容创作形式。

AIGC是继PGC和UGC后又一内容创作形式
图片起源:A16Z,中金公司

其实AIGC的概念并非往年才呈现,在此前,相似于微软小冰等人工智能作诗、写作、创作歌曲的产品就属于AIGC的畛域。但2022年以来,AIGC又集中暴发,国内外的科技巨头公司和投资公司纷纷入局,其起因可能在于以下几点:
1.文本-图像生成模型Stable Diffusion的正式开源,包含程序和训练好的模型。这给了后继创业者一些高起点的机会,有利于更宽泛的C端用户遍及。
2.深度学习算力、互联网数据规模扩张以及生成扩散模型和多模态预训练模型等技术的疾速倒退,使人工智能技术也随之迅速倒退。从最后的文字生成逐步倒退为多模态和跨模态的内容生成。
3.现在各类社交和流媒体平台的遍及,也驱动着内容生产方式的演变。
4.外部环境因素影响。在经济低迷期间,科技行业会抉择相应收敛开销,并将重点放在像是人工智能商业化这类更求实的中央。   

AIGC的倒退历程

事实上,应用计算机生成内容的想法自上个世纪五十年代就曾经呈现,晚期的尝试侧重于通过让计算机生成照片和音乐来模拟人类的创造力,生成的内容也无奈达到高水平的真实感。联合人工智能的演进改革,AIGC的倒退能够大抵分为以下三个阶段:
晚期萌芽阶段(1950s-1990s),受限于科技程度,AIGC仅限于小范畴试验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,实现了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来实现交互式工作。80年代中期,IBM基于隐马尔可夫链模型发明了语音管制打字机“坦戈拉(Tangora)”,可能解决两万个单词。

世界上第一个机器人“伊莉莎(Eliza)”

沉积积攒阶段(1990s-2010s),AIGC从实验性向实用性逐步转变。深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都获得了重大突破,受到算法瓶颈的限度,成果有待晋升。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)拆卸的人工智能零碎通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部齐全由人工智能创作的小说《1 The Road》。2012年,微软公开展现了一个全自动同声传译零碎,通过深度神经网络(DNN)能够主动将英文演讲者的内容通过语音辨认、语言翻译、语音合成等技术生成中文语音。

世界上第一部齐全由人工智能创作的小说《1 The Road》

疾速倒退阶段(2010s-至今),深度学习模型一直迭代,AIGC获得突破性停顿。尤其在2022年,算法取得井喷式倒退,底层技术的冲破也使得AIGC商业落地成为可能。上面列举了一些迄今为止具备代表性的算法模型,其中次要集中在AI绘画畛域:

  • 2014年6月,生成式反抗网络(Generative Adversarial Network,GAN)被提出。
  • 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。
  • 2022年,扩散模型Diffusion Model逐步代替GAN。

上述三个算法是以后AIGC的技术外围,下述算法模型大部分都是以此为根底。

  • 2018年12月,NVIDIA推出StyIeGAN ,能够主动生成高分辨率图片。目前已降级到第四代模型。
  • 2019年7月,DeepMind推出DVD-GAN ,能够生成间断视频。
  • 2021年1月,OpenAI 推出DALL-E,是首个引起公众宽泛关注的文本生成图像的模型之一。
  • 2022年2月,开源AI绘画工具Disco Diffusion公布。
  • 2022年3月,Meta推出Make-A-Scene这一AI图像生成工具。
  • 2022年4月,OpenAI 推出了DALL-E-2,在图像分辨率、真实感和新性能上进行了降级。
  • 2022年4月,AI绘画工具MidJourney公布。
  • 2022年5月,Google推出Imagen,同样是文本生成图像的模型。
  • 2022年6月,Google推出parti,与Imagen性能雷同,但在模型算法、模型参数和图像成果等方面做了降级。
  • 2022年7月,开源AI绘画工具Stable Diffusion公布。
  • 2022年9月,Meta推出Make-A-Video,能够从文字生成视频。
  • 2022年10月,Google提出Imagen video,同样是文字生成视频的模型。
  • 2022年11月,Stable Diffusion 2.0公布,在模型算法、图像品质和内容过滤等方面做了降级。
  • 2022年11月,openAI推出 AI 聊天机器人chatGPT。
    对于上述算法模型的具体原理和剖析,能够期待咱们的下一篇文章哦~   

    AIGC的利用场景

    AIGC在面向不同对象和不同场景时,具备弱小的自适应创作能力,因而被利用在了多种场景。具体包含:

    【图像生成】

    该畛域目前发展势头最猛,且落地产品较多。依据应用场景,可分为图像编辑工具和端到端图像生成。图像编辑包含图像属性编辑(如去水印、格调迁徙、图像修复等)和图像内容编辑(如批改面部特色、换脸等)。端到端图像生成包含基于图像生成(如基于草图生成残缺图像,依据特定属性生成图像等)和多模态转换(如依据文字生成图像等)。
    典型的产品或算法模型包含EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。

    【视频生成】

    视频生成与图像生成在原理上有肯定相似性,可分为视频编辑(如画质修复、视频特效、视频换脸等)、视频主动剪辑和端到端视频生成(如文字生成视频等)。
    典型的产品或算法模型包含Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。

    【文本生成】

    基于NLP技术的文本生成能够算是AIGC中倒退最早的一部分技术,性能也较为多样。依据应用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包含内容续写、摘要/题目生成、文本格调迁徙、整段文本生成、图像生成文字描述等性能。交互式文本生成包含聊天机器人、文本交互游戏等性能。
    典型的产品或算法模型包含JasperAI、Copy.ai、彩云小梦、AI dungeon、ChatGPT等。

    【音频生成】

    音频生成中的局部技术曾经较为成熟,被利用于多种C端产品中。音频生成可分为TTS(Text-to-speech)场景和乐曲生成两类。其中TTS包含语音客服、有声读物制作、智能配音等性能。乐曲生成包含基于结尾旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
    典型的产品或算法模型包含DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

    【游戏生成】

    游戏生成次要包含游戏元素生成和游戏策略生成,其中游戏元素生成包含游戏场景、游戏剧情、NPC角色等元素的生成。游戏策略生成次要指对战策略,个别基于深度强化学习的技术。
    典型的产品或算法模型包含rct AI、超参数、腾讯AI Lab等。

    【代码生成】

    代码生成次要包含代码辅助的性能,包含代码补全、主动正文、依据上下文生成代码、依据正文生成代码等性能。
    典型的产品或算法模型包含Github Copilot、Replit、CodeGeeX、Mintlify等。

    【3D生成】

    与图像生成和视频生成相比,目前3D内容生成还处于较为初级阶段。现有的3D生成根本为基于图像或文本生成3D模型。
    典型的产品或算法模型包含Magic3D、DreamFusion、AVAR等。

    以后AIGC market map
    图片起源:Leonis Capital
       

    AIGC图像生成实例

    AIGC图像生成能带来许多乏味甚至实用的图像,比方以主动驾驶为例,corner case始终是令感知工程师头疼的问题,不足corner case场景的数据集训练进去的算法,往往无奈很好地应答corner case场景。
    然而重建或开掘corner case场景数据又是一件很艰难的事件,不过当初通过AIGC的形式,咱们可能通过算法生成corner case场景的图像,如下图所示,展现的就是算法生成的一系列红色大卡车侧翻的图像,尽管生成的图像真实度还有提高空间,然而也给咱们关上了新的一扇大门,大规模的生成用于AI算法训练的数据集。
    整数智能也将在后续的AIGC系列分享中,给大家分享如何在数据标注、模型训练等畛域充沛应用这些能力。

输出文本:一辆红色大卡车侧翻在高速路地方

输出文本:三辆红色大卡车侧翻在高速路地方

输出文本:十辆红色大卡车侧翻在高速路地方

参考文献

  1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
  2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]// International Conference on Machine Learning. PMLR, 2021: 8748-8763.
  3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications [J]. arXiv preprint arXiv: 2209.00796, 2022.
  4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation [C]// International Conference on Machine Learning. PMLR, 2021: 8821-8831.
  5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [J]. arXiv preprint arXiv: 2205. 11487, 2022.
  6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
  7. 中国信通院《AIGC白皮书》
  8. 量子位《AIGC:AI生成内容产业瞻望报告》
  9. 甲子光年《AIGC爆火的背地,钱都被谁赚走了》
  10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》