关于人工智能:GitHub趋势榜第一蚂蚁技术研究院发布强时序一致性视频处理技术CoDeF

70次阅读

共计 1291 个字符，预计需要花费 4 分钟才能阅读完成。

近日，在寰球开源平台 GitHub 上的一项视频解决畛域的研究成果热度飙升，公布仅一周工夫就在 GitHub 风行趋势榜单上的 Python 语言分类中冲到了第一。这就是由蚂蚁技术研究院交互智能实验室打造的最新视频解决算法 CoDeF，一项可能高度放弃视频时序一致性的的视频解决技术，能够轻松实现视频格调迁徙、视频关键点追踪（包含流体）、用户自定义的视频内容编辑等工作。

试验表明，CoDeF 技术可能毫不费力地将图像风格化算法降级为视频风格化算法，将图像关键点检测算法降级为视频关键点跟踪算法（甚至包含水和烟雾等非刚性物体的追踪），将图像语义宰割算法降级为视频物体跟踪算法，将图像超分算法降级为视频超分算法，同时反对用户可交互的视频内容编辑。

近年来，随着以图像生成、图像编辑等工作为代表的视觉内容生成畛域获得突破性停顿，视觉生成正向着视频方向的倒退。相比于图像来说，工夫维度的引入对生成视频的流畅性、保真度等方面提出了更高要求。目前的支流算法多受限于生成视频时序一致性较差的问题，导致其生成成果无奈间接在实在场景中利用。

为解决这一问题，蚂蚁技术研究院的研究员们提出了一种全新的解决思路——将视频解决简化为图像处理。具体来说，他们提出将视频示意为一个 2D 内容标准场（canonical content field）和一个 3D 工夫形变场（temporal deformation field），其中内容标准场负责整合一段视频中蕴含的所有纹理信息，而工夫形变场则负责建模视频里的动静信息。换言之，每一帧视频都利用这个形变场对内容标准场合编码的的标准图像（canonical image）进行变形，就能够复原出该帧图像。基于这种表征技术，视频解决工作能够简化为图像处理工作，用户只须要解决每个视频对应的动态标准图像，而后通过形变场的变换，就能够将图像处理后果天然地沿着工夫维度进行流传，达到对整个视频解决的目标，也因而保障了高度的时序一致性。

值得一提的是，研究者们设法尽量升高标准图像和实在图像的域差（domain gap），使得现有的图像算法能够不加任何训练地利用到标准图像上，实现视频解决。

该技术在 Github 公布并开源后，不仅在技术圈影响宽泛，在 Twitter 平台也“火”出了圈。不少 Twitter 网友直呼“不敢相信！”、“这是一个微小的飞跃！”，还有人说“只需给它一年工夫，就能被用在电影制作上了”。

这项技术由蚂蚁团体技术研究院交互智能实验室历时三个月工夫实现。我的项目次要负责人是蚂蚁技术研究院交互智能实验室研究员沈宇军，其次要钻研方向为计算机视觉和深度学习。我的项目的另外三位次要作者别离为香港科技大学的博士生欧阳豪、蚂蚁技术研究院的王秋雨、和浙江大学的博士生肖宇曦，其中第一名和第三名参与者当下为蚂蚁团体的研究型实习生。

自 2021 年成立以来，蚂蚁技术研究院始终致力做有用、有想象力的科研。面向数字化、智能化将来，瞄准世界科技前沿，推动要害核心技术攻关。其中，交互智能实验室次要聚焦计算机视觉和自然语言解决方向的根底模型钻研，开发通用人工智能算法架构，包含内容生成、多模态了解、数字化、人机交互等关键技术。

正文完