关于算法:关于蚂蚁技术研究院的那些事儿|交互智能实验室篇

40次阅读

共计 1450 个字符,预计需要花费 4 分钟才能阅读完成。

近日,计算机视觉三大顶级会议之一 CVPR 2023 论文接管后果正式颁布。据官网信息统计,2023 年共收到 9155 份无效投稿,较 22 年减少 12%,投稿论文数量创下新高,最终接管论文 2360 篇,接管率为 25.78%。

此次蚂蚁技术研究院交互智能实验室共有 13 篇论文入选,论文钻研方向次要集中于生成模型与三维视觉畛域。

交互智能实验室

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室次要钻研方向为生成模型、三维视觉、多模态及人机交互。实验室成员来自清华大学、浙江大学、中国科学技术大学、香港中文大学、香港科技大学等。目前与清华大学、上海交通大学、香港大学、牛津大学、加州大学伯克利分校等多所海内外高校均有单干。在过来的一年多工夫里,蚂蚁技术研究院交互智能实验室进行了生成模型与三维视觉畛域的多项钻研,包含根底生成模型(如生成反抗网络、扩散模型等)、生成模型的可控性与可解释性、三维感知的生成模型与视频生成模型、数字人及数字场景等细分畛域,获得了肯定阶段性的成绩。截至目前,交互智能实验室共有 21 篇论文被国内顶会录用,其中 ICML2022 录用 2 篇,NeurIPS 2022 录用 4 篇,TPAMI2022 录用 1 篇,ICLR2023 录用 1 篇,CVPR2023 录用 13 篇,聚焦计算机生成模型、三维视觉等畛域的相干问题,为解决学术问题而不懈努力。

入选论文推介

获 CVPR 2023 收录:

Learning 3D-aware Image Synthesis with Unknown Pose Distribution
现有的三维感知图像生成工作须要一个精确的三维姿态(3D pose)先验来保障生成品质。然而获取一个精确的姿态先验是很艰难的,通常须要大量的试验调试。为此,蚂蚁技术研究院交互智能实验室提出了用 PoF3D 来罢黜模型对三维姿态先验的依赖。首先,交互智能实验室为生成器装备了一个姿态学习器来从隐空间中推断出一个姿态,以主动学习实在图像的姿态散布。而后,为判断器设计了一个姿态预测的分支,并利用预测出的姿态作为判断图像虚实的条件。在多个数据数据集上的试验表明,咱们的办法在不借助任何先验的状况下,在图像品质和几何品质的测量指标上都达到了畛域内的领先水平。

获 ICLR 2023 收录:

Towards Smooth Video Composition
论文提出了一个新的视频生成办法——StyleSV。基于生成反抗网络(GAN)的图片生成钻研工作于近年尽管获得了显著的停顿,然而如何利用 GAN 进行视频生成仍是一个颇有挑战的问题。面对这个挑战,蚂蚁技术研究院交互智能实验室针对不同跨度(短时、适中、长范畴)的时序关系,别离对视频进行了粗疏的建模与改良,并在多个数据集上获得了相较于之前工作大幅度的晋升,为基于 GAN 的视频生成方向提供了一个简略又无效的新基准。

蚂蚁技术研究院和他的实验室们

致力于做有用、有想象力的科研,蚂蚁技术研究院面向数字化、智能化的将来,瞄准世界科技前沿,推动要害核心技术攻关,促成“产学研用”深度交融,为中国数字经济的做强做大做优贡献力量。除交互智能实验室外,蚂蚁技术研究院还设有数据库实验室、图计算实验室、密码学实验室、程序设计语言与编译器实验室以及计算零碎实验室共六大实验室,独特摸索前沿技术畛域倒退。明天的蚂蚁技术研究院刚刚起步,交互智能实验室的些许成绩,是咱们这一年的成绩单,也是献给业界同仁给予咱们更多反对与关注的邀请函,咱们真诚地期待更多有识之士的退出打造一个科技摸索的殿堂,独特谋求科技的提高。

请查收蚂蚁技术研究院成绩单

正文完
 0