关于前端:昇腾CANN论文上榜CVPR全景图像生成算法交互性再增强

近日，CVPR 2022 放榜，基于昇腾 CANN 的 AI 论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。这为 AI 发烧友们开拓了一条新的图像生成之路顺手抉择几个类别的根底元素，并做大小和地位的拖动，便能主动生成一副摄影作品，堪比业余摄影师！

CVPR 全称 IEEE Conference on Computer Vision and Pattern Recognition，是计算机视觉畛域三大顶会之一，并且是惟一一个年度学术会议。在疾速更新迭代的计算机学科中，CVPR 未然成为了计算机视觉畛域的“顶流”。

本论文基于交互式的图像生成，提出基于全景布局（Panoptic Layout）辅助图像生成的办法，即 PLGAN（Panoptic Layout Generation）算法，进步了交互场景下生成图像的品质及其稳定性。该论文在 COCO-Stuff 和 VG 两个公开数据集和自行收集的 Landscape 风光数据集上，进行了试验验证并获得了很好的成果。目前曾经在华为 Atlas 系列服务器上实现了该算法，其装备了昇腾 AI 处理器提供算力反对，并借助异构计算架构 CANN（Compute Architecture for Neural Networks）充沛开释硬件磅礴算力，施展极致 AI 性能。

上面咱们来看下比照交互式图像生成办法 Grid2Im，本论文 PLGAN 算法的体现成果：

大多数交互式图像生成办法，都采纳生成图像布局（Layout）为两头后果，来辅助最终的图像合成（例如 Grid2Im [1]）。为了解决交互场景下图像生成品质稳定性问题，咱们从图像布局（Layout）构建动手。通常的图像布局（Layout）有逐像素填充的语义图层（例如 GauGAN），还有基于 Bounding Box 的实例图像布局（Instance Layout）。

语义图层在空间布局上逐像素对应生成的图像，能够很好的管制须要合成的图像，但其构建比较复杂，因而大多数多模态图像生成和交互场景采纳实例图像布局（Instance Layout）。然而，实例图像布局（Instance Layout）实质上是采纳由不同物体的地位方框（Bounding Box）和形态（Mask）组合而成的，不同物体的地位方框（Bounding Box）之间和形态边缘的不匹配，都会呈现图像布局填不满的状况，在用户交互的场景下尤其显著，这使得以此为条件的条件生成模型，在最终生成图像中呈现伪影和噪声，如图 1 所示。因而构建一个能够解决此“区域缺失”问题的图像布局（Layout），是咱们所关注的重点。

Figure 1. Scene-to-image synthesis by Grid2Im [1] vs. PLGAN

针对上述问题，引入全景宰割 [3] 的概念，提出了基于全景布局（Panoptic Layout）的图像合成办法。在全景宰割问题中[3]，将物体类别分为了可数类（things）和不可数类（stuff），其中可数类（things）指有特定形态的前景类别，不可数类（stuff）指没有特定形态的背景类别。因而引入此概念，将通常的实例布局（Instance Layout）构建过程中分为 Instance 分支和 Stuff 分支别离解决可数类（things）和不可数类（stuff），如下图所示。

Figure 2. Overview of the PLGAN architecture

Instance 分支采纳通常的做法，先同时生成地位方框和形态，而后将其组合成实例布局（Instance Layout）。对于 Stuff 分支则应用全新的做法，间接生成填充布局（Stuff Layout），因为此后果是间接由模型通过 Softmax 层失去，其在整个图像空间上，不会有空缺局部，以此来解决“区域缺失”问题。因为对于不可数类别，其形态也不是固定的，这种整体生成的形式对于类别辨认来说，不会带来很大的影响。别离生成的两个布局，能够通过 ISA-Norm 层来聚合到一起，造成最初的布局（Layout）。从布局（Layout）到最终的图像生成，咱们采纳 SOTA 模型 CAL2I[2]办法，失去最终的合成图像。

Figure 3. Illustration of Instance- and Stuff-Aware Normalization.

在实验设计上，采纳对公开数据集的标注信息做扰动的形式，模仿交互式场景下的输出，在指标和视觉比照上，都失去了 SOTA（state of the art）程度，尤其在输出扰动的状况下，生成图像的品质更加稳固。

Figure 4. Visual comparison between sample images generated from perturbed BBoxes (Pert BBoxes) on the COCO-Stuff dataset

Figure 5. Visual comparison between instance layouts and panoptic layouts on the COCO-Stuff dataset

昇腾社区（hiascend.com）同步上新基于该论文的 AI 试玩利用，小伙伴们在给定的画布中，能够抉择任意元素，大海、沙滩、天空，随心拼接拆合，而后通过华为 Atlas 200 DK 推理，可实时生成举世无双的实在 AI 风景画，扫描下方二维码即刻体验。

参考文献

[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.

[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.

[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.