乐趣区

关于计算机视觉:4月14日十篇将开源论文代码分享

整顿:CV 君
蕴含光学、人脸、宰割、视觉问答、语音解决、缺点检测等畛域。

光学 ##CVPR2021

1、Shape and Material Capture at Home

马里兰大学 & 华盛顿大学

已开源:https://github.com/dlichy/Sha…

论文:https://arxiv.org/abs/2104.06397

主页:https://dlichy.github.io/Shap…

CVPR2021

2、Global Transport for Fluid Reconstruction with Learned Self-Supervision

慕尼黑工业大学 & 苏黎世联邦理工学院

将开源:https://github.com/tum-pbs/Gl…

论文:https://arxiv.org/abs/2104.06031

CVPR2021

3、Visually Informed Binaural Audio Generation without Binaural Audios

港中文 - 商汤联结实验室 & 南洋理工大学

已开源:https://github.com/SheldonTsu…

论文:https://arxiv.org/abs/2104.06162

主页:https://sheldontsui.github.io…

视频:https://youtu.be/r-uC2MyAWQc

CVPR2021

4、Simpler Certified Radius Maximization by Propagating Covariances

威斯康星大学 & 伯克利

CVPR 2021 oral

将开源:https://github.com/zhenxingji…

论文:https://arxiv.org/abs/2104.05888

视频:https://www.youtube.com/watch…

实例宰割

5、Pointly-Supervised Instance Segmentation

UIUC&Facebook

文章提出基于点的实例级标注,是实例宰割中的一种新的弱监督模式。能够将规范的边界盒标注与标签点联合起来,标签点在每个边界盒内对立采样。作者称,现有的针对全掩膜监督开发的实例宰割模型,如 Mask R-CNN,能够在不做任何重大批改的状况下,用基于点的标注进行无缝训练。

在 COCO、PASCAL VOC、Cityscapes 和 LVIS 上训练的 Mask R-CNN 模型,每个指标只有 10 个标注点,其齐全监督的性能达到 94%-98%。新的基于点的标注比指标掩码的收集速度快约 5 倍,使得高质量的实例宰割更容易被新数据所承受。

受新的标注模式的启发,作者提出对 PointRend 实例宰割模块的批改。对于每个对象,新的架构称为 Implicit PointRend,为一个函数生成参数,进行最终的点级掩码预测。Implicit PointRend 更间接,应用繁多的点级掩码损失。试验表明,新模块更适宜提出的基于点的监督。

已开源:https://github.com/facebookre…

论文:https://arxiv.org/abs/2104.06404

主页:https://bowenc0221.github.io/…

实例宰割 ##AAAI 2021

6、DropLoss for Long-Tail Instance Segmentation

台湾清华大学 &Virginia Tech&Aeolus Robotics

作者对长尾散布的独特特色进行了剖析,特地是在实例宰割背景下,在训练过程中从背景预测中通过不成比例的抑制性梯度明确指出不均衡问题。

开发一种办法,通过利用抽样训练批中罕见类和频繁类的比例来弛缓这种长尾散布环境下的不均衡问题。并通过试验证实了所提出办法在具备挑战性的长尾 LVIS 数据集上取得了最先进的实例宰割后果(Gupta,Dollar,´和 Girshick 2019)。

已开源:https://github.com/timy90022/…

论文:https://arxiv.org/abs/2104.06402

语义宰割

7、All you need are a few pixels: semantic segmentation with PIXELPICK

牛津大学

文章提出 PIXELPICK 框架,用于语义宰割,采纳很少的稠密带标注的像素来训练无效的宰割模型。并证实与最先进的办法相比,它须要少的多的标注就可取得相当的性能。还展现了如何通过无鼠标标签工具高效地取得像素级被动学习的标注,便于事实世界的部署。

已开源:https://github.com/NoelShin/P…

论文:https://arxiv.org/abs/2104.06394

主页:https://www.robots.ox.ac.uk/~…

缺点检测

8、Mixed supervision for surface-defect detection: from weakly to fully supervised learning

University of Ljubljana

文中作者放宽对齐全监督学习办法的重度要求,并缩小对高细节标注的需要。通过提出一个深度学习架构,摸索不同细节的标注的应用,从弱(图像级)标签到混合监督,再到齐全(像素级)标注,在外表缺点检测工作上的应用。所提出的端到端架构由两个子网络组成,产生缺点宰割和分类后果。并在几个工业品质检测的数据集 KolektorSDD、DAGM 和 Severstal Steel Defect 对所提出办法进行了评估。

在解决一个真实世界的工业问题时取得一个新数据集 KolektorSDD2,有 3000 多张蕴含多种类型缺点的图像。

最初展现了所有四个数据集的最先进后果。在齐全监督环境下优于所有相干办法,并且当只有图像级标签可用时也优于弱监督办法。还表明,在弱标注的训练图像中只增加大量齐全标注样本的混合监督,能够取得与齐全监督模型性能相当的性能,但标注老本却大大降低。

已开源:https://github.com/vicoslab/m…

数据集:https://www.vicos.si/Download…

论文:https://arxiv.org/abs/2104.06064

人脸

9、VariTex: Variational Neural Face Textures

苏黎世联邦理工学院 & 谷歌

提出 VariTex,第一个用于学习神经人脸纹理的变量隐特色空间的办法,它容许对新身份进行采样。将学习到的人脸纹理的生成能力与参数化人脸模型的显式管制相结合,实现对人脸表情、头部姿态、脸型和外观的精密管制。为没有三维几何图形的艰难区域(如头发)合成了可信的输入。试验证实所提出办法在几何变换下更加统一,并在感知钻研中失去了高度评价。

将开源:https://github.com/mcbuehler/…

论文:https://arxiv.org/abs/2104.05988

VQA

10、CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images

亚利桑那州立大学

现有的大多数对于视觉问答(VQA)的钻研仅限于图像或视频中明确存在的信息。在本文中,作者将视觉了解晋升到一个更高的档次,零碎须要答复的问题将波及到一些假如后果,如在心理上模仿在给定场景中执行特定口头的假如后果。为此,基于 CLEVR(Johnson 等人,2017)数据集制订了一个视觉语言问题解答工作。而后,对现有的最佳 VQA 办法进行了批改,并提出了该工作的基线求解器。最初,通过提供对于不同架构在图像 - 文本模式上执行联结推理的能力见解,来激励更好的视觉 - 语言模型的开发。

将开源:https://github.com/shailaja18…

论文:https://arxiv.org/abs/2104.05981

退出移动版