关于人工智能:卷积神经网络在深度学习中新发展的5篇论文推荐

36次阅读

共计 2957 个字符,预计需要花费 8 分钟才能阅读完成。

1、Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification

Yuya Yamamoto, Juhan Nam, Hiroko Terasawa

https://arxiv.org/pdf/2206.12230

歌唱技术是利用音色、音高和声音的其余成分的工夫稳定来进行富裕表现力的声乐表演。它们的分类是一项具备挑战性的工作,这次要是因为两个因素:1)歌唱技术的稳定品种繁多,受多种因素的影响;2)现有数据集不均衡。为了解决这些问题,论文开发了一种新的基于变形卷积的音频特色学习办法,利用类加权损失函数对特征提取器和分类器进行解耦训练。试验结果表明:1)可变形卷积进步了分类成果,特地是利用于最初两层卷积时;2)对分类器进行再训练,并通过平滑的反频率加权穿插熵损失函数,进步了分类性能。

2、CNN-based fully automatic wrist cartilage volume quantification in MR Image

Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahan

https://arxiv.org/pdf/2206.11127

软骨缺失的检测对骨关节炎和类风湿关节炎的诊断至关重要。到目前为止已有大量对于关节磁共振图像软骨评估的主动宰割工具的论文。与膝关节或髋关节相比,腕关节软骨的构造更为简单,针对大关节开发的主动工具无奈用于腕关节软骨的宰割。然而全自动腕关节软骨宰割办法具备很高的临床价值,所以论文通过优化 U -Net 架构的深度和减少留神层 (U-Net_AL),评估了 U -Net 架构的四种优变体的性能。并·将相应的后果与之前设计的基于 patch 的卷积神经网络(CNN) 的后果进行比拟。宰割品质的评估基于应用几种形态学(2D DSC、3D DSC、精度)和体积指标与手动宰割进行的比拟剖析。这四种网络在宰割的同质性和品质上都优于基于 patch 的 CNN。U-Net_AL 计算的三维 DSC 中值 (0.817) 显著大于其余网络计算的相应三维 DSC 值。此外 U -Net_AL CNN 提供了最小的均匀体积误差 (17%) 和绝对于实在值最高的 Pearson 相关系数(0.765)。应用 U -Net_AL 计算的再现性比手动宰割的再现性更大。带有附加注意力层的 U -net 卷积神经网络提供了最佳的手段软骨宰割性能。为了在临床条件下应用,经过训练的网络能够对代表一组特定患者的数据集进行微调。

3、EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan

https://arxiv.org/pdf/2206.10589

为了谋求精度的一直进步,通常须要开发大型和简单的神经网络。这种模型须要很高的计算资源,因而不能部署在边缘设施上。所以构建资源高效的通用网络在多个应用领域都收到了很大的关注。这篇论文的工作无效地联合了 CNN 和 Transformer 模型的劣势,并提出了一种新的高效混合架构 EdgeNeXt。特地是在 EdgeNeXt 中,引入了宰割深度转置注意力 (SDTA) 编码器,该编码器将输出宰割为多个信道组,并利用深度卷积和跨信道维度的自注意力来隐式减少接管场并编码多尺度特色。通过在分类、检测和宰割工作上的大量试验,证实了提出的办法的长处:绝对较低的计算要求并优于最先进的办法。以 2.2% 的相对增益和 28% 的 FLOP 缩小的相对增益超过了 MobileViT。EdgeNeXt 模型具备 5.6M 参数,在 ImageNet-1K 上实现了 79.4% top- 1 精度。

4、Scaling up Kernels in 3D CNNs

Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jia

https://arxiv.org/abs/2206.10555

2D CNN 和 ViT 的最新进展表明,大内核对于足够的感触野和高性能至关重要。受这些论文的启发,改论文钻研了 3D 大内核设计的可行性和挑战。证实了在 3D CNN 中利用大卷积核在性能和效率上有更多的艰难。在 2D CNN 中运行良好的现有技术在 3D 网络中是有效的,包含风行的 depth-wise convolutions。为了克服这些问题,论文提出了空间组卷积及其大内核模块(SW-LK 块)。防止了传统的 3D 大内核的优化和效率问题。论文提出的大内核 3D CNN 网络,即 LargeKernel3D,对各种 3D 工作(包含语义宰割和对象检测)产生了重大改良。它在 ScanNetv2 语义宰割上实现了 73.9% 的 mIoU,在 NDS nuScenes 对象检测基准上实现了 72.8%,在 nuScenes LIDAR 排行榜上排名第一。通过简略的多模态交融,NDS 进一步晋升至 74.2%。LargeKernel3D 取得了与其 CNN 和 Transformer 相当或更好的后果。并首次证实大内核对于 3D 网络是可行且必不可少的。

5、MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications

Rohit Choudhary, Mansi Sharma, Uma T V, Rithvik Anil

https://arxiv.org/pdf/2206.10375

显示技术中的 HDR 捕捉、解决和显示解决方案是至关重要的。在开发高性价比的 3D HDR 视频内容中,多曝光平面图像序列的深度预计是一项必不可少的工作。这篇论文提出并开发了一种新的深度架构用于多重曝光立体声深度预计。提出的体系结构有两个新的组件。1、对传统的平面深度预计中应用的立体匹配技术进行了改良,部署了一种平面迁徙学习办法,该办法避开了老本体积结构的要求,采纳基于 ResNet 的不同权重的双编码器和单解码器 CNN 进行特色交融,并应用基于 effentnet 的块来学习视差。2、利用鲁棒的视差特色交融办法,将不同曝光程度下平面图像的视差图进行组合。用不同的曝光取得的视差图合并使用权重图计算不同的品质。最终失去的预测视差图具备更强的鲁棒性,并保留了深度不间断的最佳特色。论文提出的 CNN 架构在具备挑战性的场景流和不同曝光的 Middlebury 平面数据集上,在定量和定性方面都超过了最先进的单眼和平面深度预计办法。该架构在简单的天然场景中也体现得十分好,证实了它对各种 3D HDR 应用程序都是有用的。

https://avoid.overfit.cn/post/518cdba7f3174604bb8236cee180e353

作者:monodeep

正文完
 0