乐趣区

ESPNet

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segme

2019/03/11 Author:Yu Zhang
此篇论文为 ECCV2018 中的一篇论文,作者介绍了一个既快又效果说得过去的网络架构,用于语义分割当中。此网络可以达到每秒 112 帧,比目前有效的轻型网络如 MobileNet,ShuffleNet,ENet 等等都要快,还好,在只降低 8% 精度的条件下,比 PSPNet 小 180 倍,速度快 22 倍。
那么作者是怎么做到的呢?

上图为 ESP 的架构,看起来非常复杂,但其实操作很简单,首先使用逐点卷积将通道数进行缩减,缩减后送入空洞卷积金字塔,通过不同 rate 的空洞卷积获得更大感受野并进行融合,参数非常少。具体通道及 rate 以及拼合策略如图所示。拼合策略与普通空洞卷积特征融合的方法不同,这里为了避免 gridding artifacts 现象,采用了逐级相加的策略。
设计的分割网络如下图:设计了一个轻量级的编码解码网络架构

在 cityscapes 测试集上能达到 60.3 的准确率,已经不错了。同时作者做了特别多的实验,感兴趣的可以到原文中去看。

退出移动版