共计 2227 个字符,预计需要花费 6 分钟才能阅读完成。
简介: 主动送货车撞上玻璃、扫地机器人撞碎玻璃伤行人……现在这些事件也行将成为过来式。大连理工大学等单位研发了一个玻璃检测神经网络,可能利用 AI 在实在环境下检测玻璃。
△ 图左为指标场景,图右黄色局部为玻璃检测
主动送货车撞上玻璃、扫地机器人撞碎玻璃伤行人……现在这些事件也行将成为过来式。
大连理工大学等单位研发了一个玻璃检测神经网络,可能利用 AI 在实在环境下检测玻璃。
从图中可见,神经网络能很好地将玻璃从理论场景中宰割进去。
但事实上,玻璃检测绝非设想中那般简略,不仅因为它简直是通明的,而且还具备反射性。
更何况,玻璃并没有固定的形态,无奈依据形状断定某一区域是否存在玻璃。
既然如此,为什么人眼能这么精确地断定出玻璃的存在呢?
全新的神经网络 GDNet
钻研发现,人眼不仅能通过玻璃内外部色彩的差别来判断玻璃的存在,还能依据反射产生的光斑或重影发现玻璃。
这给了研究者们很大的启发,并最终设计了名为大视场上下文特色交融(Large-field Contextual Feature Integration,下简称 LCFI)的模块。
△ LCFI 模块结构
LCFI 模块用来同时提取高级语义特色和色彩纹理等低级特色两种上下文特色,用于检测实在场景中玻璃的存在。
为了提取大量上下文信息,通常的做法是采纳大卷积核或进行扩张卷积,但前者会导致大计算量,后者则会稠密采样。
而且,这两种办法并非最优。
△ 试验比照成果
钻研发现,采纳非部分运算(non-local)能够同时解决这两个问题,便有了 LCFI 模块。
LCFI 模块采纳空间可拆散卷积,从程度和垂直两个维度别离对图像进行卷积。
因为图像中玻璃区域的信息非常复杂,且与非玻璃区域有肯定的类似度,为了打消这种歧义,模块将再进行一遍卷积,不过这次是先从垂直、再从程度维度提取互补的上下文特色。
最初,将提取的特色进行交融。
而这个 LCFI 模块,是玻璃检测神经网络 GDNet 中最外围的局部。
△ GDNet 网络示意图
GDNet 网络整体工作原理如下:
- 第一步 ,应用预训练的 ResNeXt101 网络用于多级特征提取,目标是取得各种级别的特色。
- 第二步 ,在网络最初嵌入四层 LCFI 模块,目标是进行各级别大视场内上下文的特色学习。
- 第三步 ,将其中三个 LCFI 模块的输入通过留神模块(Attention Module)进行连贯和交融,目标是生成大视场内上下文的高级特色。
- 第四步 ,从这些高级特色中学习 Attention Map,目标是疏导大视场内上下文的低级特色(例如第一个 LCFI 模块的输入),以将更多注意力集中在玻璃区域。
最初,通过级联和注意力机制,合高级与低级特色,目标是生成最终的玻璃特色图。
GDNet 的翻新之处在于,它设计的 LCFI 模块采纳空间可拆散卷积,更好地获取了图像中无关玻璃的特色。
尽管此前也有对于玻璃的指标检测钻研,但根本集中在玻璃杯、器皿这样的小型玻璃物体上,检测办法也多从物体的形态动手。
这次钻研通过玻璃自身的特色,设计了具普适性的玻璃检测网络,能无效避免主动驾驶车辆对玻璃幕墙或玻璃门进行误判,防止产生碰撞事变。
除此之外,对于机器学习中的深度预测、场景了解和去反射等技术工作,也有着重要的意义。
△ 从上到下别离是深度预测、场景了解和去反射
当然,真正要让 GDNet 在理论玻璃检测中施展能力,离不开数据集的制作。
为了使 GDNet 在理论利用中能施展出更好的成果,研究者们实现了世界上第一个大规模玻璃检测数据集 GDD。
首个大规模玻璃检测数据集 GDD
在玻璃检测数据集(Glass Detection Dataset, GDD)中,共有 3916 张带玻璃的图片,其中 2980 张被随机抽出,用于网络训练,残余 936 张作为测试集。
这三千多张玻璃图片多来自浴室、办公室、超市等中央,其中玻璃幕墙占多,其次是玻璃展现橱窗、玻璃门、陈列柜、窗户和玻璃护栏。
经统计,玻璃通常占据整张图像 20%~80% 的大小,且整体散布偏向于图像地方,这是由玻璃应用个性所决定的。
△ GDD 数据集局部图像展现
上图为数据集中局部图像的展现,能够看见,图像对玻璃和非玻璃局部进行了宰割,红色区域为玻璃所在区域。
从图例中就能看见,无论是玻璃上贴着的标签、刮蹭的污渍,还是玻璃上透射和反射的图像,都可能会在训练时对网络产生影响。
与此同时,数据集中也存在着只占图像 20% 不到的边角玻璃、或是简直充斥整个图像的大玻璃块,目标在于减少图像的随机性,使得神经网络具备更好的检测成果。
检测成果
事实上,测试也证实,无论是理论检测成果、还是从数据分析来看,采纳 GDD 数据集训练后的 GDNet 都达到了目前钻研中玻璃检测网络的最好成果。(下图中,所展现网络均已用 GDD 数据集进行训练)
从下图来看,相较于其余较前沿的神经网络,GDNet 对玻璃区域的检测准确度显著更高。
△ 与最左边的真值相比,目前最前沿的局部网络和 GDNet 对玻璃的检测成果
在准确度上,相较于 MirrorNet 的 85.07% 和 EGNet 的 85.04%,GDNet 达到了 87.63% 的 IoU。(IoU:真值与预测值交加 / 真值与预测值并集)
相比之下,其均匀绝对误差 MAE 则达到了 0.063。
能够想见,在这样的成果下,GDNet 将来在玻璃检测方向上还会有更进一步的倒退及利用。
文章起源:https://yqh.aliyun.com/detail/16096
作者介绍
梅陆地,论文第一作者,目前在大连理工大学计算机科学与技术学院的攻读博士,次要钻研方向为图像处理、计算机视觉与深度学习。