乐趣区

关于人工智能:图像检索在高德地图POI数据生产中的应用

简介:高德通过自有海量的图像源,来保障事实世界的每一个新增的 POI 及时制作成数据。在较短时间距离内(小于月度),同一个中央的 POI 的变动量是很低的。

作者 | 灵笼、怀迩
起源 | 阿里技术公众号

一 背景

POI 是 Point of Interest 的缩写。在电子地图上,POI 代表餐厅、超市、政府机关、旅游景点、交通设施等等。POI 是电子地图的外围数据。对普通用户而言,POI 数据蕴含的名称和地位信息,可能满足其应用电子地图“查找目的地”,进而唤起导航服务的根本需要;对电子地图而言,通过提供“搜寻左近”、“点评”等操作,可进步用户的沉闷时长。另外,POI 数据是线上线下连贯互动的一个纽带,是基于位置服务(Location Based Service)产业的一个重要组件。

高德通过自有海量的图像源,来保障事实世界的每一个新增的 POI 及时制作成数据。在较短时间距离内(小于月度),同一个中央的 POI 的变动量是很低的,如下图所示,只有“汤火功夫”POI 是一个新增的挂牌。


图 1. 同一中央上不同工夫的 POI 牌匾比照

如果对全副 POI 进行解决的话,则会带来昂扬的作业老本,因而须要对其中没有变动的 POI 进行自动化过滤,其中关键技术能力就是图像匹配,该场景是一个较为典型的图像检索工作。

1 技术定义

图像检索问题定义:给定查问图像(Query),通过剖析视觉内容,在大型图像库中(Gallery)中搜寻出类似的图像。该方向始终是计算机视觉畛域的一个长期研究课题,在行人重辨认、人脸识别、视觉定位等工作中均有宽泛的钻研。图像检索的核心技术是度量学习,其指标是在固定维度的特色空间中,束缚模型将同类别样本拉近,不同类别样本推远。在深度学习时代,次要有几种经典的构造,包含:比照损失(contractive loss)、三元组损失(triplet loss)、核心损失(center loss)等,均是通过正负样本定义以及损失函数设计上进行优化。此外,图像检索还有一个必不可少的因素就是特征提取,通常包含:全局特色、部分特色、辅助特色等,次要是针对不同工作特点进行相应的优化,例如:行人重辨认以及人脸识别具备很强的刚性束缚,并且具备显著的要害特色(行人 / 人脸关键点),因而会将人体宰割或关键点检测信息交融到模型特征提取中。

2 问题特点

POI 牌匾的图像检索和学术上支流检索工作(如行人重辨认)有着较大的区别,次要包含以下几点:异源数据、遮挡重大以及文本依赖性。

异源数据

行人重辨认工作也存在异源数据问题,然而该工作的异源更多是不同相机拍摄以及不同场景的区别。而在 POI 牌匾检索场景中,存在更重大的异源数据问题,如下图所示:


图 2. 不同拍摄条件下的异源图像

左图来自低质量相机,并且是前向拍摄;右图来自高质量相机,并且是侧向拍摄;因为相机拍摄品质以及拍摄视角不同,这就导致 POI 牌匾的亮度、形态、清晰度等都存在十分大的差别。而如何在差别较大的异源数据中实现 POI 牌匾检索,是一个十分具备挑战性的问题。

遮挡重大

在路线场景中,常常存在树木以及车辆等烦扰信息,并且因为拍摄视角起因,拍摄到的 POI 牌匾常常会面临重大的遮挡问题,如下图所示:


图 3. 遮挡重大的 POI 牌匾示例

而且该遮挡场景还是不规则的,导致很难对两个牌匾进行较好地特色对齐,这给 POI 牌匾检索带来微小的挑战。

文本依赖性

POI 牌匾还有一个独有个性就是对文本强依赖,次要是对 POI 名称文本的依赖。在下图场景中,两个牌匾的整体布局以及色彩都十分类似,然而其中 POI 名称产生了变动。而在该场景下,咱们心愿两个牌匾不要匹配,这就须要引入文本特色来加强特色辨别性。不过,因为遮挡起因也会导致文本特色不同,因而须要联合图像特色进行衡量。而且,文本特色和图像特色来自多个模态,如何将多模信息进行交融也是该业务特有的技术难点。


图 4. 仅文本变动的 POI 牌匾示例

二 技术计划

牌匾检索的技术计划次要包含数据迭代和模型优化两块。在数据生成局部,咱们分为了冷启动主动生成数据以及模型迭代生成数据两个步骤。在模型优化局部,咱们设计了一个多模态检索模型,包含视觉分支和文本分支两局部,次要是思考到牌匾的文本信息比拟丰盛,因而将视觉信息与文本信息进行交融。针对视觉信息特色的提取,咱们进一步设计了全局特色分支与部分特色分支,并别离进行了优化。整体技术框架如下图所示:


图 5. 整体技术计划

首先利用传统匹配算法 Sift 主动生成模型所需的训练数据,实现模型的冷启动;并且在模型上线后,对线上人工作业后果进行主动开掘,并组织成训练数据,以迭代模型优化。多模态检索模型是基于三元组损失(Triplet Los)的度量学习框架下进行设计的,输出包含了:1)POI 牌匾的图像信息;2)POI 牌匾的文本信息。图像信息应用双分支进行特征提取,文本信息应用 BERT 进行特征提取,最初再将文本特色与视觉特色进行交融。

1 数据

为训练检索模型,通常须要进行实例级标注,即依照 POI 牌匾粒度进行标注。而在不同材料中筛选同一 POI 牌匾是一件非常复杂的工作,如果进行人工标注的话,则会带来昂扬的标注老本,并且无奈大规模标注。因而,咱们设计了一套简略高效的训练数据主动生成形式,可用于模型冷启动,整个环节无需任何人工标注。

咱们借鉴了传统特色点匹配算法思维,利用 Sift 特色点匹配算法对两趟材料中的所有牌匾进行两两匹配,并通过内点数量对匹配后果进行筛选,即内点数量大于阈值的匹配牌匾视作同一牌匾。通常来说,传统特色点匹配算法会存在泛化性有余问题,由此生成的训练数据很可能导致模型无奈很好学习,具体体现在:1)训练样本较为简单;2)类别抵触,即同一牌匾分为多个类别;3)类别谬误,即不同牌匾分为同一类别。因而,咱们针对该问题进行了相应优化:1)采纳多趟材料匹配后果,晋升同一类别下牌匾的多样性;2)采纳 Batch 采样策略以及 MDR loss[2]来升高模型对谬误标签数据的敏感性。

具体来说,对于样本多样性问题,咱们应用了多趟材料的匹配后果来生成训练数据,因为在不同材料中同一牌匾存在多张来自不同视角的拍摄后果,这就保障了同一类别下牌匾的多样性,防止了主动生成的样本都为简略样本问题。Batch 采样策略即按类别进行采样,而数据中类别总数远远大于 batch size,因而能够缓解类别抵触的问题。MDR loss 是在 Triplet loss 根底上设计了依据不同间隔区间进行正则化束缚的新的度量学习框架,从而缩小模型对对噪声样本的过拟合。


图 6. MDR loss 示意图,和 Triplet loss 相比减少了间隔正则束缚

图 6 是 Triplet loss 和 MDR loss 的比照示意图。MDR loss 心愿正样本和 anchor 之间的间隔不被拉到有限近,同时负样本也不心愿被推到有限远。以类别谬误噪声样本来说,不同牌匾被误分为同一类别,依照 Triplet loss 的优化指标则会强制模型将两者间隔学习到有限近,这样的话,模型会过拟合到噪声样本上,从而导致最终成果较差。

2 模型

为了优化牌匾检索成果,咱们交融了牌匾中的视觉信息与文本信息,设计了多模态检索模型。针对视觉信息,咱们优化了模型全局特色和部分特色的提取能力。针对文本信息,咱们应用 BERT 对牌匾的 OCR 后果进行编码,将其作为辅助特色,并与视觉特色交融后进行度量学习。

全局特色

通常对于检索工作来说,应用深度学习模型提取到的全局特色更为鲁棒,能够适应牌匾视角、色彩、光照变动等不同场景。为了进一步晋升全局特色的鲁棒性,咱们次要从以下两方面进行了优化:1)采纳 Attention 机制,增强对重要特色的关注;2)网络 backbone 的改良,以关注到更多细粒度特色。

在咱们的业务场景中,存在一些外观类似而细节有肯定差别的牌匾,如图 8 (c) 所示,在这种状况下,咱们心愿模型能够关注到牌匾中的细粒度信息,比方牌匾中文字的字体、文字排版或者是文字内容自身。而注意力机制则能够帮忙模型在大量信息中精确地关注到可能辨别不同牌匾更为要害的局部。因而,咱们在网络中引入了注意力模块,让模型学习要害信息,以晋升全局特色的分别能力。咱们采纳了空间注意力机制 SGE(Spatial Group-wise Enhance)[4],SGE 通过对特色图上的每个空间地位生成一个注意力因子来调整每个空间地位处特色的重要性。SGE 模块如图 7 所示。它首先对特色图进行了分组,而后对每组特色图计算语义特征向量,应用语义特征向量和特色图进行 position-wise 点乘,失去注意力图,而后将注意力图与特色图进行 position-wise 点乘,以此来加强特色,从而取得在空间上散布更好的语义特色。


图 7. SGE 示意图,引入了空间注意力机制

为了缩小部分特色的损失,咱们对网络 backbone 进行了改良,勾销了 ResNet 网络最初一个 block 中的下采样,使得最终的特色图中蕴含更多的部分信息。除此之外,咱们应用 GeM[3]池化层代替了最初一个 global average pooling,GeM 是一种可学习的特色聚合办法,global max pooling 和 global average pooling 都是它的非凡状况,应用 GeM 池化能够进一步晋升全局特色鲁棒性。

部分特色

在针对全局特色进行优化当前,现有模型依然在以下三个方面体现不够好:1)牌匾截断的状况,特色学习品质差,如图 8(a);2)遮挡的牌匾,特色中引入一些无关的上下文信息,如图 8(b);3)类似但不同的牌匾难以辨别,如图 8(c)。因而,咱们进一步设计了部分特色分支[1],让模型更加关注牌匾的几何、纹理等部分信息,与全局特色独特做牌匾检索。


(a)


(b)


(c)

图 8. 需部分特色优化的不同示例,(a)截断(b)遮挡(c)文本变动

针对部分特色的提取,咱们次要的思路是将牌匾垂直切分成几个局部,别离关注每个局部的部分特色[7],并对部分特色进行对齐后优化。对齐操作如下图 9 所示,首先将特色图进行垂直池化,失去分块的部分特色图,再计算两张图部分特色之间的类似度矩阵,而后依据公式 1 找到最短距离将两张图像进行对齐,其中,i,j 别离示意两张图中的第 i 块特色和第 j 块特色,dij 示意两张图中第 i 块和第 j 块特色的欧式间隔。


公式 1. 部分对齐计算公式


图 9. POI 牌匾部分对齐示意图

通过这种形式进行部分特色对齐,能够很好地晋升牌匾在截断、遮挡、检测框不准等状况下的检索成果。

文本特色

POI 牌匾对文本强依赖,可能存在仅牌匾名称文本发生变化的场景。咱们设计的全局特色分支以及部分特色分支,尽管可肯定水平上学习到文本特色,然而文本信息在整体信息中占比拟小,并且监督信号仅为两张图是否类似,导致文本特色并没有被很好的学习到。因而,咱们利用已有的文本 OCR 辨认后果,并引入 BERT 对 OCR 后果进行编码失去文本特色,该特色作为辅助特色分支和视觉特色进行交融,交融后的特色用于最终的牌匾检索度量学习。值得注意的是,在对牌匾提取 OCR 后果时,为了缩小单帧内辨认后果不准的影响,咱们利用了一趟材料内同一牌匾的多帧 OCR 后果,并且将所失去的 OCR 后果进行拼接,应用 BERT 对 OCR 后果特色编码时,对来自不同帧的 OCR 后果之间插入符号做辨别。

3 模型成果

在新的技术计划下,POI 牌匾图像检索获得了十分好的成果,准确率和召回率都大于 95%,大幅晋升了线上指标,并且模型速度也有了微小的晋升。咱们随机抉择了一些匹配后果,如图 10 所示。


图 10. 评测集中随机抽取的 POI 牌匾检索后果

咱们在优化过程中,有一些十分难的 Case 也在逐步被解决,如下图 11 所示:


图 11. 评测集中难例展现,(a)(b)(c)是优化前的谬误检索后果,(d)(e)(f)是优化后的检索后果

图 (a)、(b)、(c) 展现的是优化前的 Bad case(左图为 query 图像,右图为 Rank1 检索后果),从 Bad case 中咱们不难发现,牌匾检索对细粒度特征提取要求十分高,因为这些 case 广泛特点是具备整体相似性,然而部分特色有区别。这些 Bad case 就是咱们设计的多模态检索模型的初衷,并且也在优化过程逐步得以解决,如图 (d)、(e)、(f) 所示。咱们提出的多模态检索模型通过对全局特色优化以及引入部分特色对齐,使得模型更多关注到牌匾上更有辨别性的部分特色,如文字信息,文字字体、板式,牌匾纹理等,因而咱们的模型对于外观类似的不同牌匾具备更好的辨别能力,如图 (a) 和图 (d) 成果比照。此外,因为不同视角牌匾存在遮挡、拍摄时的光照强度不同以及不同相机色调差别大等因素,局部牌匾只利用视觉特色检索十分艰难。因而,咱们通过辅助特色分支退出了 OCR 信息,进一步加强了特色的鲁棒性,使得牌匾检索能够综合思考牌匾的视觉信息和牌匾中的文本信息进行检索,如图 (b) 和图 (e) 成果比照。

三 将来倒退和挑战

图像检索是在高德地图数据自动化生产中的一次尝试,获得了不错的成果,并且已在理论业务中应用。然而模型并不是完满的,仍会存在 Corner case,为了解决这些 case,咱们将来将会从半监督学习 / 被动学习主动补充数据,以及引入 Transformer[9,10]优化特征提取和交融两方面进行探讨。

1 数据:基于半监督学习 / 被动学习的数据挖掘

数据是十分重要的,因为模型很难做到完满,总是会存在 Corner case,而解决 Corner case 的一个十分高效的伎俩就是针对性补充数据。补充数据的要害是如何开掘 Corner case 以及如何主动标注,该方向也是目前学术的钻研热点,即半监督学习以及被动学习。半监督学习利用有标签数据训练出的模型来对海量无标签数据产生伪标签,进一步标签数据和伪标签数据混合后再优化模型。被动学习是利用有标签数据训练出的模型对海量无标签数据进行数据挖掘,并人工标注挖掘出的有价值数据。两者区别在于是否须要局部人工标注,半监督学习是齐全由模型本身产生标签,然而可能导致模型成果存在下限,而被动学习则能够肯定水平可进步该下限,因而将来须要深入研究两者的联合,从而更好的补充训练数据,解决 Corner case。

2 模型:基于 Transformer 的特征提取与交融

Transformer 是目前学术的钻研热点,大量的工作已证实其在分类、检测、宰割、跟踪以及行人重辨认等工作上的有效性。和 CNN 相比,Transformer 具备全局感触野以及高阶相关性建模的特点,使其在特征提取上有着更好的表征能力。此外,Transformer 的输出较为灵便,能够不便地将其余模态信息进行编码,并和图像特色一起输出到模型中,因而其在多模特色交融上也有较大的劣势。综上来看,Transformer 能够通过对图像 Patch 的相关性建模来解决 POI 牌匾在遮挡 / 截断场景下的匹配成果,并且能够通过对文本特色编码来实现多模特色的交融。

本文参考文献

[1] Zhang X, Luo H, Fan X, et al. Alignedreid: Surpassing human-level performance in person re-identification[J]. arXiv preprint arXiv:1711.08184, 2017.
[2]Kim, Yonghyun, and Wonpyo Park. “Multi-level Distance Regularization for Deep Metric Learning.” arXiv preprint arXiv:2102.04223,2021.
[3]Radenović F, Tolias G, Chum O. Fine-tuning CNN image retrieval with no human annotation[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1655-1668.
[4]Li X, Hu X, Yang J. Spatial group-wise enhance: Improving semantic feature learning in convolutional networks[J]. arXiv preprint arXiv:1905.09646, 2019.

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版