关于图像检索:大厂技术实现-图像检索及其在高德的应用-计算机视觉系列

作者:韩信子@ShowMeAI,章鱼@高德 大厂解决方案系列教程:https://www.showmeai.tech/tutorials/50 本文地址:https://www.showmeai.tech/article-detail/93 申明:版权所有,转载请分割平台与作者并注明出处 珍藏 ShowMeAI 查看更多精彩内容一图看懂全文 ShowMeAI社区的技术专家小伙伴们对图像检索的典型算法做了实现,构建了相干利用 『基于CNN与三元组的图像检索实现』,对细节感兴趣的话,请返回 这里 查看实现代码参考。代码的整顿破费了很多心理,欢送大家 PR 和 Star! ⭐ ShowMeAI官网GitHub:https://github.com/ShowMeAI-Hub/ 一、高德图像检索的业务背景本文利用到的技术是图像检索,利用场景为高德地图,利用点是高德地图的 POI信息更新(在高德图像数据中,POI牌匾和POI一一对应)。 POI:Point of Interest,在电子地图上,POI 代表餐厅、超市、政府机关、旅游景点、交通设施等。POI是电子地图的外围数据。 POI 数据蕴含的名称信息、地位信息等,能满足用户的根本需要——应用电子地图“查找目的地”,进而唤起导航服务。POI 数据能够反对电子地图提供“搜寻左近”、“点评”等性能,这些操作能够进步用户的应用和沉闷时长。POI 数据还是线上线下连贯互动的一个纽带,是基于位置服务(Location Based Service)产业的一个重要组件。 高德地图的业务场景,须要依据自有图像源,将每个新增或调整的 POI及时制作成数据。 一般来讲,短时间片(月度)内,同一地点的 POI 的变动量很低(如图,只有“汤火功夫”POI 是一个新增的挂牌)。因而,从技术实现的角度来看,不能采纳『每次都解决全副 POI 』的计划,因为作业老本太高了。更好的实现计划是,将没有变动的 POI 自动化地过滤掉。这个场景工作是十分典型的图像检索工作,其中关键技术图像匹配。1.1 图像检索的工作定义图像检索问题定义:给定查问图像(Query),通过剖析视觉内容,在大型图像库中(Gallery)中搜寻出类似的图像。图像检索始终是计算机视觉畛域的一个长期研究课题,在『行人重辨认』、『人脸识别』、『视觉定位』等工作中均有宽泛的利用。 图像检索的过程须要『图像特色抽取』+『比对检索』两个环节: 1)图像特征提取通常包含:全局特色、部分特色、辅助特色等,次要是针对不同工作特点进行相应的优化。例如:行人重辨认以及人脸识别具备很强的刚性束缚,并且具备显著的要害特色(行人/人脸关键点),因而会将人体宰割或关键点检测信息交融到模型特征提取中。 2)比对检索核心技术是度量学习,其指标是在固定维度的特色空间中,束缚模型将同类别样本拉近,不同类别样本推远。在深度学习时代,次要有几种经典的构造,均是通过正负样本定义以及损失函数设计上进行优化: 比照损失(Contractive Loss)三元组损失(Triplet Loss)核心损失(Center Loss)1.2 高德业务问题与难点POI 牌匾的图像检索和学术上支流检索工作(如行人重辨认)有着较大的区别,次要包含以下几点: 异质数据遮挡影响文本依赖性1)异质数据异质数据指的是不同相机拍摄、不同环境、不同条件下的图像差别。比方,在 POI 牌匾检索场景中,有比较严重的异质数据问题。如下图所示,是不同拍摄条件下的异源图像。 因为拍摄相机的品质、拍摄视角的不同,POI 牌匾最终的亮度、形态、清晰度等都存在十分大的差别。如何在差别较大的异质数据中实现 POI 牌匾检索,则是一个十分具备挑战性的问题。 2)遮挡影响在路线场景中,常常存在树木以及车辆等烦扰信息,并且因为拍摄视角起因,拍摄到的 POI 牌匾常常会面临重大的遮挡问题。遮挡给 POI 牌匾检索带来微小的挑战。 3)文本依赖性POI 牌匾还有一个独有个性就是对文本强依赖,次要是对 POI 名称文本的依赖。 ...

August 15, 2022 · 2 min · jiezi

关于图像检索:大厂技术实现-图像检索及其在淘宝的应用-计算机视觉系列

作者:韩信子@ShowMeAI,Frank@淘宝 大厂解决方案系列教程:https://www.showmeai.tech/tutorials/50 本文地址:https://www.showmeai.tech/article-detail/92 申明:版权所有,转载请分割平台与作者并注明出处 珍藏 ShowMeAI 查看更多精彩内容一图读懂全文 ShowMeAI社区的技术专家小伙伴们对图像检索的典型算法做了实现,构建了相干利用 『基于CNN与三元组的图像检索实现』,对细节感兴趣的话,请返回 这里 查看实现代码参考。代码的整顿破费了很多心理,欢送大家 PR 和 Star! ⭐ ShowMeAI官网GitHub:https://github.com/ShowMeAI-Hub/图像检索是一个在互联网行业有着十分多利用场景的AI技术,典型利用例如电商商品检索(淘宝『拍立淘』,京东『拍照购』),用户顺手拍照即可精准检索商品,整套实现的背地蕴含了十分多计算机视觉技术。本篇咱们联合阿里CV方向资深算法工程师 Frank 的分享,一起来看看淘宝拍立淘背地的实现计划和依靠的计算机视觉技术。 一、图像检索晋升购物体验图像检索工作指的是,给定一个蕴含特定实例(例如特定指标、修建、场景等)的查问图像,从图像数据库中找到蕴含雷同/类似实例的图像。 因为不同图像的拍摄视角、光照、遮挡状况等不同,实现精准检索须要很多算法技术撑持,同时对于图像数据库宏大的各大互联网公司而言,查问效率也是须要思考的外围问题之一。 以电商为例,淘宝拍立淘于2014年首次在APP中上线,现曾经成为领有数千万日活用户的利用。与传统的基于文字搜寻的电商搜寻相比,拍立淘只须要用户顺手拍一张照片,即可精准检索,省去了繁琐的文字描述,简化了用户的购物流程,大大提高了电商购物的体验。 二、淘宝·拍立淘的图像搜寻流程架构拍立淘的图像搜寻架构如下图所示,架构整体分为离线和在线解决流程两个局部。 2.1 离线流程离线解决的过程次要是定期对图像抽取特色构建索引。残缺的离线流程包含: ① 检测与特色学习:构建离线图像选品,通过指标检测在选品图像上提取感兴趣的商品; ② 特色抽取:对商品进行特征提取,构建大规模索引库,放入图像搜索引擎期待查问; ③ 构建索引:以肯定频率放弃索引库更新。 2.2 在线流程在线解决的过程次要是对用户上传的查问图片进行检索返回库内检索后果。具体的步骤包含: ① 品类辨认:对查问图像进行分类解决,辨认商品类目; ② 指标定位 & CNN特色抽取:提取图像指标区域的特色,基于相似性度量在索引引擎中搜寻产生候选; ③ 图像索引与重排:能够通过重排序进行后果商品重排并返回搜寻后果。 三、品类辨认模块3.1 图像选品解决之所以做淘宝选品,是因为淘宝平台存在十分多雷同或高度类似的商品图像,间接应用会导致最终的搜寻后果呈现大量雷同的商品宝贝,影响用户体验。 淘宝蕴含大量不同起源的商品图像,例如和商品对应的『主图』、『SKU图』、『拆箱图』等。首先,须要对这些海量图像做一个筛选,选出用户绝对感兴趣的图像作为商品图像构建索引。 这个过程相当于『依据图像附带的属性和图像品质等对整个图像库进行过滤』。增加图像选品过滤模块后,会每天定时抉择和删除反复或高度类似的商品图像,进而优化索引文件。 3.2 基于模型&搜寻联合的类目预测淘宝的类目体系是基于叶子类目标层次化构造,这样能够兼顾视觉和语义相似性。 淘宝在拍立淘中先图像进行预测,失去 14 个大类目之一的后果,如服饰、鞋、包等,这个解决能够放大图像库的搜寻空间。具体实现采纳基于模型与搜寻联合的形式,如下: 1)基于模型的预测模块① 采纳 GoogLeNet V1 网络结构来衡量高精度和低提早,应用蕴含不同商品类指标签的图像集进行训练; ② 将输出图像的大小 resize 为 \( 256 \times 256 \),随机裁剪到 \( 227 \times 227 \),应用 Softmax(穿插熵)损失函数作为分类工作的损失函数。 ...

August 15, 2022 · 3 min · jiezi