乐趣区

关于开源软件:图像审核产品侦图-Milvus-在翼支付风控场景中的应用

本文从翼领取风控的理论利用场景登程,介绍了图像审核产品“侦图”如何检测虚伪营业执照,店内门头照、类似模板照的辨认问题,“侦图”产品通过引入 Milvus 来进行特征向量检索,在检索速度上,千万级别向量查问时,单条向量查问工夫不高于 1 秒,批量查问的单条均匀工夫不高于 0.08 秒,极大节俭了开发成本,并显著进步了零碎的检索性能。

我的项目背景

近年来,随着电商衰亡、线上领取的遍及,一些利用互联网破绽、通过技术手段来“薅羊毛”的彩色产业迅速发展壮大。这群“羊毛党”战斗力惊人,曾经造成有组织的产业化运作。他们惯于利用技术手段合成虚伪照片通过认证,在平台注册大量虚伪账户进行非法牟利。中国裁判文书网颁布的判决书显示,2021 年 12 月,某个人通过非法渠道购买用户个人信息,在某银行挪动 APP 注册后骗取积分,兑换礼品并对外销售获利,在不到 3 个月的工夫内,薅走了该行的上万张视频会员卡、700 多张星巴克饮品券,还有其余泛滥礼品。相似黑产案例不可胜数,这些虚伪账户一旦注册胜利,岂但会收割一般消费者的红利,还将对平台造成难以挽回的损失。

彩色产业凭借技术让本人的权势迅速扩张蔓延,一旦平台破绽修复不及时,分分钟变天坑。面对宏大且迅速更新的数据量,传统的风控伎俩曾经难以无效洞察危险。基于此,翼领取利用深度学习技术和数字图像处理技术,在各个利用场景需要的驱动下,打造了以深度学习技术为外围的图像审核产品——“侦图”。“侦图”波及图像审核的各种场景,其中一个重要的畛域就是对虚伪营业执照、店内门头照、类似模板照的辨认和检测(如下图)。


(虚伪营业执照模板)

传统的类似图像比对算法有 PSNR [1] 和 ORB [2] 等算法,这些算法不仅速度慢,而且准确率较低,个别只能利用于离线工作,不能大规模实时利用。而深度学习可能实时处理大规模的图像数据,是解决类似图像比对工作最合适的办法。通过深度学习模型,图像数据可能转化成海量特征向量,咱们采纳了 Milvus 向量搜索引擎专门解决这些非结构化数据。凭借 Milvus 向量搜索引擎搭建出的类似危险模板照检测零碎可能为万亿级向量数据建设索引,使其可能在数千万级别的图像中,高效地检索出指标危险模板照。

“侦图”产品简介

在翼领取研发团队和 Milvus 社区的共同努力下,咱们通过深度学习模型将海量图像数据转化成特征向量导入 Milvus,研发出一个类似危险模板照检测零碎,作为翼领取整体视觉风控产品“侦图”的一部分 。“侦图”是翼领取自研多媒体视觉风控产品, 具备整套人脸识别解决方案、证照鉴伪和图背景中介聚类等多项行业当先能力,深度交融了机器学习技术、神经网络图像识别技术,产品内置的算法模型,可能对用户认证时存在的虚伪危险和中介团伙危险进行准确辨认,毫秒级响应,真正做到事先阻断;在产品部署层面,依靠大数据平台能力,跨畛域买通底层数据壁垒,满足各类高并发业务场景下信息辨认调用需要,反对业务性能横向扩容。凭借当先的技术利用和独创的解决方案,“侦图”曾经通过了 5 项专利申请,取得了 2 项软件著作权。同时,“侦图”曾经在多家银行与金融机构业务中取得理论利用,帮忙业务提前发现危险。

零碎流程

翼领取目前领有超过千万张商户证件照片,理论的数据量还在随着业务的倒退成倍的增长。为了从如此宏大的图片库中疾速地检索出最类似可能存在危险的模板照,“侦图”抉择了 Milvus 作为特征向量类似度计算引擎。其类似危险模板照检测零碎的大抵构造如下图所示。

(类似危险模板照检测零碎结构图)

该零碎的业务流程中大抵能够分为四个流程:

  1. 图像预处理。对输出的图像进行降噪去噪和对比度加强等预处理操作。预处理既能保障原始信息的完整性,又能去除图像信号中无用的信息。
  2. 特征向量提取。应用专门训练好的深度学习模型提取图片的特征向量。将图像转化为向量再进行类似搜寻是惯例的操作。
  3. 归一化解决。对提取的特征向量进行归一化,这有助于进步后续的解决效率。
  4. Milvus 检索。将归一化后的特征向量嵌入到 Milvus 数据库中进行向量类似度检索。

部署计划

接下来简略介绍一下“侦图”的类似危险模板照检测零碎是如何部署的。

(Milvus 零碎架构图)

上图为 Milvus 的零碎架构图,咱们应用 Kubernetes 来实现 Milvus 集群部署,确保零碎可能领有高可用性以及享受云服务实时同步的弹性能力。
大抵步骤为:

  1. 查看可用资源,运行指令 kubectl describe nodes 查看整个 Kubernetes 集群可为已创立实例调配的资源。
  2. 配置资源,运行命令 kubect –apply xxx.yaml 应用 Helm 为 Milvus 集群组件分配内存与 CPU 资源。
  3. 利用新配置,运行如下指令。
    helm upgrade my-release milvus/milvus –reuse-values -f resources.yaml
  4. 在 Milvus 集群中利用新配置。

应用这种形式部署的集群不仅不便咱们依据业务的需要缩扩容,也可能较好地满足该我的项目对海量向量数据的高性能检索需要。

针对不同的业务场景,咱们能够通过调整 Milvus 的零碎参数,来确保不同场景下的不同类型的数据,都可能领有良好的查问性能,上面举两个例子:

在建设向量索引的阶段,咱们依据零碎利用的理论场景将建设索引的参数为:

index = {"index_type": "IVF_PQ", "params": {"nlist": 2048}, "metric_type": "IP"}

其中,IVF_PQ 是基于 IVF_FLAT 的一种向量数据有损压缩算法(PQ 乘积量化),具备高速查问磁盘、内存占用极低等特点,合乎“侦图”产品的利用场景;

同时,咱们将最佳的搜寻参数设置为:

search_params = {"metric_type": "IP", "params": {"nprobe": 32}}

因为向量在入库之前进行了标准化,所以这里抉择内积(IP)计算两条向量的间隔,依据咱们实际的后果应用内积(IP)比欧氏间隔(L2)计算向量间隔,准确率大概进步了 15% 左右。

以上的例子表明,咱们能够依据不同的业务场景和性能要求,去测试和设定 Milvus 的参数,有助于咱们依据业务问题对参数进行设置和调整。

另外,Milvus 不仅集成了不同的索引库,还反对不同的索引类型和类似度计算形式,Milvus 官网也提供多种语言的 SDK 和插入、查问等丰盛的 API 可供调用,不便咱们的前端事业群利用 SDK 调用咱们风控中台的能力。

落地成果

目前类似危险模板照检测零碎已在生产上实时稳固运行,每天都能帮忙业务方发现危险模板照,2021 年全年累积前置辨认虚伪模板证照超 2 万张。在检索速度上,千万级别向量查问时单条向量查问工夫不高于 1 秒,批量查问的单条均匀工夫不高于 0.08 秒。Milvus 的检索性能满足了业务对准确率和并发的需要。

致谢

“咱们团队从 2020 年就开始关注并应用 Milvus,并将应用过程中的问题同步反馈给社区,也给 Milvus 我的项目提供了不少有建设性意义的 issues;尤其在这个零碎的研发过程中,咱们始终和社区放弃良性互动,每当咱们遇到问题,社区和官网都会在 24 小时内帮助解决,非常感谢 Milvus 十分 Nice 的研发团队!”

参考资料:

[1]https://zh.wikipedia.org/wiki/ 峰值信噪比
[2]Aglave P, Kolkure V S. Implementation of High Performance Feature Extraction Method Using Oriented Fast and Rotated Brief Algorithm[J]. Int. J. Res. Eng. Technol, 2015, 4: 394-397.
[3]https://wenshu.court.gov.cn/w…

作者介绍:

施炎,翼领取资深算法工程师

汤敏伟,翼领取资深算法工程师

编辑介绍:

熊烨,Zilliz Community Intern

臧芃,Zilliz Community Intern

企业简介:

翼领取是国资委双百改革和发改委第四批混改“双试点”企业,也是“双试点”企业中惟一的金融科技公司。翼领取同时还是中国电信布局金融科技的重要版块,旗下领有甜橙金融、橙分期、甜橙保险、甜橙信用、甜橙保理、天翼数科等子品牌。翼领取保持以金融科技赋能业务翻新,以大数据、人工智能、云计算等前沿技术为外围,打造出智慧化的产品、风控及服务。


Zilliz 以从新定义数据迷信为愿景,致力于打造一家寰球当先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的暗藏价值。

Zilliz 构建了 Milvus 向量数据库,以放慢下一代数据平台的倒退。Milvus 数据库是 LF AI & Data 基金会的毕业我的项目,可能治理大量非结构化数据集,在新药发现、举荐零碎、聊天机器人等方面具备宽泛的利用。

退出移动版