关于后端:各项结果排名第一百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩

导读：首届国内向量检索大赛BigANN是由人工智能畛域寰球顶级学术会议NeurIPS发动，旨在晋升大规模ANN的钻研翻新和生产环境中的落地利用。虽是首届大赛，但因NeurIPS的极高知名度和权威性，吸引了泛滥知名企业和顶尖大学的同台竞技。本届较量已于12月NeurlPS’21会议期间颁布后果。百度内容技术架构团队自研ANN算法PUCK加入其中4个我的项目，评分均排名第一。

全文2081字，预计浏览工夫6分钟

首届国内向量检索大赛BigANN是由人工智能畛域寰球顶级学术会议NeurIPS发动，旨在晋升大规模ANN的钻研翻新和生产环境中的落地利用。虽是首届大赛，但因NeurIPS的极高知名度和权威性，吸引了泛滥知名企业和顶尖大学的同台竞技。本届较量已于12月NeurlPS’21会议期间颁布后果。百度内容技术架构团队自研ANN算法PUCK加入其中4个我的项目，评分均排名第一。

较量详情：https://big-ann-benchmarks.com/

比赛结果：https://github.com/harsha-sim…\_t2

BigANN共蕴含3个Track，别离是：1）基于内存的检索，2）基于Disk的检索，3）基于非标准硬件的检索（GPU）。百度PUCK我的项目的参赛赛道为Track T1，是以10000个查问/秒（在32个vCPU上）测量算法召回，外围指标是各数据集上的指标QPS下的召回率。本次较量固定查问6个十亿级别数据集，蕴含Facebook、Microsoft Turing、Microsoft Bing、Yandex 专门为本次较量公布的四个新数据集。

近几年，无论学术界还是工业界，都呈现了许多ANN算法（Approximate Nearest Neighbor）的翻新钻研和利用，包含基于分区和基于图形的索引策略、混合RAM和SSD存储以高效存储和解决超过RAM大小的大型数据集、应用加速器硬件、利用机器学习来升高原始矢量的维度，以及Spotify 的 ANNOY、Google 的 ScaNN、Facebook的Faiss 和 HNSW 等。

除了思考算法翻新，也要在工业环境中均衡老本、预处理工夫、功耗等。但目前大多数算法的实证评估都集中在大概100万点的较小数据集上，如ann-bechmarks.com，对于大规模利用的共识仍然无限。

百度自研的PUCK办法曾经外部迭代了很久，性能、成果、易用性等都通过了多轮打磨，同时，PUCK团队核心成员在ANN方向曾经深耕多年，对于本次参赛后果有肯定预期。以后，PUCK 曾经广泛应用于百度外部多个场景，包含视频/图片/网页等的内容比对、搜寻、信息流等二十余条产品线，撑持了上千亿数据规模和每天数十亿的检索流量。

对于PUCK

PUCK源自经典MOBA游戏DOTA中的智力英雄，取其飘逸、灵动之意。ANN的检索性能是重中之重，PUCK设计并实现了多种优化计划，着重晋升性能和成果，包含但不限于：

采纳二层倒排索引架构，能更敏感的感知数据分布，从而十分高效的宰割子空间，缩小搜寻范畴；同时采纳共享二级类聚核心的形式，大幅缩小训练工夫
训练时采纳启发式迭代的办法，一直优化一二级类聚核心，通过等价空间变换，训练取得更好的数据分布形容
采纳多层级量化减速查找，优先通过大尺度量化的小特色疾速找到候选集，再通过稍大一些的量化特色二次查找
在各个检索环节打磨极致的剪枝，针对loss函数，通过多种公式变动，最大水平缩小在线检索计算量，缩短计算工夫
严格的内存cacheline对齐和紧致排列，最大水平升高cache miss；
反对大尺度的量化，单实例反对尽可能多的数据，针对大尺度量化定向优化，缩小量化损失; 同时反对非平均量化，更加适应各种纬度的特色

除了性能以外，Puck还做了很多性能拓展：

实时插入：反对无锁构造的实时插入，做到数据的实时更新；
分布式建库：索引的构建过程反对分布式扩大，全量索引能够通过map-reduce一起建库，无需按分片build，大大放慢和简化建库流程；
条件查问：反对检索过程中的条件查问，从底层索引检索过程中就过滤掉不符合要求的后果，解决多路召回归并常常遇到的截断问题，更好满足组合检索的要求；
自适应参数：ANN办法检索参数泛滥，利用起来有不小门槛，不理解技术细节的用户并不容易找到最优参数，Puck提供参数自适应性能，在大部分状况下应用默认参数即可失去很好成果。

对于百度内容技术架构团队

百度内容技术架构部，隶属于百度挪动生态事业群组（MEG），为搜寻、信息流以及MEG矩阵产品提供全网最宽泛、最陈腐、最优质的文字、视频、图片、直播等内容与特色信号。使命：记录和凋敝人类文明；愿景：用翻新技术和产品记录社会的每一个侧影，丰盛人们的生存，启发世界发明美好未来。

内容技术架构部立足于技术最前沿的方向，研发涵盖灵便的DAG调度、极致性能的存储系统、大规模分布式ANN检索与量化、大尺度多类型的深度模型预测/训练优化、高性能计算、传统视觉比对和检索、图片/视频编解码、海量多媒体数据了解、多模态内容开掘与生成等。

部门大牛星散，技术气氛浓重，尊重人才，激励翻新；以建设业界顶尖的技术团队为指标，欢送优秀人才的退出！

简历投递邮箱：lihua@baidu.com ；tianyakun@baidu.com

举荐浏览：

百度APP视频播放中的解码优化

百度爱番番实时CDP建设实际

当技术重构遇上DDD，如何实现业务、技术双赢？

接口文档主动更改？百度程序员开发效率MAX的秘诀

技术揭秘！百度搜寻中台低代码的摸索与实际

百度智能云实战——动态文件CDN减速

化繁为简–百度智能小程序主数据架构实战总结

———- END ———-

百度 Geek 说

百度官网技术公众号上线啦！

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

关于后端:各项结果排名第一百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于后端:各项结果排名第一百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复