关于后端:各项结果排名第一百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩

39次阅读

共计 2388 个字符,预计需要花费 6 分钟才能阅读完成。

导读 :首届国内向量检索大赛 BigANN 是由人工智能畛域寰球顶级学术会议 NeurIPS 发动,旨在晋升大规模 ANN 的钻研翻新和生产环境中的落地利用。虽是首届大赛,但因 NeurIPS 的极高知名度和权威性,吸引了泛滥知名企业和顶尖大学的同台竞技。本届较量已于 12 月 NeurlPS’21 会议期间颁布后果。百度内容技术架构团队自研 ANN 算法 PUCK 加入其中 4 个我的项目,评分均排名第一。

全文 2081 字,预计浏览工夫 6 分钟

首届国内向量检索大赛 BigANN 是由人工智能畛域寰球顶级学术会议 NeurIPS 发动,旨在晋升大规模 ANN 的钻研翻新和生产环境中的落地利用。虽是首届大赛,但因 NeurIPS 的极高知名度和权威性,吸引了泛滥知名企业和顶尖大学的同台竞技。本届较量已于 12 月 NeurlPS’21 会议期间颁布后果。 百度内容技术架构团队自研 ANN 算法 PUCK 加入其中 4 个我的项目,评分均排名第一。

较量详情:https://big-ann-benchmarks.com/

比赛结果:https://github.com/harsha-sim…\_t2

BigANN 共蕴含 3 个 Track,别离是:1)基于内存的检索,2)基于 Disk 的检索,3)基于非标准硬件的检索(GPU)。百度 PUCK 我的项目的参赛赛道为 Track T1,是以 10000 个查问 / 秒(在 32 个 vCPU 上)测量算法召回,外围指标是各数据集上的指标 QPS 下的召回率。本次较量固定查问 6 个十亿级别数据集,蕴含 Facebook、Microsoft Turing、Microsoft Bing、Yandex 专门为本次较量公布的四个新数据集。

近几年,无论学术界还是工业界,都呈现了许多 ANN 算法(Approximate Nearest Neighbor)的翻新钻研和利用,包含基于分区和基于图形的索引策略、混合 RAM 和 SSD 存储以高效存储和解决超过 RAM 大小的大型数据集、应用加速器硬件、利用机器学习来升高原始矢量的维度,以及 Spotify 的 ANNOY、Google 的 ScaNN、Facebook 的 Faiss 和 HNSW 等。

除了思考算法翻新,也要在工业环境中均衡老本、预处理工夫、功耗等。但目前大多数算法的实证评估都集中在大概 100 万点的较小数据集上,如 ann-bechmarks.com,对于大规模利用的共识仍然无限。

百度自研的 PUCK 办法曾经外部迭代了很久,性能、成果、易用性等都通过了多轮打磨,同时,PUCK 团队核心成员在 ANN 方向曾经深耕多年,对于本次参赛后果有肯定预期。以后,PUCK 曾经广泛应用于百度外部多个场景,包含视频 / 图片 / 网页等的内容比对、搜寻、信息流等二十余条产品线,撑持了上千亿数据规模和每天数十亿的检索流量。

对于 PUCK

PUCK 源自经典 MOBA 游戏 DOTA 中的智力英雄,取其飘逸、灵动之意。ANN 的检索性能是重中之重,PUCK 设计并实现了多种优化计划,着重晋升性能和成果,包含但不限于:

  • 采纳二层倒排索引架构 ,能更敏感的感知数据分布,从而十分高效的宰割子空间,缩小搜寻范畴;同时采纳共享二级类聚核心的形式,大幅缩小训练工夫
  • 训练时采纳启发式迭代的办法 ,一直优化一二级类聚核心,通过等价空间变换,训练取得更好的数据分布形容
  • 采纳多层级量化减速查找 ,优先通过大尺度量化的小特色疾速找到候选集,再通过稍大一些的量化特色二次查找
  • 在各个检索环节打磨极致的剪枝 ,针对 loss 函数,通过多种公式变动,最大水平缩小在线检索计算量,缩短计算工夫
  • 严格的内存 cacheline 对齐和紧致排列 ,最大水平升高 cache miss;
  • 反对大尺度的量化 ,单实例反对尽可能多的数据,针对大尺度量化定向优化,缩小量化损失; 同时反对非平均量化,更加适应各种纬度的特色

除了性能以外,Puck 还做了很多性能拓展:

  • 实时插入 :反对无锁构造的实时插入,做到数据的实时更新;
  • 分布式建库 :索引的构建过程反对分布式扩大,全量索引能够通过 map-reduce 一起建库,无需按分片 build,大大放慢和简化建库流程;
  • 条件查问 :反对检索过程中的条件查问,从底层索引检索过程中就过滤掉不符合要求的后果,解决多路召回归并常常遇到的截断问题,更好满足组合检索的要求;
  • 自适应参数 :ANN 办法检索参数泛滥,利用起来有不小门槛,不理解技术细节的用户并不容易找到最优参数,Puck 提供参数自适应性能,在大部分状况下应用默认参数即可失去很好成果。

对于百度内容技术架构团队

百度内容技术架构部,隶属于百度挪动生态事业群组(MEG),为搜寻、信息流以及 MEG 矩阵产品提供全网最宽泛、最陈腐、最优质的文字、视频、图片、直播等内容与特色信号。使命:记录和凋敝人类文明;愿景:用翻新技术和产品记录社会的每一个侧影,丰盛人们的生存,启发世界发明美好未来。

内容技术架构部立足于技术最前沿的方向,研发涵盖灵便的 DAG 调度、极致性能的存储系统、大规模分布式 ANN 检索与量化、大尺度多类型的深度模型预测 / 训练优化、高性能计算、传统视觉比对和检索、图片 / 视频编解码、海量多媒体数据了解、多模态内容开掘与生成等。

部门大牛星散,技术气氛浓重,尊重人才,激励翻新;以建设业界顶尖的技术团队为指标,欢送优秀人才的退出!

简历投递邮箱:lihua@baidu.com;tianyakun@baidu.com

举荐浏览

百度 APP 视频播放中的解码优化

百度爱番番实时 CDP 建设实际

当技术重构遇上 DDD,如何实现业务、技术双赢?

接口文档主动更改?百度程序员开发效率 MAX 的秘诀

技术揭秘!百度搜寻中台低代码的摸索与实际

百度智能云实战——动态文件 CDN 减速

化繁为简 – 百度智能小程序主数据架构实战总结

———- END ———-

百度 Geek 说

百度官网技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

正文完
 0