关于算法:JTech-Talk-活动预告|近似最近邻搜索算法-HNSW-的改进与优化

3次阅读

共计 733 个字符,预计需要花费 2 分钟才能阅读完成。

J-Tech Talk

由 Jina AI 社区为大家带来的技术分享

工程师们将深刻细节地解说具体的问题

分享 Jina AI 在开发过程中所积攒的教训

针对海量向量数据的搜寻,无论是工业界还是学术界都做了大量的钻研。因为准确的向量搜寻在海量数据的场景下搜寻工夫过长,所以目前的常见做法,是在向量上建设近似搜寻索引。学术上咱们称之为近似最近邻搜寻 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过就义搜寻精度来换取工夫和空间的形式,从大量样本中获取最近邻。

依据 Benchmark 上 ANN 算法的基准测试后果,基于图构造的 HNSW 算法在查问速度和精度上优于其余 ANN 算法。然而 HNSW 算法自身的次要问题就是对内存占用较大,限度了其能够索引的数据大小。

目前 Jina AI 的开源向量索引产品 AnnLite 的外围近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰盛的性能(例如反对前置过滤近似查问)。为了使得 AnnLite 可能具备更强的竞争力和理论利用价值,咱们对 HNSW 算法进行了改良和优化。

本期 J-Tech Talk 邀请到了负责本优化我的项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改良与优化》。

分享内容

  1. Annlite 的介绍和应用
    AnnLite 是一款 Jina AI 开发的多模态向量索引产品,旨在和 DocArray 一起应用。
  2. HNSW 算法、PQ 算法的简介
    在 Annlite 中联合 PQ 算法和 HNSW,以升高内存占用和提早
  3. 为什么要在 Annlite 中引入 HNSW PQ backend
  4. 在 Jina AI 社区的播种总结
    对于讲师

叶坚白 Jina AI 开源社区 AnnLite 贡献者

本硕就读于中国科学技术大学大数据学院

流动工夫

2022 年 10 月 26 日 周三晚 19:00 – 19:45

正文完
 0