共计 733 个字符,预计需要花费 2 分钟才能阅读完成。
J-Tech Talk
由 Jina AI 社区为大家带来的技术分享
工程师们将深刻细节地解说具体的问题
分享 Jina AI 在开发过程中所积攒的教训
针对海量向量数据的搜寻,无论是工业界还是学术界都做了大量的钻研。因为准确的向量搜寻在海量数据的场景下搜寻工夫过长,所以目前的常见做法,是在向量上建设近似搜寻索引。学术上咱们称之为近似最近邻搜寻 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过就义搜寻精度来换取工夫和空间的形式,从大量样本中获取最近邻。
依据 Benchmark 上 ANN 算法的基准测试后果,基于图构造的 HNSW 算法在查问速度和精度上优于其余 ANN 算法。然而 HNSW 算法自身的次要问题就是对内存占用较大,限度了其能够索引的数据大小。
目前 Jina AI 的开源向量索引产品 AnnLite 的外围近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰盛的性能(例如反对前置过滤近似查问)。为了使得 AnnLite 可能具备更强的竞争力和理论利用价值,咱们对 HNSW 算法进行了改良和优化。
本期 J-Tech Talk 邀请到了负责本优化我的项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改良与优化》。
分享内容
- Annlite 的介绍和应用
AnnLite 是一款 Jina AI 开发的多模态向量索引产品,旨在和 DocArray 一起应用。 - HNSW 算法、PQ 算法的简介
在 Annlite 中联合 PQ 算法和 HNSW,以升高内存占用和提早 - 为什么要在 Annlite 中引入 HNSW PQ backend
- 在 Jina AI 社区的播种总结
对于讲师
叶坚白 Jina AI 开源社区 AnnLite 贡献者
本硕就读于中国科学技术大学大数据学院
流动工夫
2022 年 10 月 26 日 周三晚 19:00 – 19:45
正文完