关于算法:JTech-Talk-活动预告｜近似最近邻搜索算法-HNSW-的改进与优化

J-Tech Talk

由 Jina AI 社区为大家带来的技术分享

工程师们将深刻细节地解说具体的问题

分享 Jina AI 在开发过程中所积攒的教训

针对海量向量数据的搜寻，无论是工业界还是学术界都做了大量的钻研。因为准确的向量搜寻在海量数据的场景下搜寻工夫过长，所以目前的常见做法，是在向量上建设近似搜寻索引。学术上咱们称之为近似最近邻搜寻 ANN (Approximate Nearest Neighbor Search) 问题，通常都是通过就义搜寻精度来换取工夫和空间的形式，从大量样本中获取最近邻。

依据 Benchmark 上 ANN 算法的基准测试后果，基于图构造的 HNSW 算法在查问速度和精度上优于其余 ANN 算法。然而 HNSW 算法自身的次要问题就是对内存占用较大，限度了其能够索引的数据大小。

目前 Jina AI 的开源向量索引产品 AnnLite 的外围近似搜索算法是基于 HNSW 来实现，并在此基础上提供了更加丰盛的性能（例如反对前置过滤近似查问）。为了使得 AnnLite 可能具备更强的竞争力和理论利用价值，咱们对 HNSW 算法进行了改良和优化。

本期 J-Tech Talk 邀请到了负责本优化我的项目的叶坚白，来分享《近似最近邻搜索算法 HNSW 的改良与优化》。

分享内容

Annlite 的介绍和应用
AnnLite 是一款 Jina AI 开发的多模态向量索引产品，旨在和 DocArray 一起应用。
HNSW 算法、 PQ 算法的简介
在 Annlite 中联合 PQ 算法和 HNSW，以升高内存占用和提早
为什么要在 Annlite 中引入 HNSW PQ backend
在 Jina AI 社区的播种总结
对于讲师

叶坚白 Jina AI 开源社区 AnnLite 贡献者

本硕就读于中国科学技术大学大数据学院

流动工夫

2022 年 10 月 26 日周三晚 19:00 – 19:45

关于算法:JTech-Talk-活动预告｜近似最近邻搜索算法-HNSW-的改进与优化

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于算法:JTech-Talk-活动预告｜近似最近邻搜索算法-HNSW-的改进与优化

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复