关于深度学习:开源之夏-2022-申请-Jina-AI-社区任务成为业界领先的神经搜索开源项目贡献者

40次阅读

共计 2817 个字符,预计需要花费 8 分钟才能阅读完成。

开源之夏 2022 我的项目已公布,申请 Jina AI 我的项目的同学能够筹备起来了~

开源之夏是由「开源软件供应链点亮打算」发动,并长期反对的一项暑期开源流动。旨在激励寰球在校学生,积极参与开源软件的开发保护,促成优良开源软件社区的蓬勃发展,造就和挖掘更多优良的开发者。

往年是开源之夏举办的第三届,共计吸引了 124 家社区提报超过 300+ 我的项目。Jina AI 作为业内当先的神经搜寻 (Neural Search) 开源企业,在开源之夏 2022 中共计提报了 3 个我的项目工作。

同学们现已能够进行工作申请,取得 Jina AI 资深工程师的亲自领导,以及 Jina AI 实习机会。实现我的项目并奉献给社区后,还将取得开源之夏流动奖金和结项证书。

Jina AI 我的项目工作详情一览

我的项目一:近似最近邻搜索算法 HNSW 的改良与优化

波及技术畛域:AI, 近似最近邻, 向量检索

编程语言:C++, Python

我的项目难度: 进阶

分割导师:felix.wang@jina.ai

我的项目反对报名语言: 中文

我的项目成绩仓库:

https://github.com/jina-ai/an…

我的项目形容:

针对海量向量数据的搜寻,无论是工业界还是学术界都做了大量的钻研。因为准确的向量搜寻在海量数据的场景下搜寻工夫过长,所以目前的常见做法,是在向量上建设近似搜寻索引。学术上咱们称之为近似最近邻搜寻 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过就义搜寻精度来换取工夫和空间的形式,从大量样本中获取最近邻。

依据 Benchmark 上 ANN 算法的基准测试后果,基于图构造的 HNSW 算法在查问速度和精度上优于其余 ANN 算法。然而 HNSW 算法自身的次要问题就是对内存占用较大,限度了其能够索引的数据大小。

目前咱们的开源向量索引产品 AnnLite 外围近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰盛的性能(例如反对前置过滤近似查问)。为了使得 AnnLite 可能具备更强的竞争力和理论利用价值,咱们心愿可能进一步对 HNSW 算法进行改良和优化。

技术要求:

开发者须要对 ANN 算法有较深刻的了解,能够纯熟应用 C++ 编程语言

产出要求:

  • 须要 HNSW 反对向量量化 quantization 技术,缩小内存占用的同时可能放慢向量间隔的计算;
  • 对 HNSW 的图索引构造进行改良,在雷同数据索引大小的状况下,进一步缩小图规模大小;
  • 降级前置条件过滤引擎,缩小前置过滤消耗的工夫;
  • 须要可能撰写残缺的文档,单元测试和集成测试。

申请地址

https://summer-ospp.ac.cn/#/o…

我的项目二:反对基于 Redis 的近似最近邻搜寻

波及技术畛域:AI, 数据库,存储,近似最近邻, 向量检索

编程语言:Python

我的项目难度 :进阶

分割导师:bo.wang@jina.ai

我的项目反对报名语言: 中文

我的项目成绩仓库:

https://github.com/jina-ai/do…

我的项目形容

神经搜寻 (Neural Search) 特指应用人工神经网络模型的搜寻零碎。很多常见的搜寻利用,比方以图搜图、听声辨乐,都须要神经搜寻。在神经搜寻零碎中,所有的文件会通过人工神经网络被示意为一个向量并存储在索引中。当用户进行搜寻时,用户的查问指标也会被示意为一个向量。通过比拟查问向量与索引向量的类似度 / 间隔,咱们能够找到最为匹配的文件。

基于神经网络的搜寻通常须要在短时间内查问到最类似的文件。这依赖于近似最近邻搜寻 (Approximately Nearest Neightbour Search),简称 ANN 搜寻。作为一个前沿钻研畛域,学者们曾经提出很多高效的 ANN 算法。Redis 数据库目前曾经反对基于图的 ANN 搜索算法:HNSW,该算法可能最大水平的达到检索召回率和检索工夫的均衡。

DocArray 作为 Jina AI 神经搜寻全家桶的底层模块,可能帮忙开发者疾速开发搜寻零碎。在 DocArray 中,咱们曾经反对了多种向量数据库作为存储后盾,如 ANNLite, Weaviate, Qdrant 以及 Elasticsearch。

为了帮忙 Redis 社区的开发者,咱们心愿反对 Redis 数据库作为 DocArray 的存储后盾,帮忙用户高效的进行向量检索。

技术要求

须要开发者对 DocArray, Redis 以及背地基于 HNSW 的 ANN 搜索算法有肯定了解。

产出要求

  • 须要在 DocArray 中集成 Redis 作为存储后盾;
  • 代码有残缺的文档及单元测试、集成测试;
  • 须要在 DocArray 中产出 Redis ANN 搜寻的基准,即:应用基于 Redis 的查问速度 / 召回率比照咱们曾经反对的存储后盾,后果将发表在咱们的比拟基准页面。

申请地址

https://summer-ospp.ac.cn/#/o…

我的项目三:基于深度学习的 3D 物体特色表白与学习

波及技术畛域:AI, 深度学习框架, 表征学习, 3D Mesh 模型

编程语言 :Python

我的项目难度: 进阶

分割导师:jem.fu@jina.ai

我的项目反对报名语言: 中文

我的项目成绩仓库:

https://github.com/jina-ai/ex…

我的项目形容

3D 物体的表征模式多种多样,其中一个比拟典型的办法是 3D 点云,即某个坐标系下的点的数据集。相比于文本、图像,其蕴含了物体更加丰盛的信息,包含三维坐标 X,Y,Z、色彩、分类值、强度值、工夫等等。

3D 物体一个比拟典型的利用场景就是元宇宙,其中存在着大量的数字 3D 模型。准确建模与了解这些虚构物体能够帮忙咱们更好的实现对 3D 模型进行分类,搜寻,以及治理。

目前咱们曾经对一些 3D 物体模型的预训练模型进行了封装,并且反对对模型的微调 (Finetune),使得用户能够更加便捷地将这些模型利用到理论生产环境中。

为了更好的适应具体应用场景,针对预训练模型的微调通常会应用表征学习。表征学习 (Representation Learning) 是深度学习的一个分支,其广泛应用于工业界,它通过训练深度学习模型优化输出数据的向量示意,以适应类似度计算、检索、举荐等不同利用。

将深度表征学习与 3D 模型数据联合能够将 3D 物体的特色更好的展示进去,以此反对各个领域下对 3D 物体数据的搜寻需要。

本我的项目旨在集成更多针对 3D 物体的神经网络模型,并实现对不同模型的对立治理。

技术要求

对深度学习 / 表征学习有根本了解,纯熟应用和把握 Python,纯熟应用和把握 PyTorch 等深度学习框架

产出要求

  • 调研并实现目前 SOTA 的 3D 点云编码网络
  • 实现 3D 点云数据的预处理,反对对不同模型的疾速训练
  • 须要可能撰写残缺的文档,单元测试和集成测试

申请地址

https://summer-ospp.ac.cn/#/o…

报名申请 Jina AI 我的项目工作

以上就是 Jina AI 在开源之夏 2022 的我的项目工作及详情,现已开启学生与社区我的项目沟通通道,其余要害工夫节点如下如所示:

正文完
 0