关于人工智能:从-Milvus-22-到-226我们是如何持续稳定升级的

39次阅读

共计 3098 个字符,预计需要花费 8 分钟才能阅读完成。

最近,Milvus 公布了 2.2.6 版本,在修复了一些 bug 后,Milvus 变得越发稳固。

事实上,自 Milvus 降级至 2.X 版本以来,咱们始终在致力改良及优化,推出了诸如从文件中批量导入数据、基于磁盘的近似最近邻(ANN)索引算法、不停机滚动降级、Coordinator HA 高可用、资源组等新性能,也进步了诸如元数据存储、批量导入等性能。

本文通过复盘从 Milvus 2.2 到 Milvus 2.2.6 版本的变动、降级,带你深刻理解一个更加稳固、晦涩、易用的 Milvus。

01.Milvus 2.2:晋升向量搜寻的稳定性、搜寻速度和灵便的扩缩容能力

Milvus 2.2 是一个重大版本更新,不仅推出了 New Feature,还做出了许多突破性的改良:

从文件中批量导入数据:Milvus 提供了一系列新的 API,用于反对从文件中更有效率地批量导入数据。可能将寄存于 Minio 或 S3 上的任意 JSON 文件中的数据间接导入 Milvus,数据导入省时省力。

搜寻后果分页:为了防止单个 RPC 会话返回过多的搜寻后果,Milvus 现已反对通过设置偏移量(offset)和关键词的形式缩小返回的搜寻后果数量。

基于角色的访问控制(RBAC):Milvus 现已反对 RBAC。用户能够通过治理用户、角色和权限实现对 Milvus 数据库的访问控制。

配额和限度:配额是 Milvus 用来爱护零碎在流量突发时免受内存溢出(OOM)和解体困扰的新机制。通过该机制,您能够控制数据插入、搜寻速率和内存应用。

汇合生存工夫(TTL):在之前的版本中,Milvus 仅反对设置集群层级的 TTL。Milvus 现已反对在创立或批改汇合时设置该汇合的 TTL。在设置了 TTL 的汇合中的数据会在 TTL 完结后到期。通过这一个性,用户能够更准确地治理数据。

基于磁盘的近似近邻搜寻索引(Beta):Milvus 现已反对 DiskANN,用于实现基于磁盘的大规模数据集索引能力。DiskANN 是一种基于 Vamana 图像对常驻固态磁盘的数据集进行近似近邻搜寻的索引算法。应用该算法可节俭大概 10 倍的内存使用量。

数据备份工具(Beta):Milvus 2.2 提供全新的数据备份工具,并反对应用命令行和调用 API 的形式实现数据库备份和复原。

除了上述新个性外,Milvus 2.2 修复了局部 bug,并进行了诸多改良以加强 Milvus 的稳定性、可察看性和性能。

Milvus 2.2 Release Notes:https://milvus.io/docs/release_notes.md#v220

点击可阅读文章《Milvus 2.2 版本公布!》

02.Milvus 2.2.1 和 2.2.2:小版本公布,主打修复问题

Milvus 2.2.1 和 2.2.2 都是小版本公布,修复了旧版本中的关键问题,并新增局部个性。

Milvus 2.2.1:

  • 反对 Pulsar 租户和身份验证
  • 在 etcd 配置中反对传输层安全性协定(TLS)
  • 搜寻性能进步 30% 以上
  • 优化调度器(scheduler)并晋升工作合并概率
  • 修复了多个破绽,包含:在索引标量字段上过滤失败、创立索引失败时引发的 Index Node 解体

Milvus 2.2.2:

  • 修复 Proxy 未更新 Shard leader 缓存的问题
  • 修复被开释的 collection/partition 中加载数据未被清理的问题
  • 修复加载计数未被及时清理的问题

Milvus 2.2.1 Release Notes:https://milvus.io/docs/release_notes.md#v221

Milvus 2.2.2 Release Notes:https://milvus.io/docs/release_notes.md#v222

03.Milvus 2.2.3:平安、稳固、降级敌对

Milvus 2.2.3 次要加强了零碎的安全性、稳定性和可用性,并推出了两个重要的个性。

  • 不停机滚动降级:Milvus v2.2.3 版本上线了滚动降级能力。这意味着在降级过程中,用户的查问、搜寻申请不会中断。
  • Coordinator 高可用(HA):Milvus coordinator 可能以主备节点的模式工作,升高单点故障的危险。Coordinator 高可用能够大幅缩短零碎复原工夫。如果意外产生劫难,零碎只需最多 30 秒便可复原。

除此以外,Milvus 2.2.3 版本还进行了改良和修复多个破绽,包含:批量导入(bulk insert)性能大幅晋升、Metrics 信息优化、查问性能晋升、内存(memory)占用升高、元数据存储性能晋升等。

Milvus 2.2.3 Release Notes:https://milvus.io/docs/release_notes.md#v223

点击可阅读文章《Milvus 新版原本啦!首席工程师带你划重点:平安、稳固、降级敌对》

04.Milvus 2.2.4:资源隔离、多云、高效

Milvus 2.2.4 是 Milvus 2.2 的一次小版本升级。Milvus 2.2.4 推出了四个新个性,并晋升了性能、可靠性和效率,升高资源耗费。

  • 资源组:Milvus 反对将多个 Query Node 分到其余资源组中,从而齐全隔离对不同资源组中物理资源的拜访。
  • 重命名汇合(collection):新增汇合重命名 API,可用于更改汇合名称,使得汇合治理变得更灵便。
  • 反对 Google Cloud Storage:Milvus 当初反对 Google Cloud Storage 作为对象存储,应用 Google Cloud 的用户能够无缝对接 GCP 的对象存储。
  • 搜寻(Search)和查问(Query)API 的新选项:咱们在查问参数中新增了跳过 Growing 数据的选项,启用此选项将跳过对所有 Growing 数据的搜寻,在搜寻插入场景下提供更好的搜寻性能。

Milvus 2.2.4 Release Notes:https://milvus.io/docs/release_notes.md#v224

点击可阅读文章《又见版本升级!一句话概括 Milvus 2.2.4:资源隔离、多云、高效》

05.Milvus v2.2.6:稳定性降级

Milvus 2.2.6 版本修复了泛滥对于稳定性问题。

性能强化

当提早不少于 5 秒时,为查问 / 搜寻增加了慢日志性能。Milvus 默认日志级别是 info,查问链路并发大、性能敏感,所以查问链路的日志都是 debug 级别,在生产环境无奈看到查问链路的日志。如果用户要统计慢查问就无从下手,MySQL 的慢查问日志就是个很好的范例,所以 Milvus 也在日志中退出了慢查问记录。

解决的关键问题

  • 修复了 DataCoord GC 失败的问题
  • 修复了在创立 collection 时传递的索引参数将笼罩后续 create_index 操作中传递的参数的问题
  • 解决了 RootCoord 中呈现音讯积压导致整个零碎提早减少的问题
  • 修改了指标 RootCoord InsertChannelTimeTick 的准确性
  • 解决 Proxy 报告工夫戳可能在某些状况下进行工作的问题
  • 修复 Coordinator 角色在重启过程中可能会 panic 的问题
  • 修复因为 etcd 重新启动而导致垃圾回收 goroutine 异样退出,留下检查点等问题

Milvus 2.2.6 Release Notes:https://milvus.io/docs/release_notes.md#v226

从 Milvus 2.2 到 2.2.6 的最新版本,每一次的版本升级背地都离不开用户的反对与倡议,咱们始终保持为用户提供最前沿的解决方案,为各个领域的利用提供反对。提前预报一下,Milvus 2.2.7 已在紧锣密鼓地筹备中,行将发版,敬请期待!

本文由 mdnice 多平台公布

正文完
 0