关于数据库:玩转多种应用场景快手-MMU-分享秘籍

55次阅读

共计 1418 个字符,预计需要花费 4 分钟才能阅读完成。

✏️ 编者按:

短视频的衰亡见证了一场信息反动。图文时代逐步过渡到多媒体时代,对视频的了解和搜寻已成为当下的关键技术。作为国民级短视频 App 的 AI 中台,快手 MMU(Multimedia understanding 多媒体内容了解)团队是如何在多种利用场景下应答自若的?Milvus 社区有幸邀请到了来自快手 MMU 的研发工程师余晋,与大家分享 Milvus 在快手中的利用。

🌟 嘉宾简介:余晋,快手多媒体内容了解工程师,负责引擎架构、大规模向量计算,毕业于北京大学,喜爱读书与慢跑。

残缺视频请戳:https://www.bilibili.com/vide…

MMUMMR1.0:基于 Milvus 数据库的向量近似计算平台

快手 MMU 是负责快手短视频搜寻零碎以及视频了解的 AI 中台,业务笼罩 OCR,ASR,分词,NER 等根底 AI 算法;短视频分类,标签体系建设等中台技术;以及短视频搜寻等零碎服务。在该 AI 中台中,向量计算起到了至关重要的作用。

快手 MMU 团队须要解决许多与向量计算相干的利用场景:类似视频检索、视频合规检索、原创视频检测、商品检测……在接触 Milvus 之前,团队应用的是自研向量检索系统,但实现形式比较复杂,保护老本高,零碎可用性个别,亟需一款高性能、易接入且高稳定性的向量数据库供各个业务方应用。

通过一系列的产品调研,快手 MMU 团队最终抉择了社区沉闷、稳固与性能兼备的 Milvus 作为 AI 中台,搭建包含 AI 模型、数据分析工具、ANNS 等平台。目前曾经实现的场景蕴含千亿级的视频检索、十亿级的商品检索,后续也会有更多场景逐渐迁徙至 Milvus 搭建的 ANNS 平台。

基于 Milvus 1.1 的 MMUMMR 1.0 架构如上图所示,其中,向量数据存储计算是基于 Milvus 的数据分片和归并治理。Milvus 数据库反对云原生分布式架构,具备存储计算拆散,写入、构建、散布计算、查问拆散的特点,流批一体、弹性伸缩。
(Milvus 2.0 也在前不久和大家见面了,一起来看看 Milvus 2.0 有哪些新性能吧!)

冠军计划剖析:当咱们探讨向量计算的时候,咱们在探讨什么

快手团队在前不久举办的国内首届向量检索大赛中取得了赛道第一的好问题。该赛道要求参赛队伍针对 6 个十亿规模的数据集中的至多三个,达到在 10000 QPS 以上性能的同时,绝对基准计划 Faiss 的 IVFPQ 办法尽可能进步召回率。快手团队的计划针对 IVFPQ 办法进行了全方面的优化,在四个数据集上都比 baseline 高 5% – 10%。

对于国内首届向量检索较量的更多信息,欢送参考:产学研用跨界对话,向量数据库研讨会回顾

向量近似计算 API 介绍和利用

Milvus 数据库提供一整套简略直观的 API。MMUMMR 1.0 的 Collection 索引库就应用了 create、drop、count、stat 等 Milvus 原生 API,实现最近三天的冷启视频特色召回、最近 90 天的近期热门视频特色召回等主动生命周期治理类业务利用。
Milvus Collection API 地址是:https://milvus.io/api-referen…

此外,MMUMMR 1.0 还在视频查重、视频生成物料检索、商品 SKU 辨认、平行语料建设等业务中采纳高精度 KNN 检索;在视频商品检索和视频检索等场景中采纳属性检索;在视频封面去重业务中采纳 ADBKmeans 聚类的办法,具体实际详见视频 👇

https://www.bilibili.com/vide…

正文完
 0