关于数据库:Milvus-在-Likee-短视频去重业务中的实践

49次阅读

共计 2006 个字符,预计需要花费 6 分钟才能阅读完成。

写在后面

本篇内容次要介绍领有寰球 4 亿用户的视频直播公司 BIGO 如何利用向量搜索引擎 Milvus 进行海量短视频去重的工作。在 Milvus 向量搜索引擎的减速下,BIGO 旗下的短视频产品 Likee 可能将每次搜寻都管制在 200ms 内,并且可能保障较高的召回率。同时,咱们采纳了横向扩大 Milvus 的形式来进步向量查问的吞吐量,来保障业务查问效率。

业务背景

自 2014 年成立以来,BIGO 基于弱小的音视频解决技术、寰球音视频实时传输技术、人工智能技术,推出了一系列音视频类社交及内容产品,如 BIGO LIVE、Likee。截至 2020 年第二季度,BIGO 旗下的短视频产品 Likee 挪动端月沉闷用户达 1.5 亿,零碎每天都须要解决用户上传的海量视频。在这个过程中,为了将品质较高的内容举荐给用户,零碎须要对海量视频中反复、低质的内容进行淘汰。

去重流程

咱们在这里利用了深度学习的办法进行去重工作。

首先把用户上传的视频切成 15-20 帧,而后把每一帧转换为特征向量,再到 7 亿多数据量的底库中进行搜寻,把搜寻进去的 top k 个向量对应的视频找到,再做比拟精密的视频类似度计算。

在进行向量类似度搜寻时要解决十亿级的全量数据,同时每天还随同着大量的新增数据,这对向量搜寻零碎的性能有十分高的要求和挑战。

在通过全面的剖析和比照之后,咱们采纳了分布式向量搜索引擎 Milvus,来帮忙咱们实现向量类似度检索的工作。

整体架构

接下来,介绍咱们利用 Milvus 进行短视频去重工作的整体业务架构。

如下图所示,Likee 平台上新增的视频会被实时写入 kafka,由 kafka-consumer 生产后先进入审核流程。接着,通过审核的内容会应用深度学习模型进行视频特征提取,将非结构化数据(视频)转化为结构化数据(特征向量)。零碎将特征向量打包后将申请发送至视频类似度审核程序。

视频去重业务架构

每一个通过特征提取、转化为多个特征向量的视频,都会先通过 Milvus 构建索引,后存入 Ceph,而后再被 Milvus 查问节点加载,提供搜寻能力。与此同时,咱们也会将视频 ID 和对应的特征向量依据业务状况同步存储到 TiDB 或 Pika 中。

视频类似度检索

在下面的流程中咱们能够看到,该计划的重点在于 对海量的特征向量进行类似度检索

上图中的 similarity-audit(类似度测验)利用了 Milvus 的批量搜寻性能,先对每个新增视频的多个特征向量进行类似度搜寻,召回每个特征向量的前 100 个类似向量(这里召回的每个类似向量绑定了其对应的视频 ID)。接着,对每次类似度搜寻召回的所有视频 ID 去重,再从 TiDB 或 Pika 中查问对应的特征向量。最初,将查问到的每组特征向量和申请视频的特征向量进行特定的视频类似度计算并打分,将得分最高的视频 ID 作为后果返回,到这里就实现了视频的类似度检索。

残缺流程如下图所示:

similarity-audit 类似度测验业务流程

总结与瞻望

以上就是无关在 Likee 业务中应用 Milvus 实现短视频去重工作的内容分享。Milvus 作为一款高性能、高召回率的分布式向量搜索引擎,在 Likee 短视频去重业务中有着惊艳的体现,极大地帮忙了 BIGO 的业务倒退。

BIGO 心愿今后能与 Milvus 发展更多深刻的单干,诸如违规内容审核或封禁、视频个性化举荐服务等,来独特推动单方业务的倒退,期待 Milvus 社区倒退得越来越好!


对于 Likee

凭借高质量和多样化的娱乐性内容,Likee 现已成为寰球互联网短视频社交产品中引领世界潮流的先锋与标杆。

  • 2020 年年中,Likee 挪动端每月沉闷用户数达 1.5 亿。
  • 2019 年 9 月末,Likee 挪动端每月沉闷用户数达 1.002 亿,位列 Google Play 寰球下载榜单前五,超过 Instagram、SnapChat 等出名利用,下载量仅次于 Facebook。
  • 2019 年年中,Likee 挪动端每月沉闷用户数达 8070 万。
  • 2017 年,BIGO 创建短视频社区 Likee,同年 8 月正式上架 App Store,直面海内市场,同年荣获 Google 利用市场年度最佳娱乐利用。
  • 2014 年,BIGO 由 David Li 和 Jason Hu 在新加坡创建,是一家专一于人工智能技术公司。

作者介绍

郭昕阳,BIGO 机器学习平台负责人,Senior Staff Engineer

韩宝玉,BIGO 机器学习平台团队,Engineer

编辑介绍

熊烨,Zilliz Community Intern

臧芃,Zilliz Community Intern


Zilliz 以从新定义数据迷信为愿景,致力于打造一家寰球当先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的暗藏价值。
Zilliz 构建了 Milvus 向量数据库,以放慢下一代数据平台的倒退。Milvus 数据库是 LF AI & Data 基金会的毕业我的项目,可能治理大量非结构化数据集,在新药发现、举荐零碎、聊天机器人等方面具备宽泛的利用。

正文完
 0