导读: 与传统网页不同,富媒体数据的了解与解决相比于此前的网页会更难、更具备挑战。万象零碎是百度搜寻为了解决富媒体信息海量解决问题而设计和开发的零碎,文中对万象零碎进行了一次全面的总览介绍,万象零碎目前在百度曾经承接了搜寻所须要的所有图片、视频数据的加工和解决,治理着超大量级的图片和视频实体特色数据,每天反对数十亿的解决吞吐,为百度产品的成果晋升奠定了根底。
一、背景
互联网信息经验过近几年的倒退,曾经从晚期单纯的 网页模式 倒退成现在的图文视频并茂的期间。咱们当初看到的信息出现形式不仅仅是干燥的全版文字网页,而是蕴含大量图片、视频信息的内容载体。从传统文字传递信息形式转换成图片和视频(包含语音)是人类信息传递通道的一次降级,也是更贴近天然交换过程的一个倒退阶段。国家广电总局和网络视听节目管理司独特编著的《中国视听新媒体倒退报告(2017)》显示:
“2016 年,我国在线视频市场规模达到 609 亿元,同比增长 56%。截至 2016 年 8 月,网络自制视听节目播放量同比增长 180%,流量占比从 2015 年的 8% 增长到 14%。”
——《中国视听新媒体倒退报告(2017)》
从信息量来看,图片承载的信息量要多于文字,视频承载的比图片更多。同一个内容,能够用文字、图片、甚至视频形式出现,即便是同一个图片或者视频,不同人从中获取失去的信息量也不完全一致。随着手机的遍及以及手机利用 APP 的凋敝,内容出现不仅仅局限在网页,** 而更多地出现于体验更好的 native app,它们提供了更敌对的操作和不一样的信息体验。** 这些给传统搜索引擎带来很多新的挑战。
二、搜索引擎面临的新挑战
传统搜索引擎承接了用户查问获取信息的入口,在 html 时代内容出现形式都有固定的标准以及对立的载体(浏览器),搜索引擎能够不便地对全网信息进行内容提炼、加工和检索,找出与用户查问最相干的后果。
然而,这种形式现在正在轻轻产生转变:
(1)以内容为外围的竞争:网页不再是信息的惟一载体
△内容的多种出现形式
同一内容能够新闻稿形式呈现在 PC 网页,也能够图文并茂地呈现在手机传媒的 WISE 利用中,还能够视频形式出现在各种垂类 APP 中。随着头部利用的呈现,内容凋谢的壁垒开始造成。PC 时代网页都是凋谢模式对外输入,现在头部利用能够把内容尽收在本人的利用外部。
特地是到了富媒体时代,手机的遍及以及图片视频编辑门槛的升高,越来越多的优质内容以图片和视频形式出现,给用户的体验越来越好。西瓜,抖音,快手等爆样式的视频 APP 呈现,也反映了用户对富媒体资源的认可和追捧。而对搜索引擎而言,越来越多的优质内容将以跨媒介的富媒体模式呈现。
(2)搜索引擎作为散发入口的位置受到挑战
随同手机 APP 生态的衰亡,用户生产信息不再齐全通过搜索引擎,而同时通过各种垂类 APP,来生产各种类型的内容信息。因为存在多种发明入口,内容在不同平台都会被不同人群进行生产而产出不同的反馈信号。因为反馈信号 来源于 多种不同手机利用平台而不齐全体现在传统的 PC 网页上,这对传统搜索引擎 Ranking 机制带来致命的影响。
传统搜索引擎在作为用户获取信息的次要入口的时候,能够获取到用户对每个内容生产的各种特色反馈信号:点击量,浏览时长,播放量,点赞量,评论等等。而因为内容多样性出现形式以及手机利用壁垒割离,导致搜索引擎获取的反馈信号并不能齐全代表用户的用意,从而引起相关性排序的偏差。
△反馈信号扩散在多端
因为用户能够从多个利用端接入并生产内容和信息,其在不同端的行为反馈须要被搜索引擎所收集用于精准排序。
这对于搜索引擎抓取零碎提出了新的挑战,即如何获取到这些扩散到各个不同载体的用户行为数据。抓取零碎须要超过此前仅抓取网页的限度,扩大到抓取图片、网页,甚至冲破手机利用上的页面获取到通过用户受权的内容和信号。
进一步,在搜索引擎外部进行信息处理过程中,将这些信号和特色以内容为粒度进行聚合和传递,以让雷同内容的其余载体在排序过程中能够用到这些信号。
例如,谢豪《野蜂飞舞》在不同的视频中都有不同的用户反馈信号,但本质上都是对同一个内容的用户反馈信号。传统而言,这些视频都来自不同的播放页和站点,用户行为反馈信号会被认为是不同网页的所属,而这种基于站点而不是内容的检索形式在新一代基于富媒体内容的搜索引擎零碎设计中将产生扭转。
(3)富媒体信息的生产形式出现多样化
传统网页搜寻下,用户输出关键词来检索信息,搜索引擎返回与用户搜寻需要最相干的网页;而在富媒体信息下,用户不仅能够通过关键词来检索信息,还能够输出图片来检索信息,甚至通过内容语义来检索信息。目前,常见的产品状态是:
- 以文(关键词)搜图
- 以文(关键词)搜视频
- 以图搜图:搜寻雷同或者类似图片,如拍照查问雷同或者类似的图片
- 以图搜视频:搜寻蕴含该图的视频,如拍一张电影截图查找是来自哪部电影
- 以文(内容语义)搜图或视频:以文字示意的语义内容检索相干图片或者视频,如查找《三生三世》中蕴含刘亦菲接吻的所有片段
这些输出多样化对搜索引擎的设计带了新的要求:不仅仅是传统基于 item 的倒排拉链,还要思考给予语义向量的倒排等。
三、富媒体信息的解决与检索
富媒体信息处理与检索,是指对包含视频、图片在内的多媒体资源进行收录、筛选、建设索引,并提供用户以文本、图片等输出形式进行信息检索的能力。下图给出了百度搜索引擎对富媒体信息的解决流程。
△富媒体信息的解决与检索
首先会在离线对图片、视频等富媒体数据进行加工和解决,辨认出其中的内容与语义,而后转变成零碎可能辨认和解决的属性(如文本标签,分类标签等),品质信息(如站点或者作者权威性,点赞量 / 播放量等,黄反信息等等),或者光学属性(如清晰度)。这些根底特色信息形成了对一个富媒体数据的全副表述。
不同富媒体数据之间还会有雷同 / 类似,蕴含等关系属性。如网上很多的剪辑视频,可能来自某部电影;或者两个一样的视频文件,只是来自不同播放站点带了不同的水印或者封面而已。这种关系,在咱们零碎中称之为实体粒度的聚合特色(绝对于上一段所提到的根底特色)。当两个实体被判断为雷同的时候,相干的特色信息能够合并汇聚,供两个实体同时应用。如播放量和点赞量会累加,缺失的特色标签会被另外一个实体补充等等,从而实现内容级别的汇聚。
四、万象零碎
在百度搜索引擎中,对视频 / 图片等多媒体数据进行解决的零碎称为:万象(取自无所不包,万象更新的意思),是对图片 / 视频等多媒体内容的加工和解决,提供规模化的收录、加工、筛选、建设索引的能力,为用户以文本、图片等输出形式进行信息检索提供强有力的数据反对。
△万象架构图
整个万象零碎承载了百度搜索引擎次要的图片与视频数据处理,** 波及海量的图片、视频(横版视频与竖版视频);每天都在计算和解决这些宏大的数据,** 反对图片搜寻、搜寻后果配图、视频搜寻、举荐等等所有百度外部波及富媒体的次要产品线。
规模化与时效性是整个零碎解决富媒体信息的两个最外围的设计指标。
- 规模化:指能大规模解决视频、图片等多媒体数据;同时可能调动和治理波及几十万 core 算力的异构资源(CPU,GPU,FPGA 等等);
- 时效性:指可能以满足产品迭代要求和周期的形式实现数据产出,包含各种特色和属性生产、数据筛选、索引生产等等,以确保产品成果时效性。
除了底层的根底服务外,整个万象零碎次要包含:
(1)千仞零碎:负责剖析单个实体(图片 / 视频)根底特色,如繁多图片的人物 / 场景 /OCR/ 清晰度等等剖析;
(2)初元零碎:负责剖析实体与实体之间关系(雷同,类似,蕴含,类聚等等),如是否是剪辑视频 / 是否同一事件的图集等;
(3)丹鼎零碎:负责管理特色,以及依照内容实体粒度聚合和组织特色数据;
(4)其余辅助零碎:负责裁剪、转码、编辑等。
1. 千仞零碎(Blades)
千仞系统分析繁多实体产出的特色数据,咱们称为根底特色数据。剖析和了解图片 / 视频是极其简单和高老本的过程,在整个千仞零碎中须要调动近几十万 Core 的弹性 CPU 资源以及 GPU/FPGA 等专用计算资源。
在根底特征分析中,有些特色只须要老本低廉的 CPU 就能剖析解决,如图片长宽;而有些则老本昂扬,须要 GPU 等高级硬件且耗时很长能力产出,如 OCR/ 分类 / 清晰度等等。老本高的特色,在千仞中会尽量减少反复计算,进步生产率。
△千仞零碎
在千仞零碎中,首要问题是如何用无限的资源反对如此宏大的计算需要。在千仞零碎中,所有特色计算都会转换成 DAG 执行,除了反对传统的批量特色计算外,流式计算也是最重要局部之一。DAG 执行引擎能无效地对各种特色关联关系进行治理,合并反复计算单元,同时联合数据热点调度,从而进步计算的性能。同时还包含重型算子的计算优化,例如 OCR 以及视频指纹计算,如何冲破单卡吞吐屏障实现百倍甚至千倍规模晋升等等。
2. 初元零碎(Initial)
光剖析出单个图片或者视频实体的特色还不足以满足业务需要。在很多状况下,咱们须要晓得实体与实体之间的关系,例如:(1)黄反甄别、(2)原创辨认、(3)优质内容提取、(4)基于事件 / 工夫 / 空间等关系的实体聚合查找、(5)基于雷同或者类似实体的举荐等等。
这些关系的剖析是由万象的子系统——初元来实现的。
△初元零碎
初元零碎是基于千仞零碎生产进去的根底特色构建的。表征每个实体是其根底的特色属性,通过在选集实体汇合中进行指纹级别的比对,来找到所须要的各种关系。如何动静地、实时地构建选集实体汇合是零碎设计的挑战之一。
3. 丹鼎零碎(Athanors)
无论是千仞产出的特色还是初元产出的特色,最终都会存储到特色库——丹鼎零碎。
丹鼎零碎不仅仅是存储实体的特色信息,而更重要的是进行实体粒度的特色属性聚合和传递。雷同的两个实体(例如,视频)会有不同的题目、点赞量、转发量等等特色属性。如果初元剖析出两个实体其实为同一个实体(如只是带上了不同水印的同一个视频),当这些信息汇聚到丹鼎零碎的时候,相干的属性汇聚合并可同时为任何一个实体应用。
△丹鼎零碎
丹鼎零碎的聚合技术是为了将信息以内容为单位进行整合,从而给上游检索系统实现内容粒度的信息检索奠定根底。内容聚合过程并不会把此前单个实体原有的特色信息给抹去,相同会在保留原有单个实体特色属性下实现动静汇聚技术。
例如,实体 E1 和 E2 被认为是两个内容雷同的视频,E1 领有比拟高质量的内容(例如,更清晰或者无黑白等),而 E2 领有更合乎需要的题目关键词,当用户应用搜索引擎的时候,E1 会有更好的用户体验并被搜索引擎分发给用户,这个时候所生成的 E1 题目就不是原有题目而是从 E1 和 E2 的题目关键词中筛选或者再生产更能合乎相关性需要的题目。同时,E2 的其余特色属性(如点击量,播放量,评论数等)也会同时累加到 E1 属性上,作为最终 E1 的属性返回给搜索引擎参加最初的后果排序。
五、总结
在以内容为王的时代,新一代的搜索引擎曾经从传统的基于网页的收录与检索,升级成基于富媒体信息等多种内容载体的信息收录与检索。与传统网页不同,富媒体数据的了解与解决相比于此前的网页会更难、更具备挑战。
** 万象零碎是百度搜寻为了解决富媒体信息海量解决问题而设计和开发的零碎,文中对万象零碎进行了一次全面的总览介绍,** 万象零碎目前在百度曾经承接了搜寻所须要的所有图片、视频数据的加工和解决,** 治理着超大量级的图片和视频实体特色数据,** 每天反对数十亿的解决吞吐,为百度产品的成果晋升奠定了根底。
原文链接:https://mp.weixin.qq.com/s/-yhs\_86CAMnsCxIYwrmMeQ
-
- –
百度架构师
百度官网技术公众号上线啦!
技术干货 · 行业资讯 · 线上沙龙 · 行业大会
招聘信息 · 内推信息 · 技术书籍 · 百度周边
欢送各位同学关注!