共计 859 个字符,预计需要花费 3 分钟才能阅读完成。
出品人:Towhee 技术团队 王翔宇、顾梦佳视频了解包含许多乏味的工作了解空间和工夫信息,其中最具挑战性的问题之一就是特征提取。因为无约束视频简短和简单工夫构造,从未修剪的视频提取上下文视觉表征变得十分困难。不同于现有的办法应用预训练的骨干网络作为黑盒来提取视觉示意,基于感知的多模态表征 PMR 旨在通过可解释的机制提取与上下文最相干的信息。人类通常通过三个次要因素之间的交互来感知视频,即参与者、相干对象和周边环境。因而设计一种办法可能提取可解释上下文的视频表征十分要害,这样就可能捕捉每个关键因素并建模它们之间的关系。PMR 尝试将人类感知过程转化为对角色、物体、和环境的建模。通过形容视频段落和时序动作检测两种工作,它证实了基于人类感知的上下文表征在视频了解中的有效性。
The architecture of PMR. 受人类感知视频的形式启发(即在特定工夫,人类会查看整个场景,而后定位次要 Actor,并感知他们与之交互的对象),PMR 在视频的每个输出片段的空间场景中全面捕捉来自多个实体的要害信息。为了做到这一点,PMR 由四个模块组成:环境观察器(Environment Beholder)模仿输出片段的整体场景,角色观察器(Actors Beholder)模仿输出片段中呈现的次要角色,指标观察器(Objects Beholder)对片段的相干对象建模,以及整体观察器(Actors-Objects-Environment Beholder)对所有类型的实体之间的关系建模。此外,角色和指标观察器装备了新鲜的 自适应注意力机制(Adaptive Attention Mechanism,AAM),以别离打消呈现在场景中的非必要角色和不相干的物体,并且只会被别离利用到次要角色和最相干的物体。
相干材料:
代码地址:https://github.com/UARK-AICV/…
论文链接:Contextual Explainable Video Representation: Human Perception-based Understanding