共计 6722 个字符,预计需要花费 17 分钟才能阅读完成。
已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、科技新闻速递,欢送大家关注!!!
FightingCV 交换群里每日会发送论文解析,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称
面向小白的顶会论文外围代码学习:https://github.com/xmu-xiaoma…
【写在后面】
在本文中,作者提出了一个新的问题,称为视听宰割(AVS),其指标是输入在图像帧产生声音时的对象的像素级 map。为了促成这项钻研,作者构建了第一个视听宰割基准(AVSBench),为音频视频中的发声对象提供像素级正文。并应用该基准钻研了两种设置:1)单声源半监督音视频宰割;2)具备多个声源的全监督视听宰割。为了解决 AVS 问题,作者提出了一种新办法,该办法应用工夫像素级视听交互模块注入音频语义,作为视觉宰割过程的领导。作者还设计了一种正则化损失,以激励在训练期间进行视听映射。在 AVSBench 上进行的定量和定性试验将本文的办法与相干工作中的几种现有办法进行了比拟,表明该办法无望在音频和像素视觉语义之间建设桥梁。
1. 论文和代码地址
Audio−Visual Segmentation
论文地址:https://arxiv.org/pdf/2207.05042.pdf
代码地址:https://github.com/OpenNLPLab/AVSBench
2. Motivation
人类不仅能够依据物体的视觉外观,还能够依据物体收回的声音对其进行分类。例如,当听到狗吠声或警笛声时,人类晓得声音别离来自狗或救护车。这些察看后果证实了音频和视频信息是相辅相成的。
到目前为止,钻研人员曾经从一些简化的场景中钻研了这个问题。一些钻研人员曾经钻研了视听对应(AVC)问题,其目标是确定音频信号和视觉图片是否形容雷同的场景。AVC 通常给予两个信号同时呈现和产生的状况。一些工作钻研了视听事件定位(AVEL),它将视频片段分类为预约义的事件标签。相似地,一些人也摸索了视听视频解析(AVVP),其指标是将视频划分为几个事件,并将其分类为可听、可见或两者。因为不足像素级标注,所有这些场景都局限于帧 / 工夫级,因而将问题升高到音频图像分类。
一个相干的问题为声源定位(SSL),旨在定位与声音对应的帧内的视觉区域。与 AVC/AVEL/AVVP 相比,SSL 问题寻求 patch 级场景了解,即后果通常由热力求示意,热力求通过可视化音频特色和视觉特色图的相似矩阵或类激活映射(CAM)取得,而不思考发声对象的理论形态。
在本文中,作者提出了像素级视听宰割(AVS)问题,该问题要求网络密集预测每个像素是否对应于给定的音频,从而生成发声对象的掩码。上图阐明了 AVS 和 SSL 之间的差别。AVS 工作比以前的工作更具挑战性,因为它要求网络不仅定位可听帧,而且描述发声物体的形态。
为了促成这项钻研,作者提出了 AVSBench,这是第一个像素级视听宰割基准,为探测对象提供 ground truth 标签。依据视频中探测对象的数量(单源或多源),作者将 AVSBench 数据集分为两个子集。应用 AVSBench,作者钻研了两种视听宰割设置:1)半监督单声源宰割(S4)和 2)全监督多声源宰割(MS3)。对于这两种设置,指标都是从产生声音的视觉帧中宰割对象。作者从 AVSBench 上的相干工作登程测试了六种办法,提供了一种新的 AVS 办法作为强 baseline。后者利用规范编码器 - 解码器架构,但具备新的工夫像素级视听交互(TPAVI)模块,以更好地引入音频语义来领导视觉宰割。作者还提出了一种损失函数来利用视听信号的相关性,从而进一步提高宰割性能。
本文的奉献能够总结如下:
1)提出了 AVS 作为一种细粒度的视听场景了解工作,并提出了 AVSBench,一种为 AVS 提供像素级正文的新数据集;
2)为 AVS 设计了一个端到端框架,该框架采纳新的 TPAVI 模块来编码工夫像素级的视听交互,并采纳正则化损耗来进一步利用视听相关性;
3)作者进行了大量试验,以验证将音频信号用于视觉宰割的益处。作者还比拟了几种相干办法,以表明本文提出的办法在这两种状况下的优越性。
3. 数据集
3.1 Dataset Statistics
AVSBench 设计用于像素级的视听宰割。作者应用 VGGSound 中介绍的技术收集视频,以确保音频和视频片段合乎预期语义。AVSBench 蕴含两个子集单源和多源,具体取决于探测对象的数量。所有视频都是从 YouTube 上下载的,并带有常识共享许可证,每段视频被缩短到 5 秒。单源子集蕴含 23 个类别的 4932 个视频,涵盖来自人类、动物、车辆和乐器的声音。在上图中,作者显示了每个类别的类别名称和视频编号。为了收集多源子集,作者抉择了蕴含多个发声对象的视频,例如,婴儿笑、男人谈话、而后女人唱歌的视频。具体来说,作者从单个音源子集中随机抉择两到三个类别名称作为关键字来搜寻在线视频,而后手动过滤视频,以确保 1)每个视频都有多个音源,2)发声对象在帧中可见,以及 3)没有欺骗性声音。总的来说,这一过程在 6000 多个候选视频中为多源子集生成了 424 个视频。两个子集的训练 / 验证 / 测试宰割百分比的比率设置为 70/15/15,如上表所示。下图显示了几个视频示例,其中红色文本示意发声对象的名称。
此外,作者将 AVSBench 与下表中其余风行的视听基准进行了比拟。AVE 数据集蕴含 4143 个视频,涵盖 28 个事件类别。LLP 数据集由 11849 个 YouTube 视频片段组成,逾越 25 个类别,从 AudioSet 收集。AVE 和 LLP 数据集都通过视听事件边界在帧级别进行标记。Flickr SoundNet 数据集和 VGGSS 数据集用于声源定位(SSL),通过边界框在 patch 级别进行标记。
3.2 Annotation
作者将每个 5 秒钟的视频分成 5 个相等的 1 秒片段,并为每个片段的最初一帧提供手动像素级标注。对于该采样帧,ground truth 标签是一个二进制掩码,依据相应工夫的音频批示检测对象的像素。例如,在多源子集中,即便跳舞的人在空间上体现出激烈的静止,只有没有发出声音,就不会对其进行标记。在物体不发声的片段中,不应 mask 物体,例如上图 b 最初一行前两个片段中的钢琴。相似地,当多个物体发出声音时,所有收回的物体都被标注,例如,上图 b 中第一行的吉他和四弦琴。此外,当视频中的发声对象动态变化时,难度进一步减少,例如,上图 b 中的第二、第三和第四行。目前,对于大型对象,作者仅标注其最具代表性的局部。例如,给钢琴的键盘贴上标签是因为它足够容易辨认,而钢琴的橱柜局部往往变动太大。
基于单信源和多源子集之间的不同艰难,作者应用了两种类型的标记策略。对于单信源训练宰割中的视频,仅对第一个采样帧进行标注(假如来自单次标注的信息足够,因为单信源子集随工夫具备单个且统一的发声对象)。
3.3 Two Benchmark Settings
作者为 AVSBench 数据集提供了两个基准设置:半监督单声源宰割(S4)和全监督多声源宰割(MS3)。为了便于表白,作者将视频序列示意为 S,它由 T 个不重叠但间断的片段 $\left\{S_{t}^{v}, S_{t}^{a}\right\}_{t=1}^{T}$ 组成,其中 $S^{v}$ 和 $S^{a}$ 是视觉和音频重量,T=5。实际上,作者在每秒钟完结时提取视频帧。
半监督 S4 对应于单信源子集。它被称为半监督,因为在训练期间只给出了局部 ground truth 值(即视频的第一个采样帧),但所有视频帧都须要在评估期间进行预测。作者将像素级别的标签示意为 $\boldsymbol{Y}_{t=1}^{s} \in \mathbb{R}^{H \times W}$,其中 H 和 W 别离是帧高度和宽度。$Y_{t=1}^{s}$ 是一个二进制矩阵,其中 1 示意发声对象,而 0 对应于背景或无声对象。
全监督 MS3 解决多源子集,其中每个视频的所有五个采样帧的标签都可用于训练。ground truth 示意为 $\left\{\boldsymbol{Y}_{t}^{m}\right\}_{t=1}^{T}$,其中 $\boldsymbol{Y}_{t}^{m} \in \mathbb{R}^{H \times W}$ 是第 t 个视频片段的二进制标签。
这两种设置的指标都是通过利用音频和视觉线索,即 $S^{a}$ 和 $\boldsymbol{S}^{v}$,正确宰割每个视频片段的发声对象。通常,冀望 $S^{a}$ 批示指标对象,而 $\boldsymbol{S}^{v}$ 为细粒度宰割提供信息。预测示意为 $\left\{\boldsymbol{M}_{t}\right\}_{t=1}^{T}, \boldsymbol{M}_{t} \in \mathbb{R}^{H} H \times W$。半监督和全监督设置均以类别无关的形式进行,因而模型实用于个别视频。
4. Baseline
作者提出了一种新的用于像素级视听宰割(AVS)工作的 baseline 办法,如上图所示。作者在半监督和齐全监督的环境中应用雷同的框架。依据语义宰割办法的常规,本文的办法采纳了编码器 - 解码器架构。
The Encoder
作者独立提取音频和视频特色。给定一个音频片段,作者首先通过短时傅立叶变换将其解决为频谱图,而后将其发送到卷积神经网络 VGGish。作者应用在 AudioSet 上预训练的权重来提取音频特色 $A \in \mathbb{R}^{T \times d}$,其中 d =128 是特色尺寸。对于视频帧 $S^{v}$,作者应用风行的基于卷积或基于视觉 Transformer 的骨干提取视觉特色。作者在试验中尝试了这两种抉择,它们显示出类似的性能趋势。这些骨干在编码过程中产生分层视觉特色图,如上图所示。将特色示意为 $\bar{F}_{i} \in \mathbb{R}^{T \times h_{i} \times w_{i} \times C_{i}}$,其中 $\left(h_{i}, w_{i}\right)=(H, W) / 2^{i+1}, i=1, \ldots, n$。在所有试验中,level 数设置为 n =4。
Cross-Modal Fusion
作者应用空洞空间金字塔池(ASPP)模块进一步后处理视觉特色 $\boldsymbol{F}_{i}$ 到 $V_{i} \in \mathbb{R}^{T \times h_{i} \times w_{i} \times C}$,其中 C =256。这些模块采纳多个具备不同 rate 的并行滤波器,因而有助于辨认具备不同感触野的视觉对象,例如不同大小的静止对象。而后,作者思考引入音频信息来构建视听映射,以帮忙辨认发声对象。这对于有多个动静声源的 MS3 设置尤其重要。作者的直觉是, 尽管声源的听觉和视觉信号可能不会同时呈现,但它们通常存在于多个视频帧中 。因而,聚合整个视频的音频和视觉信号是有意义的。受非部分块编码时空关系的启发,作者采纳了相似的模块来编码工夫像素级视听交互(TPAVI)。如上图所示,整个视频的以后视觉特色图 V 和音频特色 A 被发送到 TPAVI 模块。具体来说,首先通过线性层将音频特色 A 转换为与视觉特色 $V_{i}$ 具备雷同维度的特色空间。而后在空间上复制 $h_{i} w_{i}$ 次,并将其 reshape 为与 $V_i$ 雷同的大小。将此类解决后的音频特色示意为 $\hat{\boldsymbol{A}}$。接下来,冀望在整个视频中找到对音频对应物 $\hat{\boldsymbol{A}}$ 具备高响应的视觉特色图 $V_i$ 的像素。
这种视听交互能够通过点积测量,而后在第 i 阶段更新的特色图 $Z_{i}$ 能够计算为:
其中 $\theta, \phi, g$ 和 µ 是 1×1×1 卷积,$N=T \times h_{i} \times w_{i}$ 是归一化因子,$\alpha_{i}$ 示意视听相似性,$Z_{i} \in \mathbb{R}^{T \times h_{i} \times w_{i} \times C}$。每个视觉像素通过 TPAVI 模块与所有音频交互。作者在下图提供了 TPAVI 中视听注意力的可视化,它显示了与 SSL 办法预测相似的“外观”,因为它构建了像素到音频的映射。
The Decoder
作者在这项工作中采纳了全景 FPN 的解码器,因为它具备灵活性和有效性。简而言之,在第 j 级,其中 j =2、3、4,来自第 $\boldsymbol{Z}_{5-j}$ 级和上一阶段 $\mathbf{Z}_{6-j}$ 编码器的输入 j 用于解码过程。而后将解码的特色上采样到下一阶段。解码器的最终输入为 $\boldsymbol{M} \in \mathbb{R}^{T \times H \times W}$,由 Sigmoid 激活。
Objective function
给定预测 M 和像素级标签 Y,作者采纳二进制穿插熵(BCE)损失作为次要监督函数。此外,应用额定的正则化项 $\mathcal{L}_{\mathrm{AVM}}$ 来强制进行视听映射。具体来说,作者应用 Kullback-Leibler(KL)散度来确保 mask 的视觉特色与相应的音频特色具备类似的散布。换句话说,如果某些帧的音频特色在特色空间中靠近,则相应的发声对象在特色空间中无望靠近。总指标函数 L 可计算如下:
其中 λ 是均衡权重,⊙ 示意元素乘法,avg 示意均匀池化运算。在每个阶段,作者通过均匀池化对预测 $\boldsymbol{M}$ 到 $\boldsymbol{M}_{i}$ 进行下采样,使其具备与 $\boldsymbol{Z}_{i}$ 雷同的形态。向量 $\boldsymbol{A}_{i}$ 是与 $\boldsymbol{Z}_{i}$ 具备雷同特色维数的 A 的线性变换。对于半监督 S4 设置,作者发现视听正则化损失没有帮忙,因而作者在此设置中设置 λ =0。
5. 试验
上表展现了与相干工作的办法进行比拟。
上图展现了在齐全监督的 MS3 设置下,SSL 办法和本文的 AVS 框架的定性示例。
上图展现了在齐全监督的 MS3 设置下,VOS、SOD 和本文的 AVS 办法的定性示例。
AVS 工作能够分为两个阶段:第一阶段,应用现成的宰割模型,例如 COCO 数据集上预训练的 Mask R-CNN 来提取实例宰割图。而后,将第一阶段的这些对象图和视觉特色与音频连接起来,并输出到 PVT-v2 构造中,以预测最终后果。上表展现了本文办法和这些二阶段办法的比照。
上表展现了声音信号的影响,能够看出本文提出的 TPAVI 能够无效的提取出声音特色,并促成宰割工作。
上图展现了半监督 S4 设置下的定性后果。
上图展现了全监督 MS3 设置下的定性后果。
上表钻研了 $\mathcal{L}_{\mathrm{AVM}}$ 损失的两种变体的试验后果。
上表展现了在不同阶段进行跨模态交融的试验后果。
上图为在有或没有音频的状况下进行训练时,T-SNE 视觉特色的可视化。这些后果来自多源子集的测试宰割。作者首先应用主成分剖析(PCA)将音频特色划分为 K =20 个簇。而后,将音频簇标签调配给相应的视觉特色,并进行 t -SNE 可视化。具备雷同色彩的点共享雷同的音频簇标签。能够看出,当训练随同音频信号时(右),视觉特色与音频特色散布出现更严密的趋势,即具备雷同色彩的点汇集在一起,这表明曾经学习了视听相关性。
上图展现了将预训练 AVS 模型利用于没见过视频的定性示例。
6. 总结
本文提出了一个称为 AVS 的新工作,该工作旨在为音频视频中的发声对象生成像素级二进制宰割掩码。为了促成这一畛域的钻研,作者收集了第一个视听宰割基准(称为 AVSBench)。依据检测对象的数量,作者摸索了 AVS 的两种设置:半监督单源(S4)和全监督多源(MS3)。作者提出了一种新的像素级 AVS 办法作为强 baseline,该办法包含一个 TPAVI 模块,用于对时序视频序列中的像素级视听交互进行编码,以及一个正则化损失,以帮忙模型学习视听相关性。作者将本文的办法与 AVSBench 数据集上相干工作的几种现有最先进办法进行了比拟,并进一步证实了本文的办法能够在声音和对象外观之间建立联系。
已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、科技新闻速递,欢送大家关注!!!
FightingCV 交换群里每日会发送论文解析,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称
面向小白的顶会论文外围代码学习:https://github.com/xmu-xiaoma…
本文由 mdnice 多平台公布