出品人:Towhee 技术团队 王翔宇、顾梦佳
Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输出数据,学习图像、文本、音频、视频等的通用表征。以后的视频 MAE 办法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来抉择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token,实现了遮蔽率高达 95% 的 token,从而升高内存需要并减速预训练。通过在公开视频数据集 Something-Something v2 (SSv2) 上进行融化钻研,AdaMAE 证实了该自适应采样办法的有效性。该办法在数据集 SSv2 和 Kinetics-400 上的动作分类工作中均取得了最先进的精度。
AdaMAEAdaMAE
提出自适应掩码策略,利用辅助采样网络依据语义上下文对可见 token 进行采样。它会基于采样网络预计的分类散布对可见 token 进行采样,并应用 ViT 编码器 - 解码器架构重建缺失的 token。因为采样过程是不可微分的,AdaMAE 通过最大化期望值重建损失来优化模型。这种自适应采样过程会从高时空信息区域采样更多的 token,而从低信息或冗余区域采样更少的 token。
相干材料:
代码地址:https://github.com/wgcban/adamae
论文链接:AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders