共计 658 个字符,预计需要花费 2 分钟才能阅读完成。
出品人 :Towhee 技术团队
腻烦了不同数据要用不同的模型?是否想过用一个模型就能解决不同模态的数据?终于,在 2022 年初 Meta AI 推出了 “杂食者”Omnivore,一个模型搞定不同视觉模态数据,能够对图像、视频、3D 数据进行分类 。Omnivore 不仅兼容多种类型的数据,在不同工作的数据集上也都名落孙山。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作辨认的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图 3D 场景分类的 SUN RGB-D 数据集上,精度也高达 67.1%。
Omnivore: Multiple visual modalities
Omnivore 将不同视觉模态的数据都转换成通用的向量格局,而后利用 Transformer 特有的灵活性,针对不同模态的分类工作进行联结训练。无论是从头训练,还是对预训练模型进行微调,只有应用 Omnivore 和现成的规范数据集,就能让其性能达到甚至超过对应的单模型。
参考资料:
模型用例:action-classification/omnivore
论文地址:OMNIVORE: A Single Model for Many Visual Modalities
更多材料:Facebook AI 推出“超级模型”:搞定图像、视频和 3D 数据三大分类工作,性能不输独立模型
更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)
正文完