关于人工智能:图像视频3D-数据一把抓不挑食的-AI-模型-Omnivore

42次阅读

共计 658 个字符，预计需要花费 2 分钟才能阅读完成。

出品人 ：Towhee 技术团队

腻烦了不同数据要用不同的模型？是否想过用一个模型就能解决不同模态的数据？终于，在 2022 年初 Meta AI 推出了 “杂食者”Omnivore，一个模型搞定不同视觉模态数据，能够对图像、视频、3D 数据进行分类 。Omnivore 不仅兼容多种类型的数据，在不同工作的数据集上也都名落孙山。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度；在用于动作辨认的 Kinetics 数据集上能达到 84.1% 精度；在用于单视图 3D 场景分类的 SUN RGB-D 数据集上，精度也高达 67.1%。

Omnivore: Multiple visual modalities

Omnivore 将不同视觉模态的数据都转换成通用的向量格局，而后利用 Transformer 特有的灵活性，针对不同模态的分类工作进行联结训练。无论是从头训练，还是对预训练模型进行微调，只有应用 Omnivore 和现成的规范数据集，就能让其性能达到甚至超过对应的单模型。

模型用例：action-classification/omnivore
论文地址：OMNIVORE: A Single Model for Many Visual Modalities
更多材料：Facebook AI 推出“超级模型”：搞定图像、视频和 3D 数据三大分类工作，性能不输独立模型

更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…)，您的关注是咱们用爱发电的弱小能源，欢送 star, fork, slack 三连 :)

正文完