关于后端:ModelScope5分钟让你在大火的多模态领域权威榜单VQA上超越人类

42次阅读

共计 2889 个字符,预计需要花费 8 分钟才能阅读完成。

简介:ModelScope 上开源了达摩院泛滥业界最强多模态模型,其中就有首超人类的多模态视觉问答模型 mPLUG,小编从页面体验(一探)、开发体验(二探)、凋谢测试(三探)来探索多模态预训练模型能力。ModelScope 上开源了达摩院泛滥业界最强多模态模型,其中就有首超人类的多模态预训练视觉问答模型 mPLUG,小编冲动的搓搓小手,急不可待的体验了一下。一探:浅草能力没马蹄市面上有好多号称“用户上手简略”,“一步到位”,“傻瓜式”,然而真的,如果不懂两三行代码,没有一些机器学习根底,不趟几次浑水,是真的没方法上手的。浅草能力没马蹄,ModelScope 真的做到了,一步即可体验,所见即所得,没有任何的冗余,如丝般顺滑的的在线体验。一步,点击「执行测试」,有手就行!

 那么这个号称超人类的模型怎么样呢?小编马上开始测试模型!就拿小编最近去西双版纳的图片来测试!!!西双版纳是中国寒带生态系统保留最残缺的地区,素有“动物王国”、“动物王国”、“生物基因库”、“动物王国桂冠上的一颗绿宝石”等美称。同时西双版纳还有好多好吃的,舂鸡脚、泰国菜、孔雀宴、老挝冰咖啡、小菠萝、傣式烧烤等等。测完之后,真服了,真的是全知全能的问答模型,无论问物种、问数量、问地位,模型都能答复进去。图中小编刚意识的睡莲 (lily pads)– 泰国的国花都是精准无比,还有图 4 也能把背景中大象也能辨认进去,切实太厉害了!

 小编又想了个方法,我要测试孔雀 & 孔雀舞,这下终于难倒了模型!

 二探:觉知此事要躬行遇到这么强的模型,小编当然想粗浅理解一下,觉知此事要躬行嘛!其实是想本人领有一个,未来出去玩的时候能够把向导费给省了。ModelScope 也为我思考到了,右上角「在 Notebook 中关上」,点它!这里有 CPU 环境和 GPU 环境,看到 GPU,小编眼睛都直了,这不就是和 3090Ti 齐名的 V100,如此高性能的 GPU,羊毛党果决薅一下。

 测试过程十分流程,只须要会 import 就能实现整体流程,小编也整顿了相干代码放进去能够应用!###
!pwd
!mkdir data
!wget http://xingchen-data.oss-cn-z… -O data/visual_question_answering.png

from PIL import Image
image = Image.open(‘data/visual_question_answering.png’)
image.show()

from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = ‘damo/mplug_visual-question-answering_coco_large_en’
input_vqa = {

'image': Image.open('data/visual_question_answering.png'),
'question': 'What is grown on the plant?',

}

pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)
print(pipeline_vqa(input_vqa))
为了不便大家,小编也把运行两头步骤展现进去,这样无论是小白还是老手,都能够玩起来了。

 离部署只差最初一步了,用 gradio 就能够满足你,依照文档提醒即可实现。

 三探:无招胜有招多模态预训练模型 mPLUG 是建设在千万图文数据预训练的根底上,小编就想探索下模型是不是真的都学会了吗?最近文本生成图像模型 DALLE 和扩散模型开始热火朝天依据文本生成各种设想的图片,小编就想对于这些生成进去的图片,视觉问答模型 mPLUG 还能够正确答复吗?会不会因为没见过相似的样本就没有方法答复呀?小编先尝试了对赫赫有名的 DALLE 生成的图像进行问答,DALLE 是 OpenAI 放出的文本生成图像模型,取名 DALL-E,是为了向艺术家萨尔瓦多 - 达利(Salvador Dali)和皮克斯的机器人 WALL- E 致敬。测试之后,看看上面的后果,连艺术家 dali 都能辨认进去,不愧是见多识广,常识也太渊博了!

from modelscope.msdatasets import MsDataset

from icecream import ic

dataset = MsDataset.load(‘vqa_trial’, subset_name=’vqa_trial’, split=”test”)
print(dataset[0])

def resize_img(img):

# set the base width of the result
basewidth = 300
# determining the height ratio
wpercent = (basewidth/float(img.size[0]))
hsize = int((float(img.size[1])*float(wpercent)))
# resize image and save
img = img.resize((basewidth,hsize), Image.ANTIALIAS)
return img

resize_img(dataset0).show()

from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = ‘damo/mplug_visual-question-answering_coco_large_en’
pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)

for item in dataset:

input_vqa = {'image': item['image'],
    'question': item['question'],
}
answer = pipeline_vqa(input_vqa)
resize_img(item['image']).show()
print('Q:' + item['question'])
print('A:' + answer['text']) 同时小编也拿了 ModelScope 上的文生图模型进行测试,测试后果如下:

能够看到视觉问答模型 mPLUG 具备十分强的泛化能力,针对各种生成的图片,各个不同畛域的起源,都能答复正确。这就是训练了千万次,了解了视觉特色之后,达到了“无招胜有招”,理论测试中就能够死记硬背! 结语到这里就完结了,连忙上 ModelScope 一键体验超人类的视觉问答模型,一键中转:https://www.modelscope.cn/mod…。原文链接:https://click.aliyun.com/m/10… 本文为阿里云原创内容,未经容许不得转载。

正文完
 0