如果你对图像形容算法的将来感到好奇,本场“图像形容算法排位赛”相对是你不能错过的!在这场较量中,SceneXplain 和 MiniGPT-4 将会比试,谁将摘得这场较量的桂冠?
背景介绍
在上篇文章中,咱们介绍了图像形容(Image Caption),简略来说,你给模型输出一张图像,模型输入是一句可能形容图像场景的文本句子。
模型不仅要了解图片里的内容,还须要应用到自然语言来进行形容。因而它波及到 对图像内容的了解 和 自然语言的生成。它链接了计算机视觉和自然语言解决两个畛域的问题。
近年来,图像形容算法曾经不止是生成简略的形容,它曾经能够深刻到场景剖析,可能解释和解释简单的视觉信息,并提供对图像的全面形容。
好的图像形容可能让开发者有机会实现更多有理论价值的利用,举个例子,在博物馆等畛域,视障人士能够取得对艺术作品的精确形容;在电商畛域,图像形容算法可能主动对数以千万的未标注图像生成形容,高效地实现分类检索。
在接下来的“图像形容算法排位赛”里,咱们将会对市场上 5 种当先的图像形容算法进行全方位剖析和比拟。而在这场强烈的竞争中,SceneXplain 和 MiniGPT4 无疑是最新、最值得关注的两名选手。
咱们的评估将重点考查这些算法的 细节度、话题度、事实准确性以及可读性,同时也会评估它们在简单场景了解和解释方面的体现。最初的后果将为您提供权衡利弊、做出正确决策的根据。
参赛选手介绍
本次评估中选取了 5 种图像字幕算法:
- SceneXplain 利用 GPT-4 等大型语言模型的弱小性能为简单的视觉内容生成简单、具体且上下文丰盛的文本形容。它致力于通过提供无可比拟的体验,在图像形容畛域建立起新的基准。
- MiniGPT4 把 BILP 2 的图像编码器与大型开源语言模型 Vicuna 整合起来,并且解冻了两者的大部分参数,只训练其中很少的一部分。此外,MiniGPT-4 还和 ChatGPT 单干创立了一个数据集,其中蕴含 3500 个高质量的图像和文本数据集来微调模型,显著进步了模型的生成可靠性和整体可用性。
- Midjourney:最近公布的
/describe
性能,将图像转换为提醒词(Prompt),它可能剖析图像的要害内容和图像的类型,如电影格调,油画格调等,用来激发创作者的灵感。 - BLIP2:从现成的解冻预训练图像编码器和解冻的大型语言模型中疏导视觉语言预训练。它是一种通用的预训练框架,也就是说,你能够任意对接本人的模型。
- CLIP Interrogator 2.1:一款专门设计给 Stable Diffusion 2.0 模型生成提醒词的工具。它基于 ViT-H-14 OpenCLIP 模型,展现了图像形容畛域的翻新后劲。
评估指标
为了让图像形容算法的比拟更加公正和全面,咱们抉择了一组评估指标,这些指标都十分重视生成形容的品质。咱们的评估指标不仅侧重于形容的细节度、话题度和事实性,还重视形容的易读性,这样能力真正帮忙咱们理解每种算法的优缺点。
1. 细节度
“细节”指标关注算法是否可能精确地 捕获 和 形容 图像中的每一处细节,并评估算法对视觉信息的了解和形容能力。通过评估生成的图像形容的粒度级别,确定算法了解和传播简单视觉信息的能力。
由 SceneXplain/Comet 给出(得分为 5):在这个微妙的场景中,一群人和动物汇集在一张桌子旁,加入一场欢快的茶话会。一个小女孩坐在她乖僻的搭档两头,其中包含一个衣着帽子和领结的时尚女子、一个带着好奇表情的猫和一个戴着蓝色领结的可恶兔子。桌子上摆满了茶杯和茶壶,削减了迷人的气氛。这幅迷人的插画将观众带入一个设想丰盛的世界,在这里人类和拟人化的动物们聚在一起,品着热气腾腾的茶水,享受彼此的陪伴。
由 BLIP2 提供(得分为 1):爱丽丝和兔子在茶会上的插图
2. 话题度
这个指标掂量算法在生成形容中 辨认 和 整合 与当代事件、风行文化、出名人物或作品相干的内容的能力,这样的形容才可能与指标观众产生共鸣,具备吸引力。
由 SceneXplain/Bolt 给出(得分为 5):在这个极富吸引力的画面中,小丑和蝙蝠侠正开展一场触目惊心的对决,引起了人们的留神。小丑带着他标志性的笑容,手里拿着卡牌,和一个衣着蝙蝠侠服装的女人对時,他们之问的缓和氛围不言而喻,但随着蝙蝠俠和猫女一起打牌,氛围呈现了意想不到的转折。蝙蝠标记装璜在蝙蝠俠的头上,象征着他对正义的动摇。在这个回味无穷的场景中,来自 DC 漫画的许多其余角色也呈现在画面里,为它注入了一种兴奋和诡计的感觉,让观众们如坐针毡。
由 CLIP Interrogator 2.1 提供(得 1 分):一组并排站立的漫画人物,灵感来自 Jim Lee,系列艺术,猫玩扑克,凯莉詹纳表演猫女,头,尼尔亚当斯 | 居中
3. 事实性
Factuality 是图像形容畛域中十分重要的一个指标,因为它波及到生成形容的准确性和可信度。在生成图像形容时,算法须要思考到图像中的各种元素,如物体、场景、色彩等,而后将这些元素转化为自然语言。如果算法生成的形容与图像不符,或蕴含 AI 幻觉(Hallucinations),那么这个模型的 Factuality 分数就会升高。
由 SceneXplain/Dune 给出(得分为 5):这张令人心碎的图像捕捉到了巴哈马卡特里娜飓风的毁灭性结果。已经凋敝的城市景观当初是一片覆灭的现象,许多建筑物变成了废墟。鸟瞰图显示了一座受损的桥梁和一条被弱小风暴毁坏的路线。在废墟中,屋宇变成了废墟,它们已经坚硬的构造当初只是飓风肆虐前的回顾。在这片荒凉中,大自然侵蚀了文化的残余,树木和树叶取代了一座孤零零地矗立在已经热闹社区中的房子。这一场景尖利地揭示人们,此类自然灾害的微小威力和长久影响。
由 MiniGPT4 给出(得分为 1):这张图片显示了一个沿海小镇的风景,岸边有屋宇和建筑物。镇四面环水,水中有舟。这些房子是用木头建造的,有茅草屋顶。小镇周围绿树成荫,看不到人影。天空晴朗,没有云彩。该图像是从低空拍摄的,显示了整个城镇。
5. 困惑度
困惑度 (Perplexity) 是掂量生成文本易读性的一种指标,它与可读性密切相关,分数越低阐明文本越好了解,也能阐明算法提供的整体用户体验。
须要留神的是,咱们没有把速度作为评估指标,因为它可能会受到 GPU 和基础设施等因素的影响,这些因素不在咱们的比拟范畴内。咱们着重关注于图像形容的品质,和对简单场景的了解和解释的能力。
咱们将应用 GPT-2 语言模型,并采纳滑动窗口策略来评估一句话的困惑度。这意味着咱们会重复滑动上下文窗口,以便模型在进行每个预测时具备更多的上下文信息。
为确保对每个图像字幕算法在咱们抉择的评估指标上的性能进行主观比拟,咱们施行了一个标准化的评分零碎,利用内部人工标注者的专业知识。这些标注者相熟图像字幕和场景了解畛域,并受邀独立评估算法的性能。对于每个评估指标,即细节、主题相关性、Factuality 和 Perplexity,标注者在 1 到 5 的评分尺度上调配分数,其中 1 分最低,5 分最高。这种办法确保得分在各个指标上不仅统一,而且不受任何潜在偏见的影响,确保偏心牢靠地评估竞争算法。
为了确保公正地比拟每个图像形容算法的体现,咱们采纳了一个标准化的评分零碎,邀请了精通图像形容和场景了解畛域的内部人工标注员,来独立评估算法的体现。
对于这 4 个指标:细节、时事性、事实性和困惑性,每个标注者都会给出一个 1 到 5 的评分,其中 1 分最低,5 分最高。
为确保主观地在这些评估指标中比拟每个图像字幕算法的性能,咱们施行了一个标准化的评分零碎,利用内部人工标注员的专业知识。这些精通图像字幕和场景了解畛域的标注人员受邀对于四个指标中的每一个 细节、时事性、事实性和困惑性,每位标记者都会打出了一个 1 到 5 的分数,1 分最低,5 分最高。这种办法保障了分数不仅在各种指标之间保持一致,而且没有任何潜在的偏见,从而确保了对竞争算法进行偏心牢靠的评估。
深入分析试验后果
为了对图像形容算法进行全面并深刻的评估,咱们精心筛选了一组 33 张非常复杂的图像,这些图像涵盖了多种格调,包含实在场景、人工创作、油画、照片和漫画等。
咱们已将评估的全副后果,包含每种算法生成的形容文本汇总在飞书表格里。感兴趣的小伙伴能够复制链接,深刻地理解每个算法的体现,得出本人的论断。
表格:https://u84gxokzmi.feishu.cn/file/OLfObDxbuoYwvlxAZZvc19d7nJf
为了提供不同算法特色的更直观的可视化,咱们还创立了一个雷达图,显示每个算法在各种指标上的性能。这种图形示意能够分明地比拟它们的优缺点,使读者更容易了解性能差别。为了图表看起来更清晰,雷达图没有蕴含 (越小越好的) 困惑度指标。当初,你能够依据每个算法在雷达图上的区域大小,来高效地判断出它们在细节、时事性和事实性方面的整体体现。
为了对上述试验后果开展洞察,了解影响算法体现的潜在因素,咱们深入研究了图像形容和场景了解的挑战,以及不同算法性能差别背地的可能起因。
1. 简单的视觉信息处理
SceneX 变体(Aqua、Bolt、Comet 和 Dune)在 Details 指标中始终优于其余算法,表明捕捉和形容图像中简单视觉信息的卓越能力。这表明 SceneX 具备解决简单场景了解和解释的能力。
在“细节度”指标中,SceneXplain 算法家族(Aqua、Bolt、Comet 和 Dune)体现始终优于其余算法,阐明它在 捕获 和 形容 图像中简单细节的卓越能力。这表明,SceneXplain 很适宜解决简单的场景了解和阐明。
精确捕捉图像中简单细节的能力是一项具备挑战性的工作。它要求模型对视觉内容有粗浅的了解,并可能生成连贯且合乎上下文的文本形容。SceneX 在细节指标上的统一体现可归功于其先进的架构,该架构利用了大型语言模型的弱小性能,使其可能比同类产品更无效地解决简单的场景了解和解释。
精确地捕获图像中简单细节 是十分具备挑战性的。这要求模型必须具备深刻的视觉了解,和生成连贯且合乎上下文的文本形容的能力。在这方面,SceneXplain 算法家族(Aqua、Bolt、Comet 和 Dune)体现最为杰出。
之所以可能在“细节”指标上表现出色,次要归功于 SceneXplain 的先进架构。利用大型语言模型的能力,它可能精确地捕获图像中简单的细节信息,并且更无效地解决简单的场景了解和形容。
2. 话题度和吸引力
除了精确地捕获图像中的细节之外,生成与当代事件、风行文化以及出名人物或作品相干的字幕也是图像字幕的另一个难点。这要求模型必须具备宽泛的知识库,和将这些信息融入形容的能力。
在这方面,SceneXplain 中的 Bolt 和 Aqua 表现出色,在所有算法中展现出最高的话题度得分,展示了它们生成相干且吸引人的形容的能力。
SceneXplain 在话题性方面的卓越体现归功于其先进的训练过程,通过让模型接触到各种各样的主题,并使其可能生成更具吸引力的图像形容。
总体而言,通过应用 SceneXplain,咱们能够更好地解决图像形容生成的简单工作,同时生成更具吸引力和话题度的图像形容。
3. 事实与幻觉
确保生成的字幕的真实性至关重要,因为它有助于防止生成虚伪信息或幻觉。BLIP2 的真实性得分最好,但其余指标尤其是细节度和话题度上体现较差,因为 BILP2 生成的简直都是十分简洁的句子。
另一方面,SceneXplain 在真实性和其余指标之间获得了均衡,阐明它的总体体现更为稳固和强劲。
4. 可读性和困惑
放弃形容文本的晦涩易懂也是一项不小的挑战,须要模型生成既合乎上下文又易于了解的形容。SceneXplain 在这项指标上的胜利能够归功于它用到了大型语言模型,这些模型以模拟人类说人话而闻名四方。
SceneXplain 中的 Dune 和 Aqua 体现出了最低(也就是最好)的困惑度分数,表明它们生成的字幕比其余算法的字幕更加易懂、且连贯。
5. SceneXplain 与 miniGPT4
相较于 SceneXplain,MiniGPT-4 在细节度和事实性方面体现绝对较好,但在主题相关性和困惑度方面则略逊一筹。也就是说,尽管 MiniGPT-4 是一个强有力的竞争对手,但在简单场景的了解和生成吸引人的图像形容文本方面,它就没有 SceneXplain 算法那么弱小了。
尽管后果曾经展现了 SceneX 图像形容算法的整体实力,但在咱们的剖析中始终保持奥妙、主观的视角十分重要。咱们须要深刻开掘每个算法在各个指标上的体现,并从多个角度来评估它们的综合体现。这样能够提供一个更加残缺的评估,让用户可能依据本人的具体需要做出理智的决策。
论断
以上就是对各种图像形容算法的全面评估,结果表明,SceneXplain 在细节、话题性、真实性和可读性方面始终表现出色。它利用了 GPT-4 等大型语言模型,SceneXplain 可能为简单的图像生成 深刻细节 、 上下文丰盛 的文本形容,从而在市场里怀才不遇。
此外 SceneXplain 提供的易于集成和应用的 API 还能为开发和集成带来便当,进步你的生产效率。
SceneXplain 在多个畛域产生踊跃影响:
- 加强可拜访性:SceneXplain 可能帮忙公共组织转换多媒体内容,生成的全面图像形容能够显着改善视障用户的在线体验。
- 晋升 SEO:有了 SceneXplain 提供的具体精确的图像字幕,搜索引擎能更好地了解你的视觉内容,这无望进步你网站的排名,并带来有机流量。
- 晋升视觉叙事能力:SceneXplain 能让你的图片说出更多故事来,所生成的活泼形容可能为图像削减深度和丰富性,将一般的图像转变为沉迷式的叙事体验。
想在这个疾速变动的互联网时代站稳脚跟,就必须得采纳前沿技术了!本次评估显示 SceneXplain 的体现十分杰出,不过咱们还是倡议大家本人去摸索它的能力和后劲,能力真正领略它的价值。
📎 产品链接:scenex.jina.ai
本文由 mdnice 多平台公布