乐趣区

关于程序员:Imagen的评价指标DrawBench是什么东西

我在看博客的时候发现 Imagen 提出了一个新的评估指标的,然而公众号都只是提了一嘴没有具体阐明,我为此又专门回去看了一下论文。那不如把看到的间接写一下,不便那些只想理解一下 Imagen,看公众号对评估指标形容不分明,又对评估指标很感兴趣的人。
先说一下。DrawBench 这个指标用的是人工评估。Imagen 等 text to image 模型做的是:你给他一句话,他给你生成图片。所以这个评估指标根本组成就是一些文本提醒句子,测评模型的时候把句子给模型,看看模型能生成什么样的图,而后再把这些图让人来评估一下生成的好不好

DrawBench 是 Imagen 的作者提出的一个 benchmark,目标是对图像到文本(text to image)生成做一个细粒度的评估。其中蕴含 11 个类别,大概 200 个文本提醒。
因为你是做文本到图像的生成的,是给模型输出一个句子提醒,模型给你输入图片,所以这个评估指标蕴含的内容是 200 多个文本提醒。

从上图咱们能够晓得评估的 11 个类别涵盖了方方面面。

DALL·E,Marcus,Reddit 这几个类别是对应其余模型用到的文本提醒(prompt)。就是我用你的文本提醒和你的模型比照生成成果。

colors,counting,positional 是考验模型是否依照要求生成须要的色彩,数量,地位。

conflicting 是看模型是否应答不合常理的句子(尽管句子不合理,然而你也要给我按要求生成,比方一只马骑在人身上。)

misspelling 看模型容错能力,如果你写错单词他能不能依照你正确的单词生成进去。

rare word 看模型是否应答生僻词汇。

description 看模型是否能解决长文本。

text 看模型是否能辨认并生成援用信息或者专有词汇。

这只是几个例子,残缺的能够看这里:DrawBench Prompts – Google
作者认为文本提醒的规模足够大了,因为 200 个提醒齐全能够从各方面测试模型的生成能力。200 个也足够小,因为这个评估指标是应用人工评估,太多了会累死人的。
评估过程是对每个类别进行独立的人工评估。对于每个文本提醒,测评人员都会收到两组图片,一组来自 A 模型,一组来自 B 模型。每组图片都含有 8 张模型生成的图片,不是选出最好的生成后果,是模型生成啥就间接拿进去。测评人员会被问两个问题:

Which set of images is of higher quality?

Which set of images better represents the text caption : {Text Caption}

哪组图片生成的品质更高?

哪组图片和文本提醒的含意更贴合?

这两个问题能够评估图像的保真度以及图像和文本的对齐状况。
对于每个问题,测评人员只能答复三选一答复:

I prefer set A.

I am indifferent.

I prefer set B.

我更偏向于 A 汇合

我无感

我更偏向于 B 汇合

最初是把每个类别 25 个测评人员的打分相加起来,总共是用了 25×11=72525 \times 11 = 72525×11=725 个测评人员。这些数据不做前期解决,前期解决比方过滤掉乱打分的测评人员。

退出移动版