关于程序员:Imagen的评价指标DrawBench是什么东西

我在看博客的时候发现 Imagen 提出了一个新的评估指标的，然而公众号都只是提了一嘴没有具体阐明，我为此又专门回去看了一下论文。那不如把看到的间接写一下，不便那些只想理解一下 Imagen，看公众号对评估指标形容不分明，又对评估指标很感兴趣的人。
先说一下。DrawBench 这个指标用的是人工评估。Imagen 等 text to image 模型做的是：你给他一句话，他给你生成图片。所以这个评估指标根本组成就是一些文本提醒句子，测评模型的时候把句子给模型，看看模型能生成什么样的图，而后再把这些图让人来评估一下生成的好不好

DrawBench 是 Imagen 的作者提出的一个 benchmark，目标是对图像到文本（text to image）生成做一个细粒度的评估。其中蕴含 11 个类别，大概 200 个文本提醒。
因为你是做文本到图像的生成的，是给模型输出一个句子提醒，模型给你输入图片，所以这个评估指标蕴含的内容是 200 多个文本提醒。

从上图咱们能够晓得评估的 11 个类别涵盖了方方面面。

DALL·E，Marcus，Reddit 这几个类别是对应其余模型用到的文本提醒（prompt）。就是我用你的文本提醒和你的模型比照生成成果。

colors，counting，positional 是考验模型是否依照要求生成须要的色彩，数量，地位。

conflicting 是看模型是否应答不合常理的句子（尽管句子不合理，然而你也要给我按要求生成，比方一只马骑在人身上。）

misspelling 看模型容错能力，如果你写错单词他能不能依照你正确的单词生成进去。

rare word 看模型是否应答生僻词汇。

description 看模型是否能解决长文本。

text 看模型是否能辨认并生成援用信息或者专有词汇。

这只是几个例子，残缺的能够看这里：DrawBench Prompts – Google
作者认为文本提醒的规模足够大了，因为 200 个提醒齐全能够从各方面测试模型的生成能力。200 个也足够小，因为这个评估指标是应用人工评估，太多了会累死人的。
评估过程是对每个类别进行独立的人工评估。对于每个文本提醒，测评人员都会收到两组图片，一组来自 A 模型，一组来自 B 模型。每组图片都含有 8 张模型生成的图片，不是选出最好的生成后果，是模型生成啥就间接拿进去。测评人员会被问两个问题：

Which set of images is of higher quality?

Which set of images better represents the text caption : {Text Caption}

哪组图片生成的品质更高？

哪组图片和文本提醒的含意更贴合？

这两个问题能够评估图像的保真度以及图像和文本的对齐状况。
对于每个问题，测评人员只能答复三选一答复：

I prefer set A.

I am indifferent.

I prefer set B.

我更偏向于 A 汇合

我无感

我更偏向于 B 汇合

最初是把每个类别 25 个测评人员的打分相加起来，总共是用了 25×11=72525 \times 11 = 72525×11=725 个测评人员。这些数据不做前期解决，前期解决比方过滤掉乱打分的测评人员。