关于机器学习:DAAM首次利用视觉语言学解释大型扩散模型

出品人：Towhee 技术团队张晨、顾梦佳

大规模扩散神经网络代表了文本到图像生成的一个重要里程碑，但它们依然不足可解释性剖析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本 - 图像归因剖析。为了生成像素级属性图，DAAM 在去噪子网络中放大和聚合穿插注意力字像素分数。通过归因剖析，DAAM 次要钻研了如何将语法关系转化为视觉交互，并关注了扩散模型中的视觉语言景象。通过定量语义宰割工作和定性狭义归因钻研，证实了归因办法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型，这使得将来的钻研成为可能。

The original synthesized image and three DAAM maps for“monkey,”“hat,”and“walking,”from the prompt,“monkey with hat walking.”

DAAM 在 Stable Diffusion 去噪逆扩散过程中抉择了略微靠后的步骤，进行可解释性钻研。惯例的归因剖析通过梯度进行计算，但在扩散模型中无奈进行梯度计算，因而 DAAM 选用词汇和特色图的得分的形式进行剖析。通过评估句法关系如何转化为视觉互动，DAAM 发现某些注意力头不恰当地蕴含了他们的隶属。因为，DAAM 失去了特色纠缠的假如，表明同位词是凌乱的，而形容词的范畴太广了。

相干材料：
代码地址：https://github.com/castorini/…
论文链接：What the DAAM: Interpreting Stable Diffusion Using Cross Attention
更多材料：https://blog.csdn.net/qq_4245…