共计 703 个字符,预计需要花费 2 分钟才能阅读完成。
出品人:Towhee 技术团队 张晨、顾梦佳
大规模扩散神经网络代表了文本到图像生成的一个重要里程碑,但它们依然不足可解释性剖析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本 - 图像归因剖析。为了生成像素级属性图,DAAM 在去噪子网络中放大和聚合穿插注意力字像素分数。通过归因剖析,DAAM 次要钻研了如何将语法关系转化为视觉交互,并关注了扩散模型中的视觉语言景象。通过定量语义宰割工作和定性狭义归因钻研,证实了归因办法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型,这使得将来的钻研成为可能。
The original synthesized image and three DAAM maps for“monkey,”“hat,”and“walking,”from the prompt,“monkey with hat walking.”
DAAM 在 Stable Diffusion 去噪逆扩散过程中抉择了略微靠后的步骤,进行可解释性钻研。惯例的归因剖析通过梯度进行计算,但在扩散模型中无奈进行梯度计算,因而 DAAM 选用词汇和特色图的得分的形式进行剖析。通过评估句法关系如何转化为视觉互动,DAAM 发现某些注意力头不恰当地蕴含了他们的隶属。因为,DAAM 失去了特色纠缠的假如,表明同位词是凌乱的,而形容词的范畴太广了。
相干材料:
代码地址:https://github.com/castorini/…
论文链接:What the DAAM: Interpreting Stable Diffusion Using Cross Attention
更多材料:https://blog.csdn.net/qq_4245…