共计 4068 个字符,预计需要花费 11 分钟才能阅读完成。
简而言之: 咱们须要更好的办法来评估文生图模型中的偏见
介绍
文本到图像 (TTI) 生成 当初十分风行,成千上万的 TTI 模型被上传到 Hugging Face Hub。每种模态都可能受到不同起源的偏见影响,这就引出了一个问题: 咱们如何发现这些模型中的偏见?在以后的博客文章中,咱们分享了咱们对 TTI 零碎中偏见起源的认识以及解决它们的工具和潜在解决方案,展现了咱们本人的我的项目和来自更宽泛社区的我的项目。
图像生成中编码的价值观和偏见
偏见和价值 之间有着十分亲密的关系,特地是当这些偏见和价值嵌入到用于训练和查问给定 文本到图像模型 的语言或图像中时; 这种景象重大影响了咱们在生成图像中看到的输入。只管这种关系在更宽泛的人工智能钻研畛域中是家喻户晓的,并且科学家们正在进行大量致力来解决它,但试图在一个模型中示意一个给定人群价值观的演变性质的复杂性依然存在。这给揭示和充沛解决这一问题带来了长久的道德挑战。
例如,如果训练数据次要是英文,它们可能传播相当西方化的价值观。后果咱们失去了对不同或边远文化的刻板印象。当咱们比拟 ERNIE ViLG (左) 和 Stable Diffusion v 2.1 (右) 对同一提醒“北京的房子”的后果时,这种景象显得非常明显:
偏见的起源
近年来,人们在繁多模态的 AI 零碎中进行了大量对于偏见检测的重要钻研,包含自然语言解决 (Abid et al., 2021) 和计算机视觉 (Buolamwini and Gebru, 2018)。因为机器学习模型是由人类构建的,因而所有机器学习模型 (实际上,所有技术) 都存在偏见。这可能体现为图像中某些视觉特色的适度和有余 (例如,所有办公室工作人员都系着领带),或者文化和天文刻板印象的存在 (例如,所有新娘都衣着红色礼服和面纱,而不是更具代表性的世界各地的新娘,如穿红色纱丽的新娘)。鉴于 AI 零碎被部署在社会技术背景下,并且在不同行业和工具中宽泛部署 (例如 Firefly,Shutterstock),它们特地容易放大现有的社会偏见和不平等。咱们旨在提供一个非详尽的偏见起源列表:
训练数据中的偏见: 一些风行的多模态数据集,如文本到图像的 LAION-5B,图像字幕的 MS-COCO 和视觉问答的 VQA v2.0,曾经被发现蕴含大量的偏见和无害关联 (Zhao et al 2017,Prabhu and Birhane, 2021,Hirota et al, 2022),这些偏见可能会渗透到在这些数据集上训练的模型中。例如,来自 Hugging Face Stable Bias project 的初步结果显示,图像生成不足多样性,并且连续了文化和身份群体的常见刻板印象。比拟 Dall-E 2 生成的 CEO (右) 和经理 (左),咱们能够看到两者都不足多样性:
预训练数据过滤中的偏见: 在将数据集用于训练模型之前,通常会对其进行某种模式的过滤; 这会引入不同的偏见。例如,在他们的 博客文章 中,Dall-E 2 的创建者发现过滤训练数据实际上会放大偏见 – 他们假如这可能是因为现有数据集偏差于在更性感化的背景下出现女性,或者因为他们应用的过滤办法自身具备偏见。
推理中的偏见: 用于领导 Stable Diffusion 和 Dall-E 2 等文本到图像模型的训练和推理的 CLIP 模型 有许多 记录具体的偏见,波及年龄、性别和种族或族裔,例如将被标记为 白人
、 中年
和 男性
的图像视为默认。这可能会影响应用它进行提醒编码的模型的生成,例如通过解释未指定或未明确指定的性别和身份群体来示意白人和男性。
模型潜在空间中的偏见: 曾经进行了一些 初步工作,摸索模型的潜在空间并沿着不同轴 (如性别) 疏导图像生成,使生成更具代表性 (参见上面的图像)。然而,还须要更多工作来更好地了解不同类型扩散模型的潜在空间结构以及影响生成图像中反映偏见的因素。
前期过滤中的偏见: 许多图像生成模型都内置了旨在标记问题内容的平安过滤器。然而,这些过滤器的工作水平以及它们对不同类型内容的鲁棒性有待确定 – 例如,对 Stable Diffusion 平安过滤器进行红队反抗测试 表明,它次要识别性内容,并未能标记其余类型的暴力、血腥或令人不安的内容。
检测偏见
咱们下面形容的大多数问题都不能用繁多的解决方案解决 – 实际上,偏见是一个简单的话题,不能仅靠技术来有意义地解决。偏见与它所存在的更宽泛的社会、文化和历史背景严密相连。因而,解决 AI 零碎中的偏见不仅是一个技术挑战,而且是一个须要多学科关注的社会技术挑战。其中包含工具、红队反抗测试和评估在内的一系列办法能够帮忙咱们取得重要的见解,这些见解能够为模型创建者和上游用户提供无关 TTI 和其余多模态模型中蕴含的偏见的信息。
咱们在上面介绍一些这些办法:
摸索偏见的工具: 作为 Stable Bias 我的项目 的一部分,咱们创立了一系列工具来摸索和比拟不同文本到图像模型中偏见的视觉体现。例如,Average Diffusion Faces 工具让你能够比拟不同职业和不同模型的均匀示意 – 如上面所示,对于‘janitor’,别离为 Stable Diffusion v1.4、v2 和 Dall-E 2:
其余工具,如 Face Clustering tool 和 Colorfulness Profession Explorer 工具,容许用户摸索数据中的模式并辨认相似性和刻板印象,而无需指定标签或身份特色。事实上,重要的是要记住,生成的集体图像并不是实在的人,而是人工发明的,所以不要把它们当作实在的人来看待。依据上下文和用例,这些工具能够用于讲故事和审计。
红队反抗测试:“红队反抗测试”包含通过提醒和剖析后果来对 AI 模型进行潜在破绽、偏见和弱点的压力测试。尽管它曾经在实践中用于评估语言模型 (包含行将到来的 DEFCON 上的 Generative AI Red Teaming 流动,咱们也加入了),但目前还没有建设起系统化的红队反抗测试 AI 模型的办法,它依然绝对临时性。事实上,AI 模型中有这么多潜在的故障模式和偏见,很难预感它们全副,而生成模型的 随机性质 使得难以复现故障案例。红队反抗测试提供了对于模型局限性的可行性见解,并可用于增加防护栏和记录模型局限性。目前没有红队反抗测试基准或排行榜,突显了须要更多开源红队反抗测试资源的工作。Anthropic 的红队反抗测试数据集 是惟一一个开源的红队反抗测试 prompts,但仅限于英语自然语言文本。
评估和记录偏见: 在 Hugging Face,咱们是 模型卡片 和其余模式的文档 (如 数据表、README 等) 的鼎力支持者。在文本到图像 (和其余多模态) 模型的状况下,应用摸索工具和红队反抗测试等上述办法进行的摸索后果能够与模型检查点和权重一起共享。其中一个问题是,咱们目前没有用于测量多模态模型 (特地是文本到图像生成零碎) 中偏见的规范基准或数据集,但随着社区在这个方向上进行更多 工作,不同的偏见指标能够在模型文档中并行报告。
价值观和偏见
下面列出的所有办法都是检测和了解图像生成模型中嵌入的偏见的一部分。但咱们如何踊跃应答它们呢?
一种办法是开发新的模型,代表咱们心愿它成为社会性模型。这意味着创立不仅模拟咱们数据中的模式,而且踊跃促成更偏心、更公正观点的 AI 零碎。然而,这种办法提出了一个关键问题: 咱们将谁的价值观编程到这些模型中?价值观在不同文化、社会和集体之间有所不同,使得在 AI 模型中定义一个“现实”的社会应该是什么样子成为一项简单的工作。这个问题的确简单且多面。如果咱们防止在咱们的 AI 模型中再现现有的社会偏见,咱们就面临着定义一个“现实”的社会体现的挑战。社会并不是一个动态的实体,而是一个动静且一直变动的结构。那么,AI 模型是否应该随着工夫的推移适应社会规范和价值观的变动呢?如果是这样,咱们如何确保这些转变真正代表了社会中所有群体,特地是那些常常被忽视的群体呢?
此外,正如咱们在 上一期简报 中提到的,开发机器学习零碎并没有一种繁多的办法,开发和部署过程中的任何步骤都可能提供解决偏见的机会,从一开始谁被包含在内,到定义工作,到策动数据集,训练模型等。这也实用于多模态模型以及它们最终在社会中部署或生产化的形式,因为多模态模型中偏见的结果将取决于它们的上游应用。例如,如果一个模型被用于人机交互环境中的图形设计 (如 RunwayML 创立的那些),用户有屡次机会检测和纠正偏见,例如通过更改提醒或生成选项。然而,如果一个模型被用作帮忙法医艺术家创立潜在嫌疑人警察素描的 工具 (见下图),那么危险就更高了,因为这可能在高风险环境中增强刻板印象和种族偏见。
其余更新
咱们也在持续在道德和社会的其余方面进行工作,包含:
内容审核:
- 咱们对咱们的 内容政策 进行了重大更新。间隔咱们上次更新曾经快一年了,自那时起 Hugging Face 社区增长迅速,所以咱们感觉是时候了。在这次更新中,咱们强调 批准 是 Hugging Face 的外围价值之一。要理解更多对于咱们的思考过程,请查看 布告博客 。
AI 问责政策:
- 咱们提交了对 NTIA 对于 AI 问责政策 的评论申请的回应,在其中咱们强调了文档和透明度机制的重要性,以及利用凋谢合作和促成内部利益相关者获取的必要性。你能够在咱们的 博客文章 中找到咱们回应的摘要和残缺文档的链接!
结语
从下面的探讨中你能够看出,检测和应答多模态模型 (如文本到图像模型) 中的偏见和价值观依然是一个悬而未决的问题。除了下面提到的工作,咱们还在与社区宽泛接触这些问题 – 咱们最近在 FAccT 会议上独特主持了一个对于这个主题的 CRAFT 会议,并持续在这个主题上进行数据和模型为核心的钻研。咱们特地兴奋地摸索一个更深刻地探索文本到图像模型中所蕴含的 价值 及其所代表的方向 (敬请期待!)。
英文原文: https://hf.co/blog/ethics-soc-4
作者: Sasha Luccioni, Giada Pistilli, Nazneen Rajani, Elizabeth Allendorf, Irene Solaiman, Nathan Lambert, Margaret Mitchell
译者: innovation64
排版 / 审校: zhongdongy (阿东)