近几个月来,咱们看到了多起对于“深度伪造 (deepfakes)”或人工智能生成内容的新闻报道:从 泰勒·斯威夫特的图片、汤姆·汉克斯的视频 到 美国总统乔·拜登的录音。这些深度伪造内容被用于各种目标,如销售产品、未经受权操纵人物形象、钓鱼获取私人信息,甚至制作误导选民的虚伪材料,它们在社交媒体平台的迅速流传,使其具备更宽泛的影响力,从而可能造成长久的挫伤。
在本篇博文中,咱们将介绍 AI 生成内容加水印的办法,探讨其优缺点,并展现 Hugging Face Hub 上一些可用于增加 / 检测水印的工具。
什么是水印,它是如何工作的?
水印是一种标记内容以传递额定信息(如内容的真实性)的办法。在 AI 生成的内容中,水印既能够是齐全可见的(如图 1 所示),也能够是齐全不可见的(如图 2 所示)。具体来说,在 AI 畛域,水印指的是在数字内容(例如图片)中退出特定模式,用以标示内容的起源;这些模式之后能够被人类或通过算法辨认。
AI 生成内容的水印次要有两种办法:第一种是在内容创作过程中退出,这须要拜访模型自身,但因为它是生成过程的一部分,所以 更为巩固。第二种办法是在内容生成后利用,能够用于闭源和专有模型生成的内容,但可能不适用于所有类型的内容(如文本)。
数据投毒与签名技术
除了水印,还有几种相干技术能够限度未经批准的图像操纵。有些技术通过奥妙地扭转在线分享的图像来避免 AI 算法正确处理这些图像。只管人类能够失常查看这些图像,但 AI 算法则无法访问相似内容,从而无奈创立新图像。这类技术包含 Glaze 和 Photoguard。还有一些工具通过“投毒”图像来毁坏 AI 算法训练中的固有假如,使得 AI 零碎无奈依据在线分享的图像学习人们的外貌——这让这些零碎更难以生成假人物图像。这类工具包含 Nightshade 和 Fawkes。
通过应用“签名”技术,也能够保护内容的真实性和可靠性,这些技术将内容与其起源的元数据链接起来,如 Truepic 的工作,它嵌入了 遵循 C2PA 规范的元数据。图像签名有助于理解图像的起源。尽管元数据能够被编辑,但像 Truepic 这样的零碎通过 1) 提供认证以确保能够验证元数据的有效性;以及 2) 与水印技术整合,使得删除信息更加艰难,来克服这一限度。
凋谢与关闭的水印
为公众提供对水印器和检测器不同级别的拜访权有其长处和毛病。开放性有助于促成翻新,开发者能够在要害思维上进行迭代,发明出越来越好的零碎。然而,这须要与避免歹意应用进行衡量。如果 AI 流程中的凋谢代码调用了水印器,去除水印步骤变得很简略。即便水印局部是关闭的,如果水印已知且水印代码凋谢,歹意行为者可能会浏览代码找到办法编辑生成的内容,使水印生效。如果还能够拜访检测器,就可能持续编辑合成内容,直到检测器显示低置信度,从而有效化水印。存在一些间接解决这些问题的混合凋谢 - 关闭办法。例如,Truepic 的水印代码是关闭的,但他们提供了一个能够验证内容凭证的公共 JavaScript 库。IMATAG 的调用水印器代码是凋谢的,但理论的水印器和检测器是公有的。
对不同数据类型进行水印
尽管水印是跨多种模态(音频、图像、文本等)的重要工具,但每种模态都带来其独特的挑战和考量。水印的用意也不尽相同,无论是为了避免 训练数据 被用于训练模型、避免内容被操纵、标记模型的 输入 ,还是 检测 AI 生成的数据。在本节中,咱们将探讨不同的数据模态、它们在水印方面的挑战,以及 Hugging Face Hub 上存在的用于施行不同类型水印的开源工具。
图像水印
可能最为人熟知的水印类型(无论是人类创作还是 AI 生成的内容)是对图像的水印。曾经提出了不同的办法来标记训练数据,以影响基于它训练的模型的输入:这种“图像隐身”办法最驰名的是“Nightshade”,它对图像进行渺小的批改,这些批改对人眼来说简直不可觉察,但会影响基于被净化数据训练的模型的品质。Hub 上也有相似的图像隐身工具——例如,由开发 Nightshade 的雷同实验室开发的 Fawkes,专门针对人物图像,目标是阻挡面部识别系统。同样,还有 Photoguard,旨在爱护图像不被用于生成 AI 工具(例如,基于它们创立深度伪造)的操纵。
对于水印输入图像,Hub 上提供了两种互补的办法:IMATAG(见图 2),它通过利用批改过的风行模型(如 Stable Diffusion XL Turbo)在内容生成过程中施行水印;以及 Truepic,它在图像生成后增加不可见的内容凭证。
TruePic 还将 C2PA 内容凭证嵌入图像中,容许在图像自身中存储无关图像起源和生成的元数据。IMATAG 和 TruePic Spaces 还容许检测由它们零碎水印的图像。这两种检测工具都是办法特定的。Hub 上已有一个现有的通用 深度伪造检测的 Space 利用,但依据咱们的教训,这些解决方案的性能取决于图像的品质和应用的模型。
文本水印
尽管给 AI 生成的图像加水印仿佛更直观——思考到这种内容的强烈视觉个性——但文本是另一个齐全不同的故事……你如何在文字和数字(令牌)中增加水印呢?以后的水印办法依赖于基于之前文本推广子词汇表。让咱们深刻理解这对于 LLM 生成的文本来说意味着什么。
在生成过程中,LLM 在执行采样或贪心解码之前输入下一个令牌的 logits 列表。基于之前生成的文本,大多数办法将所有候选令牌分为两组——称它们为“红色”和“绿色”。“红色”令牌将被限度,而“绿色”组将被推广。这能够通过齐全禁止红色组令牌(硬水印)或通过减少绿色组的概率(软水印)来实现。咱们对原始概率的更改越多,咱们的水印强度就越高。WaterBench 创立了一个基准数据集,以便在管制水印强度进行苹果与苹果的比拟时,促成跨水印算法的性能比拟。
检测工作通过确定每个令牌的“色彩”,而后计算输出文本来自于探讨的模型的概率。值得注意的是,较短的文本因为令牌较少,因而置信度较低。
图片起源: https://huggingface.co/spaces/tomg-group-umd/lm-watermarking
你能够在 Hugging Face Hub 上轻松实现 LLM 的水印。LLM 水印 Space(见图 3)演示了这一点,应用了 LLM 水印办法 对模型如 OPT 和 Flan-T5 进行了利用。对于生产级工作负载,你能够应用咱们的 文本生成推理工具包,它实现了雷同的水印算法,并设置了 相应的参数,能够与最新模型一起应用!
与 AI 生成图像的通用水印相似,是否能够广泛水印文本尚未失去证实。诸如 GLTR 之类的办法旨在对任何可拜访的语言模型(鉴于它们依赖于将生成文本的 logits 与不同模型的 logits 进行比拟)都具备鲁棒性。在没有拜访该模型(无论是因为它是闭源的还是因为你不晓得哪个模型被用来生成文本)的状况下,检测给定文本是否应用语言模型生成目前是不可能的。
正如咱们下面探讨的,检测生成文本的办法须要大量文本能力牢靠。即使如此,检测器也可能有高误报率,谬误地将人们写的文本标记为合成。实际上,OpenAI 在 2023 年因低准确率而轻轻敞开了他们的外部检测工具,这在老师用它来判断学生提交的作业是否应用 ChatGPT 生成时带来了 意想不到的结果。
音频水印
从集体声音中提取的数据(声纹)通常被用作生物平安认证机制来辨认个体。尽管通常与 PIN 或明码等其余平安因素联合应用,但这种生物辨认数据的泄露依然存在危险,能够被用来取得拜访权限,例如银行账户,鉴于许多银行应用声音辨认技术通过电话验证客户。随着声音变得更容易用 AI 复制,咱们也必须改良验证声音音频真实性的技术。水印音频内容相似于水印图像,因为它有一个多维输入空间,能够用来注入无关起源的元数据。在音频的状况下,水印通常在人耳无奈觉察的频率上进行(低于约 20 或高于约 20,000 Hz),而后能够应用 AI 驱动的办法进行检测。
鉴于音频输入的高风险性质,水印音频内容是一个沉闷的钻研畛域,过来几年提出了多种办法(例如,WaveFuzz,Venomave)。
起源:https://github.com/facebookresearch/audioseal
AudioSeal 也被用于公布 SeamlessExpressive 和 SeamlessStreaming 演示,带有平安机制。
论断
面对虚伪信息、被谬误地指控生产合成内容,以及未经自己批准就应用其形象,都是既艰难又耗时的问题;在能够进行更正和廓清之前,大部分侵害曾经造成。因而,作为咱们使好的机器学习普惠化的使命的一部分,咱们置信,领有疾速和系统地辨认 AI 生成内容的机制是至关重要的。AI 水印虽不是万能的,但在反抗歹意和误导性 AI 应用方面,它是一个强有力的工具。
相干新闻报道
- It Doesn’t End With Taylor Swift: How to Protect Against AI Deepfakes and Sexual Harassment | PopSugar (@meg)
- Three ways we can fight deepfake porn | MIT Technology Review (@sasha)
- Gun violence killed them. Now, their voices will lobby Congress to do more using AI | NPR (@irenesolaiman)
- Google DeepMind has launched a watermarking tool for AI-generated images | MIT Technology Review (@sasha)
- Invisible AI watermarks won’t stop bad actors. But they are a‘really big deal’for good ones | VentureBeat (@meg)
- A watermark for chatbots can expose text written by an AI | MIT Technology Review (@irenesolaiman)
- Hugging Face empowers users with deepfake detection tools | Mashable (@meg)