关于人工智能:人工智能水印技术入门工具与技巧

近几个月来，咱们看到了多起对于“深度伪造 (deepfakes)”或人工智能生成内容的新闻报道：从泰勒·斯威夫特的图片、汤姆·汉克斯的视频到美国总统乔·拜登的录音。这些深度伪造内容被用于各种目标，如销售产品、未经受权操纵人物形象、钓鱼获取私人信息，甚至制作误导选民的虚伪材料，它们在社交媒体平台的迅速流传，使其具备更宽泛的影响力，从而可能造成长久的挫伤。

在本篇博文中，咱们将介绍 AI 生成内容加水印的办法，探讨其优缺点，并展现 Hugging Face Hub 上一些可用于增加 / 检测水印的工具。

水印是一种标记内容以传递额定信息（如内容的真实性）的办法。在 AI 生成的内容中，水印既能够是齐全可见的（如图 1 所示），也能够是齐全不可见的（如图 2 所示）。具体来说，在 AI 畛域，水印指的是在数字内容（例如图片）中退出特定模式，用以标示内容的起源；这些模式之后能够被人类或通过算法辨认。

AI 生成内容的水印次要有两种办法：第一种是在内容创作过程中退出，这须要拜访模型自身，但因为它是生成过程的一部分，所以更为巩固。第二种办法是在内容生成后利用，能够用于闭源和专有模型生成的内容，但可能不适用于所有类型的内容（如文本）。

除了水印，还有几种相干技术能够限度未经批准的图像操纵。有些技术通过奥妙地扭转在线分享的图像来避免 AI 算法正确处理这些图像。只管人类能够失常查看这些图像，但 AI 算法则无法访问相似内容，从而无奈创立新图像。这类技术包含 Glaze 和 Photoguard。还有一些工具通过“投毒”图像来毁坏 AI 算法训练中的固有假如，使得 AI 零碎无奈依据在线分享的图像学习人们的外貌——这让这些零碎更难以生成假人物图像。这类工具包含 Nightshade 和 Fawkes。

通过应用“签名”技术，也能够保护内容的真实性和可靠性，这些技术将内容与其起源的元数据链接起来，如 Truepic 的工作，它嵌入了遵循 C2PA 规范的元数据。图像签名有助于理解图像的起源。尽管元数据能够被编辑，但像 Truepic 这样的零碎通过 1) 提供认证以确保能够验证元数据的有效性；以及 2) 与水印技术整合，使得删除信息更加艰难，来克服这一限度。

为公众提供对水印器和检测器不同级别的拜访权有其长处和毛病。开放性有助于促成翻新，开发者能够在要害思维上进行迭代，发明出越来越好的零碎。然而，这须要与避免歹意应用进行衡量。如果 AI 流程中的凋谢代码调用了水印器，去除水印步骤变得很简略。即便水印局部是关闭的，如果水印已知且水印代码凋谢，歹意行为者可能会浏览代码找到办法编辑生成的内容，使水印生效。如果还能够拜访检测器，就可能持续编辑合成内容，直到检测器显示低置信度，从而有效化水印。存在一些间接解决这些问题的混合凋谢 - 关闭办法。例如，Truepic 的水印代码是关闭的，但他们提供了一个能够验证内容凭证的公共 JavaScript 库。IMATAG 的调用水印器代码是凋谢的，但理论的水印器和检测器是公有的。

尽管水印是跨多种模态（音频、图像、文本等）的重要工具，但每种模态都带来其独特的挑战和考量。水印的用意也不尽相同，无论是为了避免 训练数据 被用于训练模型、避免内容被操纵、标记模型的输入，还是检测 AI 生成的数据。在本节中，咱们将探讨不同的数据模态、它们在水印方面的挑战，以及 Hugging Face Hub 上存在的用于施行不同类型水印的开源工具。

可能最为人熟知的水印类型（无论是人类创作还是 AI 生成的内容）是对图像的水印。曾经提出了不同的办法来标记训练数据，以影响基于它训练的模型的输入：这种“图像隐身”办法最驰名的是“Nightshade”，它对图像进行渺小的批改，这些批改对人眼来说简直不可觉察，但会影响基于被净化数据训练的模型的品质。Hub 上也有相似的图像隐身工具——例如，由开发 Nightshade 的雷同实验室开发的 Fawkes，专门针对人物图像，目标是阻挡面部识别系统。同样，还有 Photoguard，旨在爱护图像不被用于生成 AI 工具（例如，基于它们创立深度伪造）的操纵。

对于水印输入图像，Hub 上提供了两种互补的办法：IMATAG（见图 2），它通过利用批改过的风行模型（如 Stable Diffusion XL Turbo）在内容生成过程中施行水印；以及 Truepic，它在图像生成后增加不可见的内容凭证。

TruePic 还将 C2PA 内容凭证嵌入图像中，容许在图像自身中存储无关图像起源和生成的元数据。IMATAG 和 TruePic Spaces 还容许检测由它们零碎水印的图像。这两种检测工具都是办法特定的。Hub 上已有一个现有的通用深度伪造检测的 Space 利用，但依据咱们的教训，这些解决方案的性能取决于图像的品质和应用的模型。

尽管给 AI 生成的图像加水印仿佛更直观——思考到这种内容的强烈视觉个性——但文本是另一个齐全不同的故事……你如何在文字和数字（令牌）中增加水印呢？以后的水印办法依赖于基于之前文本推广子词汇表。让咱们深刻理解这对于 LLM 生成的文本来说意味着什么。

在生成过程中，LLM 在执行采样或贪心解码之前输入下一个令牌的 logits 列表。基于之前生成的文本，大多数办法将所有候选令牌分为两组——称它们为“红色”和“绿色”。“红色”令牌将被限度，而“绿色”组将被推广。这能够通过齐全禁止红色组令牌（硬水印）或通过减少绿色组的概率（软水印）来实现。咱们对原始概率的更改越多，咱们的水印强度就越高。WaterBench 创立了一个基准数据集，以便在管制水印强度进行苹果与苹果的比拟时，促成跨水印算法的性能比拟。

检测工作通过确定每个令牌的“色彩”，而后计算输出文本来自于探讨的模型的概率。值得注意的是，较短的文本因为令牌较少，因而置信度较低。

图片起源: https://huggingface.co/spaces/tomg-group-umd/lm-watermarking

你能够在 Hugging Face Hub 上轻松实现 LLM 的水印。LLM 水印 Space（见图 3）演示了这一点，应用了 LLM 水印办法对模型如 OPT 和 Flan-T5 进行了利用。对于生产级工作负载，你能够应用咱们的文本生成推理工具包，它实现了雷同的水印算法，并设置了相应的参数，能够与最新模型一起应用！

与 AI 生成图像的通用水印相似，是否能够广泛水印文本尚未失去证实。诸如 GLTR 之类的办法旨在对任何可拜访的语言模型（鉴于它们依赖于将生成文本的 logits 与不同模型的 logits 进行比拟）都具备鲁棒性。在没有拜访该模型（无论是因为它是闭源的还是因为你不晓得哪个模型被用来生成文本）的状况下，检测给定文本是否应用语言模型生成目前是不可能的。

正如咱们下面探讨的，检测生成文本的办法须要大量文本能力牢靠。即使如此，检测器也可能有高误报率，谬误地将人们写的文本标记为合成。实际上，OpenAI 在 2023 年因低准确率而轻轻敞开了他们的外部检测工具，这在老师用它来判断学生提交的作业是否应用 ChatGPT 生成时带来了意想不到的结果。

从集体声音中提取的数据（声纹）通常被用作生物平安认证机制来辨认个体。尽管通常与 PIN 或明码等其余平安因素联合应用，但这种生物辨认数据的泄露依然存在危险，能够被用来取得拜访权限，例如银行账户，鉴于许多银行应用声音辨认技术通过电话验证客户。随着声音变得更容易用 AI 复制，咱们也必须改良验证声音音频真实性的技术。水印音频内容相似于水印图像，因为它有一个多维输入空间，能够用来注入无关起源的元数据。在音频的状况下，水印通常在人耳无奈觉察的频率上进行（低于约 20 或高于约 20,000 Hz），而后能够应用 AI 驱动的办法进行检测。

鉴于音频输入的高风险性质，水印音频内容是一个沉闷的钻研畛域，过来几年提出了多种办法（例如，WaveFuzz，Venomave）。

起源：https://github.com/facebookresearch/audioseal

AudioSeal 也被用于公布 SeamlessExpressive 和 SeamlessStreaming 演示，带有平安机制。

面对虚伪信息、被谬误地指控生产合成内容，以及未经自己批准就应用其形象，都是既艰难又耗时的问题；在能够进行更正和廓清之前，大部分侵害曾经造成。因而，作为咱们使好的机器学习普惠化的使命的一部分，咱们置信，领有疾速和系统地辨认 AI 生成内容的机制是至关重要的。AI 水印虽不是万能的，但在反抗歹意和误导性 AI 应用方面，它是一个强有力的工具。

It Doesn’t End With Taylor Swift: How to Protect Against AI Deepfakes and Sexual Harassment | PopSugar (@meg)
Three ways we can fight deepfake porn | MIT Technology Review (@sasha)
Gun violence killed them. Now, their voices will lobby Congress to do more using AI | NPR (@irenesolaiman)
Google DeepMind has launched a watermarking tool for AI-generated images | MIT Technology Review (@sasha)
Invisible AI watermarks won’t stop bad actors. But they are a‘really big deal’for good ones | VentureBeat (@meg)
A watermark for chatbots can expose text written by an AI | MIT Technology Review (@irenesolaiman)
Hugging Face empowers users with deepfake detection tools | Mashable (@meg)

关于人工智能:人工智能水印技术入门工具与技巧

什么是水印，它是如何工作的？

数据投毒与签名技术

凋谢与关闭的水印

对不同数据类型进行水印

图像水印

文本水印

音频水印

论断

相干新闻报道