关于机器学习:DetectGPT使用概率曲率的零样本机器生成文本检测

45次阅读

共计 2301 个字符,预计需要花费 6 分钟才能阅读完成。

DetectGPT 的目标是确定一段文本是否由特定的 llm 生成,例如 GPT-3。为了对段落 x 进行分类,DetectGPT 首先应用通用的预训练模型(例如 T5)对段落 ~xi 生成较小的扰动。而后 DetectGPT 将原始样本 x 的对数概率与每个扰动样本~xi 进行比拟。如果均匀对数比高,则样本可能来自源模型。

ChatGPT 是一个热门话题。人们正在探讨是否能够检测到一篇文章是由大型语言模型 (LLM) 生成的。DetectGPT 定义了一种新的基于曲率的准则,用于判断是否从给定的 LLM 生成。DetectGPT 不须要训练独自的分类器,不须要收集实在或生成的段落的数据集,也不须要显式地为生成的文本加水印。它只应用由感兴趣的模型计算的对数概率和来自另一个通用预训练语言模型 (例如 T5) 的文章随机扰动。

1、DetectGPT: 随机排列和假如

辨认并利用了机器生成的通道 x~pθ(左)位于 logp (x)的负曲率区域的趋势,其中左近的样本均匀具备较低的模型对数概率。相比之下,人类书写的文本 x~preal(.)(右)偏向于不占据具备显著负对数概率曲率的区域。

DetectGPT 基于一个假如,即来自源模型 pθ 的样本通常位于 pθ 对数概率函数的负曲率区域,这是人类文本不同的。如果咱们对一段文本 x~pθ 利用小的扰动,产生 ~x,与人类编写的文本相比,机器生成的样本的数量 log pθ(x) – log pθ(~x) 应该绝对较大。利用这个假如,首先思考一个扰动函数 q(.|x),它给出了在 ~x 上的散布,x 的稍微批改版本具备类似的含意(通常思考粗略的段落长度文本 x)。例如,q(.|x) 可能是简略地要求人类重写 x 的其中一个句子的后果,同时保留 x 的含意。应用扰动函数的概念,能够定义扰动差别 d (x; pθ, q):

因而,上面的假如 4.1 也就是:

如果 q(.|x)是来自掩码填充模型 (如 T5) 的样本而不是人类重写,那么假如 4.1 能够以主动的、可扩大的形式进行教训测验。

2、DetectGPT:自动测试

对一篇文章进行改写后,模型生成的文章的对数概率 (扰动差别) 的均匀降落始终高于人工书写的文章

对于实在数据,应用了 XSum 数据集中的 500 篇新闻文章。当提醒 XSum 中每篇文章的前 30 个令牌时,应用四个不同 llm 的输入。应用 T5-3B 施加扰动,遮蔽随机采样的 2 个单词跨度,直到文章中 15% 的单词被覆盖。下面公式 (1) 中的冀望近似于 T5 中的 100 个样本。

上述试验结果表明,人写文章和模型样本的摄动差别散布有显著差别; 模型样本往往有较大的扰动差别。依据这些后果,就能够通过简略地阈值扰动差别来检测一段文本是否由模型 p 生成。

通过用于预计 E~x q(.|x) log p (~x) 的观测值的标准偏差对扰动差别进行归一化提供了更好的检测,通常将 AUROC 减少 0.020 左右,所以在试验中应用了扰动差别的归一化版本。

DetectGPT 的检测过程伪代码

扰动差别可能是有用的,它测量的是什么还无奈明确解释,所以作者在下一节中应用曲率进行解释。

3、将微扰差别解释为曲率

扰动差别近似于候选段落左近对数概率函数部分曲率的度量,更具体地说,它与对数概率函数的 Hessian 矩阵的负迹成正比。

这一节内容比拟多,这里就不具体解释了,有趣味的能够看看原论文,大略总结如下:

语义空间中的采样确保所有样本都放弃在数据流形左近,因为如果随机增加扰动标记,预计对数概率总是降落。所以能够将指标解释为近似限度在数据流形上的曲率。

4、后果展现

零样本机器生成文本检测

每个试验应用 150 到 500 个例子进行评估。机器生成的文本是通过提醒实在文本的前 30 个标记来生成的。应用 AUROC)评估性能。

能够看到 DetectGPT 最大水平地进步了 XSum 故事的均匀检测精度 (AUROC 进步 0.1) 和 SQuAD 维基百科上下文(AUROC 进步 0.05)。

对于 15 种数据集和模型组合中的 14 种,DetectGPT 提供了最精确的检测性能,AUROC 均匀进步了 0.06。

与有监督检测器的比拟

在实在文本和生成文本的大型数据集上训练的有监督的机器生成文本检测模型在散布内 (顶部行) 文本上的体现与 DetectGPT 一样好,甚至更好。零样本办法实用于新域(底部一行),如 PubMed 医学文本和 WMT16 中的德语新闻数据。

来自每个数据集的 200 个样本进行评估,监督检测器对英语新闻等散布内数据的检测性能与 DetectGPT 类似,但在英语迷信写作的状况下,其体现显著差于零样本办法,而在德语写作中则齐全失败。

DetectGPT 检测 GPT- 3 的均匀 AUROC 与专门为机器生成文本检测训练的监督模型相当。

从 PubMedQA、XSum 和 writingprompt 数据集中抽取了 150 个示例。将两种预训练的基于 roberta 的检测器模型与 DetectGPT 和概率阈值基线进行了比拟。DetectGPT 能够提供与更弱小的监督模型竞争的检测。

机器生成文本检测的变体

这部分是看检测器是否能够检测到人工编辑的机器生成文本。通过用 T5–3B 中的样本替换文本的 5 个单词跨度来模仿人工订正,直到 r% 的文本被替换。即便模型样本中近四分之一的文本已被替换,DetectGPT 仍能将检测 AUROC 放弃在 0.8 以上。DetectGPT 显示了所有订正级别的最强检测性能。

本文作者:Sik-Ho Tsang

论文地址:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature,

https://avoid.overfit.cn/post/32ade57f49d14bbca4899fcc1a672146

正文完
 0