关于人工智能:为什么检测人工智能生成的文本如此困难

作者：Melissa Heikkilä
原文地址：为什么检测人工智能生成的文本如此艰难？
【入群邀请】7 个业余方向交换群 + 1 个材料需要群

导读：自从 ChatGPT 推出以来，AI 圈里曾经掀起了很大的浪潮，各种应用 ChatGPT 的尝试层出不穷，与此同时，AI 内容生成技术（AIGC）也引起宽泛的关注，应用生成技术撰写文章、生成图片等等，以假乱真，然而如果产生不可控的技术泛滥，势必会对“原创”造成极大的冲击，并且呈现各种乱象，而这篇文章，则是就针对人工智能生成内容检测工具的一个探讨，欢送各位关注！

上周，OpenAI 公布了一种能够检测其 AI 零碎 ChatGPT 生成的文本的工具。然而，如果你是一位放心 ChatGPT 生成的论文行将泛滥的老师，请持续往下看。

该工具是 OpenAI 对教育工作者、记者和其他人在没有任何办法检测其生成的文本的状况下应用 ChatGPT 而引起的关注的回应。然而，这依然是一项正在进行的工作，而且十分不牢靠。OpenAI 示意，其人工智能文本检测器正确辨认出 26% 的人工智能文本“可能是人工智能写的”。

尽管 OpenAI 为了欠缺这个工具还有很多工作要做，但它能做到的水平无限。咱们很大概率不可能找到一个可能 100% 确定地辨认 AI 生成的文本的工具。不列颠哥伦比亚大学（University of British Columbia）负责自然语言解决和机器学习钻研的传授穆罕默德·阿卜杜勒·马吉德（Muhammad Abdul Mageed）示意，很难检测人工智能生成的文本，因为人工智能语言模型的全副目标是生成晦涩的、看起来像人的文本，而该模型是模拟人类发明的文本。

阿卜杜勒·马吉德补充道：“咱们正在进行一场比赛，要建设可能与最新、最弱小的模型相匹配的检测办法。”。新的 AI 语言模型更弱小，更善于生成更晦涩的语言，这很快使咱们现有的检测工具包过期。

OpenAI 通过创立一个相似于 ChatGPT 的全新 AI 语言模型来构建其检测器，该模型通过专门训练，能够检测相似于本人的模型的输入。只管细节很少，但该公司显然用人工智能生成的文本和人工生成的文本的样本训练了模型，而后让它辨认人工智能生成文本。

上个月，我写了另一种检测 AI 生成的文本的办法：水印（watermarks）。这些在人工智能生成的文本中充当一种机密信号，容许计算机程序检测到它。

马里兰大学的钻研人员开发了一种将水印利用于人工智能语言模型生成的文本的奇妙办法，并使其收费可用。这些水印能够让咱们简直齐全确定地判断何时应用了人工智能生成的文本。

问题在于，这种办法要求 AI 公司从一开始就在聊天机器人中嵌入水印。OpenAI 正在开发这些零碎，但尚未在其任何产品中推出。为什么提早？一个起因可能是，并不是心愿人工智能生成的文本加水印。

将 ChatGPT 集成到产品中最有前景的形式之一是作为一种工具帮忙人们编写电子邮件或作为文字处理器中的加强拼写查看器。这不齐全是坑骗。但在所有人工智能生成的文本上加水印会主动标记这些输入，并可能导致谬误指控。

OpenAI 推出的人工智能文本检测器只是泛滥工具中的一个，将来咱们可能不得不应用它们的组合来辨认人工智能生成的文本。另一个名为 GPTZero 的新工具会测量文本段落的随机性。人工智能生成的文本应用了更多雷同的单词，而人们则应用了更多的变体。Abdul Mageed 示意，与医生的诊断一样，当应用 AI 检测工具时，取得第二甚至第三种意见是一个好主见。

ChatGPT 带来的最大变动之一可能是咱们评估书面文本的形式产生了变动。人工智能初创公司 Lightning.AI 的人工智能研究员塞巴斯蒂安·拉施卡（Sebastian Raschka）示意，将来，兴许学生们不会再从头开始写所有的货色了，重点将放在提出原创想法上，因为原创性是受到其编程和训练集中的数据的束缚。

Raschka 说：“正确书写会更容易，但原创不会更容易。”。

生成式人工智能是往年最热门的技术，它正在扭转整个行业，从新闻和药物设计到工业设计和工程。这些行业的头部企业放弃当先将比以往任何时候都更重要。咱们为您提供了保障。《麻省理工技术评论》（MIT Technology Review）的一份新钻研报告强调了这种新技术在工业设计和工程中的时机和潜在的问题。

该报告包含两个来自头部工业和工程公司的案例钻研，这些公司曾经将生成式人工智能利用于他们的工作，以及来自行业领导者的大量启发和最佳实际。它当初售价 195 美元。

AI 模型生成受版权保护的真人图像和照片

最新钻研表明，Stable Diffusion 等支流的图像生成模型能够被用来生成实在人物的可辨认照片，这可能会威逼到他们的隐衷。这项工作还表明，这些人工智能零碎能够用来重现医学图像的完满正本，以及艺术家的版权作品。

为什么这很重要 ：这些人工智能模型在多大程度上从其数据库中记忆和回放图像，是人工智能公司和艺术家之间屡次诉讼的本源。这一发现可能会强化艺术家的观点。从我这里理解更多信息。

人工智能模型破绽 ：可悲的是，在放慢公布新模型的过程中，人工智能开发人员往往漠视了隐衷。这不仅仅是图像生成零碎。当我问 ChatGPT 的前身 GPT-3，它对我和《麻省理工技术评论》主编的理解时，我发现人工智能语言模型的疏漏有很多。后果很滑稽，令人无语。

当我父亲生病时，我开始用谷歌搜寻各种放心的问题，而后我就无奈逃脱了。

我的共事泰特·瑞安·莫斯利（Tate Ryan Mosley）写了一篇对于乐观问题和死亡的不错的文章，以及她在互联网上应用的不好的内容举荐算法，这些算法只为提供更多对于乐观问题与死亡的内容。泰特花了几个月的工夫求教专家，咱们如何能力更好地管制歹意算法。他们的答复并不那么令人满意。（麻省理工学院技术评论）

谷歌已向一家人工智能初创公司投资 3 亿美元

这家科技巨头是最新退出生成式人工智能潮流的公司。它向人工智能初创公司 Anthropic 注入了资金，后者正在开发相似于 ChatGPT 的语言模型。这笔交易让谷歌取得该公司 10% 的股份，以换取运行大型人工智能模型所需的计算能力。（英国《金融时报》）

ChatGPT 如何掀起一场 AI 比赛

这是窥察 OpenAI 幕后的一个很好形式，以及他们为收集下一代 AI 语言模型 GPT- 4 反馈，决定如何上线 ChatGPT。聊天机器人的胜利在 OpenAI 外部是一个“惊天动地的惊喜”。（《纽约时报》）

如果 ChatGPT 是一只宠物

意识 CatGPT。坦率地说，对我来说惟一重要的 AI 聊天机器人。

1. 书籍举荐 –《可解释机器学习》

书籍举荐 -《深度强化学习》
字节跳动李航：人工智能的将来，须要新的范式和实践
AIGC 大一统模型来了！CV 界泰斗黄煦涛创建团队提出「全能 Diffusion」
中国信通院 – 京东摸索研究院《人工智能生成内容（AIGC）白皮书（2022 年）》

关于人工智能:为什么检测人工智能生成的文本如此困难

新报告：工业设计和工程中的人工智能

深度学习

Bits and Bytes