ChatGPT 作弊难逃，99% 命中检测，堪萨斯大学全新算法，研究登 Cell 子刊

sxkk20082年前 (2023-11-23)智能百科235

之前，很多人都尝试过开发 ChatGPT 检测器，但并没有一个真正有效的。然而，堪萨斯大学的研究人员最近介绍了一种全新的算法，可以有效地检测出是否使用了 ChatGPT 进行作弊，准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前，很多人都尝试过开发 ChatGPT 检测器，但并没有一个真正有效的。然而，堪萨斯大学的研究人员最近介绍了一种全新的算法，可以有效地检测出是否使用了 ChatGPT 进行作弊，准确率高达 99%。

这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一，堪萨斯大学化学教授 Heather Desaire 表示：“我们努力创建一种易于使用的方法，即使是高中生，也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说，90%的准确性往往是不够的。但要获得更高的准确性，往往需要做出许多取舍。在这项研究中，研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本，涵盖了生物学到物理学等各个学科。

然后，他们将这些数据输入到 ChatGPT 中，并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。

在模型的完全开发和优化之后，他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成，总计 1210 个段落，用于对最新算法进行测试。实验结果显示，最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上，准确性较低，但仍然令人印象深刻：该算法可以识别出 92%的由人工智能生成的段落。值得一提的是，研究论文中指出，从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较，研究人员确定了四类特征，有助于区分人类作者和聊天机器人的写作。（1）段落的复杂性，（2）句子长度的多样性，（3）标点符号的使用，以及（4）流行词或数字的引用。

总体而言，人类作者的段落更长，使用的词汇量更大，并包含更多的标点符号。

此外，人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中，人类作者在内容方面比 ChatGPT 更擅长。

ChatGPT 作弊难逃，99% 命中检测，堪萨斯大学全新算法，研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测，检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征，其中有两类（1 和 3）是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下，ChatGPT 的平均值明显低于人类。研究人员还发现，人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度，包括使用较长的句子（35 个单词或更多）和较短的句子（10 个单词或更少）。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面，人类科学家更频繁地使用问号、破折号、括号、分号和冒号，而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词，以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的，特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示，理论上可以使用相同的技术来开发一个模型，来检测其他类型的写作。

然而，必须要考虑到一个事实，即一个人很容易对聊天机器人的写作进行一些微小的调整，从而使其更难以被发现为作弊行为，事情变得更加复杂了。

当我们考虑到一个事实，即作者可以对聊天机器人的写作进行一些微小的调整，使其更难以被发现时，情况就变得复杂了。尽管如此，研究人员将这项研究描述为“概念证明”，并表示未来可以开发一个更稳定、准确的工具，并使用更大的数据集。

如果人工智能继续以极快的速度发展下去，就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力，识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而，如果不加限制，ChatGPT 将成为史上最强大的作弊工具，可以帮助学生完成写作任务，甚至是完成考试论文。