ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

sxkk20081年前智能百科111
之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。


这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一,堪萨斯大学化学教授 Heather Desaire 表示:“我们努力创建一种易于使用的方法,即使是高中生,也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说,90%的准确性往往是不够的。但要获得更高的准确性,往往需要做出许多取舍。在这项研究中,研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本,涵盖了生物学到物理学等各个学科。

然后,他们将这些数据输入到 ChatGPT 中,并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊


在模型的完全开发和优化之后,他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成,总计 1210 个段落,用于对最新算法进行测试。实验结果显示,最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上,准确性较低,但仍然令人印象深刻:该算法可以识别出 92%的由人工智能生成的段落。值得一提的是,研究论文中指出,从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较,研究人员确定了四类特征,有助于区分人类作者和聊天机器人的写作。(1)段落的复杂性,(2)句子长度的多样性,(3)标点符号的使用,以及(4)流行词或数字的引用。

总体而言,人类作者的段落更长,使用的词汇量更大,并包含更多的标点符号。

此外,人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中,人类作者在内容方面比 ChatGPT 更擅长。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测,检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征,其中有两类(1 和 3)是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值明显低于人类。研究人员还发现,人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度,包括使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词,以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的,特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示,理论上可以使用相同的技术来开发一个模型,来检测其他类型的写作。

然而,必须要考虑到一个事实,即一个人很容易对聊天机器人的写作进行一些微小的调整,从而使其更难以被发现为作弊行为,事情变得更加复杂了。

当我们考虑到一个事实,即作者可以对聊天机器人的写作进行一些微小的调整,使其更难以被发现时,情况就变得复杂了。尽管如此,研究人员将这项研究描述为“概念证明”,并表示未来可以开发一个更稳定、准确的工具,并使用更大的数据集。

如果人工智能继续以极快的速度发展下去,就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力,识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而,如果不加限制,ChatGPT 将成为史上最强大的作弊工具,可以帮助学生完成写作任务,甚至是完成考试论文。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

为了对抗这种作弊行为,老师们渴望一种简单易用的探测器。22 岁的普林斯顿大学学生 Edward Tian 开发了一款令人期待的探测器——GPTZero。甚至 OpenAI 宣布推出名为 AI Text Classifier 的新工具,用于文件的探测。


然而,这些探测器的性能并未达到人们的期望。能够检测出由 AI 创作的内容听起来似乎很容易。但当我们拿到一封手写邮件和 ChatGPT 生成的邮件时,我们几乎无法区分二者。


Turnitin 的人工智能副总裁 Eric Wang 指出,利用软件来检测人工智能写作涉及到统计学。从统计学的角度来看,人工智能与人类的区别在于它们稳定地处于平均水平。


简言之,AI 的水平非常稳定。然而,实际上事情并非如此。「像 ChatGPT 这样的系统好比是自动补全的高级版本,不断寻找下一个最有可能写出的单词。这也是为什么 AI 写作听起来如此自然的原因。AI 写作是人类写作中最有可能的一个子集。」


相关文章

Pixela 推出 ChatGPT 翻译 App:支持中日英韩互译,限时免费上架 Google Play

Pixela 推出 ChatGPT 翻译 App:支持中日英韩互译,限时免费上架 Google Play

在全球化的时代背景下,语言障碍成为企业发展的一大挑战。幸运的是,翻译软件应运而生,为解决跨语言障碍提供了新的解决方案。市场上有众多翻译软件,每个软件都有各自的长处和短处,无法断言哪一种是最准确的。在全...

海尔全屋家居亮相中国品牌博览会,理念创新高端品质体验再升级

海尔全屋家居亮相中国品牌博览会,理念创新高端品质体验再升级

 5月10日-14日,由国家发展改革委、国资委、市场监管总局、国家知识产权局共同主办的2024年中国品牌博览会在上海盛大开幕。 作为第8个中国品牌日系列活动之一,今年中国品博会...

智能锁售后难题如何破解?奇兵到家补齐售后短板!

智能锁售后难题如何破解?奇兵到家补齐售后短板!

作为每家每户的第一道防线,门锁把持着整个家的安全,随着生活品质的提升,指纹锁、密码锁等智能门锁,深受不少年轻消费者的喜爱。但在享受智能化便利的同时,智能锁的双面性带来的各种苦恼和售后难题,...

贝壳“我来教您防跌倒”公益项目在杭州启动,守护老人晚年健康

贝壳“我来教您防跌倒”公益项目在杭州启动,守护老人晚年健康

随着我国老龄化程度日益加深,65岁及以上老年人口总量已经突破2亿,如何帮助老年人享受健康快乐的老年生活是全社会应关注的问题。 其中,跌倒是老年人普遍面临的重要健康威胁之一。在我国,跌倒是...

汉威激光甲烷家用燃气报警器,守护家庭用气安全

汉威激光甲烷家用燃气报警器,守护家庭用气安全

 随着城市化和农村天然气改造进程加快,我国燃气用户、管道长度不断增长。据《2021年城乡建设统计年鉴》,2013年~2021年期间,我国城市、县城燃气(包括天然气和人工煤气)用气人...

AI聊天助手插件,在弹出窗口中使用AI聊天机器人

AI聊天助手插件,在弹出窗口中使用AI聊天机器人

ChatGPT 助手插件支持在弹出窗口中显示 OpenAI ChatGPT 对搜索引擎结果的响应并增加 ChatGPT 提示,用户可以通过该插件提出任何问题并实时获得准确、简明的答案,非常简单便捷。A...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。