从操纵数据到论文工厂大量生产假论文,造假论文长期以来一直困扰着学术界。科学侦探们孜孜不倦地揭露这种学术不端行为,但随着生成式人工智能(AI)的出现,该工作变得越来越困难。

生成式AI工具可以轻松创建文本、图像和数据,这不禁让人担心,未来将有越来越多的文献变得不可信,因为充斥着难以发现的虚假图像、文字和结论。

研究诚信专家表示,尽管许多期刊在某些情况下已经允许使用AI生成的文本,但使用AI工具生成图像或数据,是不能接受的。来自美国的科学侦探Elisabeth Bik说:“在不久的将来,我们可能会接受AI生成的文本。但底线是不能生成数据。”

Bik等人怀疑,使用生成式AI伪造的数据(包括图像)已经在文献中广泛传播,论文工厂也正在利用AI工具大规模生产论文。

从PS到AI工具的转变

准确识别AI生成的图像是一项巨大的挑战:它们几乎无法与真实图像区分开来,至少用肉眼无法区分。德国图像完整性分析师Jana Christopher说:“我感觉每天都会遇到AI生成的图像,但无法证实。”

在科学图像中,有一些AI生成的明显实例,例如之前引发广泛关注的大鼠图像,生殖器大得离谱,图例也毫无意义,该图片由图像工具Midjourney创建,2024年2月发表,引发了社交媒体风暴,几天后被撤稿。

但大多数情况下并不那么明显。在生成式AI兴起之前,使用Photoshop等工具制作的图像(尤其是在分子和细胞生物学领域)往往包含可以发现的蛛丝马迹,例如背景相同或不寻常的污点或染色,而AI生成的图像通常缺乏此类迹象。Bik说:“我看到一些论文都会想,这些蛋白质印迹(Western Blot)图像看起来不像是真的,但没有确凿的证据,没办法给编辑写信。”

有迹象表明,AI制作的图像已出现在发表论文中。使用ChatGPT等工具撰写的文本在论文中越来越多,作者忘记删除ChatGPT短语及AI提示词,使这些论文看起来很奇怪。因此,数据和图像也可能存在这种情况。

另一个线索是,侦探目前发现的大多数有问题的图像,都是几年前的论文。Bik说:“近几年,有问题的图像越来越少。我认为是这些人已经转向制作更难以识别的图像了。”

打开网易新闻 查看更多图片

图. AI工具Proofig生成的图像

如何使用AI工具生成图像

使用生成式AI生成看似真实的图像并不难。Kevin Patrick是一位科学侦探,他在社交媒体上发布了他使用AI工具Generative Fill创建的逼真图像,包括肿瘤、细胞培养、蛋白质印迹等,大多数图像的生成时间不到一分钟。Patrick说:“如果我能做到,那些靠造假赚钱的人肯定会这样做。使用此类工具还能生成一大堆其他数据。”

打开网易新闻 查看更多图片

图. Kevin Patrick生成的图像

一些出版商表示,他们在发表的论文中发现了AI生成内容的证据。其中包括PLoS出版商,该机构在内部调查中发现了一些可疑内容,并确认了已发表论文和投稿中存在AI生成的文本和数据(PLoS期刊并未禁止使用AI,但其AI政策侧重于作者问责制和透明披露)。

识别论文中AI生成的图像

人眼可能无法识别AI生成的图像,但AI工具可以。Imagetwin和Proofig等工具利用AI来检测科学图像,制造商正在扩展软件,以剔除AI生成的图像。这两家公司都在创建自己的AI图像数据库,以训练算法。

Proofig已经可以检测由AI生成的显微图像。在对数千张AI生成图像和真实论文图像进行测试时,其算法识别出AI图像的准确率为98%

多家出版商和研究机构已开始使用这些工具。例如,《Science》使用Proofig检查图像完整性问题。《Nature》的出版商Springer Nature正在开发自己的文本和图像检测工具,名为Geppetto和SnapShot,它们可以标记违规行为,然后由人工评估。

本文整理自:https://www.nature.com/articles/d41586-024-03542-8

点击左下角"阅读原文",学习70多篇SPSS
教程,30多篇R教程,以及更多科研教程!