一直以来,被国内媒体误导,以为抄袭这种学术不端行为,只发生在国内,没有想到,斯坦福大学也有抄袭事件,搞AI大模型,居然抄袭到清华的头上。

事情是这样的,清华大学自然语言处理实验室(THUNLP)的团队成员,包括领头的清华计算机系副教授刘知远,2022年参与成立了一个面壁智能公司,主要业务是从事大模型技术创新与应用转化。该公司发布了一个多模态AI模型——MiniCPM-Llama3-V 2.5。

打开网易新闻 查看更多图片

5月29日,斯坦福的一个学生AI团队发了一篇文章,说自己团队训练出了一个开源多模态模型Llama 3-V,比现在的GPT-4等模型能力更强,训练成本只要500美元。团队成员 Aksh Garg 在社交平台X上发帖介绍了这一模型,在相关社区冲上趋势榜首,引起了热心网友的注意。

热心网友比对源文件,发现该模型架构、代码、配置文件等几乎与清华系的iniCPM-Llama3-V 2.5一摸一样,只是改了变量名称。网友一一对比截图证明,提出质疑,是不是套壳清华系的模型?

打开网易新闻 查看更多图片

清华系的面壁智能公司用了一个更简单的办法验证,识别清华简。清华系的MiniCPM-Llama3-V 2.5模型融合进了清华简识别的相关数据,训练数据没有公布。结果发现斯坦福团队的Llama 3-V模型能够识别,连识别错的样例也和清华自己的模型一样。

打开网易新闻 查看更多图片

这下斯坦福就尴尬了!6月3日,斯坦福学生AI团队的Aksh Garg发文解释了原因,自己和另一名成员忙于全职工作,模型是南加州大学就读的Mustafa“编写的源代码”,看到抄袭指控后,我们要求他提供源代码,一直没有提供。

斯坦福 AI 实验室主任 Christopher David Manning 发帖谴责了抄袭行为,同时对清华的开源模型表达了赞赏。

打开网易新闻 查看更多图片

教育人结语

此次事件在国际学术界引发震动,它再次警示我们学术诚信至关重要,无论国内外,抄袭都是不可取的行为。

对斯坦福大学来说,这起事件是一个打击。斯坦福一直以严谨的学术态度和卓越的科研实力闻名,此次抄袭事件损害其声誉,提醒斯坦福及其他高校必须强化对学术诚信的教育和管理,避免类似事件再发生。

打开网易新闻 查看更多图片

清华大学自然语言处理实验室的模型遭抄袭,但也侧面证明其研究成果得到国际广泛认可,这是对他们工作的肯定,也将激励他们继续深入探索,为人工智能发展贡献更大力量。

这起事件还引发对开源模型使用的深入思考,开源模型虽然为科研工作带来便利,但也带来版权和知识产权等问题,使用时必须严格遵守相关法律法规和学术道德准则,尊重他人的劳动成果。

打开网易新闻 查看更多图片

总之,这起事件提醒我们,无论在学术界还是其他领域,诚信都是最基本的道德底线,只有坚守诚信,才能赢得他人尊重与信任。期望此事件能引起更多人关注与反思,共同维护学术诚信与社会公平。

这件事是斯坦福学生 AI 团队做的,是否表示与教师团队抄袭性质不一样?欢迎留言讨论。

(图源网络,图文不相关,侵联删)