小学生一顿能吃60根胡萝卜?学术大佬竟意外被胡萝卜扳倒?

subtitle 果壳科学人06-14 08:03

问:什么样的小学生一顿饭能吃60根胡萝卜?

答:参加康奈尔大学食品实验的。

哈哈哈……

作为笑话这可能相当冷场,不过詹姆斯·希瑟尔斯(James Heathers)算出这个结果的时候,想必是乐不可支。

在他面前的是一篇来自康奈尔食品实验室的论文,题目叫做“吸引人的食物名字能增加小学生的蔬菜摄入”。论文里发现,如果把某种十分惹人厌的蔬菜命名为“X射线眼胡萝卜”,小孩子就会大吃特吃,比“今日美食”好得多。

这……简直是典范级的搞笑诺奖研究呀!

打开网易新闻 查看更多精彩图片

来源:网络表情包

能搞出这类研究的当然不是泛泛之辈。

论文第一作者名叫布莱恩·万辛克(Brian Wansink),过去十几年里行为心理学领域最火的研究者之一。他和他领导的康奈尔大学食物与品牌实验室(Cornell Food and Brand Lab)发布的一些研究,很多人也都听说过:盘子越大会让人吃得越多,号称健康的餐馆会让人低估自己的进食量,等等

正版素材来源:图虫创意

万辛克不仅在学术界备受推崇,还经常在主流媒体露面,写畅销书,教人们如何健康饮食、轻松减肥。

布莱恩·万辛克。图片来源:cornellsun.com

万辛克的这篇名为《吸引人的食物名字能增加小学生的蔬菜摄入》的论文本身论述清晰、过程合理,实验结果数据显著、证据确凿,配上康奈尔的金字招牌,让人挑不出毛病。然而,它却让希瑟尔斯直觉起疑。他立刻知道应该从哪下手——他告诉我,这实在是 “再明显不过了” :未公布的原始数据。

来源:网络表情包

不用他说,这我也知道啊!问题不就是原始数据没公布别人只能干瞪眼吗?

希瑟尔斯自有绝招一个他自己编写的特殊软件("精灵"),能够利用统计学原理,从发表的结果重建出原数据的可能面貌只要几分钟,他就从这篇胡萝卜论文里得到了500组模拟。结果呢?要得到论文里的平均值、方差和样本量,最大样本至少会有55,很可能在60以上。

换句话说,实验中的某个孩子需要吃掉60个胡萝卜,才能产生与实验数据相匹配的结果!

一不做二不休,希瑟尔斯干脆买了一袋只有小指头大小的“婴儿胡萝卜”(baby carrot),数了60个出来放在电子秤上,足足471克。

“显然,至少有一个实验对象是一匹马。”他在博客里一本正经地写道。

手撕各路论文,

全凭一个突发奇想的小工具

这番闹剧还要追溯到2017年2月,那时希瑟尔斯的学术网友尼克·布朗(Nick Brown)在博客上发了一篇文章,指出万辛克某几篇论文的数据可能有问题。希瑟尔斯于是拿出了这个绝招软件,名为“精灵”。

精灵全称是“基于迭代技术的样本参数重构”(SPRITE ,Sample Parameter Reconstruction via Iterative Techniques),名称不明觉厉,实际上原理非常简单暴力。他用胡萝卜举例,介绍了这个工具的原理。

比如,有10个人参加了实验,平均每个人吃了3个胡萝卜,样本量为10,标准差为0,可能的数据组合只能有1种, 那就是10人每人3个。若平均值不变,标准差变成0.32,那么可能的结果则是其中两个人一个吃了4个、一个吃了2个。精灵做的事情,就是根据给定的统计结果,反向算出符合该结果的所有原数据组合,以及每个值可能出现的概率。当抽象的统计指标化身为具体的数据组合,问题就很容易看出来了——就像万辛克的胡萝卜文章,一顿饭60个胡萝卜,显然意味着数据有问题。

SPRITE 的原理——对统计数据的重建。图片来源:twitter@jamesheathers

“精灵”的思路来源于三俗风的研究

那时,法国南布列塔尼大学的心理学家尼古拉·吉根(Nicolas Guéguen)在期刊《心理学报告》上发了一篇论文,研究了女性几种不同的发型对男性心理的影响,结果显示,扎马尾的女性更容易让陌生男性伸出援手

当希瑟尔斯看到布朗发给他的这个研究的时候,不禁笑出了声。不仅是因为题目——这个教授还曾经发表过类似于“高跟鞋能让女人更有性吸引力”“金发服务员能获得更多小费”等标题颇为小报风的研究——而是这些研究本身就有众多可疑之处。

其中一个研究里,研究者假装路人,在街上随机拦下18-25岁的女性,来研究特定条件下要电话号码的成功率。然而年龄这个变量怎么控制的?女孩们会在礼貌拒绝陌生人要电话的同时,还礼貌地告诉他们自己的年龄以供统计?

但这些研究方法的问题容易被搪塞过去,论文里的最终数据才是实锤。两人于是开发了一个简单的测试,想从平均数上找突破。

在心理学小样本实验中,平均数一定是几个整数加在一起除以样本数的商你不可能问一个女性2.5次电话;5个人吃整数个的蛋糕,吃不出来平均每人2.1个。他们发现,吉根的一些研究里的平均数在数学上是“不可能”的;而另一些数值看上去又过于规整。譬如马尾辫这项研究中,若想使最终结果成立,那么每个分值必须恰好出现了6、12、18、24次,这种情况发生在现实中的可能性是170万分之一。

专给论文找茬的“数据流氓”

而“精灵”就是这个想法的升级版产物。他们靠自己发明的简单粗暴小工具,为揭发有问题论文开辟了全新的思路。有人揶揄他们为“数据警察”,希瑟尔斯却自嘲自己为“数据流氓”(data thug)——无组织无纪律的散兵游勇警察是官方的、有权力的,然而他们并没有任何资金支持,这件事也和任何官方机构无关。现年35岁的希瑟尔斯在美国波士顿东北大学(Northeastern University)计算行为科学实验室做博后,专攻生理学,为论文找 bug 纯属业余事业;而布朗虽然已经57岁,却也仅仅是荷兰格罗宁根大学(University of Groningen)的一个心理学博士生而已。

没有警察,那流氓就要出手了。”布朗说。透过他的邮件,我仿佛能看到他脸上汉弗莱爵士一般的微笑。

詹姆斯·希瑟尔斯。图片来源: jamesheathers.com

流氓会武术,

大佬究竟挡不挡得住?

学术流氓的路线很适合希瑟尔斯的性格。从研究生时开始,他便不断地发现各种论文中的问题,想要找到数据背后的全貌。“全靠直觉摸索,就像在黑暗的屋子里找灯的开关”。他尝试过将自己的疑问发给作者或者期刊编辑,大部分杳无音信,有的时候则被忠告说 “最好忘了这茬”。

他自己完全不在乎会冒犯到谁,也从来不看学术大佬脸色,是个“会在晚宴上公然放屁的家伙”。“你是不是作弊,我们不感兴趣。我们只对你犯的错误感兴趣。”希瑟尔斯带着平静而诚恳的语气对我解释,“当然,也有可能是我们错了,我们就只是纯好奇而已。”

然而,对于他们俩这样的学术界“边缘人士”而言,跟有问题的研究较真的过程十分漫长,甚至有时候是没有结果的。

在发现了尼古拉·吉根多篇论文的问题之后,2015年,希瑟尔斯和布朗向相应期刊以及法国心理学会提出了问询。然而,等待着他们的却是漫长的推诿。法国心理学会承诺对作者进行调查,并报送给了法国大学委员会,但冗长的答复只是在强调很多论文是他的研究生的作品,几乎就是“临时工背锅”的翻版;而关于数据的疑问,一个都没有正面回答,更没有提供他们想看到的原始数据。

两年时间过去,尽管他们态度一直平和,有大量合理疑问,甚至一一在论文中标出,但却总是碰一鼻子灰。

“在学术界,并没有一个有效的裁决机构。

布朗在接受媒体采访时说表示,期刊可以让作者修改或撤稿,官方机构也可能会介入学术不端的调查,但如果作者不配合,进展就会变得十分缓慢,甚至无法推进。所有人都不想走到撤稿那一步——这几乎意味着对研究的全盘否定

同样的事情,布朗并不是第一次经历他在攻读心理学硕士期间,发现一篇备受推崇的“积极心理学”论文实在是难以理解作者是领域大佬芭芭拉·弗雷德里克森(Barbara Fredrickson)和马西奥·洛萨达(Marcial Losada),论文里使用了一个流体力学的数学模型来描述“情绪的流动”,让他十分错愕。布朗找到了心理学家哈里斯·弗里德曼(Harris Friedman)和数学家阿兰·索卡尔(Alan Sokal)合作,历经波折,发表了一篇论文指出了弗雷德里克森论文中的问题。然而,弗雷德里克森片汤话一般的回应却让三人大失所望。她表示,论文里的数学可能有错,但理论依然是站得住脚的。

布朗说,整个学术圈都时不时能“闻见瞎说的味道”(smell of bullshit),然而他却无能为力

如果作者死不认错,

难道就只能不了了之吗?

“撤稿观察”(Retraction Watch)的创始人之一、前科学记者伊万·欧朗斯基(Ivan Oransky)对此也已司空见惯。“撤稿观察”是一个记录学术界撤稿的博客和数据库,创立于2012年。在他们关注过的数千起撤稿事件中,大约有2/3是因为各种学术不端,其中抄袭占了15%左右。

欧朗斯基说,撤稿的理由可谓是花样翻新,不断挑战着他的想象力。比如同行评议造假——用虚假的邮件地址杜撰专家的评审意见——这个在2012年以前还相当罕见的撤稿理由,到现在已经占了整个数据库的6~7%,大约600多篇。去年施普林格-自然出版集团(最大的学术出版商之一)撤稿了107篇此类论文,其中大部分来自中国。

中国科技部称,107篇论文遭《肿瘤生物学》撤稿事件,严重损害了中国科技界的国际声誉和科技人员的尊严。图片来源:FT中文网

“乌烟瘴气”的学术圈

对欧朗斯基来说,撤稿是关注学术圈的一个窗口。他更关心错误是怎么产生的,整个科学共同体如何修改它们的错误,修改的过程经历了怎样的波折。有的拉锯战持续了好几年,却依旧囿于证据缺乏或者各方不配合而没有定论,也无法以撤稿或者“撤诉”而告终。

毕竟,学术圈子也并不是什么超脱世俗之地。布朗坦承,当他开始读博、做起自己的独立研究之后,甚至能够理解弗雷德里克森面对质疑时候的心境。“人们为自己的成果投入了大量的资源,情感上的、智力上的,还有财政上的。除非真的到迫不得已,否则很难改变自己的观点。”

学者们想要晋升、出名,想要挤进稀缺的终身教职岗位,而这一切的关键就是发论文。我和布朗聊到中国的研究者近年来突飞猛进的发文节奏,布朗表示担忧。“我听说在中国发一篇《自然》或者《科学》,会有上万美金的奖励。在西方学术界,只是名誉激励,就已经带来这么多糟糕的事情……用钱来砸可能是更坏的主意。”

因为同行评议造假,斯普林格撤下了大量已发表在旗下期刊的论文。

图片来源:cgtn.com

关键并不在于追名逐利本身,而是学术圈几乎靠着信任在运作,规则薄弱仿佛科学家们还是18世纪的贵族绅士,正直、不会作假,追求的是真理而不是名誉,指出错误之后会改正……虽然一旦发现学术不端会身败名裂,然而比起巨大的诱惑,随意犯错、或者错了不改的成本也未免太低。虽然撤稿的论文越来越多,但还是有大量的论文停留在内部扯皮阶段,作者不认错,官方也不采取措施,就这么一直拖下去——就像吉根的马尾辫论文一样。

布朗和希瑟尔斯不信这个邪。身为新时代的科学家,他们还有另一条渠道。

“开放科学”

像谈论其他问题一样谈论科学

2017年,布朗和希瑟尔斯写了一系列博客文章,面向整个互联网详尽披露了吉根研究的数据纰漏,介绍了他们的测试方法,引来了学术圈的大量讨论。希瑟尔斯在 Medium 上的文章一周内就有了上万阅读,甚至引起了科技媒体的注意——这是一个好的开始。

实际上,拜互联网所赐,“发表后的学术讨论”(post-publication discussion)近年来已经开始形成规模在欧朗斯基眼中,官方之外“讨论论文—揭发错误—调查错误—报道错误”的流程,已经形成了一个生态系统。希瑟尔斯和布朗这样的人担任揭发者,而“撤稿观察”则扮演着记录的角色。在 PubPeer 这类学术平台上的开放、匿名讨论,则为这一切提供了基础。

因为吉根的事情,两人在圈里有了一点名声,他们时不时会收到各种人给他们发来的邮件,让他们“帮忙看看”某篇可疑论文在数据上有没有问题。“一旦你公开谈论这些问题,人们便会主动把类似的事儿捅给你。它就像肿瘤一样扩散,无处不在。”希瑟尔斯在接受《科学》杂志的采访时这样形容道。

对于揭发者的角色,希瑟尔斯和布朗也有自己的界定。他们并不认为他们是在“打假”或者揭发学术不端数据上的小问题可能是一时疏忽的错误,也有可能是巨大问题的冰山一角,而他们只负责当说大实话的“流氓”。布朗对我说:“我们只检查数据的‘不一致’(inconsistency),而把推测为什么的事情交给别人。”当他们发现问题之后,发邮件给原作者询问的言辞也非常温和。邮件通常这样开头:“嗨,我们发现你的论文中有个小问题,你来看看?”这样的低姿态也减小了他们遇到的阻力。

学术圈需要更透明的评议方式

“现有的同行评议已经有些过时了。”布朗在接受 Ars Technica 的采访时说。同行评议所能覆盖的范围是非常有限的,而现今的论文往往涉及到大量的数据,而评议者往往没有时间、精力或者工具去处理这些数据,这是相当大的一个漏洞。当然,他们的工具也不能保证检查出所有的错误——如果作者造假造得严丝合缝,它是无法察觉的。“至少,我们要让做坏事儿的成本高一些。”希瑟尔斯在博客中写道。

而更关键的是,学术圈子内部无法提供透明度。希瑟尔斯坚持认为,公众曝光是必要的。“作者不配合、期刊不配合,又想要安静地处理问题不让别人知道?没有曝光和透明度,事情很难有所推进。”

不同意的声音当然也有。普林斯顿的社会心理学家苏珊·菲斯克(Susan Fiske)把这种行为称作“方法论恐怖主义”(methological terrorism)。“(社交网络和新媒体)鼓励了不经筛选和检阅、不为科学所接受的垃圾讨论”,她在一则学术专栏里如此评论。但欧朗斯基却不敢苟同。即使有一些冲突和争执、乃至不相关的讨论,“但最关键的,难道不是有人可以拿出有分量的质疑,以及有实际意义的材料吗?

圈内-圈外-重归圈内

一场漂亮战役的落幕

正是这些质疑与材料,构成了最终扳倒万辛克的实锤。

两人分析了万辛克过去几年发的几十篇论文,把数据统统跑了一遍,发现了大量“异常”比如有4篇关于吃披萨的论文(其中一篇结论是“只要有女人在,男人会吃掉更多披萨”),里面有150多处数据不一致。结合之前学术圈另外一些推测,应该是他们在预设结果的前提下操纵了实验,人为挑选出了能够得出“显著”结果的数据(俗称 p-hacking)。

对万辛克论文的挑错。图片来源:BuzzFeed.com

然后他们礼貌地发信,向作者的系所以及康奈尔负责学术规范的机构询问。但到一定程度之后,邮件内容就会变得“相当尴尬”起来,回复也变成了“正在调查”这样的推诿。他们知道,这时候就应该转向大众了。

布朗和几名学术伙伴先在预印本网站 PeerJ 发了一篇文章,名叫“数据让我胃疼:想要消化康奈尔食品和品牌实验室四篇披萨论文的企图”,用学术论文的体例提供了翔实的数据分析;然后希瑟尔斯在 Medium 上连续发文,用平实的语言解释了万辛克研究的问题所在,夹杂着让人爆笑、又直呼精彩的幽默段子。

这仿佛是向学术圈投下了一颗炸弹,吸引了大量关注,PeerJ 上的预印本被下载了近万次。然后是 Vox、Slate、《卫报》等主流媒体先后报道,对万辛克的研究提出了质疑。BuzzFeed 记者斯蒂芬妮·李(Stephanie Lee)用一篇长达4000词的调查报道《常青藤教授如何把劣质数据做成流行研究》,牵出了万辛克以及他的实验室更多的问题:研究生用假数据搪塞、用结论操纵数据、论文重复发表、自我抄袭等等。

BuzzFeed 的调查报道。截图:BuzzFeed.com

将“数据流氓”的事业推广开去

这一切在希瑟尔斯看来是水到渠成的。“没有发布会,没有通稿,媒体自然就被吸引了过来。”毕竟,万辛克也曾是叱咤科学媒体的一颗明星,而这颗明星也在媒体的曝光下走向了陨落。“不能说希瑟尔斯和布朗百分百主导了这件事情,” 欧朗斯基说,“但在他们的揭发下,在公众和媒体对事情的曝光下,期刊关注到这件事情的严肃性,这是非常关键的。”

就在这篇文章写作的同时,两人正式发布了“精灵”工具并将其开源,希望将 “数据流氓”的事业推广开去。“它是一个非常灵活、有用的工具。”希瑟尔斯说,“当全世界都能使用它的时候,我们就能更严肃的讨论研究数据的准确性问题了。”

至于万辛克(和他的胡萝卜)呢

在社会的重重压力之下,期刊和学校也只好向这位学术明星动手了。万辛克通过发言人诚恳道歉,承认过去工作中的“不妥”,且接受学术审查机构的调查。他也不得不对过去几年发表的十几篇文章做出修改,其中有5篇被彻底撤稿。

他给《预防医学》的期刊编辑写了一篇比胡萝卜论文本身还长的修改意见,而他是这样解释60个胡萝卜的问题的——“给孩子们吃的是‘四个抵一个、体积极小的火柴棍胡萝卜’。”

但谁关心呢?反正这篇论文最后还是被撤稿了。

作者:李子李子短信
编辑:拇姬,Ent

排版:小爽

题图来源:图虫创意

本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系sns@guokr.com

参考文献:

[1]Heathers, James A., et al. "Recovering data from summary statistics: Sample Parameter Reconstruction via Iterative TEchniques (SPRITE)." PeerJ PrePrints (2018).

[2] van der Zee, Tim, Jordan Anaya, and Nicholas JL Brown. "Statistical heartburn: an attempt to digest four pizza publications from the Cornell Food and Brand Lab." BMC Nutrition 3.1 (2017): 54.
[3]Marcus, Adam, and Ivan Oransky. "The data thugs."science.sciencemag.org(2018): 730-732.O'Grady, C. (2017, November 28). Researchers find oddities in high-profile gender studies. Retrieved from链接

[4]Heathers, J. (2016, May 23). The GRIM test - a method for evaluating published research. Retrieved from链接

[5]Heathers, J. (2017, March 03). Introducing SPRITE (and the Case of the Carthorse Child). Retrieved from链接

[6]Nick Brown Smelled Bull.链接

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻,阅读体验更佳
大家都在看