外来客网

顶刊翻车 杰青院长被查:一个退学博士掀起风暴…

顶刊翻车 杰青院长被查:一个退学博士掀起风暴…

从4月中旬“打响第一枪”开始,截至目前,自媒体博主“耿同学讲故事”已经接连举报5名高校教授团队的学术论文涉嫌造假,涉及同济大学、南开大学、上海大学等诸多高校。

被网友戏称为“学术圈最严厉的父亲”的耿同学,本硕毕业于吉林大学,博士就读于北京航空航天大学生物专业,去年5月,读到博士5年级的他选择了退学,全职做科普博主。

这场打假风暴因何而起?这些造假,是如何被发现的?

以下是耿同学的自述:

一场意外

发现第一篇造假论文,其实算得上是一场意外。

我从2019年开始做科普自媒体博主,做内容的时候,有些领域我也没那么了解,就会联系咨询一些研究相关专业的同学,时间久了,其中有些人就成了朋友,经常会聊聊学术上的问题。有一天,有个朋友发来同济大学生命科学与技术学院院长王平团队在《自然》(Nature)发表的一篇论文,说里面有些数据像等差数列一样,很怪异,又聊到其实半年前就有人质疑过这篇论文了,不过只有学术圈小范围的讨论,没什么水花。



(图源:@耿同学讲故事)

我看了一遍论文,觉得确实不太对,自己也好奇,就深挖了一下,结果发现了更多的问题。比如8列数据中,第4列加0.3可以完全得到第3列数据,第4列和第8列也有清晰的加减关系;大部分数据都保留小数点后一位,少数突然变成小数点后两位,而且末位数字都是一样的,要么全是4要么全是5;甚至有两列数据,末位数字全是5。这明显不符合实验室自然数据生成的规律。

所以我当时很肯定这个论文有问题,当即做了视频发出来,没想到火了。我的质疑没有错,5月6日,同济大学就通报了,论文存在数据没有客观计数、图片误用等问题。

我之前也做过打假的视频,依据都是一些公开现象,比如本科生一年发了40多篇sci、论文结论是“益生菌产品可以解酒”这种。在今年之前,我压根就没有意识到,还能从论文原始数据下手。

一方面,以我正常人的思维去理解,根本想不到有人能假成这样;另一方面,这个问题有一定的隐蔽性。原始数据不是放在论文正文里的,而是单独的Excel表格,需要单独下载。

我是学生物专业的,我自己做了这么多年科研,读到了博五,都极少会去下载原始数据。只有一种情况,老师说这个论文很好,要求你不止要看论文的主要内容,还要把整个论文里的实验方法都给学了。那我就得把原始数据下下来,按照论文的方法去走一遍。



(图源:@耿同学讲故事)

而且,一般只有好的期刊,一区二区那种,才会强制要求上传原始数据。所以,看起来现在我打假打的都是知名学者,但这不是我有意为之,是因为只有他们的造假能被发现。这些“特别优秀”的论文,老师会让学生去当榜样论文学习。看这些论文的人群足够大,问题被发现的可能性也就越大。

我本来以为,打假这一篇就到此为止了,但因为这个视频火了,有很多网友给我投稿各种各样的论文,说觉得它们原始数据有问题,让我帮着看看。所以后面发的几个打假视频,其实都是网友的投稿,我再筛选分析一遍。

这些论文都是生物医学领域的,一是我对这个领域比较了解,另一个原因是,这个领域的造假相对好分辨一些。生物医学做实验比较多,很多零散的数据需要动手去记录,数据量相对有限,而且数据通常是一个系列的,你通过纸面看出数据不对,可以反推实验室操作有问题。但像计算机这种领域,数据量庞大,数据大部分是机器自动生成的,如果你不去实验室看源代码,光看论文和原始数据,无论如何也判断不出是不是有人在造假。

不过,“打假”没有想象中那么容易。一篇论文的原始数据有很多,它肯定不会从头到尾都有很明显的问题,那种假也轮不到我来打。

有些人看了我的打假视频,觉得这些论文“一眼假”。其实,那是因为我用大众能理解的语言拆解分析了论文,单把原始数据放在你面前,你几乎是不可能看出来的。



耿同学用大众能理解的语言拆解分析了论文(图源:@耿同学讲故事)

我分析一个论文的数据,也得花三四个小时过一遍。觉得它不对劲的话,我就把这些数据拿出来,去找我的一个朋友,用他公司开发的软件“跑”一遍,这样才能确认问题到底是什么。有的数据,软件告诉我它们是等差数列,我还得看半天才明白,因为它不是“完美”的等差数列。有的数据,是写论文的人把某个数乘个1.05、1.06的得出来的。尽管我算是“专业人士”,我也没法用肉眼就看出来问题在哪,需要借助计算机软件等算力。也正是基于这些时间和资源成本,我是不可能看到一篇论文就深究的。

薛定谔的数据

做学术这些年,我看过不少觉得有假的论文。我接的打假投稿也很多,其中有疑点的不少。真被我拎出来的论文不能说是是冰山一角,只能说是九牛一毛。说实话,在我们这个领域,如果数据编得像一点,根本发现不了。但凡一篇论文不能被“锤死”造假,只要作者还有空间反驳我,我都不会发视频举报。他们可能用来反驳我的理由我都知道,他们能不知道吗?

比如最常见的理由:图片误用。在一个大图里面有好几个小图是重复的,而且不是那种全篇重复,是部分重复。如果真的不小心用错图,通常是复制粘贴,图的大小和位置都不会发生改变,不会有自己操作的痕迹。但是当这些都发生改变的时候,你能明显感觉作者是故意把那张图挪一个位置,做一个旋转或者拉伸放大,让它看起来和之前的不一样,假装是不同实验做出来的结果。



(图源:@耿同学讲故事)

这事儿严不严重,那是仁者见仁,智者见智。我们专业是通过做大量操作性实验来获取数据,记录每次实验数据,最后得出结论。文章中需要附上实验的图片和数据表格,来展示结论得出的过程。但生物学研究和数学、物理这些学科不一样的是,它变量很多,比如实验小鼠的体重、状态,实验室的温度等等,不可控因素也很多,一点改变就可能直接影响结果。所以,图片是怎么来的、数据是否真实客观,这些都很难去核查。

反正现实情况是,如果你因为论文中图片重复被别人质疑了,你说是图片误用,就没人能把你怎么地。补上一张“正确”的图片一点也不难,提出问题,当天就能补上,小鼠、细胞的照片都长一个样,你也不知道这是几年前的照片,还是这个论文实验时的照片,修补成本相当低。

在生物医学圈,真实性充满争议的研究其实不少见。举个例子,由上海药物研究所研究员耿美玉团队宣称他们研发的药物“GV-971”能治疗阿尔兹海默病,论文还发在一个权威学术期刊《细胞研究》(Cell Research)上。



耿美玉论文截图

这个药的上市就引发了一场学术纷争。前首都医科大学校长饶毅曾在自己的公众号上发表多篇文章,质疑这篇论文和药效,说“耿美玉的971是真药的可能性,小于她是中国爱因斯坦的可能性”。学术界有相当多的质疑,比如GV-971Ⅲ期临床有效药物组与安慰剂组在前34周的差值一直维持在0.6分左右,但从第34周开始,安慰剂组突然出现断崖式下滑,从1.5分跌至0.16分。在34-36周仅仅两周内,有效药物组与安慰剂组差值从0.69分扩大至2.54分。

饶毅就公开表示,出现这种情况的原因是研究人员告知安慰剂组病人,他们吃的是安慰剂,涉及实验期间造假。但问题是,饶毅的这个怀疑没有办法得到验证。像这样的质疑最后都只能变成一场“争议”。

就算你做了一遍他的实验,得不出他的数据,你也无法确认,这是因为对方的实验数据有问题,还是因为温度湿度、实验室环境、小鼠健康情况影响实验结果。

我读研的时候有一个师兄,他当时需要做一个实验叫流式细胞术,他都没做过,怎么做都是我教他的,做流式那些管子还是我给他的。最开始,他做实验的时候我就在旁边,实验结果很差。结果一个月之后,他就发了一篇很不错的论文,里面的结果很漂亮,这不符合常理。但我没法说他造假了,我没有证据。

而且,数据不造假,也可以挑选、编辑。

比如说你现在想证明山东人高还是山西人高。你想要证明的结论是山西更高,那我就从山西那边挑50个高的,山东那边挑50个低的,你想要得出什么结论都可以。我管这叫科研“秦桧法”,对我不利的,我编造一个“莫须有”的理由去掉它,只留下对我有利的结果,说这个结果是真的。



《机智的住院医生生活》剧照

据我所知,这么做的人有很多。我是去年5月份,读到博士5年级退学的。如果深究起来,我当年的退学,和这种风气也有关系。

那时候,我一周只有周二和周四两天可以买小鼠。送到实验室之后,小鼠需要静置一周,来适应实验室环境防止应激,然后我才能开始实验。我的药物一般都是慢药物,每天给小鼠注射药物,小鼠要培养几个星期甚至一两个月才能出数据。这一遍流程,走下来最快就一个月了。

实验很苦,战线拉得很长,这种滋味外人很难理解。能考上博士的人,在求学路上,都是天之骄子。我初中的时候,三年里只有2次没考到全班第一。但生物实验失败,是家常便饭,我做20次实验最快要几个月,里面能有1次结果是我想要的,就已经不错了。不断地失败,没有任何正反馈,这种感觉太压抑了。

但要论证一个药物更有效,同样的实验我重复20次,结果其中19次是阴性,1次是阳性,这一次的结果算不算证明了它有效?理智上告诉我不算。但感性上,我做了这么多实验,拿到一个结果,你告诉我它用不了?我接受不了。



《重启人生》剧照

这个时候,我可以找理由:环境不好、操作失误,说我前面19次实验失败都是因为各种原因导致的,就成功这一次是因为只有这次所有条件都做对了。其他几次没做成,我把数据“优化”一下不就行了吗?多少人都是这么干的。我也能拿去投期刊,看起来不会有任何问题。

但我不知道该怎么面对这件事,过不了自己心里那关。那段时间我很迷茫,心理上的压力也很大。那时,我自媒体也有一定收入了,比我毕业找份教职工作的收入还高,所以最后,我选择了退学。

失灵的监管

造假不是完全没有办法被发现,它本来有一套监管系统,但是很多时候没有好好运行。

外部的监管不太现实。就像我前面说的,没人知道你实验数据怎么来的。收录文章的学术期刊是无法一一核验数据的,它会默认你的数据是真的,只看你的研究是否具有极强的创新性。确保数据真实,是文章作者和指导老师的事情。

在研究组织的内部其实有一个办法来规避造假,那就是重复实验。根据科学实验的规定,生物学实验要求至少重复三次,都做出同样结果,才能证明结果可信。



《女神蒙上眼》剧照

但现实操作中往往存在问题。用蒸馒头来类比:我现在发明了一种新的蒸馒头的方法,蒸出的馒头更白更软。那我怎么对外宣布这个方法好呢?我需要今天蒸一套馒头,明天蒸一套,后天再蒸一套,分三天蒸三次,每一次结果都很好。但现在的流程要求并不严格,有可能是一个人一次蒸三套馒头,对外就说我这是分三次蒸出来的。更过激的,他去外面买三套好馒头,也没人知道。

你可以看出这个流程里的问题。因为只有一个人参与,没有人负责监督他,他说什么就是什么,造假的空间就无限大。我认为,应该强制由三个不同的人来做同一个实验。造假是有风险的,同一个课题组,三个人一起商量好来造假的可能性不大。

再者,如果导师对学生的结果定期进行跟踪,哪怕是“抽查”,一个月只重复一次,都不会出现今天这样的局面。我知道有一些课题组,是有这样重复实验的习惯的。但有很多课题组,老师懒得管这么多,都是把一个活儿派下去,一个学生全权负责,到时候交上来一个东西就了事。这样,就算有造假,导师可能也很难一眼看出什么问题。

这种情况并不是个例。我上学时更极端的老师——一学期每周只有一节课,他会集中到一两天内全部上完,把课时强行凑够。“懒”到这种程度的老师,不愿意在教学和研究上多花功夫,自然不愿意花时间精力去把关学生的实验。我“打假”的这些论文,如果说这些老师“冤枉”,他们不参与造假,其实我是认可的。因为太多老师,自己根本不直接进实验室。他可能也没想到,学生里边会有这样的情况。



《非凡医者》剧照

但他们是完全无辜的吗?我想并不是。作为一个老师,他们应该要对经费负责,对学生负责。你适当的结合自己课题组的情况重复实验,也是保护你自己。这段时间,确实已经有很多同学跟我反映,他们的导师开始跟他们要原始数据了。我觉得这是一个好的开始。

这两天,开始有人给我打电话,问我“有没有谈的空间,看您这边有什么需求”,我也跟对方直说了,我不需要钱,我也不是为了什么利益来做这些视频的。我也有压力,家里人担心我会被打击报复,都让我不要再发了,还好,暂时我还没有遇到什么麻烦。

但这一轮打假之后,我应该不会再继续了。第一条打假视频发出来之后,我收到了超过100条打假举报,现在几乎已经没有人向我举报假论文了。这么大规模的筛过一遍论文,目前能打的假,可能基本都打完了。

评论 (0)