将重复性的责任置于科研共同体肩上,而不是让个别实验室承担,从而让科学更加可靠。

15.1

2018年时,我们着手评估巴西的生物医学论文的可重复性,从而开始一项多中心的协作,共有60多家实验室重复了巴西科研人员于最近20年发表的论文中的60个实验。我们随机选择了一些使用三种常见实验室技术的实验,这三种技术分别为用于测量细胞活力的MTT实验、用于检测特定信使RNA的RT-PCR实验和用来估定啮齿类动物焦虑程度的高架十字迷宫实验。

每个实验会在三家实验室进行重复性验证,每家实验室都依据原始论文中撰写的方法拟定出重复性实验规程。协调团队和实验室之间的沟通过程中,光这些规程的建立、审议和预先备案过程就耗费了数月的时间。围绕着正调控和负调控的意义、定义重复性实验成功与否的不同衡量标准的优点,我们发生了激烈的争论。我们也花费许多时间在平凡的任务上,譬如研究不同品牌的博洛尼亚香肠的营养成分,以便更好模仿一个实验中饲喂大鼠的饮食。

这些仅仅是我们迄今为止作为“巴西可重复性行动计划”协调员所面临的部分障碍:巴西的实验室由于新冠疫情以及巴西货币雷亚尔币值骤降而大规模关闭。由于这些不利条件,实验进度缓慢,目前预计项目会在2022年底完成。

尽管如此,我们还是得出一些结论,而这些结论不仅仅适用于巴西科研圈。作为一个宽泛的解决方案,更严密的规程和更详尽准确的方法描述很重要,但是对于论文可重复性来说,这样的措施并不够——也许并非对于每篇论文都可行。一部分问题出在当前对论文的要求上,也就是要求单篇论文进行广泛的实验。要解决这些问题,必须改变对于科研论文的期望。

重复性验证耗费巨大

生命科学的论文比以往更加雄心勃勃。过去20年里,高影响力期刊的数据总量已经翻番,而大家越来越期望基础科学的论文能包括研究结果如何转化至临床应用的证据。因此,《自然》之类期刊上的一篇论文最终代表了好几个人的好几年研究工作。

然而,这并不是论文可重复的保证。迄今为止,“可重复性工程:癌症生物学”在17篇高引用论文中,仅仅成功重复了5篇论文中的主要结论,而对《科学》和《自然》中的21篇社会科学论文的重复性验证成功率介于57%到67%之间。

许多人呼吁改善这一状况。已提出的措施包括提高样本规模、预先备案规程和采用更严谨的统计分析。另一项提议是在实验方法和模型中引入异质性来评估稳健性——譬如说,采用一种以上的方法来抑制多种细胞株或啮齿类动物品系的基因表达。在我们的工作中,我们已经渐渐体会到,对于单个实验要遵循这些规程就要付出极大努力,更毋论一整篇论文了。

甚至在一次RT-PCR实验中,实验方法可能在几十个步骤上有所变动,还有众多评估材料纯度、完整性和特异性的控制手段。将这些步骤统统预先指定的话,代表一个详尽彻底、有时徒劳无用的过程,因为规程无可避免地要随着实验的进行而调整适应。假如对于每个实验都以可审计的方式记录下整个方法,最终会产生拥有数百行数据的电子表格。

我们确实认为,可重复性方面的努力会带来回报。但假如“发现的科学”(discovery science)中的每篇论文都要采用这种心态,一篇典型的备受瞩目的论文可能轻松耗费十年的工作和庞大预算。这使得我们思考起其他更加有效、能够实现可靠科学的方法。

逐步改善的过程

一般来说,对于实验科学中的一流论文主要有三个期望:首先,报告探索性研究中的独创性发现;其次,通过不同方法的进一步实验来验证它们代表的稳健现象;最后,提出能解释实验结果的理论机制。然而,这三项代表科研过程的不同方面,并没必要全部立刻实现。

事实上,要在5页篇幅的论文中试图达成这三个期望,可能结果是无法好好实现其中任何一个期望。迫使探索性研究和验证性研究放入同一篇出版物中,可能削弱两者,要么是扼杀探索性研究,要么是侵蚀验证性研究。研究人员要确证一个首次发现、激动人心的观察结果,受此压力影响,会对随后的数据和分析产生成见,尤其是若要让论文被接受,进一步实验需要得出某些结果的话。许多研究者会自然而然地不信任或无视那些之后得到的、推翻他们的假设、并妨碍论文发表的数据,而不是去怀疑最初的观察结果。

此外,单篇论文就要求做大量实验的话,工作就难以做到严谨:因为它将工作量转移至许多脆弱的实验,而不是若干稳健的实验之上。研究早已显示,随着期刊影响力的增加,单个实验的统计功效或报告质量都没有改善。众多实验产生的数据总量庞大,各色各样,能压倒同行评议者检查证据的能力。

最终,独立工作的研究团队在实验方法、模型或条件方面的变动程度不可避免地受到限制,所以大多数论文最终都基于受约束的数据而得出结论,没有评估其通用性。在我们的“巴西可重复性行动计划”中,研究人员用不同方法填补原始论文规程中实验描述的空白之处,而我们一再对此感到惊讶。以小鼠腹腔中获取的巨噬细胞所做实验为例。一些实验室使用药物来提高这些白细胞的数量,而其他实验室因为担心这会改变细胞的反应而避免使用药物。大多数研究团队评估培养的细胞中有活力的巨噬细胞的比例——但是对于怎么样的比例算是足够高,能让实验继续进行下去,各个团队并无一致看法。在这些不同条件下获得相似的实验结果能激励信心,让研究者相信某个现象是稳健的;然而,在实验室方法中引入这样的变化常常超出一家实验室的能力范围。

因此,单个研究团队发表的论文应该被默认为初步研究结果。假如大家期望每一篇论文的结果都在其他背景、模型或种群下颠扑不破,那么论文可重复性的危机看来就不可避免。与其要求每位作者进行十年之久的验证实验,以其他机制来确定一项主张的有效性也许更有益于科学事业——而这或许超出一篇论文的范围。

15.2

一名研究人员准备检测特定信使RNART-PCR样本

通向可重复的科学之路

有什么其他方法能评估科研发现是否足够稳健呢?可选的一个办法是综合已发表的文献,吸收不同科研团队所做研究的成果。大多数临床研究的指导准则中早已这么做,那些研究通常都源自对现存证据的荟萃分析。然而,荟萃分析的方法遭受原始研究的发表偏差和不完全报告的损害。因此,用荟萃分析方法评估可重复性的话,依然需要解决广泛存在的问题。

一个可能更好的办法是组织验证性实验,这些实验是专门设计用来评估稳健性和通则性的。理论上,这些实验会结合不同实验室的多个实验方法和实验模型(譬如小鼠品系或细胞型)。在研究团队之间进行协调,能够让数据收集标准化,保证获取结果,从而让整合工作更容易,消除发表偏差。

在各个不同的科学领域中早已建立起多种类型的合作。几十年以来,制药行业早已设法进行多中心的临床试验。遗传流行病学领域的协作共享来自不同种群的样本,从而提升统计功效。学术性的心理学实验室早已相互合作,推进社群研究项目,譬如“可重复性工程:心理学”“多实验室项目”和“心理科学加速器”项目。神经科学的行动计划包括国际大脑实验室、人类连接组计划和“通过荟萃分析增强神经成像遗传学”(ENIGMA)联盟。

这类项目在经费和劳动力方面的支出巨大,无法对每项已发表的科研发现都进行这样的操作。然而,要验证关键现象的话,比起等待未经协调的研究尝试来生成数据,它们是一种更有效的方式。而且,付出精力来提高精选的验证性项目的严谨性大概比要求每份生物医学出版物都能够重现、具备通则化和临床相关更加可行。

分工合作

其他作者主张,应当更加明确区分产生试验性结论的探索性研究与评价上述结论的验证性项目,借此改善研究过程的两端。探索性工作和验证性工作之间的独立能允许科学家获得更大的探究假说的自由,在那些假说接受检验时,维护严谨性,避免偏差。另外,每个研究方法都要求一组不同的能力,应当根据不同的衡量标准来评价。

假如编辑方针减少对新实验的要求,不再要求给出临床应用潜力的证据,那么探索性的基础科学研究会得到助益。假如讨论会上能发表局限性的孤立结论以及中立性的实验和分析,那么探索性研究也能从中受益。这有助于同行评议,减少偏差,促进传播,同时降低走捷径者将探索性研究伪装为验证性工作——或者将不成功实验的描述予以改头换面——的动机。

相比之下,大规模的验证性研究需要基础设施作为支持,而那是极难获得的。还需要对科研人员进行培训、拨款和奖励,让他们集中精力管理合作、参与大型实验和整合数据——尤其是因为这涉及在某种程度上牺牲学术自由。假如协调研究项目、验证已发表的结论变成例行做法,它们也能激励一般的科学家在发表论文前评估研究结论时更加严谨,最终改进探索性研究的质量。

然而,以上所有手段都要求重新组织科学劳动,我们的行动计划给予我们的一条经验是,学术研究人士并不适应在他人的命令下执行任务。因而,大规模协作需要有足够的集中化程度,保证严格遵守指导准则,但也应该维持一定的灵活性,以便适应每个实验室自身的工作惯例。

我们采取的策略一直是提出正确的问题,而不是发号施令。要求科研人员意识到他们要如何以双盲方式进行研究的做法比强迫他们那么做更具弹性,但依然能起到消除偏差的作用。另一个关键要点是开发出让最佳实践做法(包括培养皿中样本分布自动随机化和数据收集的标准化电子表格)成为可能的工具。

尽管有以上措施,我们仍然担心,像我们的行动计划那样的基础工作或许无法扩大规模。行动计划不仅让协调团队在过去三年里全身心投入,还常常与合作实验室的其他要务相冲突。

一种更好的机制或许是在机构或拨款方的驱策下,建立管理合作性项目的正式体系。这样的合作体系早已存在于特定领域,譬如美国国立衰老研究所、美国国防高级研究计划局和德国联邦教育与研究部所做出的榜样。然而,这些合作体系依然有扩展的空间,或许还可以像补助金申请或同行评议一样,成为生物医学的一部分。

改变我们的期望

纵然我们有机会让论文大体上更加严谨,但是对个别论文和它们的可重复性的过分强调不应该使得我们忽视达成可靠结论的其他方式。与其期望每一篇论文会确立可靠的现象,更可行的做法也许是改进对于初步结论的系统性验证。

若要落实这个做法,需要去说服生物医学界相信一些资源应当转移给更大型的项目,调查更少的科研构想。拨款方和科研机构必须更主动协调科学工作者,选择关键的研究问题来攻关,而不是将资源分散于相互竞争的多家实验室。这牵涉到构建激励体系(也就是资助、职业提升和赞许),以便鼓励科研人员在大型项目中承担不那么自主的研究者角色。科学社团和期刊也能发挥作用,判定某个研究领域中哪些科研发现被认为至关重要,需要重复性验证。

将论文可重复性验证的重担从科研人员个体身上转移到有组织的科研群体肩上,此举最终能提高“什么能被视为科学事实”的门槛,也能对科学的公众传播产生有益作用。实现这些目标的最理想方式依然是开放性的,有待我们探索实践。但我们至少能在一点上达成共识:科研这件事比一篇论文所承载的内容庞大得多。

资料来源Nature

———————

本文作者奥拉沃·阿马拉尔(Olavo B.Amaral)和克勒贝尔·内维斯(Kleber Neves)均为巴西里约热内卢联邦大学的神经科学家,致力于荟萃研究,并担任巴西可重复性行动计划的协调员。