首页 > 资讯 > 综合 > 正文
2023-08-03 14:55

一个令人不安的暗示,表明科学中可能存在多少欺诈

两年前,2012年由社会心理学家和畅销书作家丹·艾瑞里(Dan Ariely)合著的一项关于不诚实的有影响力的研究受到了审查。一组科学家在他们的博客上争辩说,一些潜在的数据——描述汽车保险公司客户报告的驾驶里程——是伪造的,“毫无疑问”。该研究的学术论文描述了三个独立的实验,共有五位共同作者,不久之后就被撤回了。当时,艾瑞里说,有问题的数据是保险公司与他分享的,他不知道这些数据可能是错的:“我明白为什么人们很容易认为我与以欺诈方式创建数据有关,”他告诉BuzzFeed,“但我没有。”

是否如艾瑞里所暗示的那样,是由保险公司的人做的手术?似乎没有办法反驳这种说法,而且该公司自己也没有说太多。上周,美国国家公共电台(NPR)的《金钱星球》(Planet Money)栏目提供了一条独家新闻:这家名为The Hartford的公司告诉节目,它终于找到了提供给阿里的原始数据,而且这些数据在已发表的研究中被“不当操纵”了。在接受美国国家公共电台采访时,埃雷利再次否认犯有欺诈罪。“获得数据文件是我参与数据的程度,”他说。

一个研究不诚实的专家会被指控不诚实,这已经引起了人们的注意。上个月,哈佛商学院教授弗朗西斯卡•吉诺(Francesca gino)被指控与2012年同一篇论文的数据造假有关。吉诺也在研究说谎,经常与埃雷利合著论文。对《哈特福德报》保险数据的分析在论文中被称为“实验3”。在前一页,对另一个数据的分析——与gino相关的数据——被写为“实验1”。声称他们在两个实验中都发现了问题的科学家——雷夫·尼尔森、乌里·西蒙松和乔·西蒙斯——将这种明显的双重欺诈称为“群集欺诈”。当我与科学不端行为调查员、《大西洋月刊》投稿人詹姆斯·希瑟斯(James Heathers)交谈时,他有自己的描述:“这是某种疯狂的、欺诈性的独角兽。”

鉴于有报道(尽管可能存在争议)说存在这样一种非同寻常的野兽,某些问题就产生了。例如,如果欺诈是真实的,这是一起串通篡改数据的案件,还是仅仅是一个奇怪而讽刺的巧合?当我联系艾瑞里时,他说他从未参与过任何研究不当行为。“在超过25年的时间里,我和几十位受人尊敬的同事和合作者一起进行了研究,发表了100多篇同行评议的论文,”他通过电子邮件告诉我。“明确地说,我从未在我的任何工作中操纵或歪曲数据,也从未故意参与任何数据或结论被操纵或歪曲的项目。”吉诺拒绝了多次通过电话和电子邮件发表评论的请求,但当我上个月联系她,了解她被指控的早期故事时,她指出了她在领英上发布的一份公开声明。“在我继续评估这些指控并评估我的选择时,我能公开说的话有限,”声明中写道。“我想向你们保证,我会认真对待这些问题,并将予以解决。”

如果这只疯狂的、欺诈性的独角兽是真实存在的——如果两位不同的科学家真的为发表在同一篇论文上的不同实验捏造了数据——这种情况可能是前所未有的。希瑟斯和我采访过的其他专家都想不起这样的例子。(《光谱》(Spectrum)主编、撤稿观察(Retraction Watch)联合创始人伊万·奥兰斯基(Ivan Oransky)告诉我,他认为过去也发生过这样的事情,但他想不起具体的事情。)如果2012年那篇关于不诚实的论文确实代表了一起有组织的不当行为,那肯定会令人不安。但没有证据表明它确实如此,而且巧合的、重叠的欺诈行为在某种程度上会引起更大的关注。它表明,科学欺诈比已知案例的数量可能导致人们相信的要普遍得多。

科学欺诈的实际比率是不可思议的,但有一些线索。一项对2万多篇生物医学研究论文的费力审查发现,3.8%的论文包含“有问题”的数据,其中一半以上显示出“故意操纵”的迹象。根据对1985年至2005年间进行的18项匿名调查研究的荟萃分析,只有不到2%的科学家承认捏造、伪造或修改过数据。也就是说,我们很难指望每个欺诈者都这样自我认定,即使是匿名的。为什么要参与这样一个结果呢?这个结果可能会促使人们对自己的行为进行更严格的审查。

希瑟斯说,关于这个问题的进一步数据很难获得,很大程度上是因为科学家很少以系统的方式寻找欺诈行为。尼尔森是报告在2012年那篇论文的研究中发现篡改迹象的三位心理学家之一,他告诉我,即使是深入研究一篇论文的数据,也会耗费大量时间。他的团队为一个名为Data Colada的博客调查可疑的研究,这项工作不代表任何正式机构,而是作为一种无偿的副业。(2013年,Data Colada的撰稿人西蒙松与吉诺共同撰写了一篇论文。)

心理学家尼克·布朗(Nick Brown)说,科学机构对识别欺诈缺乏兴趣,这既导致了一些不切实际的假设,也强化了这些假设。他自己对可疑研究的调查导致了大量的更正和撤回。“似乎有一种观点认为,一旦你获得了博士学位,你在某种程度上就是一个圣人,”他告诉我。然后,科学不端行为的证据出现了,人们表现得好像不可思议的事情发生了一样。

一种更加怀疑的姿态在布朗作为数据侦探的工作中发挥了很好的作用,就像对data Colada背后的科学家一样。当他们着手审查Ariely在2012年发表的论文时,汽车保险数据中的一些怪癖让他们意识到可能出了什么问题。有些条目用一种字体,有些用另一种字体。有些被四舍五入到最接近的500或1000;有些则不然。但真正引起他们注意的细节是记录值的分布。有了这样一个数据集,你会期望看到数字呈钟形曲线——大多数条目聚集在平均值附近,其余的沿着逐渐变细的极端分布。但是艾瑞里说他从保险公司得到的数据并没有形成钟形曲线;分布是完全平坦的。客户声称自己开了1000英里和1万或5万英里的可能性一样大。科学家们写道,“很难知道这些数据中行驶里程的分布应该是什么样子的。”“然而,要知道它不应该是什么样子并不难。”

我们可以用一种镜像推理来解释不诚实论文中双重欺诈的可能性。行驶的里程数与科学家们假设的不一样,因此科学家们得出结论,数据是伪造的。同样,一篇发表的论文中可疑数据集的数量也不符合预期。但在后一种情况下,我们的假设是错误的。如果欺诈行为真的非常罕见——比如说,只有不到2%的科学家在他们的职业生涯中犯过一次这样的错误——那么2012年的重叠现象将是一个令人难以置信的反常现象。但是,想象一下,科学上的不端行为比人们普遍承认的要普遍得多:如果是这样的话,那么“集群造假”可能并不那么罕见。疯狂的、欺诈性的独角兽可能无处不在,只等着被发现。