世界

经验科学需要数据但是所有数据都受到随机变化的影响,随机变化模糊了数据模式因此,统计方法用于推断构成噪声数据的真实模式或效应

大多数科学家使用两种密切相关的统计方法来推断他们的数据:显着性检验和假设检验有意义的检验者和假设检验者试图确定他们数据中明显有趣的模式(“效应”)是真实的还是虚幻的他们关心的是他们观察到的效果是否只是来自数据的随机性这个过程的第一步是提出一个“零假设”,假设没有效果,然后使用数学过程来估计如果零假设是至少与观察到的效应一样大的效应的概率

true该概率称为“p”如果p很小(通常小于005,或5%)然后,显着性测试者会声称观察到的震级的影响不太可能仅仅是由偶然性引起的这种影响被认为是“具有统计意义”的罗纳德·费希尔爵士,他在20世纪20年代开发了产生p值的现代方法,将小p值解释为指示“真实”(非机会)效应这是重要性测试的核心思想重要性测试自从它首次开发以来一直受到攻击两位杰出的数学家,Jerzy Neyman和Egon Pearson,认为费舍尔的解释p是狡猾的他们开发了一种称为假设检验的方法,其中p值仅用于帮助研究人员在零假设和另一种假设之间做出优化选择:如果p大于或等于某个阈值(例如005),研究人员选择相信零假设如果p小于阈值,研究人员选择相信替代假设sis从长远来看(在许多实验中)采用假设检验方法可以最大限度地减少做出错误选择的速度批评者指出,从长远来看只知道错误被最小化的价值是有限的 - 科学家不只是他们想知道他们尽可能不错,他们想知道他们是否能相信他们的最后一次实验!对假设检验最强烈的批评者是费舍尔,他在几十年内一直在追踪内曼(Leonard Jimmie Savage说,费舍尔“发表了侮辱,只有圣人可以完全原谅”)也许很大程度上是由于费舍尔的不妥协,分裂显着性测试的问题并且假设测试从未得到解决今天的科学家通常使用混乱的重要性测试和假设测试混合物Fisher和Neyman都不满足于当前的大部分统计实践科学家们热情地采用显着性测试和假设检验,因为这些方法似乎解决了一个根本问题:如何区分“真实”效应与随机性或偶然性不幸的是,重要性测试和假设检验的科学价值有限 - 他们经常会提出错误的问题并且几乎总是给出错误的答案而且他们被广泛误解了考虑用于调查的临床试验某种疾病新治疗的有效性在进行试验后,研究人员可能会问“治疗效果是否真实,或者只是偶然发生

”如果计算出的p值小于005,研究人员可能会声称该试验证明治疗有效但是即使在进行试验之前我们也可以合理地预期治疗是“有效的” - 几乎所有药物都有一些生化作用,所有手术干预对健康都有一定影响几乎所有的健康干预措施都有一定的效果,只是某些治疗方法具有足够大的效果,而其他治疗方法具有微不足道且不重要的效果那么,根据经验证明零假设不是真的有什么意义呢

进行临床试验的研究人员需要确定治疗的效果是否足以使干预值得,而不是治疗是否有任何影响更为技术性的问题是p告诉我们观察数据的可能性假设是真的 但大多数科学家认为p告诉他们零假设是真实的概率,因为他们的数据差异可能听起来很微妙,但不是这就像总理是男性的概率和男性总理的概率之间的差异!有显着性测试和假设检验的替代方案一个简单的替代方案是“估计”估计有助于科学家提出正确的问题,并提供更好的(更具统计学上可辩护性,如果不是更严格的数学)答案另一种截然不同的方法是“贝叶斯”分析贝叶斯统计学家尝试量化不确定性并使用数据来修改他们对特定信念的确定性在很多方面,贝叶斯方法优于传统方法,但科学家采用贝叶斯方法的速度很慢显着性测试和假设检验被广泛误解为阻碍了许多领域的进展

科学可以做些什么来加速他们的死亡

高级科学家应确保对统计推断方法的批判性探索是所有研究生培训的一部分研究的消费者不应满足于“X有效”或“Y有效”的陈述,尤其是在支持时对于这样的主张是基于邪恶的p