统计学指标p值还可信吗？

科研工作者经常用统计学方法来判断某个结果是否在不同的实验条件下存在差异，并且判断这种差异是否由于偶然因素造成。使用最广泛的统计指标是p值，用来检测差异的显著性水平。“p<>

由于p<><>

2015年，Science发表了一项实验心理学的大规模重复性研究，仅有39%的结果能够被成功重复。Nature的一项调查发现70%的科研人员无法重复他人的研究，50%的科研人员甚至无法重复自己的实验结果。科研的信用已经被“可重复性危机”损害，而p-hacking对此也起到了推波助澜的作用，让很多统计学家和科学家都非常担忧。

如何避免p值操纵呢？最好的办法就是提高科研者对p-hacking危害性的认识，避免对实验数据进行选择性地分析。弗吉尼亚大学心理学教授Brian Nosek发起成立了推动科研界更开放更透明的公益组织—开放科学中心(Center for Open Science)，帮助科研者更好的设计实验，提高实验的可重复性。比如，双盲实验就可以避免科研者选择性地处理数据。

另外一项统计学指标“信心指数”(Confidence Index) 可以用来更加准确地评估实验数据的可靠性。p值依靠样本量和反应频率，而信心指数不同，它是个复合指标，由以下三点决定：随机变量，先验概率，假设真相。p<0.05说明实验结果有95%的可能性是有意义的，而信心指数则明确清晰的说明结果有意义的具体可能性是多少。这样的统计指标尤其对临床研究的决策有指导性意义。斯坦福大学医学院流行病学教授steven>

统计学家在2016年初专门发表声明，澄清p值的真正意义以及应该如何正确使用p值。然而p值仍延续着一直被批判，从未被取代的地位。如何对科研界的现状进行有效的改变，还需要科研者和学术出版界共同努力，探索新的统计学标准以及适用的领域。

统计学指标p值还可信吗？

评论 (0)