Statistical-Significance
是什麼導致 p `< .05 時公佈的 p 值分佈不連續?
在最近的一篇論文中,Masicampo 和 Lalande (ML) 收集了許多不同研究中發表的大量 p 值。他們在 5% 的典型臨界水平上觀察到 p 值的直方圖中出現了奇怪的跳躍。
Wasserman 教授的博客上有一個關於這種 ML 現象的很好的討論:
http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/
在他的博客上,您會找到直方圖:
由於 5% 的水平是一種慣例,而不是自然規律,是什麼導致了已發布的 p 值的經驗分佈的這種行為?
選擇偏差,系統地“調整” p 值剛好高於典型臨界水平,還是什麼?
(1) 正如@PeterFlom 已經提到的,一種解釋可能與“文件抽屜”問題有關。(2) @Zen 還提到了作者操縱數據或模型的情況(例如數據挖掘)。(3) 但是,我們不會在純粹隨機的基礎上檢驗假設。也就是說,假設不是偶然選擇的,但我們有(或多或少強有力的)理論假設。
您也可能對 Gerber 和 Malhotra 的作品感興趣,他們最近在該領域應用所謂的“卡尺測試”進行了研究:
您也可能對 Andreas Diekmann 編輯的本期特刊感興趣: