我們對“野外”的 p-hacking 了解多少?
短語p -hacking(也稱為“數據挖掘”、“窺探”或“釣魚”)是指各種統計上的不當行為,其中結果在統計上變得人為地顯著。有很多方法可以獲得“更重要”的結果,包括但不限於:
- 僅分析數據的“有趣”子集,其中發現了模式;
- 未能針對多次測試進行適當調整,特別是事後測試,並且未能報告所進行的不重要的測試;
- 嘗試對同一假設進行不同的測試,例如參數和非參數測試(在這個線程中有一些討論),但只報告最重要的;
- 嘗試包含/排除數據點,直到獲得所需的結果。一個機會出現在“數據清理異常值”時,但也適用於模糊定義(例如在“發達國家”的經濟計量研究中,不同的定義產生不同的國家集)或定性納入標準(例如在元分析中,它可能是一個很好的平衡論點,一個特定的研究的方法是否足夠強大,可以包括在內);
- 前面的示例與可選停止有關,即分析數據集並根據迄今為止收集的數據決定是否收集更多數據(“這幾乎很重要,讓我們再測量三個學生!”)沒有考慮到這一點在分析中;
- 模型擬合期間的實驗,特別是要包括的協變量,還包括數據轉換/功能形式。
所以我們知道p -hacking 是可以做到的。它通常被列為“ p值的危險”之一,並在 ASA 關於統計顯著性的報告中被提及,在此討論過 Cross Validated,所以我們也知道這是一件壞事。儘管一些可疑的動機和(特別是在學術出版物的競爭中)適得其反的動機是顯而易見的,但我懷疑很難弄清楚為什麼會這樣做,無論是故意的瀆職行為還是簡單的無知。有人從逐步回歸中報告p值(因為他們發現逐步過程“產生了很好的模型”,但不知道所謂的p-values 無效)在後一個陣營中,但效果仍然是p -hacking 在我上面的最後一個要點下。
肯定有證據表明p -hacking 是“存在的”,例如Head 等人 (2015)尋找它感染科學文獻的跡象,但是我們關於它的證據基礎的當前狀態是什麼?我知道 Head 等人採用的方法並非沒有爭議,因此目前的文獻狀況或學術界的一般思維會很有趣。例如,我們是否有任何想法:
- 它有多普遍,我們可以在多大程度上區分它的發生與發表偏倚?(這種區別甚至有意義嗎?)
- 效果是否特別嚴重邊界?是否看到類似的效果,例如,或者我們是否看到整個範圍的p值受到影響?
- p -hacking的模式是否因學術領域而異?
- 我們是否知道哪種p -hacking 機制(其中一些在上面的要點中列出)是最常見的?是否某些形式被證明比其他形式更難檢測,因為它們“偽裝得更好”?
參考
Head, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015)。科學中p -hacking的範圍和後果。公共科學圖書館生物學,13 (3),e1002106。
執行摘要:如果“p-hacking”被廣義地理解為拉格爾曼的分叉路徑,那麼它有多普遍的答案是它幾乎是普遍的。
Andrew Gelman 喜歡寫關於這個話題的文章,並且最近在他的博客上發布了大量關於這個話題的文章。我並不總是同意他的觀點,但我喜歡他的觀點 $ p $ -黑客。以下是他的分岔路花園簡介論文的摘錄(Gelman & Loken 2013;一個版本出現在 American Scientist 2014;另請參閱Gelman 對 ASA 聲明的簡短評論),強調我的:
這個問題有時被稱為“p-hacking”或“研究人員自由度”(Simmons、Nelson 和 Simonsohn,2011 年)。在最近的一篇文章中,我們談到了“釣魚探險 […]”。但是我們開始覺得“釣魚”這個詞很不幸,因為它讓人聯想到一個研究人員在比較後嘗試比較的圖像,反復將魚線扔進湖里,直到魚被鉤住。我們沒有理由認為研究人員經常這樣做。我們認為真實的故事是研究人員可以根據他們的假設和數據進行合理的分析,但如果數據結果不同,他們本可以在這些情況下進行其他同樣合理的分析。
我們對“釣魚”和“p-hacking” (甚至“研究人員的自由度”)**這些術語的傳播感到遺憾,**原因有兩個:首先,因為當這些術語被用來描述一項研究時,研究人員會產生誤導性的含義。有意識地嘗試對單個數據集進行許多不同的分析;其次,因為它可能導致那些知道他們沒有嘗試過許多不同分析的研究人員錯誤地認為他們沒有那麼強烈地受到研究人員自由度問題的影響。[…] 我們這裡的關鍵點是,可以進行多種潛在比較,在數據分析的意義上,其細節高度依賴於數據,而無需研究人員執行任何有意識的釣魚程序或檢查多個 p 值.
所以:Gelman 不喜歡p-hacking這個詞,因為它暗示研究人員在積極作弊。而問題可能只是因為研究人員在查看數據後選擇執行/報告的測試,即在進行一些探索性分析之後。
有了一些生物學工作的經驗,我可以肯定地說每個人都這樣做。每個人(包括我自己)都收集一些只有模糊的先驗假設的數據,進行廣泛的探索性分析,運行各種顯著性檢驗,收集更多數據,運行並重新運行測試,最後報告一些 $ p $ -最終手稿中的值。所有這一切都是在沒有主動作弊、做愚蠢的 xkcd-jelly-beans 式櫻桃採摘或有意識地破解任何東西的情況下發生的。
因此,如果“p-hacking”被廣義地理解為拉格爾曼的分叉路徑,那麼它有多普遍的答案就是它幾乎是普遍的。
唯一想到的例外是完全預先註冊的心理學複製研究或完全預先註冊的醫學試驗。
具體證據
有趣的是,一些人對研究人員進行了民意調查,發現許多人承認做了某種黑客行為(John 等人,2012 年,用講真話的激勵措施衡量可疑研究實踐的普遍性):
除此之外,每個人都聽說過心理學中所謂的“複製危機”:最近發表在頂級心理學期刊上的研究中有一半以上沒有復制(Nosek et al. 2015, Estimating the reproducibility of Psychology)。(這項研究最近再次出現在博客上,因為2016 年 3 月的《科學》雜誌發表了一篇試圖反駁 Nosek 等人的評論以及 Nosek 等人的回复。討論在其他地方繼續進行,見Andrew Gelman 和RetractionWatch他鏈接到的帖子。禮貌地說,批評是沒有說服力的。)
2018 年 11 月更新: Kaplan 和 Irvin,2017 年,大型 NHLBI 臨床試驗的無效效應的可能性隨著時間的推移而增加表明,在需要預註冊後,報告無效結果的臨床試驗比例從 43% 增加到 92%:
$ P $ - 文獻中的值分佈
海德等人。2015
我還沒有聽說過Head 等人。以前學習過,但現在花了一些時間翻閱周圍的文獻。我還簡要查看了他們的原始數據。
海德等人。從 PubMed 下載所有 Open Access 論文並提取文本中報告的所有 p 值,得到 270 萬個 p 值。其中,110 萬人被報告為 $ p=a $ 而不是作為 $ p<a $ . 其中,Head 等人。每篇論文隨機取一個 p 值,但這似乎並沒有改變分佈,所以這是所有 110 萬個值的分佈情況(介於 $ 0 $ 和 $ 0.06 $ ):
我用了 $ 0.0001 $ bin 寬度,並且可以在報告中清楚地看到很多可預測的捨入 $ p $ -價值觀。現在,Head 等人。執行以下操作:他們比較 $ p $ - 中的值 $ (0.045, 0.5) $ 間隔和在 $ (0.04, 0.045) $ 間隔; 前一個數字結果(顯著)更大,他們將其作為證據 $ p $ -黑客。如果一個人瞇著眼睛,可以在我的身上看到它。
出於一個簡單的原因,我發現這非常難以令人信服。誰想報告他們的發現 $ p=0.05 $ ? 實際上,很多人似乎都在這樣做,但嘗試避免這個不令人滿意的邊界值並報告另一個有效數字似乎仍然很自然,例如 $ p=0.048 $ (當然,除非它是 $ p=0.052 $ )。所以有些多餘的 $ p $ -值接近但不等於 $ 0.05 $ 可以通過研究人員的捨入偏好來解釋。
除此之外,效果微乎其微。
(我能在這張圖上看到的唯一強烈影響是 $ p $ - 緊隨其後的價值密度 $ 0.05 $ . 這顯然是由於發表偏倚。)
除非我錯過了什麼,Head 等人。甚至不討論這種潛在的替代解釋。他們不呈現任何直方圖 $ p $ -值。
有一堆論文批評 Head 等人。在這份未發表的手稿中,Hartgerink 認為 Head 等人。應該包括 $ p=0.04 $ 和 $ p=0.05 $ 在他們的比較中(如果他們有,他們就不會發現他們的效果)。我不確定。這聽起來不太令人信服。如果我們能以某種方式檢查“原始”的分佈情況會好得多 $ p $ -沒有任何四捨五入的值。
的分佈 $ p $ - 不四捨五入的值
在這篇 2016 年 PeerJ 論文(2015 年發布的預印本)中,同樣是 Hartgerink 等人。從頂級心理學期刊的大量論文中提取 p 值,並準確地做到這一點:他們重新計算精確的 $ p $ - 報告中的值 $ t $ -, $ F $ -, $ \chi^2 $ - 等統計值;此分佈沒有任何舍入偽影,並且不會顯示任何向 0.05 的增加(圖 4):
Krawczyk 2015在 PLoS One中採用了一種非常相似的方法,他提取了 135k $ p $ - 來自頂級實驗心理學期刊的價值。這是分佈如何查找報告的(左)和重新計算的(右) $ p $ -價值觀:
差異是驚人的。左邊的直方圖顯示了一些奇怪的事情發生 $ p=0.05 $ ,但在右邊它消失了。這意味著這些奇怪的東西是由於人們對報告價值的偏好 $ p\approx 0.05 $ 而不是由於 $ p $ -黑客。
馬西坎波和拉朗德
似乎是第一個觀察到所謂的過量 $ p $ -略低於 0.05 的值是Masicampo 和 Lalande 2012,查看了心理學領域的三大頂級期刊:
這看起來確實令人印象深刻,但Lakens 2015(預印本)在已發表的評論中認為,這只是由於誤導性的指數擬合而*顯得令人印象深刻。*另請參閱Lakens 2015,關於從略低於 0.05 的 p 值得出結論的挑戰以及其中的參考文獻。
經濟學
布羅德等人。2016 年(鏈接到 2013 年預印本)為經濟學文獻做同樣的事情。看三個經濟學期刊,提取50k測試結果,全部轉換成 $ z $ -scores(盡可能使用報告的係數和標準誤差,並使用 $ p $ -values 如果只有它們被報告),並獲得以下信息:
這有點令人困惑,因為小 $ p $ -值在右邊和大 $ p $ -值在左邊。正如作者在摘要中所寫,“p 值的分佈呈現出駱駝形狀,p 值高於 0.25”和“0.25 和 0.10 之間的山谷”。他們認為這個山谷是可疑的跡象,但這只是間接證據。此外,這可能僅僅是由於選擇性報告,當 0.25 以上的大 p 值被報告為缺乏影響的一些證據時,但 0.1 和 0.25 之間的 p 值被認為既不存在也不存在並且傾向於被省略。(我不確定這種效應是否存在於生物學文獻中,因為上面的情節集中在 $ p<0.05 $ 間隔。)
虛假的安慰?
基於以上所有,我的結論是我沒有看到任何強有力的證據 $ p $ - 入侵 $ p $ -整個生物/心理學文獻的價值分佈。有大量證據表明選擇性報導、發表偏倚、四捨五入 $ p $ -值下降到 $ 0.05 $ 和其他有趣的捨入效果,但我不同意 Head 等人的結論:下面沒有可疑的凹凸 $ 0.05 $ .
Uri Simonsohn 認為這是“錯誤地讓人放心”。好吧,實際上他不加批判地引用了這些論文,但隨後評論說“大多數 p 值都小於 0.05”。然後他說:“這令人放心,但虛假地讓人放心”。這就是為什麼:
如果我們想知道研究人員是否對他們的結果進行 p-hack,我們需要檢查與他們的結果相關的 p 值,即他們可能首先想要 p-hack 的那些。為了不偏不倚,樣本必須只包括來自感興趣人群的觀察結果。
大多數論文中報告的大多數 p 值與感興趣的戰略行為無關。協變量、操作檢查、研究測試交互的主要影響等。包括它們在內,我們低估了 p-hacking,我們高估了數據的證據價值。分析所有 p 值提出了一個不同的問題,一個不太明智的問題。而不是“研究人員會破解他們研究的內容嗎?” 我們問“研究人員會破解所有東西嗎?”
這完全有道理。查看所有報導 $ p $ -values 太吵了。烏里的 $ p $ -曲線論文(Simonsohn et al. 2013)很好地展示瞭如果仔細選擇可以看到什麼 $ p $ -價值觀。他們根據一些可疑的關鍵詞選擇了 20 篇心理學論文(即,這些論文的作者報告了對協變量進行控制的測試,並且沒有報告在沒有控制協變量的情況下會發生什麼),然後只選擇了 $ p $ - 測試主要發現的值。這是分佈的樣子(左):
強左偏表明強 $ p $ -黑客。
結論
我會說我們知道**一定有很多 $ p $ -hacking 正在進行,主要是 Gelman 描述的 Forking-Paths 類型;大概在發表的程度上 $ p $ - 值不能真正按面值計算,應該由讀者“打折”一些相當大的部分。然而,這種態度似乎會產生比簡單的整體影響更微妙的影響 $ p $ -值分佈就在下面 $ 0.05 $ 並且無法通過這種生硬的分析來真正檢測到。