效力不足的研究是否增加了誤報的可能性?
這個問題之前已經在這里和這裡提出過,但我認為答案並不能直接解決這個問題。
效力不足的研究是否增加了誤報的可能性?一些新聞文章做出了這種斷言。例如:_
低統計能力是個壞消息。動力不足的研究更有可能錯過真正的效果,並且作為一個整體,它們更有可能包含更高比例的誤報——也就是說,即使它們不是真實的也達到統計學意義的效果。
據我了解,測試的力量可以通過以下方式增加:
- 增加樣本量
- 具有更大的效應量
- 增加顯著性水平
假設我們不想改變顯著性水平,我相信上面的引用是指改變樣本量。但是,我看不出樣本的減少應該如何增加誤報的數量。簡而言之,降低研究的功效會增加假陰性的機會,這回答了以下問題:
相反,誤報回應了這個問題:
兩者都是不同的問題,因為條件不同。功率與假陰性(反向)相關,但與假陽性無關。我錯過了什麼嗎?
您是正確的,樣本量會影響功效(即 1 - II 型錯誤),但不會影響 I 型錯誤。一個常見的誤解是,當樣本量較小時,這樣的 p 值(正確解釋)不太可靠或有效 - Friston 2012 年的非常有趣的文章對此有一個有趣的看法 [1]。
話雖這麼說,動力不足的研究問題是真實的,我想說的是,這句話在很大程度上是正確的,只是措辭有點不准確。
功效不足研究的基本問題是,儘管假設檢驗中的假陽性率(I 型錯誤)是固定的,但真陽性率(功效)卻下降了。因此,在動力不足的研究中,陽性(= 顯著)結果不太可能是真正的陽性。這個想法在錯誤發現率[2]中表達,另見[3]。這似乎是引用所指的。
關於動力不足的研究經常提到的另一個問題是它們導致高估效應量。原因是 a) 如果功效較低,您對真實效果的估計將在其真實值附近變得更加可變(隨機),並且 b) 當功效較低時,只有這些效果中最強的才會通過顯著性過濾器。應該補充的是,這是一個報告問題,可以通過討論和報告所有影響而不僅僅是顯著影響來輕鬆解決。
最後,低功效研究的一個重要實際問題是低功效會增加統計問題(例如估計器的偏差)以及玩弄變量和類似 p-hacking 策略的誘惑。當功率較低時,使用這些“研究人員自由度”是最有效的,這畢竟會增加 I 類錯誤,例如,參見 [4]。
出於所有這些原因,我確實會對一項動力不足的研究持懷疑態度。
[1] Friston, K. (2012) 非統計審稿人的十大諷刺規則。神經影像學,61,1300-1310。
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] 按鈕,KS;約阿尼迪斯,JPA;莫克里茲,C.;諾塞克,文學士;弗林特,J。Robinson, ESJ & Munafo, MR (2013) 電源故障:為什麼小樣本會破壞神經科學的可靠性。納特。Rev. Neurosci., 14, 365-376
[4] 西蒙斯,JP;Nelson, LD 和 Simonsohn, U. (2011) 假陽性心理學:數據收集和分析中未公開的靈活性允許呈現任何重要的東西。心理學科學,22,1359-1366。