效力不足的研究是否增加了誤報的可能性？

October 10, 2015

這個問題之前已經在這里和這裡提出過，但我認為答案並不能直接解決這個問題。

效力不足的研究是否增加了誤報的可能性？一些新聞文章做出了這種斷言。例如：_

低統計能力是個壞消息。動力不足的研究更有可能錯過真正的效果，並且作為一個整體，它們更有可能包含更高比例的誤報——也就是說，即使它們不是真實的也達到統計學意義的效果。

據我了解，測試的力量可以通過以下方式增加：

增加樣本量

具有更大的效應量

增加顯著性水平

假設我們不想改變顯著性水平，我相信上面的引用是指改變樣本量。但是，我看不出樣本的減少應該如何增加誤報的數量。簡而言之，降低研究的功效會增加假陰性的機會，這回答了以下問題：

相反，誤報回應了這個問題：

兩者都是不同的問題，因為條件不同。功率與假陰性（反向）相關，但與假陽性無關。我錯過了什麼嗎？

您是正確的，樣本量會影響功效（即 1 - II 型錯誤），但不會影響 I 型錯誤。一個常見的誤解是，當樣本量較小時，這樣的 p 值（正確解釋）不太可靠或有效 - Friston 2012 年的非常有趣的文章對此有一個有趣的看法 [1]。

話雖這麼說，動力不足的研究問題是真實的，我想說的是，這句話在很大程度上是正確的，只是措辭有點不准確。

功效不足研究的基本問題是，儘管假設檢驗中的假陽性率（I 型錯誤）是固定的，但真陽性率（功效）卻下降了。因此，在動力不足的研究中，陽性（= 顯著）結果不太可能是真正的陽性。這個想法在錯誤發現率[2]中表達，另見[3]。這似乎是引用所指的。

關於動力不足的研究經常提到的另一個問題是它們導致高估效應量。原因是 a) 如果功效較低，您對真實效果的估計將在其真實值附近變得更加可變（隨機），並且 b) 當功效較低時，只有這些效果中最強的才會通過顯著性過濾器。應該補充的是，這是一個報告問題，可以通過討論和報告所有影響而不僅僅是顯著影響來輕鬆解決。

最後，低功效研究的一個重要實際問題是低功效會增加統計問題（例如估計器的偏差）以及玩弄變量和類似 p-hacking 策略的誘惑。當功率較低時，使用這些“研究人員自由度”是最有效的，這畢竟會增加 I 類錯誤，例如，參見 [4]。

出於所有這些原因，我確實會對一項動力不足的研究持懷疑態度。

[1] Friston, K. (2012) 非統計審稿人的十大諷刺規則。神經影像學，61，1300-1310。

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] 按鈕，KS；約阿尼迪斯，JPA；莫克里茲，C.；諾塞克，文學士；弗林特，J。Robinson, ESJ & Munafo, MR (2013) 電源故障：為什麼小樣本會破壞神經科學的可靠性。納特。Rev. Neurosci., 14, 365-376

[4] 西蒙斯，JP；Nelson, LD 和 Simonsohn, U. (2011) 假陽性心理學：數據收集和分析中未公開的靈活性允許呈現任何重要的東西。心理學科學，22，1359-1366。

引用自：https://stats.stackexchange.com/questions/176384

效力不足的研究是否增加了誤報的可能性？

相關問答

為什麼參數測試比非參數測試更強大？

韋爾奇檢驗似乎比等方差 t 檢驗差得多

輝瑞的疫苗功效研究設計中使用了哪種統計模型？

Benjamini-Hochberg 程序中錯誤發現率的證明/推導

統計檢驗的功效為 0.8 意味著什麼？

權力和意義之間的差異/關係