為什麼常客假設檢驗會偏向於拒絕具有足夠大樣本的原假設？

July 22, 2014

當我偶然發現這篇文章時，我正在閱讀這篇關於貝葉斯因子的文章，以解決一個完全不相關的問題

使用貝葉斯因子的假設檢驗比常客假設檢驗更穩健，因為貝葉斯形式避免了模型選擇偏差，評估有利於原假設的證據，包括模型不確定性，並允許比較非嵌套模型（當然模型必須具有相同的因變量）。此外，頻率派顯著性檢驗偏向於拒絕具有足夠大樣本量的原假設。[重點補充]

我之前在Karl Friston 2012 年在 NeuroImage 上發表的論文中看到過這種說法，他稱之為經典推理的謬誤。

我很難找到一個真正的教學解釋為什麼這應該是真的。具體來說，我想知道：

為什麼會發生這種情況

如何防範

失敗了，如何檢測它

對問題 1 的回答：出現這種情況是因為 $ p $ - 值隨著樣本量的增加而變得任意小現實的（見尼克斯陶納對 OP 的評論）。這 $ p $ 值變得任意小，因為常客檢驗統計的誤差通常隨著樣本量而減小，結果是所有差異在樣本量足夠大的情況下在任意水平上都是顯著的。Cosma Shalizi 對此有深入研究。

對問題 2 的回答：在頻率論假設檢驗框架內，人們可以通過****不僅僅對檢測差異進行推斷來防止這種情況。例如，人們可以將關於**差異和等價的推論結合起來，這樣就不會偏袒（或混為一談！）證明有效證據與*無效**證據*的舉證責任。沒有效果的證據來自，例如：

兩個單邊等效測試（TOST），

統一最強大的等效性檢驗，和

等價的置信區間方法（即，如果 $ 1-2\alpha $ 檢驗統計量的 %CI在先驗**定義的等價/相關範圍內，則在 $ \alpha $ 顯著性水平）。

這些方法都共享的是關於什麼影響大小構成***相關差異***的先驗決定，以及根據差異 至少與被認為相關的差異構成的零假設。

因此，當樣本量很大時，從差異檢驗和等價檢驗的組合推斷可以防止您描述的偏差（二乘二表格顯示了差異組合檢驗產生的四種可能性 - 實證主義零假設， $ \text{H}{0}^{+} $ ——和等價——否定的零假設， $ \text{H}{0}^{-} $ ):

注意左上象限：一個過強的測試是一個你拒絕沒有差異的原假設，但你也拒絕相關差異的原假設，所以是的，有差異，但你有一個先驗決定你不關心因為它太小了。

**問題 3 的答案：**見 2 的答案。

引用自：https://stats.stackexchange.com/questions/108911

comments powered by Disqus

為什麼常客假設檢驗會偏向於拒絕具有足夠大樣本的原假設？

相關問答

貝葉斯分析僅用作計算工具？

貝葉斯如何解釋磷(X=x|θ=c)磷(X=X|θ=C)P(X=x|theta=c)，這在解釋後驗時是否構成挑戰？

我應該多認真地思考不同的統計學哲學？

常客術語中的“參數固定且數據變化”和貝葉斯術語中的“參數變化且數據固定”究竟是什麼意思？

“即使我輸了，這也是正確的比賽”

固定效應的頻率論定義是什麼？