Hypothesis-Testing

為什麼常客假設檢驗會偏向於拒絕具有足夠大樣本的原假設?

  • July 22, 2014

當我偶然發現這篇文章時,我正在閱讀這篇關於貝葉斯因子的文章,以解決一個完全不相關的問題

使用貝葉斯因子的假設檢驗比常客假設檢驗更穩健,因為貝葉斯形式避免了模型選擇偏差,評估有利於原假設的證據,包括模型不確定性,並允許比較非嵌套模型(當然模型必須具有相同的因變量)。此外,頻率派顯著性檢驗偏向於拒絕具有足夠大樣本量的原假設。[重點補充]

我之前在Karl Friston 2012 年在 NeuroImage 上發表的論文中看到過這種說法,他稱之為經典推理的謬誤

我很難找到一個真正的教學解釋為什麼這應該是真的。具體來說,我想知道:

  1. 為什麼會發生這種情況
  2. 如何防範
  3. 失敗了,如何檢測它

對問題 1 的回答:出現這種情況是因為 $ p $ - 值隨著樣本量的增加而變得任意小現實的(見尼克斯陶納對 OP 的評論)。這 $ p $ 值變得任意小,因為常客檢驗統計的誤差通常隨著樣本量而減小,結果是所有差異在樣本量足夠大的情況下在任意水平上都是顯著的。Cosma Shalizi 對此有深入研究

對問題 2 的回答:在頻率論假設檢驗框架內,人們可以通過****不僅僅對檢測差異進行推斷來防止這種情況。例如,人們可以將關於**差異等價的推論結合起來,這樣就不會偏袒(或混為一談!)證明有效證據與*無效**證據*的舉證責任。沒有效果的證據來自,例如:

  1. 兩個單邊等效測試(TOST),
  2. 統一最強大的等效性檢驗,和
  3. 等價的置信區間方法(即,如果 $ 1-2\alpha $ 檢驗統計量的 %CI在先驗**定義的等價/相關範圍內,則在 $ \alpha $ 顯著性水平)。

這些方法都共享的是關於什麼影響大小構成***相關差異***的先驗決定,以及根據差異 至少與被認為相關的差異構成的零假設。

因此,當樣本量很大時,從差異檢驗和等價檢驗的組合推斷可以防止您描述的偏差(二乘二表格顯示了差異組合檢驗產生的四種可能性 - 實證主義零假設, $ \text{H}{0}^{+} $ ——和等價——否定的零假設, $ \text{H}{0}^{-} $ ):

來自組合測試的差異測試和等價測試的四種可能性

注意左上象限:一個過強的測試是一個拒絕沒有差異的原假設,但你也拒絕相關差異的原假設,所以是的,有差異,但你有一個先驗決定你不關心因為它太小了。

**問題 3 的答案:**見 2 的答案。

引用自:https://stats.stackexchange.com/questions/108911

comments powered by Disqus