Hypothesis-Testing

使用 p 值拒絕假設是否等同於不屬於置信區間的假設?

  • August 28, 2015

在正式推導估計的置信區間時,我最終得到了一個與方法非常相似的公式-value 被計算出來。

因此問題是:它們在形式上是等價的嗎?即拒絕假設具有臨界值相當於不屬於臨界值置信區間?

是和不是。

先說“是”

您觀察到的是,當測試和置信區間基於相同的統計量時,它們之間存在等價性:我們可以解釋-value 作為最小值參數的空值將包含在置信區間。

讓是參數空間中的未知參數,並讓樣本是隨機變量的一個實現. 為簡單起見,定義置信區間作為一個隨機區間,使得它的覆蓋概率

(您可以類似地考慮更一般的間隔,其中覆蓋概率要么受限於或近似等於. 推理是類似的。) 考慮零點假設的雙邊檢驗反對替代方案. 讓表示檢驗的 p 值。對於任何,在級別被拒絕如果. 等級 拒絕域是這導致拒絕:

現在,考慮一系列具有 p 值的雙邊檢驗, 為了. 對於這樣一個家庭,我們可以定義一個倒置拒絕區域

對於任何固定,如果被拒絕, 當且僅當, 那是,

如果檢驗基於具有完全指定的絕對連續零分佈的檢驗統計量,則在下面. 然後

由於這個等式適用於任何並且由於上面的等式意味著隨之而來的是隨機集總是覆蓋真正的參數有概率. 因此,讓表示的補碼, 對所有人我們有

這意味著反向拒絕區域的補碼是置信區間. 下面給出了一個說明,顯示了與- 測試正常均值,不同的空均值和不同的樣本手段, 和.如果被拒絕是在陰影淺灰色區域。深灰色顯示的是拒絕區域和置信區間. 在此處輸入圖像描述

(大部分內容來自我的博士論文。)

現在對於“不”

上面我描述了構建置信區間的標準方法。在這種方法中,我們使用一些與未知參數相關的統計量來構造區間。還有一些基於最小化算法的區間,它尋求最小化區間條件的長度. 通常,這樣的間隔不對應於測試。

這種現象與此類區間未嵌套有關的問題有關,這意味著 94 % 區間可能比 95 % 區間短。有關這方面的更多信息,請參閱我最近的這篇論文的第 2.5 節(出現在伯努利)。

還有第二個“不”

在某些問題中,標準置信區間不是基於與標準檢驗相同的統計量(正如本文中 Michael Fay 所討論的。在這些情況下,置信區間和檢驗可能不會給出相同的結果。例如,即使置信區間中包含 0,也可能被測試拒絕。這與上面的“是”並不矛盾,因為使用了不同的統計數據。

有時“是”不是一件好事

正如f coppens在評論中指出的那樣,有時間隔和測試的目標有些衝突。我們想要較短的間隔和高功效的測試,但最短的間隔並不總是對應於具有最高功效的測試。有關這方面的一些示例,請參閱本文(多元正態分佈)或本文(指數分佈)或我的論文的第 4 節。

貝葉斯也可以說是和不是

幾年前,我在這裡發布了一個關於貝葉斯統計中是否也存在測試區間等價的問題。簡短的回答是使用標準的貝葉斯假設檢驗,答案是“否”。但是,通過稍微重新制定測試問題,答案可能是“是”。(我試圖回答我自己的問題最終變成了一篇論文!)

引用自:https://stats.stackexchange.com/questions/169141

comments powered by Disqus