Hypothesis-Testing

使用置換測試有什麼好處?

  • July 10, 2013

通過檢驗統計量檢驗一些零假設與替代假設時, 在哪裡, 對集合應用置換檢驗上的排列我們有一個新的統計數據

  1. 使用置換測試比不使用它有什麼好處?即當置換測試起作用時它是什麼樣的?
  2. 有什麼條件可以做到這一點?比如一些關於檢驗統計的條件和/或零假設?

例如,

  1. 應該 等於基於的 p 值, 對於樣本? 如果是,為什麼?(參考也值得讚賞)

p 值定義為

. 如果置換檢驗是估計置換分佈, 怎麼等於 p 值在? 特別是,空值中可能有多個分佈, 和不一一考慮空分佈然後取和. 2. 排列測試是否應該使在零假設上無分佈?什麼條件會發生這種情況? 3. 應該均勻分佈在? 什麼條件會發生這種情況?請注意,當是一個常數函數,也恆定在和分佈 遠非統一結束.

感謝致敬!

由於討論時間很長,我已經對答案進行了回复。但是我改變了順序。

置換檢驗是“精確的”,而不是漸近的(例如,與似然比檢驗相比)。因此,例如,即使無法計算在 null 下的均值差異的分佈,您也可以進行均值檢驗;您甚至不需要指定所涉及的分佈。您可以設計一個在一組假設下具有良好功效的檢驗統計量,而不像完全參數化假設那樣對它們敏感(您可以使用穩健但具有良好 ARE 的統計量)。

請注意,您給出的定義(或者更確切地說,您在此引用的任何人給出的定義)並不普遍;有些人會將 U 稱為置換檢驗統計量(構成置換檢驗的不是統計量,而是您如何評估 p 值)。但是,一旦您進行置換測試並且您已將方向指定為“此值的極值與 H0 不一致”,則上述 T 的這種定義基本上就是您計算 p 值的方式——它只是實際比例置換分佈至少與空值下的樣本一樣極端(p 值的定義)。

因此,例如,如果我想對兩樣本 t 檢驗等均值進行(單尾)檢驗,我可以使我的統計量成為 t 統計量或 t 統計量本身的分子,或第一個樣本的總和(這些定義中的每一個在其他樣本中都是單調的,以組合樣本為條件),或它們的任何單調變換,並且具有相同的檢驗,因為它們產生相同的 p 值。我需要做的就是看看我選擇樣本統計量所在的任何統計量的排列分佈有多遠(就比例而言)。上面定義的 T 只是另一個統計數據,與我可以選擇的任何其他統計數據一樣好(定義的 T 在 U 中是單調的)。

T 不會完全一致,因為這需要連續分佈,而 T 必然是離散的。因為 U 和因此 T 可以將多個排列映射到給定的統計數據,所以結果不是等概率的,但它們具有“類似均勻”的 cdf**,但步驟不一定大小相等.

** ( $ F(x)\leq x $ ,並且在每次跳躍的正確限制處嚴格等於它——實際上可能有一個名稱)

對於合理的統計數據 $ n $ 去無窮大的分佈 $ T $ 接近均勻度。我認為開始理解它們的最好方法是在各種情況下進行。

對於任何樣本 X,T(X) 是否應該等於基於 U(X) 的 p 值?如果我理解正確,我在這張幻燈片的第 5 頁上找到了它。

T 是 p 值(對於大 U 表示偏離零值且小 U 與其一致的情況)。請注意,分佈取決於樣本。所以它的分佈不是“任何樣本”。

那麼使用置換檢驗的好處是在不知道 X 在 null 下的分佈的情況下計算原始檢驗統計量 U 的 p 值?因此,T(X)的分佈不一定是均勻的?

我已經解釋過 T 不是統一的。

我想我已經解釋了我認為置換測試的好處。其他人會提出其他優點(例如)。

“T 是 p 值(對於大 U 表示偏離零值且小 U 與之一致的情況)”是否意味著檢驗統計量 U 和样本 X 的 p 值是 T(X)?為什麼?是否有一些參考來解釋這一點?

您引用的句子明確指出 T 是 p 值,以及何時是。如果您能解釋不清楚的地方,也許我可以說更多。至於為什麼,請參閱p-value的定義(鏈接中的第一句)-它非常直接地遵循

這裡有一個關於置換測試的很好的基本討論。

編輯:我在這裡添加一個小的排列測試示例;此 (R) 代碼僅適用於小樣本 - 您需要更好的算法來找到中等樣本中的極端組合。

考慮針對單尾替代方案的置換測試:

$ H_0: \mu_x = \mu_y $ (有些人堅持 $ \mu_x \geq \mu_y $ *)

$ H_1: \mu_x < \mu_y $

  • 但我通常避免使用它,因為它在嘗試計算空分佈時特別容易混淆學生的問題

關於以下數據:

> x;y
[1] 25.17 20.57 19.03
[1] 25.88 25.20 23.75 26.99

有 35 種方法可以將 7 個觀測值分成大小為 3 和 4 的樣本:

> choose(7,3)
[1] 35

如前所述,給定 7 個數據值,第一個樣本的總和在均值差異上是單調的,因此我們將其用作檢驗統計量。所以原始樣本的檢驗統計量為:

> sum(x)
[1] 64.77

現在這裡是排列分佈:

> sort(apply(combn(c(x,y),3),2,sum))
[1] 63.35 64.77 64.80 65.48 66.59 67.95 67.98 68.66 69.40 69.49 69.52 69.77
[13] 70.08 70.11 70.20 70.94 71.19 71.22 71.31 71.62 71.65 71.90 72.73 72.76
[25] 73.44 74.12 74.80 74.83 75.91 75.94 76.25 76.62 77.36 78.04 78.07

(不必對它們進行排序,我這樣做只是為了更容易看到測試統計量是最後的第二個值。)

我們可以看到(在這種情況下通過檢查) $ p $ 是 2/35,或

> 2/35
[1] 0.05714286

(請注意,只有在沒有 xy 重疊的情況下,此處的 p 值才可能低於 0.05。在這種情況下, $ T $ 將是離散統一的,因為在 $ U $ .)

排列分佈

粉紅色的箭頭在 x 軸上表示樣本統計量,在 y 軸上表示 p 值。

引用自:https://stats.stackexchange.com/questions/63863

comments powered by Disqus