如何執行引導測試來比較兩個樣本的均值？

April 4, 2014

我有兩個嚴重偏斜的樣本，並且正在嘗試使用自舉來使用 t-statistic 比較它們的平均值。

正確的程序是什麼？

我正在使用的過程

當我知道這不是正態分佈時，我擔心在最後一步使用原始/觀察數據的標準誤差是否合適。

這是我的步驟：

Bootstrap - 隨機抽樣替換（N = 1000）

計算每個引導程序的 t 統計量以創建 t 分佈：

通過獲取來估計 t 置信區間和t 分佈的百分位數

通過以下方式獲取置信區間：

在哪裡

查看置信區間的落點以確定均值是否存在顯著差異（即非零）

我還查看了 Wilcoxon 秩和，但由於分佈非常嚴重（例如第 75 == 第 95 個百分位），它沒有給出非常合理的結果。出於這個原因，我想進一步探索自舉 t 檢驗。

所以我的問題是：

這是一個合適的方法嗎？

當我知道觀察數據嚴重偏斜時，是否適合使用觀察數據的 SE？

可能的重複：首選哪種方法，自舉測試或基於非參數等級的測試？

我只會做一個常規的引導測試：

計算數據中的 t 統計量並將其存儲

更改數據以使零假設為真。在這種情況下，將第 1 組的平均值減去第 1 組的平均值並加上整體平均值，並對第 2 組執行相同的操作，這樣兩組中的平均值都將是整體平均值。

從此數據集中獲取引導樣本，可能大約 20,000 個。

計算每個引導樣本中的 t 統計量。如果零假設為真，則這些 t 統計量的分佈是偏態數據中 t 統計量的抽樣分佈的引導估計。

大於或等於您觀察到的 t 統計量的 bootstrap t 統計量的比例是您對 $ p $ -價值。您可以通過查看來做得更好 $ ( $ 大於或等於觀察到的 t 統計量的引導 t 統計量的數量 $ +1) $ 除以 $ ( $ 自舉樣本的數量 $ +1) $ . 但是，當引導樣本的數量很大時，差異會很小。

您可以閱讀更多內容：

AC Davison 和 DV Hinkley (1997) Bootstrap Methods and their Application的第 4 章。劍橋：劍橋大學出版社。

Bradley Efron 和 Robert J. Tibshirani (1993)的第 16 章介紹 Bootstrap。博卡拉頓：查普曼和霍爾/CRC。

關於引導假設檢驗的維基百科條目。

引用自：https://stats.stackexchange.com/questions/92542

comments powered by Disqus

如何執行引導測試來比較兩個樣本的均值？

相關問答

這是p-hacking嗎？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

t.test 和 prop.test 的 p 值差異很大

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

具有二分變量的兩組的顯著性檢驗

韋爾奇檢驗似乎比等方差 t 檢驗差得多