置換檢驗:選擇檢驗統計量的標準
我經常使用置換測試並喜歡它們的簡單性。我從 Good 的《重採樣方法》一書中學到了最多的東西,其中作者在整個示例中選擇測試統計數據時似乎很有創意。此外,這篇文章給人的印像是選擇檢驗統計量有很大的自由度。
我確實想知道測試統計是否應符合理論要求。或者我們可以使用任何統計數據,只要它直觀地有意義並且具有良好的 I/II 類錯誤率?
例如,當由於非正態總體而使用置換檢驗而不是 t 檢驗時,我已經多次看到置換檢驗 p 值仍然是從 t 統計量獲得的。雖然不一定是錯的,但考慮到學生 t 分佈的起源,這似乎是一個奇怪的選擇。
t 統計量作為檢驗統計量很有意義。許多人覺得它很直觀。如果我引用 0.5 或 5.5 的 t 統計量,它會告訴您一些信息——除均值之外有多少標準誤。
困難——至少在適度的非正態性下——與其說是使用統計量,不如說是使用t 分佈作為其在零值下的分佈。統計數據非常合理。
當然,如果您預計尾部比正常值大得多,那麼更穩健的統計量會更好,但 t 統計量對與正態性的輕微偏差並不高度敏感(例如,它不如方差比統計量敏感)。
如果您只想使用統計數據的分子,那很好,如果您對均值的差異感興趣,它作為排列統計數據非常有意義。如果您對更一般的位置轉移感感興趣,它會打開大量其他可能性。
您認為有很大的自由來選擇統計數據並根據特定情況對其進行調整是正確的 - 您希望針對哪些替代方案,或者您希望對哪些可能的問題保持穩健(例如污染,可以衝擊力)。
實際上幾乎沒有任何限制——您可以自由選擇幾乎任何東西,包括無用的測試統計信息。當然,在選擇測試時,您確實應該考慮一些考慮因素,但您可以不考慮。
–
也就是說,有一些標準可以應用於各種情況。
例如,如果您對特定類型的假設特別感興趣,則可以使用反映該假設的統計量 - 例如,如果您想檢驗總體均值的差異,則通常將檢驗統計量設為有意義與樣本均值的差異有關。
如果您對可能具有的分佈類型有所了解 - 重尾,或偏斜,或名義上輕尾但有一定程度的污染,或雙峰,……您可以設計一個在這種情況下可能表現良好的檢驗統計量,例如,選擇在預期情況下表現良好但對污染具有一定魯棒性的統計數據。
–
模擬是在各種情況下調查功率的一種方法。