是否有統計原因不使用 Satterthwaite 的方法來解釋不等方差?
兩個相關問題:
1)根據我的閱讀,使用 Satterthwaite 自由度並不假定方差相等,這使得它可以用於不適合例如 vanilla ANOVA 的數據集。然而,從概念的角度來看,我希望使用一種做出較少假設的方法在統計上的效力也一定會降低。這是真的?
- 如果方差中存在已知的系統偏差(例如,隨著均值的增加而增加方差),可以採用兩種方法:
- A)糾正系統偏差並假設方差相等,或
- B) 依靠 Satterthwaite 的方法作為一般解決方案。
我目前的理解是選項 A) 更可取,因為它可以進行更強大的測試(參見上面的問題 1)),但還有其他原因嗎?
資料來源會有所幫助。
**對於 2 樣本 t 檢驗。**對於雙樣本 t 檢驗,我認為現在使用 Welch 雙樣本 t 檢驗是標準做法,除非有強有力的先前證據(例如,來自同一類型的數據)表明總體方差相等。在某些統計軟件包中,Welch 檢驗是默認的 2 樣本 t 檢驗,因此如果需要,必須特別請求檢驗的合併版本。(例如,我知道 Welch 檢驗是 R 和 Minitab 中的默認值。我相信其他一些統計軟件程序會顯示兩種檢驗的 P 值。)
Welch 雙樣本 t 檢驗使用 Satterthwaite DF,通常小於 DF $ n_1 + n_2 - 2 $ 合併的 2 樣本 t 檢驗(永遠不會更大)。這意味著 Welch 2 樣本 t 檢驗的功效略小於合併檢驗的功效,通常不足以小到實際用途。但是,當樣本量非常小且樣本標準差相似時,一些統計學家確實對標準實踐進行了例外處理。
**對於單向方差分析。**但是,在 R as 中實現的 Satterthwaite(或 Welch)ANOVA
oneway.test
相對較新,並且對 Satterthwaite ANOVA 的審查程度與對 Satterthwaite 2 樣本 t 檢驗的審查程度不同。我看到的一些有限的模擬研究和我自己的經驗讓我覺得默認使用 Satterthwaite ANOVA 很舒服。但我認為還不能說使用 Satterthwaite ANOVA 是“標準做法”。在這一點上,我不得不承認,對 Satterthwaite 單向 ANOVA 的強烈偏好仍然是個人意見問題(即使相當普遍)。因此,我們可能會在這裡看到其他表達不同意見的答案。
*附錄:*作為對評論的回應,這裡是一個模擬調查 Welch ANOVA 行為的示例。
如果樣本大小不同並且選擇較小樣本的總體比其他總體具有更大的方差,則已知兩樣本合併 t 檢驗表現不佳。具體來說,如果總體均值相同,則真實顯著性水平可能會被大大夸大。
在這裡,我們使用模擬來研究標準 ANOVA(假設人口方差相等)在類似情況下的行為,並將行為與 Welch ANOVA 在相同情況下的行為進行比較。特別是,我們使用樣本大小 5、10 和 15,以及各自的總體標準差 7、3
和 1。
為了確保我們準確評估在 R 中實現的 ANOVA 版本,我們模擬了 100,000 個數據集,在 R 中運行了兩個 ANOVA,並查看了 200,000 個生成的 P 值。因為 R 對每個 ANOVA 進行格式化,只供我們在每種情況下使用 P 值,代碼效率低且運行緩慢。
set.seed(2020) m = 10^5; pv.e = pv.w = numeric(m) for(i in 1:m){ x1 = rnorm( 5, 50, 7) x2 = rnorm(10, 50, 3) x3 = rnorm(15, 50, 1) x = c(x1,x2,x3) g = as.factor(rep(1:3, c(5,10,15))) pv.w[i] = oneway.test(x~g)$p.val pv.e[i] = summary(aov(x~g))[[1]][1,5] } mean(pv.e <= .05) [1] 0.2496 mean(pv.w <= .05) [1] 0.05673
相當錯誤地假設相等的總體方差,標準 ANOVA 的實際拒絕率約為 25%,而測試旨在達到 5% 的水平。這可能導致人口差異的大量錯誤“發現”,而這些差異根本沒有。
相比之下,Welch ANOVA 的拒絕率約為 5.7%,而預期水平為 5%。在這種有問題的情況下,這不是一個完美的結果,但比標準 ANOVA 的災難性結果有了很大的改進。
下面是兩個測試的模擬 P 值的直方圖。在原假設下,具有連續檢驗統計量的檢驗的 P 值應該是標準統一的(條形圖大致為綠線的高度)。