匯總方差“實際上”是什麼意思?
我是統計學的菜鳥,所以請大家幫幫我。
我的問題如下:合併方差實際上是什麼意思?
當我在互聯網上尋找合併方差的公式時,我發現很多文獻都使用以下公式(例如,這裡: http: //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
但它實際計算的是什麼?因為當我使用這個公式來計算我的匯總方差時,它給了我錯誤的答案。
例如,考慮這些“父樣本”:
這個父樣本的方差是,其均值為.
現在,假設我將這個父樣本分成兩個子樣本:
- 第一個子樣本是 2,2,2,2,2,均值和方差.
- 第二個子樣本是 8,8,8,8,8,均值和方差.
現在,很明顯,使用上面的公式計算這兩個子樣本的合併/父方差將產生零,因為和. 那麼這個公式實際計算的是什麼?
另一方面,經過長時間的推導,我發現產生正確合併/父方差的公式是:
在上述公式中,和.
我發現了一個類似的公式,例如在這裡:http ://www.emathzone.com/tutorials/basic-statistics/combined-variance.html 和維基百科。雖然我不得不承認它們看起來和我的不太一樣。
再說一次,匯總方差實際上是什麼意思?這不應該是兩個子樣本中父樣本的方差嗎?或者我在這裡完全錯了?
先感謝您。
編輯1:有人說我上面的兩個子樣本是病態的,因為它們的方差為零。好吧,我可以給你一個不同的例子。考慮這個父樣本:
這個父樣本的方差是,其均值為.
現在,假設我將這個父樣本分成兩個子樣本:
- 第一個子樣本是 1,2,3,4,5,均值和方差.
- 第二個子樣本是 46,47,48,49,50,均值和方差.
現在,如果您使用“文獻公式”來計算合併方差,您將得到 2.5,這是完全錯誤的,因為父/合併方差應該是 564.7。相反,如果你使用“我的公式”,你會得到正確的答案。
請理解,我在這裡用極端的例子來說明這個公式確實是錯誤的。如果我使用沒有太多變化(極端情況)的“正常數據”,那麼這兩個公式的結果將非常相似,人們可能會因為捨入誤差而忽略差異,而不是因為公式本身是錯誤的。
簡而言之,在這些方差相等的假設/約束下,合併方差是每個樣本內方差的(無偏)估計。
這在Wikipedia entry for pooled variance中有詳細的解釋、動機和分析。
它不會像您想像的那樣估計通過連接兩個單獨的樣本形成的新“元樣本”的方差。正如您已經發現的那樣,估計需要一個完全不同的公式。