Variance

匯總方差“實際上”是什麼意思?

  • September 12, 2017

我是統計學的菜鳥,所以請大家幫幫我。

我的問題如下:合併方差實際上是什麼意思?

當我在互聯網上尋找合併方差的公式時,我發現很多文獻都使用以下公式(例如,這裡: http: //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

但它實際計算的是什麼?因為當我使用這個公式來計算我的匯總方差時,它給了我錯誤的答案。

例如,考慮這些“父樣本”:

這個父樣本的方差是,其均值為.

現在,假設我將這個父樣本分成兩個子樣本:

  1. 第一個子樣本是 2,2,2,2,2,均值和方差.
  2. 第二個子樣本是 8,8,8,8,8,均值和方差.

現在,很明顯,使用上面的公式計算這兩個子樣本的合併/父方差將產生零,因為和. 那麼這個公式實際計算的是什麼?

另一方面,經過長時間的推導,我發現產生正確合併/父方差的公式是:

在上述公式中,和.

我發現了一個類似的公式,例如在這裡:http ://www.emathzone.com/tutorials/basic-statistics/combined-variance.html 和維基百科。雖然我不得不承認它們看起來和我的不太一樣。

再說一次,匯總方差實際上是什麼意思?這不應該是兩個子樣本中父樣本的方差嗎?或者我在這裡完全錯了?

先感謝您。


編輯1:有人說我上面的兩個子樣本是病態的,因為它們的方差為零。好吧,我可以給你一個不同的例子。考慮這個父樣本:

這個父樣本的方差是,其均值為.

現在,假設我將這個父樣本分成兩個子樣本:

  1. 第一個子樣本是 1,2,3,4,5,均值和方差.
  2. 第二個子樣本是 46,47,48,49,50,均值和方差.

現在,如果您使用“文獻公式”來計算合併方差,您將得到 2.5,這是完全錯誤的,因為父/合併方差應該是 564.7。相反,如果你使用“我的公式”,你會得到正確的答案。

請理解,我在這裡用極端的例子來說明這個公式確實是錯誤的。如果我使用沒有太多變化(極端情況)的“正常數據”,那麼這兩個公式的結果將非常相似,人們可能會因為捨入誤差而忽略差異,而不是因為公式本身是錯誤的。

簡而言之,在這些方差相等的假設/約束下,合併方差是每個樣本內方差的(無偏)估計。

這在Wikipedia entry for pooled variance中有詳細的解釋、動機和分析。

它不會您想像的那樣估計通過連接兩個單獨的樣本形成的新“元樣本”的方差。正如您已經發現的那樣,估計需要一個完全不同的公式。

引用自:https://stats.stackexchange.com/questions/302725

comments powered by Disqus