匯總方差“實際上”是什麼意思？

September 12, 2017

我是統計學的菜鳥，所以請大家幫幫我。

我的問題如下：合併方差實際上是什麼意思？

當我在互聯網上尋找合併方差的公式時，我發現很多文獻都使用以下公式（例如，這裡： http: //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

但它實際計算的是什麼？因為當我使用這個公式來計算我的匯總方差時，它給了我錯誤的答案。

例如，考慮這些“父樣本”：

這個父樣本的方差是，其均值為.

現在，假設我將這個父樣本分成兩個子樣本：

第一個子樣本是 2,2,2,2,2，均值和方差.

第二個子樣本是 8,8,8,8,8，均值和方差.

現在，很明顯，使用上面的公式計算這兩個子樣本的合併/父方差將產生零，因為和. 那麼這個公式實際計算的是什麼？

另一方面，經過長時間的推導，我發現產生正確合併/父方差的公式是：

在上述公式中，和.

我發現了一個類似的公式，例如在這裡：http ://www.emathzone.com/tutorials/basic-statistics/combined-variance.html 和維基百科。雖然我不得不承認它們看起來和我的不太一樣。

再說一次，匯總方差實際上是什麼意思？這不應該是兩個子樣本中父樣本的方差嗎？或者我在這裡完全錯了？

先感謝您。

編輯1：有人說我上面的兩個子樣本是病態的，因為它們的方差為零。好吧，我可以給你一個不同的例子。考慮這個父樣本：

這個父樣本的方差是，其均值為.

現在，假設我將這個父樣本分成兩個子樣本：

第一個子樣本是 1,2,3,4,5，均值和方差.

第二個子樣本是 46,47,48,49,50，均值和方差.

現在，如果您使用“文獻公式”來計算合併方差，您將得到 2.5，這是完全錯誤的，因為父/合併方差應該是 564.7。相反，如果你使用“我的公式”，你會得到正確的答案。

請理解，我在這裡用極端的例子來說明這個公式確實是錯誤的。如果我使用沒有太多變化（極端情況）的“正常數據”，那麼這兩個公式的結果將非常相似，人們可能會因為捨入誤差而忽略差異，而不是因為公式本身是錯誤的。

簡而言之，在這些方差相等的假設/約束下，合併方差是每個樣本內方差的（無偏）估計。

這在Wikipedia entry for pooled variance中有詳細的解釋、動機和分析。

它不會像您想像的那樣估計通過連接兩個單獨的樣本形成的新“元樣本”的方差。正如您已經發現的那樣，估計需要一個完全不同的公式。

引用自：https://stats.stackexchange.com/questions/302725

comments powered by Disqus

匯總方差“實際上”是什麼意思？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

74% 概率高於平均值的示例分佈

一個擁有非正態分佈數據的統計學家怎麼能比一個只有平均值的統計學家猜得好呢？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼這個估計器不是無偏的？

當我們計算均值和方差時，我們是否假設數據是正態分佈的？