Variance

加權方差,再一次

  • March 6, 2013

無偏加權方差已經在這里其他地方得到解決,但似乎仍然存在令人驚訝的混亂。似乎對第一個鏈接和維基百科文章中提出的公式達成了共識。這也看起來像 R、Mathematica 和 GSL(但不是 MATLAB)使用的公式。但是,Wikipedia 文章還包含以下行,這看起來像是對加權方差實現的一個很好的健全性檢查:

例如,如果值 {2,2,4,5,5,5} 來自同一分佈,那麼我們可以將此集合視為未加權樣本,也可以將其視為加權樣本 {2,4, 5} 與相應的權重 {2,1,3},我們應該得到相同的結果。

我的計算得出原始值方差的值為 2.1667,加權方差的值為 2.9545。我真的應該期望它們是一樣的嗎?為什麼或者為什麼不?

是的,您應該期望這兩個示例(未加權與加權)都能為您提供相同的結果。

我已經實現了維基百科文章中的兩種算法。

這個有效:

如果所有的 $ x_i $ 從相同的分佈和整數權重中得出 $ w_i $ 表示樣本中出現的頻率,則加權總體方差的無偏估計量由下式給出:

$ s^2\ = \frac {1} {V_1 - 1} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2, $

然而,這個(使用分數權重)對我不起作用:

如果每個 $ x_i $ 從具有方差的高斯分佈中得出 $ 1/w_i $ ,加權總體方差的無偏估計量由下式給出:

$ s^2\ = \frac {V_1} {V_1^2-V_2} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2 $

我仍在調查第二個等式不能按預期工作的原因。

/編輯:找到了第二個方程沒有像我想的那樣起作用的原因:只有當你有歸一化的權重或方差(“概率/可靠性”)權重時,你才能使用第二個方程,它不是無偏的,因為如果你不’不要使用“出現/重複”權重(計算觀察被觀察的次數,因此應該在你的數學運算中重複),你將失去計算觀察總數的能力,因此你不能使用修正係數。

因此,這使用加權和非加權方差解釋了結果的差異:您的計算是有偏差的。

因此,如果您想獲得無偏的加權方差,請僅使用“出現/重複”權重並使用我在上面發布的第一個等式。如果那是不可能的,那麼,你也無能為力。

有關更多理論細節,here is another post about unbiased weighted covariance with a reference about why we can not unbias with probability/reliability type weights and a python implementation。

/EDIT 幾年後:對於為什麼我們不能對概率/可靠性權重進行無偏性仍然存在一些困惑。

首先,澄清一下,概率/可靠性權重和重複/出現權重之間的區別在於概率/可靠性權重是標準化的,而重複/出現權重不是,所以你可以通過對後者求和而不是得到總出現次數前者。這是消除偏見所必需的,因為否則您將無法知道我所說的統計量級,其他人所說的極化

事實上,這就像統計中的其他任何事情一樣:如果我說我的亞群中有 10% 患有 X 病,這對更廣泛的人群意味著什麼?好吧,這取決於我的亞群是什麼:如果只有 100 人,那麼我 10% 的數字並沒有多大意義。但如果是100萬人,那麼它可能忠實地代表了整個人口。在這裡也是一樣的,如果我們不知道總 N,我們就無法知道我們的指標對整個人口的代表性,因此我們不能無偏。無偏見正是推廣到更廣泛人群的過程。

引用自:https://stats.stackexchange.com/questions/51442

comments powered by Disqus