Estimation

具有不等方差的 James-Stein 估計器

  • October 12, 2014

我發現的關於 James-Stein 估計器的每條語句都假設被估計的隨機變量具有相同的(和單位)方差。

但是所有這些例子也提到了 JS 估計器可以用來估計彼此無關的數量。維基百科的例子是光速、台灣的茶葉消費和蒙大拿州的生豬體重。但大概你對這三個量的測量會有不同的“真實”方差。這會帶來問題嗎?

這與我不理解的一個更大的概念問題有關,與這個問題有關:James-Stein estimator: How did Efron and Morris calculate他們的棒球示例的收縮係數?我們計算收縮因子如下:

直覺上,我認為術語實際上是– 每個被估計的數量都不同。但是該問題中的討論僅涉及使用匯總方差…

如果有人能解決這個困惑,我將不勝感激!

這個問題在 Efron & Morris 在 1970 年代撰寫的關於 James-Stein 估計量的經典系列論文中得到了明確的回答。我主要指的是:

  1. Efron 和 Morris,1973,Stein 的估計規則及其競爭對手——一種經驗貝葉斯方法
  2. Efron 和 Morris,1975 年,使用 Stein 估計器進行數據分析及其推廣
  3. 埃夫隆和莫里斯,1977,斯坦因統計悖論

1977 年的論文是非技術性的論述,必須閱讀。他們在那裡介紹了棒球擊球示例(在您鏈接到的線程中進行了討論);在這個例子中,所有變量的觀察方差確實應該相等,並且收縮因子 $ c $ 是恆定的。

然而,他們繼續舉另一個例子,估計薩爾瓦多一些城市的弓形蟲病發病率。在每個城市中,接受調查的人數不同,因此可以認為個人觀察結果(每個城市的弓形蟲病率)具有不同的方差(調查人數越少,方差越大)。直覺當然是具有低方差(低不確定性)的數據點不需要像具有高方差(高不確定性)的數據點那樣強烈地收縮。他們的分析結果如下圖所示,確實可以看出這種情況正在發生:

在此處輸入圖像描述

相同的數據和分析也出現在 1975 年技術性更強的論文中,以更優雅的數字(不幸的是沒有顯示個體差異),見第 3 節:

在此處輸入圖像描述

他們在那裡提出了一種簡化的經驗貝葉斯處理方法,如下所示。讓$$ X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\ \theta_i \sim \mathcal N(0, A) $$在哪裡 $ A $ 是未知的。萬一所有 $ D_i=1 $ 是相同的,標準的經驗貝葉斯處理是估計 $ 1/(1+A) $ 作為 $ (k-2)/\sum X_j ^2 $ ,併計算後驗均值 $ \theta_i $ 作為$$ \hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i, $$這就是 James-Stein 估計器。

如果現在 $ D_i \ne 1 $ ,則貝葉斯更新規則為$$ \hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i $$我們可以使用相同的經驗貝葉斯技巧來估計 $ A $ , 即使沒有封閉公式 $ \hat A $ 在這種情況下(見論文)。然而,他們注意到

…這條規則並沒有減少到斯坦的當一切 $ D_j $ 是相等的,我們改為使用 [1973 年論文] 中導出的這個估計量的一個小變體,它確實簡化為 Stein 的。變體規則估計不同的值 $ \hat A_i $ 對於每個城市。在這種情況下,規則之間的差異很小,但如果 $ k $ 更小。

1973 年論文中的相關部分是第 8 節,讀起來有點難。有趣的是,他們在上面的評論中對@guy 提出的建議有明確的評論:

針對這種情況推廣 James-Stein 規則的一種非常簡單的方法是定義 $ \tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i $ , 以便 $ \tilde x_i \sim \mathcal N(\tilde \theta_i, 1) $ ,將[原始詹姆斯-斯坦規則]應用於轉換後的數據,然後轉換回原始坐標。產生的規則估計 $ \theta_i $ 經過 $$ \hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i. $$ 這是不吸引人的,因為每個 $ X_i $ 以相同的因子向原點收縮。

然後他們繼續描述他們首選的估算程序 $ \hat A_i $ 我必須承認我還沒有完全閱讀(它有點涉及)。如果你對細節感興趣,我建議你看看那裡。

引用自:https://stats.stackexchange.com/questions/119786

comments powered by Disqus