具有不等方差的 James-Stein 估計器

October 12, 2014

我發現的關於 James-Stein 估計器的每條語句都假設被估計的隨機變量具有相同的（和單位）方差。

但是所有這些例子也提到了 JS 估計器可以用來估計彼此無關的數量。維基百科的例子是光速、台灣的茶葉消費和蒙大拿州的生豬體重。但大概你對這三個量的測量會有不同的“真實”方差。這會帶來問題嗎？

這與我不理解的一個更大的概念問題有關，與這個問題有關：James-Stein estimator: How did Efron and Morris calculate他們的棒球示例的收縮係數？我們計算收縮因子如下：

直覺上，我認為術語實際上是– 每個被估計的數量都不同。但是該問題中的討論僅涉及使用匯總方差…

如果有人能解決這個困惑，我將不勝感激！

這個問題在 Efron & Morris 在 1970 年代撰寫的關於 James-Stein 估計量的經典系列論文中得到了明確的回答。我主要指的是：

Efron 和 Morris，1973，Stein 的估計規則及其競爭對手——一種經驗貝葉斯方法

Efron 和 Morris，1975 年，使用 Stein 估計器進行數據分析及其推廣

埃夫隆和莫里斯，1977，斯坦因統計悖論

1977 年的論文是非技術性的論述，必須閱讀。他們在那裡介紹了棒球擊球示例（在您鏈接到的線程中進行了討論）；在這個例子中，所有變量的觀察方差確實應該相等，並且收縮因子 $ c $ 是恆定的。

然而，他們繼續舉另一個例子，估計薩爾瓦多一些城市的弓形蟲病發病率。在每個城市中，接受調查的人數不同，因此可以認為個人觀察結果（每個城市的弓形蟲病率）具有不同的方差（調查人數越少，方差越大）。直覺當然是具有低方差（低不確定性）的數據點不需要像具有高方差（高不確定性）的數據點那樣強烈地收縮。他們的分析結果如下圖所示，確實可以看出這種情況正在發生：

相同的數據和分析也出現在 1975 年技術性更強的論文中，以更優雅的數字（不幸的是沒有顯示個體差異），見第 3 節：

他們在那裡提出了一種簡化的經驗貝葉斯處理方法，如下所示。讓$$ X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\ \theta_i \sim \mathcal N(0, A) $$在哪裡 $ A $ 是未知的。萬一所有 $ D_i=1 $ 是相同的，標準的經驗貝葉斯處理是估計 $ 1/(1+A) $ 作為 $ (k-2)/\sum X_j ^2 $ ，併計算後驗均值 $ \theta_i $ 作為$$ \hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i, $$這就是 James-Stein 估計器。

如果現在 $ D_i \ne 1 $ ，則貝葉斯更新規則為$$ \hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i $$我們可以使用相同的經驗貝葉斯技巧來估計 $ A $ , 即使沒有封閉公式 $ \hat A $ 在這種情況下（見論文）。然而，他們注意到

…這條規則並沒有減少到斯坦的當一切 $ D_j $ 是相等的，我們改為使用 [1973 年論文] 中導出的這個估計量的一個小變體，它確實簡化為 Stein 的。變體規則估計不同的值 $ \hat A_i $ 對於每個城市。在這種情況下，規則之間的差異很小，但如果 $ k $ 更小。

1973 年論文中的相關部分是第 8 節，讀起來有點難。有趣的是，他們在上面的評論中對@guy 提出的建議有明確的評論：

針對這種情況推廣 James-Stein 規則的一種非常簡單的方法是定義 $ \tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i $ ，以便 $ \tilde x_i \sim \mathcal N(\tilde \theta_i, 1) $ ，將[原始詹姆斯-斯坦規則]應用於轉換後的數據，然後轉換回原始坐標。產生的規則估計 $ \theta_i $ 經過 $$ \hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i. $$ 這是不吸引人的，因為每個 $ X_i $ 以相同的因子向原點收縮。

然後他們繼續描述他們首選的估算程序 $ \hat A_i $ 我必須承認我還沒有完全閱讀（它有點涉及）。如果你對細節感興趣，我建議你看看那裡。

引用自：https://stats.stackexchange.com/questions/119786

comments powered by Disqus

具有不等方差的 James-Stein 估計器

相關問答

在訓練數據中添加噪聲如何等同於正則化？

嶺回歸應該使用一種熱編碼還是虛擬變量？

為什麼邏輯回歸在高維度上特別容易過擬合？

是否有一個典型的例子來說明嶺何時勝過套索？

在回歸中，為什麼不默認使用正則化？

LASSO 正則化和 LASSO 懲罰之間有區別嗎？