加權主成分分析

August 27, 2014

經過一番搜索，我發現很少將觀察權重/測量誤差納入主成分分析。我所發現的往往依賴於迭代方法來包括權重（例如，here）。我的問題是為什麼這種方法是必要的？為什麼我們不能使用加權協方差矩陣的特徵向量？

這取決於您的權重到底適用於什麼。

行權重

讓 $ \mathbf{X} $ 是在列中具有變量的數據矩陣，並且 $ n $ 觀察 $ \mathbf x_i $ 在行中。如果每個觀測值都有一個相關的權重 $ w_i $ ，那麼將這些權重合併到 PCA 中確實很簡單。

首先，需要計算加權平均值 $ \boldsymbol \mu = \frac{1}{\sum w_i}\sum w_i \mathbf x_i $ 並從數據中減去它以使其居中。

然後我們計算加權協方差矩陣 $ \frac{1}{\sum w_i}\mathbf X^\top \mathbf W \mathbf X $ ，在哪裡 $ \mathbf W = \operatorname{diag}(w_i) $ 是權重的對角矩陣，並應用標準 PCA 對其進行分析。

細胞權重

您發現Tamuz 等人在 2013 年發表的論文考慮了不同權重時的更複雜情況 $ w_{ij} $ 應用於數據矩陣的每個元素。那麼確實沒有解析解，必須使用迭代方法。請注意，正如作者所承認的那樣，他們重新發明了輪子，因為之前肯定已經考慮過這樣的一般權重，例如，在Gabriel 和 Zamir，1979 年，Lower Rank Approximation of Matrices by Least Squares With Any Choice of Weights中。這也在這裡討論過。

作為補充說明：如果權重 $ w_{ij} $ 隨變量和觀測值而變化，但是是對稱的，因此 $ w_{ij}=w_{ji} $ ，則解析解再次成為可能，請參閱Koren 和 Carmel，2004 年，穩健的線性降維。

引用自：https://stats.stackexchange.com/questions/113485

comments powered by Disqus

加權主成分分析

行權重

細胞權重

相關問答

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

尋找最可能的排列

為什麼 R 在廣義線性模型的上下文中將分佈族稱為“誤差分佈”？

泊松率回歸如何等於具有相應偏移項的泊松回歸？

二次加權 kappa

諸如加權相關之類的東西？