加權主成分分析
經過一番搜索,我發現很少將觀察權重/測量誤差納入主成分分析。我所發現的往往依賴於迭代方法來包括權重(例如,here)。我的問題是為什麼這種方法是必要的?為什麼我們不能使用加權協方差矩陣的特徵向量?
這取決於您的權重到底適用於什麼。
行權重
讓 $ \mathbf{X} $ 是在列中具有變量的數據矩陣,並且 $ n $ 觀察 $ \mathbf x_i $ 在行中。如果每個觀測值都有一個相關的權重 $ w_i $ ,那麼將這些權重合併到 PCA 中確實很簡單。
首先,需要計算加權平均值 $ \boldsymbol \mu = \frac{1}{\sum w_i}\sum w_i \mathbf x_i $ 並從數據中減去它以使其居中。
然後我們計算加權協方差矩陣 $ \frac{1}{\sum w_i}\mathbf X^\top \mathbf W \mathbf X $ , 在哪裡 $ \mathbf W = \operatorname{diag}(w_i) $ 是權重的對角矩陣,並應用標準 PCA 對其進行分析。
細胞權重
您發現Tamuz 等人在 2013 年發表的論文考慮了不同權重時的更複雜情況 $ w_{ij} $ 應用於數據矩陣的每個元素。那麼確實沒有解析解,必須使用迭代方法。請注意,正如作者所承認的那樣,他們重新發明了輪子,因為之前肯定已經考慮過這樣的一般權重,例如,在Gabriel 和 Zamir,1979 年,Lower Rank Approximation of Matrices by Least Squares With Any Choice of Weights中。這也在這裡討論過。
作為補充說明:如果權重 $ w_{ij} $ 隨變量和觀測值而變化,但是是對稱的,因此 $ w_{ij}=w_{ji} $ ,則解析解再次成為可能,請參閱Koren 和 Carmel,2004 年,穩健的線性降維。