Regression

為什麼所有 PLS 分量加在一起只能解釋原始數據的一部分方差?

  • June 15, 2015

我有一個由 10 個變量組成的數據集。我運行偏最小二乘法 (PLS) 以通過這 10 個變量預測單個響應變量,提取 10 個 PLS 分量,然後計算每個分量的方差。在原始數據上,我取了所有變量的方差之和,即 702。

然後我將每個 PLS 分量的方差除以這個總和,得到 PLS 解釋的方差百分比,令人驚訝的是,所有分量加起來只解釋了原始方差的 44%。

對此有何解釋?不應該是100%嗎?

所有 PLS 分量的方差之和通常小於 100%。

偏最小二乘法 (PLS) 有許多變體。您在這裡使用的是單變量響應變量的PLS 回歸 $ \mathbf y $ 到幾個變量 $ \mathbf X $ ; 該算法傳統上稱為 PLS1(與其他變體相反,請參閱Rosipal & Kramer, 2006, Overview and Recent Advances in Partial Least Squares以獲得簡明概述)。PLS1 後來被證明等同於稱為 SIMPLS 的更優雅的公式(參見 Rosipal & Kramer 中的付費牆Jong 1988)。SIMPLS 提供的視圖有助於理解 PLS1 中發生了什麼。

事實證明,PLS1 所做的,是找到一系列線性投影 $ \mathbf t_i = \mathbf X \mathbf w_i $ ,這樣:

  1. 之間的協方差 $ \mathbf y $ 和 $ \mathbf t_i $ 是最大的;
  2. 所有權重向量都有單位長度, $ |\mathbf w_i|=1 $ ;
  3. 任意兩個 PLS 組件(又名得分向量) $ \mathbf t_i $ 和 $ \mathbf t_j $ 是不相關的。

請注意,權重向量不必(也不是)正交。

這意味著如果 $ \mathbf X $ 由組成 $ k=10 $ 變量,你發現 $ 10 $ PLS 組件,然後您找到了一個非正交基,基向量上具有不相關的投影。可以用數學方法證明,在這種情況下,所有這些預測的方差之和將小於總方差 $ \mathbf X $ . 如果權重向量是正交的(例如在 PCA 中),它們將是相等的,但在 PLS 中情況並非如此。

我不知道有任何教科書或論文明確討論過這個問題,但我之前已經在線性判別分析 (LDA) 的背景下對其進行了解釋,該分析也會在非正交單位權重向量上產生許多不相關的投影,請參見此處: PCA 和 LDA 中解釋方差的比例

引用自:https://stats.stackexchange.com/questions/157087

comments powered by Disqus