Regression

偏最小二乘回歸背後的理論

  • November 2, 2015

任何人都可以為了解 SVD 和 PCA 的人推薦偏最小二乘回歸背後的理論(可在線獲得)的良好闡述嗎?我在網上查看了許多資源,但沒有找到任何具有嚴謹性和可訪問性的正確組合的東西。

我研究了The Elements of Statistical Learning ,這是在對Cross Validated上提出的問題的評論中提出的,什麼是偏最小二乘 (PLS) 回歸以及它與 OLS 有何不同?,但我不認為這個參考文獻對這個話題很公正(這樣做太簡短了,並且沒有提供關於這個話題的太多理論)。根據我的閱讀,PLS 利用了預測變量的線性組合,最大化協方差受約束和如果, 其中被迭代地選擇,按照它們最大化協方差的順序。但即使在我讀完之後,我仍然不確定這是否屬實,如果是,該方法是如何執行的。

The Elements of Statistical Learning中的第 3.5.2 節很有用,因為它將 PLS 回歸置於(其他正則化方法的)正確上下文中,但確實非常簡短,並留下了一些重要的陳述作為練習。此外,它只考慮單變量因變量的情況 $ \mathbf y $ .

關於 PLS 的文獻很多,但可能會讓人很困惑,因為 PLS 有許多不同的“風格”:帶有單個 DV 的單變量版本 $ \mathbf y $ (PLS1) 和帶有多個 DV 的多變量版本 $ \mathbf Y $ (PLS2),對稱版本處理 $ \mathbf X $ 和 $ \mathbf Y $ 同等和非對稱版本(“PLS 回歸”)處理 $ \mathbf X $ 作為獨立和 $ \mathbf Y $ 作為因變量,允許通過 SVD 進行全局解決方案的版本和需要迭代通縮以產生每一對 PLS 方向的版本等。

所有這些都是在化學計量學領域發展起來的,並且與“主流”統計或機器學習文獻有些脫節。

我認為最有用的概述文件(並且包含許多進一步的參考)是:

對於更理論的討論,我可以進一步推薦:


單變量 PLS 回歸的簡短入門 $ y $ (又名 PLS1,又名 SIMPLS)

回歸的目標是估計 $ \beta $ 在線性模型中 $ y=X\beta + \epsilon $ . OLS 解決方案 $ \beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y $ 具有許多最優性,但可能會受到過度擬合的影響。事實上,OLS 尋找 $ \beta $ 產生最高可能的相關性 $ \mathbf X \beta $ 和 $ \mathbf y $ . 如果有很多預測變量,那麼總是有可能找到一些恰好與 $ \mathbf y $ . 這將是一種虛假的相關性,因此 $ \beta $ 通常會指向一個解釋很少變化的方向 $ \mathbf X $ . 解釋很少變化的方向通常是非常“嘈雜”的方向。如果是這樣,那麼即使 OLS 解決方案在訓練數據上表現出色,但在測試數據上表現會更差。

為了防止過度擬合,使用正則化方法,本質上是強制 $ \beta $ 指向高方差的方向 $ \mathbf X $ (這也被稱為“收縮”的 $ \beta $ ; 請參閱為什麼收縮起作用?)。一種這樣的方法是簡單地丟棄所有低方差方向的主成分回歸 (PCR)。另一種(更好的)方法是嶺回歸,它可以平滑地懲罰低方差方向。還有一種方法是PLS1。

PLS1 取代了 OLS 的尋找目標 $ \beta $ 最大化相關性 $ \operatorname{corr}(\mathbf X \beta, \mathbf y) $ 另一個目標是尋找 $ \beta $ 有長度 $ |\beta|=1 $ 最大化協方差$$ \operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)}, $$這再次有效地懲罰了低方差的方向。

找到這樣的 $ \beta $ (我們稱之為 $ \beta_1 $ ) 產生第一個 PLS 分量 $ \mathbf z_1 = \mathbf X \beta_1 $ . 人們可以進一步尋找第二個(然後是第三個,等等)與 $ \mathbf y $ 在與所有先前組件不相關的約束下。這必須迭代解決,因為所有組件都沒有封閉形式的解決方案(第一個組件的方向 $ \beta_1 $ 簡單地由 $ \mathbf X^\top \mathbf y $ 歸一化為單位長度)。當提取所需數量的分量時,PLS 回歸丟棄原始預測變量,並使用 PLS 分量作為新的預測變量;這產生了它們的一些線性組合 $ \beta_z $ 可以與所有 $ \beta_i $ 形成決賽 $ \beta_\mathrm{PLS} $ .

注意:

  1. 如果使用所有 PLS1 組件,則 PLS 將等效於 OLS。所以分量的數量作為一個正則化參數:數量越少,正則化越強。
  2. 如果預測器 $ \mathbf X $ 是不相關的並且都具有相同的方差(即 $ \mathbf X $ 已白化),則PLS1分量只有一個,相當於OLS。
  3. 權重向量 $ \beta_i $ 和 $ \beta_j $ 為了 $ i\ne j $ 不會是正交的,但會產生不相關的分量 $ \mathbf z_i=\mathbf X \beta_i $ 和 $ \mathbf z_j=\mathbf X \beta_j $ .

話雖如此,我不知道PLS1 回歸相對於嶺回歸有任何實際優勢(而後者確實有很多優勢:它是連續的而不是離散的,具有解析解,更加標準,允許內核擴展和解析留一法交叉驗證錯誤的公式等)。


引用弗蘭克和弗里德曼的話:

在第 3 節中可以看到 RR、PCR 和 PLS 以類似的方式運行。他們的主要目標是將解係數向量從 OLS 解向更大樣本分佈的預測變量空間中的方向收縮。與 RR 相比,PCR 和 PLS 從低擴展方向收縮得更多,這為等向先驗提供了最佳收縮(在線性估計器中)。因此,PCR 和 PLS 假設事實可能與預測變量(樣本)分佈的高擴展方向具有特定的優先對齊。一個有點令人驚訝的結果是,PLS(另外)將增加的概率質量放在與 $ K $ 第 th 個主成分方向,其中 $ K $ 是使用的 PLS 組件的數量,實際上是在該方向上擴展 OLS 解決方案。

他們還進行了廣泛的模擬研究並得出結論(強調我的):

對於本模擬研究涵蓋的情況,可以得出結論,所有有偏方法(RR、PCR、PLS 和 VSS)都比 OLS 提供了實質性改進。[…]**在所有情況下,RR 主導了所有其他研究方法。**PLS 通常幾乎和 RR 一樣好,並且通常優於 PCR,但不是很多。


更新: @cbeleites(從事化學計量學工作)在評論中提出了 PLS 相對於 RR 的兩個可能優勢:

  1. 分析師可以先驗地猜測數據中應該存在多少潛在成分;這將有效地允許在不進行交叉驗證的情況下設置正則化強度(並且可能沒有足夠的數據來進行可靠的 CV)。這樣的先驗選擇 $ \lambda $ 在 RR 中可能會更成問題。
  2. RR 產生一個單一的線性組合 $ \beta_\mathrm{RR} $ 作為最優解。相比之下,具有五個組件的 PLS 產生五個線性組合 $ \beta_i $ 然後結合起來預測 $ y $ . 強烈相互關聯的原始變量可能會組合成一個 PLS 分量(因為將它們組合在一起會增加解釋的方差項)。因此,有可能將單個 PLS 組件解釋為一些真正的潛在因素驅動 $ y $ . 聲稱它更容易解釋 $ \beta_1, \beta_2, $ 等,而不是聯合 $ \beta_\mathrm{PLS} $ . 將此與 PCR 進行比較,其中人們也可以將單個主要成分視為一種優勢,即可以潛在地解釋並賦予某些定性意義。

引用自:https://stats.stackexchange.com/questions/179733

comments powered by Disqus