Regression

是什麼導致 lasso 對特徵選擇不穩定?

  • September 8, 2018

在壓縮感知中,有一個定理保證

有唯一的稀疏解(有關詳細信息,請參閱附錄)。 **套索有類似的定理嗎?**如果有這樣的定理,不僅保證了lasso的穩定性,而且還為lasso提供了更有意義的解釋:

lasso 可以發現稀疏回歸係數向量用於生成響應經過.

我問這個問題有兩個原因:

  1. 我認為“套索有利於稀疏解決方案”並不是為什麼使用套索進行特徵選擇的答案,因為我們甚至無法說出我們選擇的特徵的優勢是什麼。
  2. 我了解到套索因特徵選擇不穩定而臭名昭著。在實踐中,我們必須運行引導樣本來評估其穩定性。造成這種不穩定的最關鍵原因是什麼?

附錄:

給定.是一個-稀疏向量()。過程生成響應. 如果具有順序的 NSP(零空間屬性)和協方差矩陣沒有接近零的特徵值,將有唯一解

這正是這給了. 這個定理還說明瞭如果沒有訂單的NSP, 根本無望解決.


編輯:

收到這些很棒的答案後,我意識到當我問這個問題時我很困惑。

為什麼這個問題令人困惑:

我讀了一篇研究論文,其中我們必須決定設計矩陣有多少特徵(列)將會有(輔助功能是從主要功能創建的)。既然是典型問題,預計構造良好,以便套索的解決方案可以很好地逼近真實的稀疏解決方案。

推理是從我在附錄中提到的定理得出的:如果我們的目標是找到一個-稀疏解,最好有訂單的NSP.

對於一般矩陣,如果被違反了,那麼

沒有穩定和強勁的複蘇從和是可能的

對應於,對應於

…正如預期的那樣關係,描述符的選擇變得更加不穩定,即對於不同的訓練集,選擇的描述符往往不同……

第二個引用是讓我感到困惑的部分。在我看來,當不等式被違反時,不僅解決方案可能不唯一(未提及),而且描述符也會變得更加不穩定。

更新

請參閱第二篇文章,了解麥當勞對我的回答的反饋,其中風險一致性的概念與穩定性有關。


  1. 唯一性與穩定性

您的問題很難回答,因為它提到了兩個非常不同的主題:唯一性穩定性

  • 直觀地說,如果給定一個固定的數據集,一個解決方案是**唯一的,算法總是產生相同的結果。**馬丁的回答非常詳細地涵蓋了這一點。
  • 另一方面,穩定性可以直觀地理解為當對訓練數據進行輕微修改時,預測不會發生太大變化。

穩定性適用於您的問題,因為 Lasso 特徵選擇(通常)是通過​​交叉驗證執行的,因此 Lasso 算法是在不同的數據折疊上執行的,並且每次可能會產生不同的結果。

穩定性和無免費午餐定理

如果我們將統一穩定性定義為,則使用此處的定義:

算法具有一致的穩定性關於損失函數如果以下成立:

被認為是一個函數, 術語可以寫成 . 我們說算法是穩定的減少為 .

那麼“沒有免費的午餐定理,Xu and Caramis (2012)”指出

如果一個算法是稀疏的,在它識別冗餘特徵的意義上,那麼該算法是不穩定的(並且統一的穩定性界不會歸零)。[…] 如果一個算法是穩定的,那麼它就不可能是稀疏的。(第 3 頁和第 4 頁)

例如,正則化回歸是穩定的,不會識別冗餘特徵,而正則化回歸(Lasso)是不穩定的。

試圖回答你的問題

我認為“套索有利於稀疏解決方案”並不是為什麼使用套索進行特徵選擇的答案

  • 我不同意,Lasso 用於特徵選擇的原因是它產生了一個稀疏的解決方案,並且可以顯示具有 IRF 屬性,即識別冗餘特徵。

造成這種不穩定的最關鍵原因是什麼

  • 沒有免費午餐定理

走得更遠

這並不是說 Cross Validation 和 Lasso 的結合不起作用……事實上,它已被實驗證明(並且有很多支持理論)在各種條件下都能很好地工作。這裡的主要關鍵詞是一致性、風險、預言機不等式等。

McDonald 和 Homrighausen (2013) 的以下幻燈片和論文描述了 Lasso 特徵選擇工作良好的一些條件:幻燈片和論文:“The lasso, persistence, and cross-validation, McDonald and Homrighausen (2013)”。Tibshirani 本人也發表了一組關於稀疏性、線性回歸的精彩筆記。

一致性的各種條件及其對 Lasso 的影響是一個活躍的研究課題,絕對不是一個微不足道的問題。我可以為您指出一些相關的研究論文:

引用自:https://stats.stackexchange.com/questions/365938

comments powered by Disqus