Multivariate-Analysis
軟閾值與 Lasso 懲罰
我試圖總結到目前為止我在使用高維數據集的懲罰性多元分析中所理解的內容,但我仍然在努力正確定義軟閾值與套索(或) 處罰。
更準確地說,我使用稀疏 PLS 回歸來分析 2 塊數據結構,包括基因組數據(單核苷酸多態性,我們將 {0,1,2} 範圍內的次要等位基因的頻率視為數值變量)和連續表型(量化人格特徵或大腦不對稱的分數,也被視為連續變量)。這個想法是分離出最有影響力的預測因子(這裡是 DNA 序列上的遺傳變異)來解釋個體間的表型變異。
我最初使用了mixOmics R 包(以前
integrOmics
),它具有懲罰PLS回歸和正則化CCA。查看 R 代碼,我們發現預測變量中的“稀疏性”只是通過選擇頂部來誘導的具有最高載荷(絕對值)的變量第一個組件,(該算法是迭代的併計算變量加載組件,在每次迭代時對預測器塊進行放氣,請參閱稀疏 PLS:集成 Omics 數據時的變量選擇以獲取概述)。相反,由 S. Keleş合著的 spl 包(請參閱Sparse Partial Least Squares Regression for Simultaneous Dimension Reduction and Variable Selection,以更正式地描述這些作者所採用的方法)實現- 可變懲罰的懲罰。對我來說,是否存在嚴格的“雙射”並不明顯,也就是說,在基於軟閾值的迭代特徵選擇和正則化。所以我的問題是:兩者之間有什麼數學聯繫嗎?
參考
- Chun, H. 和 Kele ̧s, S. (2010),用於同時降維和變量選擇的稀疏偏最小二乘法。皇家統計學會雜誌:B 系列,72,3-25。
- Le Cao, K.-A.、Rossouw, D.、Robert-Granie, C. 和 Besse, P. (2008),A Sparse PLS for Variable Selection when Integrating Omics Data。遺傳學和分子生物學中的統計應用,7,第 35 條。
我要說的適用於回歸,但也適用於 PLS。所以這不是雙射,因為取決於你在,你會有各種各樣的“答案”,而第二個解決方案只承認可能的答案(其中是變量的數量)<-> 有更多的解決方案比在“截斷”公式中的公式。