彈性/脊/套索分析,然後呢?
我對預測變量收縮/選擇的彈性網絡程序非常感興趣。它似乎非常強大。
但是從科學的角度來看,一旦我得到了係數,我不知道該怎麼做。我在回答什麼問題?這些是對結果影響最大的變量,這些是在驗證期間給出最佳方差/偏差比的係數?
與經典的 p 值/置信區間方法相比,這當然是一種非常具有描述性/預測性的方法。Tibshirani & Co. 現在正在研究推理估計,但仍處於實驗階段。
有些人正在使用彈性網絡選擇的變量進行經典的推理分析,但這將消除該技術帶來的方差限制。
另一個問題是,由於彈性網絡的 lambda 和 alpha 參數是通過交叉驗證選擇的,因此它們會受到隨機變化的影響。因此,每次運行(例如) cv.glmnet() 時,您都會選擇一個略有不同的預測變量子集,其係數總是不同的。
我考慮將正確的 lambda 和 alpha 作為隨機變量來解決這個問題,然後重新運行交叉驗證步驟 n 次以獲得這些參數的分佈。這樣,對於每個預測變量,我都會有出現的次數,對於每個係數,我都會有結果的分佈。這應該會給我更多的範圍統計結果(如係數的 sd)。看看 lambda 和 alpha 選擇的這種方式是否漸近地接近某個分佈也會很有趣,因為這將為一些推理測試開闢道路(但我不是統計學家,所以我不應該談論我不知道的事情’不完全理解)。
所以最後我的問題是:一旦你從具有基於交叉驗證的 alpha 和 lambda 的彈性網絡中獲得預測變量和係數,你應該如何以及如何呈現這些結果?你應該如何討論它們?我們學到了什麼?我們在反駁哪個假設/概括?
這些方法——套索和彈性網絡——誕生於特徵選擇和預測的問題。正是通過這兩個鏡頭,我認為可以找到一個解釋。
Matthew Gunn 在他的回復中很好地解釋了這兩個目標是不同的,並且經常由不同的人承擔。然而,對我們來說幸運的是,我們感興趣的方法可以在兩個領域都表現良好。
特徵選擇
首先,我們來談談特徵選擇。我們首先應該從套索的角度來激發彈性網絡。也就是說,引用Hastie 和 Zou的話,“如果有一組變量之間的成對相關性非常高,那麼套索傾向於只從組中選擇一個變量,而不關心選擇哪個變量。” 例如,這是一個問題,因為這意味著我們不太可能使用套索找到真正支持的元素——只有一個與它高度相關的元素。(論文提到這在 LARS 論文中得到了證明,我還沒有讀過。) Wainwright也指出了存在相關性的情況下支持恢復的難度, $ 0.5 $ 當真正的支持和它的補充之間存在高度相關性時。
現在,彈性網絡中的 l2 懲罰鼓勵具有僅通過損失和 l1 懲罰無法區分的係數的特徵具有相等的估計係數。我們可以通過注意到 $ (a,b) = \arg\min_{a',b': c = |a'| + |b'|} (a')^2 + (b')^2 $ 滿足 $ |a| = |b| $ . 因此,彈性網絡使我們不太可能“意外”使真正支持的係數估計消失。也就是說,真正的支持更有可能包含在估計的支持中。那挺好的!這確實意味著會有更多的錯誤發現,但這是大多數人願意付出的代價。
順便說一句,值得指出的是,高度相關的特徵往往具有非常相似的係數估計,因此我們可以在估計的支持中檢測到類似地影響響應的特徵分組。
預言
現在,我們繼續進行預測。正如 Matthew Gunn 所指出的,通過交叉驗證來選擇調整參數的目的是為了選擇一個預測誤差最小的模型。由於套索選擇的任何模型都可以被彈性網絡選擇(通過取 $ \alpha = 1 $ ),彈性網絡能夠找到比套索預測更好的模型是有道理的。
Lederer、Yu 和 Gaynanova表明,在對特徵沒有任何假設的情況下,套索和彈性網絡的 l2 預測誤差都可以以相同的數量為界。它們的界限並不一定很緊,但這可能很有趣,因為預言不等式似乎是統計文獻中量化估計器預測性能的標準方法——也許是因為分佈是如此復雜!還值得注意的是,Lederer (1) (2)有一些關於存在相關特徵的 lasso 預測的論文。
概括
總之,感興趣的問題是在估計的支持和預測範圍內的真正支持。對於支持恢復,有嚴格證明的保證(通過 Wainwright)套索在假設真實支持和它的補充之間的低相關性的假設下選擇正確的特徵進入模型。然而,在存在相關性的情況下,我們可以回退到彈性網絡,以便更有可能選擇真實支持中的特徵作為它選擇的所有特徵。(請注意,我們必須在這裡仔細選擇調整參數。)並且,對於通過交叉驗證選擇調整參數時的預測,彈性網絡應該比套索表現更好 - 尤其是在存在相關性的情況下。 .
拋開預測和一些形式,我們學到了什麼?我們了解了真正的支持。
置信區間
值得指出的是,在過去 2 年中,套索的有效推理髮生了很大變化。特別是,Lee、Sun、Sun 和 Taylor的工作提供了以所選給定模型為條件的套索係數的精確推斷。(關於真實係數的套索推斷結果大約在 OP 發佈時出現,並且它們在鏈接的論文中得到了很好的總結。)