R
如何解釋 cv.glmnet() 圖?
我執行了套索,然後留下一個交叉驗證
cv<-cv.glmnet(df, df$Price, nfolds = 1500)
我還注意到我得到了 2 個不同的 lambda:
lambda.min
和lambda.1se
- 這些 lambda 之間有什麼區別?
- 我可以從上面的圖中總體了解什麼(這些置信區間是什麼,兩條虛線是什麼等)?
如果我改為
nfolds=10
執行 10 倍驗證,我會得到lambda.1se
這個 lambda 的不同係數。我可以根據什麼標準選擇最適合我的?
這與統計無關,只是閱讀文檔。
- 兩種不同的價值觀 $ \lambda $ 反映了兩種常見的選擇 $ \lambda $ . 這 $ \lambda_{\min} $ 是最小化 CV 中樣本外損失的方法。這 $ \lambda_{1se} $ 是最大的一個 $ \lambda $ 值在 1 個標準誤差內 $ \lambda_{\min} $ . 一種推理建議使用 $ \lambda_{1se} $ 因為它通過選擇更大的 $ \lambda $ 值比最小值。哪種選擇最好取決於上下文。
- 區間估計損失度量的方差(紅點)。它們是使用 CV 計算的。
- 豎線表示位置 $ \lambda_{\min} $ 和 $ \lambda_{1se} $ .
- 頂部的數字是非零係數估計的數量。