Statistical-Significance

如何解釋 lasso 模型中排除或包含的變量?

  • October 8, 2014

我從其他帖子中得知,不能將“重要性”或“重要性”歸因於進入套索模型的預測變量,因為計算這些變量的 p 值或標準偏差仍在進行中。

在這種推理下,斷言不能說從套索模型中排除的變量是“不相關的”或“無關緊要的”是否正確?

如果是這樣,對於套索模型中排除或包含的變量,我實際上可以聲稱什麼?在我的具體情況下,我通過重複 10 次交叉驗證 100 次來選擇調整參數 lambda,以減少隨機性並平均誤差曲線。

UPDATE1:我遵循以下建議並使用引導示例重新運行套索。我嘗試了 100 個樣本(這個數量是我的計算機能力在一夜之間可以管理的)並且出現了一些模式。我的 41 個變量中有 2 個進入模型的次數超過 95%,3 個變量超過 90%,5 個變量超過 85%。這 5 個變量是我使用原始樣本運行模型時進入模型的 9 個變量,並且是當時係數值最高的變量。如果我使用 1000 個引導樣本運行套索並且保持這些模式,那麼呈現我的結果的最佳方式是什麼?

  • 1000 個引導樣本聽起來足夠嗎?(我的樣本量是 116)
  • 我是否應該列出所有變量以及它們進入模型的頻率,然後爭辯說那些更頻繁地進入模型的變量更可能是顯著的?
  • 就我的主張而言,這就是我所能做的嗎?因為這是一項正在進行的工作(見上文),所以我不能使用截止值,對吧?

UPDATE2:根據以下建議,我計算了以下內容:平均而言,原始模型中 78% 的變量進入了為 100 個引導樣本生成的模型。另一方面,反過來只有 41%。這在很大程度上與為 bootstrap 樣本生成的模型往往包含比原始模型 (9) 更多的變量(平均 17 個)這一事實有關。

UPDATE3:如果你能幫助我解釋我從引導和蒙特卡洛模擬中得到的結果,請看看這個其他帖子。

你的結論是正確的。考慮兩個方面:

  1. 檢測效果的統計能力。除非功率非常高,否則甚至可能錯過很大的實際效果。
  2. 可靠性:找到正確(真實)特徵的概率很高。

至少有4個主要考慮因素:

  1. 您可以使用相同的數據集重現該方法嗎?
  2. 其他人使用相同的數據集是否可以重現該方法?
  3. 使用其他數據集是否可以重現結果?
  4. 結果可靠嗎?

當一個人想要做的不僅僅是預測,而是想要真正得出關於哪些特徵對預測結果很重要的結論時,3. 和 4. 是至關重要的。

您已經解決了 3。(為此,100 個引導程序就足夠了),但除了單個特徵包含分數之外,我們還需要知道引導程序特徵集與原始選擇的特徵集之間的平均絕對“距離”。例如,從引導樣本中發現的整個樣本中檢測到的平均特徵數是多少?在原始分析中發現的從 bootstrap 樣本中選擇的平均特徵數是多少?引導程序找到與原始特徵集完全匹配的次數比例是多少?bootstrap 在一個特徵與原始特徵完全一致的範圍內的比例是多少?兩個特點?

說在得出總體結論時應使用任何截止值是不恰當的。

關於第 4 部分,這些都沒有解決過程的可靠性,即特徵集與“真實”特徵集的接近程度。為了解決這個問題,您可以進行蒙特卡羅重新模擬研究,將原始樣本套索結果作為“真相”,並使用一些假設的錯誤結構模擬新的響應向量數百次。對於每次重新模擬,您在原始的整個預測矩陣和新的響應向量上運行套索,並確定所選套索特徵集與您模擬的真實情況的接近程度。重新模擬整個候選預測變量集的條件,並使用來自初始擬合模型的係數估計(在套索情況下,選擇的預測變量集)作為方便的“真相”進行模擬。

模擬新的實現鑑於原矩陣和現在真正的回歸係數,可以使用殘差方差並假設均值為零的正態性,或者更加經驗主義,保存原始擬合的所有殘差並從中獲取自舉樣本以將殘差添加到已知的線性預測變量對於每個模擬。然後從頭開始運行原始建模過程(包括選擇最佳懲罰)並開發新模型。對於大約 100 次迭代中的每一次,將新模型與您正在模擬的真實模型進行比較。

同樣,這是對過程可靠性的一個很好的檢查——找到“真實”特徵並獲得良好估計的能力.

什麼時候是二元的,而不是處理殘差,重新模擬涉及計算線性預測器從原始擬合(例如,使用套索),進行邏輯變換,並為每個蒙特卡羅模擬生成一個新的矢量重新擬合。例如,在 R 中可以說

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

引用自:https://stats.stackexchange.com/questions/118363

comments powered by Disqus