Nonlinear-Regression

在等效於 k 分類變量的回歸平滑樣條中選擇 k 個節點?

  • April 14, 2014

我正在研究一個預測成本模型,其中患者的年齡(以年為單位的整數)是預測變量之一。年齡和住院風險之間存在很強的非線性關係:

在此處輸入圖像描述

我正在考慮針對患者年齡使用懲罰回歸平滑樣條曲線。根據統計學習的要素(Hastie et al, 2009, p.151),最佳結的位置是每個成員年齡的唯一值一個結。

鑑於我將年齡保留為整數,懲罰平滑樣條是否等效於運行具有 101 個不同年齡指標變量的嶺回歸或套索,每個年齡值在數據集中找到一個(減去一個以供參考)?然後避免過度參數化,因為每個年齡指標上的係數都縮小到零。

好問題。我相信您提出的問題的答案 - “懲罰平滑樣條曲線相當於運行嶺回歸或套索” - 是的。有許多來源可以提供評論和觀點。您可能想從這個 PDF 鏈接開始。如註釋中所述:

“擬合平滑樣條模型相當於在自然樣條的基礎上執行一種形式的嶺回歸。”

如果您正在尋找一些一般性的閱讀材料,您可能會喜歡查看這篇關於懲罰回歸的優秀論文:The Bridge Versus the Lasso。這可能有助於回答懲罰平滑樣條是否完全等效的問題——儘管它提供了更一般的視角。我確實覺得這很有趣,因為他們將不同的技術相互比較,特別是帶有 LASSO 的新橋回歸模型以及 Ridge 回歸。

另一個更具策略性的檢查位置可能是R中的 smooth.spline 包的包說明。請注意,它們暗示了這裡的關係,通過觀察:“使用這些定義,其中 B 樣條基表示可以表示為 f = X c (即,c 是樣條係數的向量),懲罰對數似然是, 因此是(嶺回歸)的解。”

引用自:https://stats.stackexchange.com/questions/93749

comments powered by Disqus