Regression
B樣條與回歸中的高階多項式
我沒有具體的例子或任務。我剛開始使用 b 樣條,我想在回歸上下文中更好地理解這個函數。
假設我們要評估響應變量之間的關係和一些預測因素. 預測變量包括一些數值變量以及一些分類變量。
假設在擬合回歸模型後,其中一個數值變量,例如很重要。之後的一個合乎邏輯的步驟是評估是否有高階多項式,例如:和為了充分解釋這種關係而不會過度擬合。
我的問題是:
- 您在什麼時候選擇 b 樣條或簡單的高階多項式。例如在 R 中:
y ~ poly(x1,3) + x2 + x3
對比
y ~ bs(x1,3) + x2 + x3
- 您如何使用繪圖來告知您在這兩者之間的選擇以及如果從繪圖中不清楚會發生什麼(例如:由於大量數據點)
- 您如何評估之間的雙向交互項讓我們說
- 對於不同類型的模型,上述情況如何變化
- 您是否會考慮從不使用高階多項式並始終擬合 b 樣條並懲罰高靈活性?
我通常只會考慮樣條而不是多項式。多項式不能對閾值進行建模,並且通常是不受歡迎的全局性,即在預測變量的一個範圍內的觀察對模型在不同範圍內的作用有很大的影響(Magee,1998,美國統計學家和 Frank Harrell 的回歸建模策略)。當然,在極值節點之外是線性的受限樣條線更適合外推,甚至是預測變量極值的內插。
您可能需要考慮多項式的一種情況是向非技術人員解釋您的模型很重要。人們比樣條更了解多項式。(編輯:Matthew Drury 指出,人們可能只認為他們比樣條更了解多項式。我不會在這個問題上偏袒任何一方。)
在決定處理非線性的不同方法時,繪圖通常不是很有用。最好做交叉驗證。這也將幫助您評估互動,或找到一個好的懲罰。
最後,我的回答不會隨著模型的種類而改變,因為以上幾點對任何統計或 ML 模型都有效。