Regression
為什麼不鼓勵使用高階多項式進行回歸?
我在這個網站上讀過很多次,高階多項式(通常超過三次)不應該用於線性回歸,除非有充分的理由這樣做。
我了解有關外推(和邊界預測)的問題。
因為外推對我來說並不重要……
- 高階多項式也是在數據點範圍內逼近基礎函數的不好方法嗎?(即插值)
- 如果有,會出現什麼問題?
我不介意被重定向到一本關於此的好書或論文。謝謝。
我在RMS的第 2 章中詳細介紹了這一點。簡而言之,除了外推問題,普通多項式還有以下問題:
- 數據某一區域的擬合形狀受遠處點的影響
- 多項式無法擬合閾值效應,例如突然加速的幾乎平坦的曲線
- 多項式不能擬合看似對數的關係,例如,在較長的時間間隔內逐漸變平的關係
- 多項式不能有一個非常快的轉彎
這些是回歸樣條曲線如此受歡迎的原因,即分段多項式往往比未分段多項式工作得更好。如果您想在擬合中有一個不連續的變化點,您也可以放寬樣條曲線的連續性假設。