Regression

為什麼不鼓勵使用高階多項式進行回歸?

  • October 20, 2021

我在這個網站上讀過很多次,高階多項式(通常超過三次)不應該用於線性回歸,除非有充分的理由這樣做。

我了解有關外推(和邊界預測)的問題。

因為外推對我來說並不重要……

  1. 高階多項式也是在數據點範圍內逼近基礎函數的不好方法嗎?(即插值)
  2. 如果有,會出現什麼問題?

我不介意被重定向到一本關於此的好書或論文。謝謝。

我在RMS的第 2 章中詳細介紹了這一點。簡而言之,除了外推問題,普通多項式還有以下問題:

  1. 數據某一區域的擬合形狀受遠處點的影響
  2. 多項式無法擬合閾值效應,例如突然加速的幾乎平坦的曲線
  3. 多項式不能擬合看似對數的關係,例如,在較長的時間間隔內逐漸變平的關係
  4. 多項式不能有一個非常快的轉彎

這些是回歸樣條曲線如此受歡迎的原因,即分段多項式往往比未分段多項式工作得更好。如果您想在擬合中有一個不連續的變化點,您也可以放寬樣條曲線的連續性假設。

引用自:https://stats.stackexchange.com/questions/549012

comments powered by Disqus