Regression

為什麼在多項式回歸中使用正則化而不是降低度數?

  • July 31, 2016

例如,在進行回歸時,要選擇的兩個超參數通常是函數的容量(例如多項式的最大指數)和正則化的量。我感到困惑的是,為什麼不選擇低容量函數,然後忽略任何正則化?這樣,它就不會過擬合。如果我有一個高容量函數和正則化,那不就等於有一個低容量函數和沒有正則化嗎?

我最近在瀏覽器應用程序中做了一點,你可以用它來玩這些想法:Scatterplot Smoothers (*)。

這是我編寫的一些數據,具有低次多項式擬合

二次擬合

很明顯,二次多項式不夠靈活,無法很好地擬合數據。我們有非常高的偏差區域,介於和所有數據都低於擬合,之後所有數據都在曲線之上。

為了擺脫偏見,我們可以將曲線的次數增加到三,但問題仍然存在,三次曲線仍然過於僵化

三次擬合

所以我們繼續增加度數,但是現在我們遇到了相反的問題

十度合身

這條曲線過於密切地跟踪數據,並且傾向於向數據中的一般模式不太好的方向飛走。這就是正則化的用武之地。具有相同的度數曲線(十)和一些精心選擇的正則化

十度正則化

我們真的很合身!

值得重點關注上面精心選擇的一個方面。當您將多項式擬合到數據時,您有一組離散的度數選擇。如果三度曲線欠擬合而四度曲線過擬合,則中間無處可去。正則化解決了這個問題,因為它為您提供了一系列連續的複雜性參數。

您如何聲稱“我們非常合身!”。對我來說,它們看起來都一樣,即不確定。你用哪個理性來決定什麼是合適的和不合適的?

有道理。

我在這裡所做的假設是,一個擬合良好的模型應該在殘差中沒有可辨別的模式。現在,我不是在繪製殘差,所以你在看圖片時需要做一些工作,但你應該可以發揮你的想像力。

在第一張圖片中,二次曲線擬合數據,我可以在殘差中看到以下模式

  • 從 0.0 到 0.3,它們大約均勻地放置在曲線的上方和下方。
  • 從 0.3 到大約 0.55,所有數據點都在曲線上方。
  • 從 0.55 到大約 0.85,所有數據點都在曲線下方。
  • 從 0.85 開始,它們都再次位於曲線上方。

我將這些行為稱為局部偏差,有些區域的曲線不能很好地逼近數據的條件平均值。

將此與上次擬合與三次樣條進行比較。我無法通過眼睛挑選出任何擬合看起來不像它精確地穿過數據點的質心的區域。這通常(儘管不准確)是我所說的合適的意思。


最後說明:以這一切為例。在實踐中,我不建議將多項式基展開用於任何高於. 他們的問題在其他地方得到了很好的討論,但是,例如:

  • 即使使用正則化,它們在數據邊界處的行為也可能非常混亂。
  • 它們在任何意義上都不是*本地的。*在一個地方更改數據可能會顯著影響在一個非常不同的地方的擬合。

相反,在您描述的情況下,我建議使用自然三次樣條和正則化,這可以在靈活性和穩定性之間取得最佳折衷。您可以通過在應用程序中安裝一些樣條線來親自查看。

自然三次樣條

(*) 我相信這僅適用於 chrome 和 firefox,因為我使用了一些現代 javascript 功能(以及在 safari 和 ie 中修復它的整體懶惰)。源代碼在這裡,如果你有興趣。

引用自:https://stats.stackexchange.com/questions/226553

comments powered by Disqus