Regression

為什麼自然樣條幾乎總是三次?

  • October 28, 2018

自然樣條是指在邊界處是線性的回歸樣條(即X 小於最小節點或大於最大節點的區域)。

我知道,對於平滑樣條曲線,最小化相關目標函數的函數是自然三次樣條曲線的縮小版本,每個觀測值都有結。

但是對於通過最小二乘法(或者可能是套索/嶺回歸)估計的具有較少結數的自然樣條曲線……樣條曲線是否必須是三次曲線?或者(如果目標是在機器學習環境中預測目標變量),是否應該通過交叉驗證而不是總是使用三次來選擇度數?

這可能是虎頭蛇尾的……我認為如果我們想考慮結果擬合是平滑的,這有點轉換。它基於以下事實,即平滑函數通常指的是“兩次可微”。用 R引用 Faraway 的線性模型:“基函數是連續的,並且在每個節點的一階和二階導數中也是連續的。這個屬性確保了擬合的平滑度。 ”。

舉個例子:這樣的約定會立即處理泰勒定理,這樣如果 $ g $ 是一個光滑的函數存在一個 $ \psi \in (0,x) $ 這樣 $ g(x) = g(0) + xg'(0) + \frac{x^2}{2}g''(\psi) $ . 高階微分有時確實很重要,但通常的慣例是檢查前兩個並繼續。

此外,根據 Ramsay 和 Silverman 關於功能數據分析的開創性著作的基本原理,二階導數 $ g''(x) $ 函數的 $ x $ 通常被稱為它的曲率 $ x $ 以及它的平方積分(即積分平方二階導數: $ \int [g''(x)]^2dx $ ) 可以看作是函數平滑度的自然度量(或粗糙度取決於我們如何看待這個)。在處理曲線/函數數據時,這種“足夠平滑,因為存在二階導數”的工作假設幾乎是普遍的(例如,Horváth 和 Kokoszka 的Inference for Functional Data with Applications和 Ferraty 和 Vieu 的 Nonparametric Functional Data Analysis採用了類似的約定);再次是這個工作假設,而不是硬性要求。不言而喻,如果我們與 $ g''(x) $ 作為我們的分析單位,我們假設 $ g''''(x) $ 存在等等。作為旁注:二階導數的存在與函數的各向同性相關(例如,參見 Switzer (1976) Geometrical measure of the smoothness of random functions)這是假設數據位於連續體上的合理假設(例如具有空間依賴性)。

讓我注意到,沒有理由不能使用更高或更低階的導數連續性要求。例如,在數據量不足的情況下,我們可能會選擇使用分段線性插值法。最後,平滑程度確實是根據我們選擇的度量使用交叉驗證方法(通常更準確地說是廣義交叉驗證)來選擇的(例如,流行的函數mgcv::gam在擬合平滑樣條時正是這樣做的,Yao et al. (2005)縱向數據的函數線性回歸分析在選擇內核平滑器的帶寬等時也是如此)

人們可能會發現以下 Math.SE 線程:函數的二階導數與曲線平滑度有關嗎?也很有見地,不幸的是它不包含明確的答案。

那麼,“為什麼自然樣條曲線幾乎總是三次? ”因為假設存在二階導數並因此需要三次擬合,對於大多數情況來說是一個很好的約定。☺

引用自:https://stats.stackexchange.com/questions/374081

comments powered by Disqus