樣條插值是否被視為非參數模型?
我知道非參數統計和參數統計之間的基本區別。在參數模型中,我們假設數據遵循一個分佈,並使用固定數量的參數將其擬合到該分佈上。以 KDE 為例,情況並非如此,因為我們不假設建模的分佈具有特定的形狀。
我想知道這與一般的插值以及具體的樣條插值有何關係。是否所有插值方法都被認為是非參數的,是否存在“混合”方法,樣條插值的情況如何?
這是一個很好的問題。通常,人們會看到被描述為非參數回歸模型的平滑回歸(例如,樣條曲線,還有平滑 GAM、運行線、LOWESS 等) 。
這些模型是非參數的,因為使用它們不涉及報告的數量,例如 $ \widehat{\beta}, \widehat{\theta} $ 等(與線性回歸、GLM 等相反)。平滑模型是一種非常靈活的方式來表示 $ y $ 以一個或多個為條件 $ x $ 變量,並且不對例如線性、簡單整數多項式或類似的函數形式做出先驗承諾 $ y $ 到 $ x $ .
另一方面,這些模型是參數化的,在數學意義上它們確實涉及參數:樣條的數量、樣條的函數形式、樣條的排列、輸入樣條的數據的加權函數等。然而,在應用中,這些參數通常沒有實質性的興趣:它們不是研究人員報告的令人興奮的證據……平滑曲線(連同 CI 和基於觀察值與曲線的偏差的模型擬合度量)是證據位。這種關於平滑模型背後的實際參數的不可知論的一個動機是不同的平滑算法往往會給出非常相似的結果(參見 Buja, A., Hastie, T., & Tibshirani, R. (1989). Linear Smoothers and Additive Models. The Annals of Statistics , 17(2), 453–510 對幾個進行了很好的比較)。
如果我理解您,您的“混合”方法就是所謂的“半參數模型”。Cox 回歸是一個高度專業化的例子:基線風險函數依賴於非參數估計量,而解釋變量以參數方式估計。GAM(廣義加法模型)允許我們決定哪些 $ x $ 變量的影響 $ y $ 我們將使用平滑器進行建模,我們將使用參數規範對其進行建模,並且我們將在單個回歸中使用兩者進行建模。