Terminology

外推與插值

  • July 23, 2019

外推法和插值法有什麼區別,使用這些術語的最精確方法是什麼?

例如,我在一篇論文中看到了使用插值的聲明:

“該程序在 bin 點之間插入估計函數的形狀”

一個同時使用外推和插值的句子是,例如:

上一步我們使用內核方法將插值函數外推到左右溫度尾部。

有人可以提供一種清晰簡單的方法來區分它們並通過示例指導如何正確使用這些術語嗎?

要對此添加視覺解釋:讓我們考慮您計劃建模的幾個點。

在此處輸入圖像描述

它們看起來可以用直線很好地描述,因此您可以對它們進行線性回歸:

在此處輸入圖像描述

此回歸線允許您進行插值(在數據點之間生成預期值)和外推(在數據點範圍之外生成預期值)。我用紅色突出了外推,用藍色突出了最大的插值區域。需要明確的是,即使是點之間的微小區域也會被插值,但我在這裡只強調大的區域。

在此處輸入圖像描述

為什麼外推通常更受關注?因為您通常不太確定數據范圍之外的關係形狀。考慮當您收集更多數據點(空心圓圈)時可能發生的情況:

在此處輸入圖像描述

事實證明,你的假設關係並沒有很好地捕捉到這種關係。外推區域的預測還差得很遠。即使您已經猜到了正確描述這種非線性關係的精確函數,您的數據也沒有擴展到足夠的範圍以使您能夠很好地捕捉非線性,因此您可能仍然相距甚遠。請注意,這不僅是線性回歸的問題,而且是任何關係的問題——這就是外推被認為是危險的原因。

由於擬合中缺乏非線性,插值區域中的預測也是不正確的,但它們的預測誤差要低得多。不能保證您的點之間不會有意外的關係(即插值​​區域),但通常不太可能。


我要補充一點,外推並不總是一個糟糕的主意——如果你在數據范圍之外進行一點點外推,你可能不會錯(儘管有可能!)。沒有良好的世界科學模型的古人,如果他們預測第二天和後天太陽會再次升起,也不會大錯特錯(儘管在遙遠的未來一天,即使這樣也會失敗)。

有時,外推甚至可以提供信息——例如,對大氣二氧化碳指數增加的簡單短期外推 $ _2 $ 在過去的幾十年中已經相當準確。如果你是一個沒有科學專業知識但想要一個粗略的短期預測的學生,這會給你相當合理的結果。但是,您推斷的數據離您的數據越遠,您的預測就越有可能失敗,並且災難性地失敗,正如在這個偉大的線程中很好地描述的那樣:推斷有什麼問題?(感謝@JMisnotastatistician 提醒我這一點)。

根據評論進行編輯:無論是插值還是推斷,最好有一些理論來支持預期。如果必須進行無理論建模,則插值的風險通常小於外插的風險。也就是說,隨著數據點之間的差距越來越大,插值也變得越來越充滿風險。

引用自:https://stats.stackexchange.com/questions/418803

comments powered by Disqus