Econometrics

為什麼我們在擬合模型時通常選擇最小化平方誤差(SSE)?

  • January 27, 2015

問題很簡單:為什麼,當我們嘗試將模型擬合到我們的數據(線性或非線性)時,我們通常會嘗試最小化誤差平方和以獲得模型參數的估計量?為什麼不選擇其他一些目標函數來最小化?我知道,由於技術原因,二次函數比其他一些函數更好,例如絕對偏差之和。但這仍然不是一個很有說服力的答案。除了這個技術原因,為什麼人們特別贊成這種“歐幾里得類型”的距離函數?對此有特定的含義或解釋嗎?

我的想法背後的邏輯如下:

當你有一個數據集時,你首先通過一組功能或分佈假設來設置你的模型(比如,某個時刻條件,但不是整個分佈)。在您的模型中,有一些參數(假設它是參數模型),那麼您需要找到一種方法來一致地估計這些參數,並且希望您的估計器具有低方差和其他一些不錯的屬性。無論您是最小化 SSE 或 LAD 還是其他一些目標函數,我認為它們只是獲得一致估計量的不同方法。按照這個邏輯,我認為人們使用最小二乘必須是 1)它產生模型的一致估計 2)我不知道的其他東西。

在計量經濟學中,我們知道在線性回歸模型中,如果您假設誤差項對預測變量的均值條件為 0,並且同方差性和誤差彼此不相關,那麼最小化平方誤差總和將為您提供模型的一致估計參數和高斯馬爾可夫定理,這個估計是藍色的。因此,這表明如果您選擇最小化不是 SSE 的其他一些目標函數,則無法保證您將獲得模型參數的一致估計。我的理解正確嗎?如果它是正確的,那麼最小化 SSE 而不是其他一些目標函數可以通過一致性來證明,這是可以接受的,實際上,比說二次函數更好。

在實踐中,我實際上看到很多情況下,人們在沒有首先明確指定完整模型的情況下直接最小化平方誤差之和,例如關於誤差項的分佈假設(矩假設)。那麼在我看來,這種方法的用戶只是想看看數據在平方距離函數方面與“模型”的擬合程度(我使用引號,因為模型假設可能不完整)。

一個相關的問題(也與本網站相關)是:為什麼當我們嘗試使用交叉驗證比較不同的模型時,我們再次使用 SSE 作為判斷標準?即,選擇 SSE 最小的模型?為什麼不是另一個標準?

雖然您的問題與網站上的許多其他問題相似,但這個問題的各個方面(例如您對一致性的強調)讓我認為它們還不夠接近重複。

為什麼不選擇其他一些目標函數來最小化?

為什麼不呢?如果你的目標不同於最小二乘,你應該解決你的目標!

然而,最小二乘法有許多很好的特性(尤其是與估計手段的密切聯繫,這是許多人想要的,並且簡單性使其成為教學或嘗試實施新想法時的明顯首選)。

此外,在許多情況下,人們沒有明確的目標函數,因此選擇容易獲得和廣泛理解的東西是有優勢的。

也就是說,最小二乘也有一些不太好的屬性(例如對異常值的敏感性)——所以有時人們更喜歡更穩健的標準。

最小化平方誤差總和將為您提供模型參數的一致估計

最小二乘不是一致性的要求。一致性不是一個非常高的障礙——很多估計器都是一致的。人們在實踐中使用的幾乎所有估計量都是一致的。

根據高斯-馬爾可夫定理,這個估計量是藍色的。

但是在所有線性估計器都不好的情況下(例如在極端重尾情況下的情況),最好的估計器沒有太多優勢。

如果您選擇最小化其他不是 SSE 的目標函數,則無法保證您將獲得模型參數的一致估計。我的理解正確嗎?

找到一致的估計器並不難,所以不,這不是最小二乘的特別好的理由

為什麼當我們嘗試使用交叉驗證比較不同的模型時,我們再次使用 SSE 作為判斷標準?[…] 為什麼不是其他標準?

如果您的目標可以通過其他方式更好地反映,那為什麼不呢?

不乏使用除最小二乘之外的其他目標函數的人。它出現在 M 估計、最小修剪估計量、分位數回歸以及人們使用 LINEX 損失函數時,僅舉幾例。

在想當你有一個數據集時,你首先建立你的模型,即做出一組功能或分佈假設。在您的模型中,有一些參數(假設它是參數模型),

大概功能假設的參數是您要估計的 - 在這種情況下,功能假設是您在 周圍做最小二乘(或其他任何東西)東西;他們沒有確定標準,他們是標準所估計的。

另一方面,如果你有一個分佈假設,那麼你就有很多關於更合適的目標函數的信息——例如,你可能想要對你的參數進行有效的估計——這在大樣本中會往往會引導你走向 MLE,(儘管在某些情況下可能嵌入到一個健壯的框架中)。

那麼你需要找到一種方法來一致地估計這些參數。無論您是最小化 SSE 或 LAD 還是其他一些目標函數,

LAD 是一個分位數估計器。它是它應該在預期的條件下估計的參數的一致估計量,就像最小二乘法一樣。(如果你看一下你用最小二乘法顯示的一致性,許多其他常見的估計量都有相應的結果。人們很少使用不一致的估計量,所以如果你看到一個估計量被廣泛討論,除非他們在談論它的不一致性,它幾乎當然一致。*)

  • 也就是說,一致性不一定是基本屬性。畢竟,對於我的樣本,我有一些特定的樣本量,而不是一系列趨於無窮大的樣本量。重要的是在 $ n $ 我有,不是一些無限大的 $ n $ 我沒有也永遠不會看到。但是當我們有不一致的時候需要更多的小心——我們可能有一個很好的估計器 $ n $ =20,但可能會很糟糕 $ n $ =2000;從某種意義上說,如果我們想當然地使用不一致的估計器,則需要付出更多的努力。

如果您使用 LAD 來估計指數的平均值,那麼它不會是一致的(儘管它的估計的一個微不足道的比例會是) - 但同樣的,如果您使用最小二乘法來估計指數的中位數,它不會是一致的(同樣,一個微不足道的重新調整解決了這個問題)。

引用自:https://stats.stackexchange.com/questions/135103

comments powered by Disqus