Maximum-Likelihood

最大似然估計和過擬合

  • November 13, 2018

在他的書中,Bishop 聲稱過度擬合是由最大似然估計量的一個不幸性質引起的。我真的不明白 MLE 與過度擬合的關係。

對我來說,粗略地說,過擬合與模型複雜度有關,即我擁有的參數越多,我的模型就越傾向於過擬合(即,對隨機噪聲建模)。

然而,最大似然估計只是從我的樣本(或訓練集)估計統計數據的一種方法。據我了解,它並沒有調節參數的數量,因此我看不到 MLE 和過度擬合之間的聯繫。

此外,最大似然估計量通常是有偏差的。但是有偏見的模型更傾向於欠擬合而不是過擬合。

1.) 這兩件事有什麼關係,MLE 是如何導致過擬合的?

2.) 是否有“數學”證明,即是否可以用公式來說明這兩件事是如何联繫起來的?(因為這裡已經問過一個類似的問題,但只有相當揮手的答案)

3.) Bishop 聲稱是過度擬合的原因是 MLE 的哪個“不幸屬性”?

理解 Bishop 陳述的關鍵在於第 3.2 節的第一段第二句:“……如果使用尺寸有限”。

問題的出現​​是因為無論您向模型添加多少參數,MLE 技術都會使用它們來擬合越來越多的數據(直到您有 100% 準確擬合的點),並且很多“擬合越來越多的數據”是擬合隨機性 - 即過度擬合。例如,如果我有 $ 100 $ 數據點,並且正在擬合度數多項式 $ 99 $ 對於數據,MLE 會給我一個完美的樣本內擬合,但這種擬合根本不能很好地概括——我真的不能指望用這個模型實現接近 100% 準確的預測。因為 MLE 沒有以任何方式進行正則化,所以最大似然框架內沒有機制可以防止這種過度擬合的發生。這就是畢曉普所說的“不幸財產”。你必須自己動手,通過構建和重組你的模型,希望是適當的。您的說法“……它不調節參數的數量……”實際上是MLE與過度擬合之間聯繫的癥結所在!

現在這一切都很好,但是如果沒有其他模型估計方法可以幫助過度擬合,我們就不能說這是 MLE 的一個不幸屬性——這將是所有人的不幸屬性模型估計技術,因此在將 MLE 與其他技術進行比較的背景下不值得討論。然而,還有其他模型估計方法 - Lasso、Ridge 回歸和 Elastic Net,從經典統計傳統中僅舉三例,還有貝葉斯方法 - 作為估計過程的一部分,它們確實試圖限製過度擬合。人們也可以將穩健統計的整個領域視為關於推導估計量和測試,這些估計量和測試比 MLE 更不容易過度擬合。自然,這些替代方案並沒有消除對模型規範等過程採取一些謹慎態度的需要,但它們有很大幫助,因此提供了與 MLE 的有效對比,而 MLE 完全沒有幫助。

引用自:https://stats.stackexchange.com/questions/376808

comments powered by Disqus