什麼時候一個不太真實的模型會比一個更真實的模型更好地預測？

February 10, 2012

在“解釋還是預測？” , 公關。Galit Shmueli 說，有時一個不太真實的模型可以比一個更真實的模型更好地預測。為什麼會這樣？什麼時候會發生？它是如何發生的？解釋是模型預測的權衡嗎？

我相信這是統計數據中最反直覺的方面之一。真的很難纏住你的頭。這裡的關鍵概念是偏差-方差權衡的概念。它已在 CV 的多個地方討論過，您可能想查看其他一些答案，例如此處或此處，我之前已在此處討論過。撇開我的不談，其他兩個都很好，值得你花時間。

我將嘗試快速了解這個想法。讓我先定義一些術語。首先，Shmueli 所說的“真實”模型是指實際的數據生成過程；您的估計模型越接近真實數據生成過程，它就越真實。例如，如果, 和一個模型擬合產生，這比另一個產生的擬合更真實. 另一方面，更好的預測意味著讓你的盡可能接近實際，尤其是對於樣本外數據。請注意這裡的目標差異（因為這對於理解問題至關重要）：’s as close as possible vs. 得到盡可能接近。所以 Shmueli 的觀點是，有時你的可以更接近實際當你的’s 是通過一個過程估計的，平均而言，產生的值離真實值稍遠一些的。現在，這怎麼可能？

關鍵是存在與從樣本數據估計的參數相關的方差。對於給定的樣本，有時最大似然估計碰巧離真實值更遠，有時更接近。很有可能出現這樣一種情況，即參數估計的抽樣分佈的方差如此之大，以至於'‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘’s 通常會在其真實價值附近反彈如此之遠，以至於它們並不值多少錢。這裡要記住的是，經典統計基於所謂的“最佳線性無偏估計量”，即所有無偏估計量中方差最小的估計量。但是，可能還有其他方法可以嘗試獲得非無偏估計。通常，這些是在機器學習（計算機科學的一個子領域）中開發的。在某些情況下，即使該估計的抽樣分佈不是以真實值為中心（即，它是有偏）。考慮到所有這些，對於預測的準確性而言，重要的是由於誘導偏差導致的不准確性如何與 BLUE 參數估計的高方差引起的不准確性進行權衡（因此得名）。具體來說，如果由於較高方差導致的不准確性大於由於偏差導致的不准確性，則不太真實的模型將給出更好的預測。

引用自：https://stats.stackexchange.com/questions/22566

什麼時候一個不太真實的模型會比一個更真實的模型更好地預測？

相關問答

沒有統計知識的人的 AUC

如何解釋 Pearl 的 do 表示法？

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

傾向得分匹配的用例是什麼？

現實世界問題中的隨機抽樣和獨立性

拋硬幣 n 次的假設檢驗