什麼時候一個不太真實的模型會比一個更真實的模型更好地預測?
在“解釋還是預測?” , 公關。Galit Shmueli 說,有時一個不太真實的模型可以比一個更真實的模型更好地預測。為什麼會這樣?什麼時候會發生?它是如何發生的?解釋是模型預測的權衡嗎?
我相信這是統計數據中最反直覺的方面之一。真的很難纏住你的頭。這裡的關鍵概念是偏差-方差權衡的概念。它已在 CV 的多個地方討論過,您可能想查看其他一些答案,例如此處或此處,我之前已在此處討論過。撇開我的不談,其他兩個都很好,值得你花時間。
我將嘗試快速了解這個想法。讓我先定義一些術語。首先,Shmueli 所說的“真實”模型是指實際的數據生成過程;您的估計模型越接近真實數據生成過程,它就越真實。例如,如果, 和一個模型擬合產生,這比另一個產生的擬合更真實. 另一方面,更好的預測意味著讓你的盡可能接近實際,尤其是對於樣本外數據。請注意這裡的目標差異(因為這對於理解問題至關重要):’s as close as possible vs. 得到盡可能接近。所以 Shmueli 的觀點是,有時你的可以更接近實際當你的’s 是通過一個過程估計的,平均而言,產生的值離真實值稍遠一些的。現在,這怎麼可能?
關鍵是存在與從樣本數據估計的參數相關的方差。對於給定的樣本,有時最大似然估計碰巧離真實值更遠,有時更接近。很有可能出現這樣一種情況,即參數估計的抽樣分佈的方差如此之大,以至於'‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘’s 通常會在其真實價值附近反彈如此之遠,以至於它們並不值多少錢。這裡要記住的是,經典統計基於所謂的“最佳線性無偏估計量”,即所有無偏估計量中方差最小的估計量。但是,可能還有其他方法可以嘗試獲得非無偏估計。通常,這些是在機器學習(計算機科學的一個子領域)中開發的。在某些情況下,即使該估計的抽樣分佈不是以真實值為中心(即,它是有偏)。考慮到所有這些,對於預測的準確性而言,重要的是由於誘導偏差導致的不准確性如何與 BLUE 參數估計的高方差引起的不准確性進行權衡(因此得名)。具體來說,如果由於較高方差導致的不准確性大於由於偏差導致的不准確性,則不太真實的模型將給出更好的預測。