為什麼我們不再關心估計器的完整性和充分性?
當我們開始學習統計學時,我們會了解滿足屬性充分性和完整性的看似重要的估計量類。然而,當我閱讀最近的統計文章時,我幾乎找不到任何涉及完全足夠統計的論文。為什麼我們不再關心估計器的完整性和充分性?
我們仍然在乎。然而,現在大部分統計數據都是基於數據驅動的方法,其中這些概念可能不是必不可少的,或者還有許多其他重要的概念。
憑藉計算能力和大量數據,大量統計數據致力於提供解決特定問題(例如預測或分類)的模型,這些模型可以使用給定的數據和交叉驗證策略進行測試。因此,在這些應用中,模型最重要的特徵是它們與數據具有良好的擬合度,並聲稱具有樣本外預測的能力。
此外,幾年前,我們對無偏估計器非常感興趣。我們仍然是。但是,在那個時候,在極少數情況下,可以考慮使用非無偏估計量。在我們對樣本外預測感興趣的情況下,如果能夠減少樣本外預測誤差,我們可能會接受明顯有偏差的估計量(例如嶺回歸、LASSO 和彈性網絡)。使用這些估計器實際上我們“支付”了偏差以減少誤差的方差或過度擬合的可能性。
這種新的文獻焦點也帶來了稀疏性等新概念。在統計學習理論中,我們研究了很多界限來理解模型的泛化能力(這是至關重要的)。例如,參見 Abu-Mostafa 等人的精美書籍“Learning From Data”。
計量經濟學等相關領域也受到了這些變化的影響。由於該領域強烈基於統計推斷,並且使用與來自理論的模型相關的無偏估計器是基礎,因此變化較慢。然而,已經引入了一些嘗試,並且機器學習(統計學習)對於處理例如高維數據庫變得至關重要。
這是為什麼?
因為在某些情況下,經濟學家對係數感興趣,而不是對可預測變量感興趣。例如,想像一個嘗試使用回歸模型來解釋腐敗程度的工作,例如:$$ \text{corruptionLevel} = \beta_0 + \beta_1 \text{yearsInPrison} + \beta_2 \text{numberConvicted} + \cdots $$
注意係數 $ \beta_1 $ 和 $ \beta_2 $ 提供信息以指導公共政策。根據係數的值,將執行不同的公共政策。所以,他們不能有偏見。
如果我們的想法是我們應該相信計量經濟學回歸模型的係數並且我們正在使用高維數據庫,那麼也許我們可以接受支付一些偏差以換取較低的方差:“偏差-方差權衡不僅適用於預測(在線性模型的情況下只是估計係數的線性組合),也適用於單個係數。通過引入偏差以減少方差,可以更準確地估計各個係數(根據預期平方誤差)。因此,從這個意義上說,有偏見的估計器可能是可取的。請記住:我們的目標是找到真正的價值。如果方差很大並且我們的估計值與重複樣本的平均真實值相差甚遠,那麼無偏性就沒有幫助。” - @Richard_Hardy
這個想法促使研究人員尋找對經濟學家來說聽起來也不錯的解決方案。最近的文獻通過選擇不受懲罰的焦點變量來解決這個問題。這些焦點變量對指導公共政策很重要。為了避免遺漏變量偏差,他們還使用收縮程序(例如 Lasso)對所有其他自變量運行此焦點變量的回歸。係數不為零的那些也包括在回歸模型中。他們確保這個過程的漸近是好的。請參閱此處的該領域領導者之一的論文。例如,參見該領域領導者的概述。