什麼時候有一個無偏的估計量很重要?
關於何時更喜歡有偏估計而不是無偏估計,我們有一些問題和答案,但我沒有在相反的問題上找到任何東西:
在什麼情況下只考慮無偏估計量很重要?
很多重點都放在了無偏見的概念上,是介紹性的統計課程,但我從來沒有讀過對此有說服力的辯護。由於我們通常只收集一次數據,那麼平均而言何時正確(除了它提供的可能的心理安慰)是有用的?在什麼情況下需要平均是正確的?
我對哲學論點持開放態度,但更喜歡研究或行業的具體例子。
我認為可以肯定地說,不存在需要無偏估計量的情況。例如,如果我們有, 有一個小到你根本不在乎。
話雖如此,我認為將無偏估計更多地視為好的事物的限制是很重要的。其他一切都保持不變,偏差越小越好。並且有很多一致的估計量,其中在中等樣本中的偏差非常高,以至於估計量受到很大影響。例如,在大多數最大似然估計器中,方差分量的估計通常是向下偏差的。例如,在預測區間的情況下,面對過度擬合,這可能是一個非常大的問題。
簡而言之,我極難找到需要真正無偏估計的情況。但是,很容易提出估計器的偏差是關鍵問題的問題。讓估計量無偏可能從來都不是絕對要求,但讓估計量無偏確實意味著有一個潛在的嚴重問題得到了解決。
編輯:
在考慮了更多之後,我突然想到樣本外錯誤是您要求的完美答案。估計樣本外誤差的“經典”方法是最大似然估計量,在正常數據的情況下,它減少到樣本內誤差。雖然這個估計量是一致的,但對於具有大自由度的模型,偏差是如此之大,以至於它會推薦退化模型(即使用嚴重過度擬合的模型估計樣本外誤差為 0)。交叉驗證是一種對樣本外誤差進行無偏估計的聰明方法。如果您使用交叉驗證來進行模型選擇,您會再次向下偏向您的樣本外誤差估計……這就是為什麼您持有驗證數據集以獲得對最終選定模型的無偏估計。
當然,我對真正無偏的評論仍然存在:如果我有一個估計器有樣本外誤差的期望值 +,我很樂意用它來代替足夠小的. 但是交叉驗證方法的動機是試圖獲得樣本外誤差的無偏估計。如果沒有交叉驗證,機器學習領域看起來會與現在完全不同。