Forecasting

為什麼要使用某種預測誤差度量(例如 MAD)而不是另一個度量(例如 MSE)?

  • December 13, 2012

MAD = 平均絕對偏差 MSE = 均方誤差

我從各個地方看到了使用 MSE 的建議,儘管存在一些不良品質(例如http://www.stat.nus.edu.sg/~staxyc/T12.pdf,它在 p8 上聲明“人們普遍認為 MAD是比 MSE 更好的標準。但是,在數學上 MSE 比 MAD 更方便。")

還有比這更多的嗎?有沒有一篇論文徹底分析了各種測量預測誤差的方法更合適/更不合適的情況?我的谷歌搜索沒有透露任何內容。

在https://stackoverflow.com/questions/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde提出了類似的問題,並要求用戶在 stats.stackexchange.com 上發帖,但我認為他們從來沒有這樣做過。

要決定使用哪個點預測誤差度量,我們需要退後一步。請注意,我們並不完全了解未來的結果,也永遠不會。所以未來的結果服從概率分佈。一些預測方法明確地輸出這樣一個完整的分佈,而另一些則沒有——但它總是存在的,即使只是隱含的。

現在,我們希望對點預測有一個好的誤差度量。這樣的點預測 $ F_t $ 是我們試圖總結我們對未來分佈(即預測分佈)的了解 $ t $ 使用單個數字,即所謂的未來密度泛函。然後,誤差度量是評估這個單一數字摘要質量的一種方法。

因此,您應該選擇一種誤差度量來獎勵(未知的、可能預測的、但可能只是隱含的)未來密度的“好”一個數字摘要。

挑戰在於通過不同的函數最小化不同的錯誤度量。預期 MSE 被未來分佈的*預期值最小化。預期 MAD 被未來分佈的中位數最小化。*因此,如果您校準預測以最小化 MAE,您的點預測將是未來中位數,而不是未來預期值,並且如果您的未來分佈不對稱,您的預測將會有偏差。

這與計數數據最相關,這些數據通常是傾斜的。在極端情況下(例如,泊松分佈銷售額的平均值低於 $ \log 2\approx 0.69 $ ),對於平坦的零預測,您的 MAE 將是最低的。有關詳細信息,請參見此處此處此處

在平均絕對百分比誤差 (MAPE) 的缺點是什麼?該線程認為地圖,還有其他錯誤措施,它包含指向其他相關線程的鏈接。


最後,使用哪種錯誤度量實際上取決於您的預測錯誤成本,即哪種錯誤最痛苦。如果不考慮預測誤差的實際影響,任何關於“更好的標準”的討論基本上都是沒有意義的。

幾年前,預測準確性的測量是預測界的一個大話題,而且它們仍然不時出現。一篇非常好的文章是 Hyndman & Koehler “Another look at measure of predict accuracy”(2006 年)。

最後,一種替代方法是計算完整的預測密度並使用適當的計分規則.

引用自:https://stats.stackexchange.com/questions/45875

comments powered by Disqus