為什麼最小化 MAE 會導致預測中位數而不是均值?
來自Rob J Hyndman 和 George Athanasopoulos的《預測:原理與實踐》教科書,特別是關於準確度測量的部分:
最小化 MAE 的預測方法將導致預測中位數,而最小化 RMSE 將導致預測均值
有人可以直觀地解釋為什麼最小化 MAE 會導致預測中位數而不是均值嗎?這在實踐中意味著什麼?
我曾問過一位客戶:“讓平均預測更準確或避免非常不准確的預測對您來說更重要的是什麼?”。他說,使平均預測更準確具有更高的優先級。那麼,在這種情況下,我應該使用 MAE 還是 RMSE?在我閱讀這篇引文之前,我相信 MAE 在這種情況下會更好。現在我懷疑了。
退後一步並暫時忘記預測方面很有用。讓我們考慮任何分佈並假設我們希望用一個數字來總結它。
你在統計學課上很早就學會了使用期望作為單個數字摘要將最小化預期的平方誤差。
現在的問題是:為什麼要使用最小化預期的絕對誤差?
為此,我經常推薦Hanley 等人的“將中值可視化為最小偏差位置”。(2001,美國統計學家)。他們確實在論文中設置了一個小程序,不幸的是,這可能不再適用於現代瀏覽器,但我們可以按照論文中的邏輯進行操作。
假設你站在一排電梯前。它們可以等距佈置,或者電梯門之間的一些距離可能比其他的大(例如,一些電梯可能出現故障)。*當其中一部電梯到達時,*您應該站在哪部電梯前進行最少的預期步行?請注意,這個預期的遊走起到預期絕對誤差的作用!
假設您有三部電梯 A、B 和 C。
- 如果您在 A 前面等候,您可能需要從 A 步行到 B(如果 B 到達),或者從 A 到 C(如果 C 到達)——經過 B!
- 如果您在 B 前面等候,則需要從 B 步行到 A(如果 A 到達)或從 B 步行到 C(如果 C 到達)。
- 如果您在 C 前面等候,您需要從 C 步行到 A(如果 A 到達)-經過 B - 或從 C 走到 B(如果 B 到達)。
請注意,從第一個和最後一個等待位置,有一段距離 - AB 在第一個位置,BC 在最後一個位置 - 您需要在多個電梯到達的情況下步行。因此,你最好的選擇是站在中間電梯的正前方——不管三部電梯如何佈置。
這是 Hanley 等人的圖 1:
這很容易推廣到三個以上的電梯。或者到有不同機會先到的電梯。或者實際上是可數無限多的電梯。所以我們可以將此邏輯應用於所有離散分佈,然後傳遞到極限以達到連續分佈。
要加倍回到預測,您需要考慮在特定未來時間段的點預測的基礎上,存在(通常是隱含的)密度預測或預測分佈,我們使用單個數字點預測對其進行總結。上述論點說明了為什麼您的預測密度的中位數是最小化預期絕對誤差或 MAE 的點預測。(更準確地說,任何中間值都可以,因為它可能不是唯一定義的——在電梯示例中,這對應於具有偶數個電梯。)
當然,中位數可能與預期完全不同,如果是不對稱的。一個重要的例子是低容量計數數據, 尤其間歇時間序列. 確實,如果您有 50% 或更高的零銷售機會,例如,如果銷售是泊松分佈的參數,那麼您將通過預測一個平坦的零來最小化您的預期絕對誤差 - 這相當不直觀,即使對於高度間歇性的時間序列也是如此。我為此寫了一篇小論文(Kolassa,2016,International Journal of Forecasting)。
因此,如果您懷疑您的預測分佈是(或應該是)不對稱的,如上述兩種情況,那麼如果您希望獲得無偏的期望預測,請使用rmse. 如果可以假設分佈是對稱的(通常對於大容量系列),則中位數和均值重合,並使用有還將指導您進行無偏預測 - MAE 更容易理解。
同樣,最小化地圖可能導致有偏差的預測,即使對於對稱分佈也是如此。我的這個較早的答案包含一個模擬示例,該示例具有不對稱分佈的嚴格正(對數正態分佈)序列,可以使用三種不同的點預測進行有意義的點預測,具體取決於我們是否要最小化 MSE、MAE 或 MAPE。