Regression

根據平均絕對誤差的箱線圖刪除異常值以改進回歸模型是否作弊

  • February 21, 2017

我有一個用四種方法測試的預測模型,如下圖所示。模型預測的屬性在 0-8 範圍內。

您可能會注意到,所有方法都指示了一個上限異常值和**三個下限異常值。**我想知道從數據中刪除這些實例是否合適?或者這是一種改進預測模型的作弊行為?

在此處輸入圖像描述

刪除觀察以改進回歸模型幾乎**總是作弊。**只有當您真正認為這些實際上是異常值時,您才應該放棄觀察。

例如,您有來自連接到智能手錶的心率監測器的時間序列。如果您看一下該系列,很容易發現讀數為 300bps 時會出現錯誤的觀察結果。這些應該被刪除,但不是因為你想改進模型(不管它是什麼意思)。它們是與您的心率無關的閱讀錯誤。

不過要注意的一件事是錯誤與數據的相關性。在我的示例中,當心率監測器在跑步或跳躍等運動中移位時,可能會出現錯誤。這將使這些錯誤與 hart 率相關。在這種情況下,必須小心去除這些異常值和錯誤,因為它們不是隨機的

我會給你一個虛構的例子,說明何時不刪除異常值。假設您正在測量彈簧上重物的運動。如果重量相對於重量的強度較小,那麼您會注意到胡克定律非常有效:

在哪裡是力量,- 張力係數和是重量的位置。 現在,如果您放置一個非常重的重物或移動重物太多,您將開始看到偏差:在足夠大的位移運動似乎會偏離線性模型。因此,您可能很想刪除異常值以改進線性模型。這不是一個好主意,因為胡克定律只是近似正確,因此該模型效果不佳。

更新在您的情況下,我建議拉出這些數據點並仔細查看它們。會不會是實驗室儀器故障?外部干擾?樣品缺陷?等等。

接下來嘗試確定這些異常值的存在是否與您在我給出的示例中所測量的值相關。如果存在相關性,那麼就沒有簡單的方法可以解決它。如果沒有相關性,那麼您可以刪除異常值

引用自:https://stats.stackexchange.com/questions/263238

comments powered by Disqus