Machine-Learning

故意過擬合

  • September 13, 2018

故意過度擬合模型有意義嗎?

假設我有一個用例,我知道數據在訓練數據方面不會有太大變化。

我在這裡考慮的是交通預測,其中交通狀態遵循一組固定的模式

  • 早上通勤
  • 夜間活動
  • 等等。

除非汽車用戶突然增加或道路基礎設施發生重大變化,否則這些模式不會發生太大變化。在這種情況下,我希望模型盡可能偏向於它在當前數據中學習的模式,假設將來模式和數據將非常相似。

一般來說,故意過度擬合您的數據是沒有意義的。問題是很難確保模式也出現在數據中未包含的部分中。您必須確認數據中存在模式。這樣做的一種可能性是平穩性的概念。


你的描述讓我想起了平穩性和遍歷性。從上下文/業務方面,您假設您的時間序列遵循某些模式。這些模式稱為平穩性或遍歷性。

定義平穩性:

平穩過程是一個隨機過程,其無條件聯合概率分佈在時間移動時不會改變。因此,均值和方差等參數也不會隨時間而變化。

定義遍歷性:

遍歷過程是與或表示系統或過程相關的過程,該過程具有以下特性:給定足夠的時間,它們包括或影響給定空間中的所有點,並且可以通過相當大的點選擇在統計上表示。


現在您要確保它確實遵循這些特定模式。您可以這樣做,例如使用單位根檢驗(如 Dickey-Fuller)或平穩性檢驗(如 KPSS)。

定義單位根檢驗:

有單位根。

沒有單位根。這在大多數情況下意味著平穩性。

定義平穩性檢驗:

有平穩性。

沒有平穩性。

進一步閱讀:

平穩檢驗和單位根檢驗有什麼區別?


如果時間序列真正遵循這些模式,預測和預測將“從統計角度更容易”,例如,您可以應用計量經濟學模型進行預測,如 ARIMA 或 TBATS。如果您具有橫截面數據平穩性並且單位根不是常見概念,我的回答與單變量和多變量時間序列有關。

引用自:https://stats.stackexchange.com/questions/366705

comments powered by Disqus