Machine-Learning
故意過擬合
故意過度擬合模型有意義嗎?
假設我有一個用例,我知道數據在訓練數據方面不會有太大變化。
我在這裡考慮的是交通預測,其中交通狀態遵循一組固定的模式
- 早上通勤
- 夜間活動
- 等等。
除非汽車用戶突然增加或道路基礎設施發生重大變化,否則這些模式不會發生太大變化。在這種情況下,我希望模型盡可能偏向於它在當前數據中學習的模式,假設將來模式和數據將非常相似。
一般來說,故意過度擬合您的數據是沒有意義的。問題是很難確保模式也出現在數據中未包含的部分中。您必須確認數據中存在模式。這樣做的一種可能性是平穩性的概念。
你的描述讓我想起了平穩性和遍歷性。從上下文/業務方面,您假設您的時間序列遵循某些模式。這些模式稱為平穩性或遍歷性。
定義平穩性:
平穩過程是一個隨機過程,其無條件聯合概率分佈在時間移動時不會改變。因此,均值和方差等參數也不會隨時間而變化。
定義遍歷性:
遍歷過程是與或表示系統或過程相關的過程,該過程具有以下特性:給定足夠的時間,它們包括或影響給定空間中的所有點,並且可以通過相當大的點選擇在統計上表示。
現在您要確保它確實遵循這些特定模式。您可以這樣做,例如使用單位根檢驗(如 Dickey-Fuller)或平穩性檢驗(如 KPSS)。
定義單位根檢驗:
有單位根。
沒有單位根。這在大多數情況下意味著平穩性。
定義平穩性檢驗:
有平穩性。
沒有平穩性。
進一步閱讀:
如果時間序列真正遵循這些模式,預測和預測將“從統計角度更容易”,例如,您可以應用計量經濟學模型進行預測,如 ARIMA 或 TBATS。如果您具有橫截面數據平穩性並且單位根不是常見概念,我的回答與單變量和多變量時間序列有關。