Modeling
如果給定一個龐大的數據集,為什麼統計模型會過擬合?
我目前的項目可能需要我建立一個模型來預測特定人群的行為。訓練數據集僅包含 6 個變量(id 僅用於識別目的):
id, age, income, gender, job category, monthly spend
其中
monthly spend
是響應變量。id, age, income, gender, job category
但是訓練數據集包含大約 300 萬行,而要預測的數據集(包含但不包含響應變量)包含 100 萬行。我的問題是:如果我將太多行(在這種情況下為 300 萬行)放入統計模型中,是否有任何潛在問題?我知道計算費用是一個問題,還有其他問題嗎?有沒有完全解釋數據集大小問題的書籍/論文?
您可能會遇到兩種問題:
1)計算機問題,因為數據集太大。這些天來,6 列的幾百萬行並沒有那麼大。但是,根據您的程序、您的計算機、您的 RAM 數量以及可能的其他因素,它可能會陷入困境。
- 統計問題。在這裡,像您討論的問題將有一個我知道的“問題”:即使是微小的影響也會非常重要。這實際上不是回歸的問題,而是 p 值的問題。最好查看效果大小(回歸參數)。
3)您的模型的另一種問題不是由於行數,而是響應變量的性質(每月支出)。儘管 OLS 回歸沒有對響應的分佈(僅關於誤差)做出任何假設,但是,以貨幣作為因變量的模型通常具有非正態誤差。此外,從本質上講,記錄響應日誌通常是有意義的。在您的情況下是否如此取決於您正在嘗試做什麼。