如果給定一個龐大的數據集，為什麼統計模型會過擬合？

January 27, 2014

我目前的項目可能需要我建立一個模型來預測特定人群的行為。訓練數據集僅包含 6 個變量（id 僅用於識別目的）：
id, age, income, gender, job category, monthly spend
其中monthly spend是響應變量。id, age, income, gender, job category但是訓練數據集包含大約 300 萬行，而要預測的數據集（包含但不包含響應變量）包含 100 萬行。我的問題是：如果我將太多行（在這種情況下為 300 萬行）放入統計模型中，是否有任何潛在問題？我知道計算費用是一個問題，還有其他問題嗎？有沒有完全解釋數據集大小問題的書籍/論文？

您可能會遇到兩種問題：

1）計算機問題，因為數據集太大。這些天來，6 列的幾百萬行並沒有那麼大。但是，根據您的程序、您的計算機、您的 RAM 數量以及可能的其他因素，它可能會陷入困境。

統計問題。在這裡，像您討論的問題將有一個我知道的“問題”：即使是微小的影響也會非常重要。這實際上不是回歸的問題，而是 p 值的問題。最好查看效果大小（回歸參數）。

3）您的模型的另一種問題不是由於行數，而是響應變量的性質（每月支出）。儘管 OLS 回歸沒有對響應的分佈（僅關於誤差）做出任何假設，但是，以貨幣作為因變量的模型通常具有非正態誤差。此外，從本質上講，記錄響應日誌通常是有意義的。在您的情況下是否如此取決於您正在嘗試做什麼。

引用自：https://stats.stackexchange.com/questions/83496

comments powered by Disqus

相關問答

Normal-Distribution

高維柯西分佈是什麼樣的？

November 27, 2021

對訓練集進行插值實際上意味著什麼？

June 24, 2021

Machine-Learning

過擬合比欠擬合“更好”嗎？

April 28, 2021

Machine-Learning

在國際象棋數據上訓練神經網絡

July 26, 2020

為什麼邏輯回歸在高維度上特別容易過擬合？

June 1, 2020

探索性數據分析 (EDA) 是否真的需要/有用

March 19, 2020