Regression
為什麼線性回歸假設在機器學習中不重要?
當我在統計學課上學習線性回歸時,我們被要求檢查一些假設,這些假設需要為真才能使線性回歸有意義。我不會深入研究這些假設,但是,當從機器學習的角度學習線性回歸時,這些假設不會出現。
是因為數據太大以至於這些假設會被自動處理嗎?還是因為損失函數(即梯度下降)?
這是因為統計學強調模型推斷,而機器學習強調準確預測。
我們喜歡線性回歸中的正態殘差,因為通常 $ \hat{\beta}=(X^TX)^{-1}X^Ty $ 是最大似然估計量。
我們喜歡不相關的預測變量,因為與預測變量相關的情況相比,我們會在參數上獲得更緊密的置信區間。
在機器學習中,我們通常不關心我們如何得到答案,只關心結果在樣本內外都非常吻合。
Leo Breiman 有一篇關於建模“兩種文化”的著名文章:https ://projecteuclid.org/download/pdf_1/euclid.ss/1009213726
布雷曼,里奧。“統計建模:兩種文化(帶有評論和作者的反駁)。” 統計科學 16.3 (2001): 199-231。