基於樹的回歸能否比普通線性回歸表現更差？

June 21, 2017

嗨，我正在研究回歸技術。

我的數據有 15 個特徵和 6000 萬個示例（回歸任務）。

當我嘗試了許多已知的回歸技術（梯度提升樹、決策樹回歸、AdaBoostRegressor 等）時，線性回歸表現出色。

在這些算法中得分幾乎是最高的。

這可能是什麼原因？因為我的數據有很多例子，所以基於 DT 的方法可以很好地適應。

正則化線性回歸嶺，套索表現更差

誰能告訴我其他表現良好的回歸算法？

分解機和支持向量回歸是好的回歸技術嗎？

您不應該只是將數據扔給不同的算法並查看預測的質量。您需要更好地了解您的數據，而實現這一點的方法是首先可視化您的數據（邊際分佈）。即使您最終只對預測感興趣，如果您更好地理解數據，您將能夠更好地製作更好的模型。所以，首先，試著更好地理解數據（以及適合數據的簡單模型），然後你就可以更好地創建更複雜、希望更好的模型。

然後，擬合線性回歸模型，將 15 個變量作為預測因子（稍後您可以查看可能的相互作用）。然後，計算該擬合的殘差，即

如果模型是正確的，也就是說，它能夠從數據中提取信號（結構），那麼殘差應該沒有模式。Box, Hunter & Hunter：“實驗者的統計學”（你應該看看，它是有史以來最好的統計學書籍之一）將此與化學的類比進行了比較：該模型是一個“過濾器”，旨在從水（數據）。剩下的，通過過濾器的，應該是“乾淨的”，並且分析它（殘留物分析）可以表明，當它不包含雜質（結構）時。請參閱在廣義線性模型中檢查殘差的正態性要知道要檢查什麼，您需要了解線性回歸背後的假設，請參閱線性回歸的常用假設的完整列表是什麼？

一種常見的假設是同方差性，即恆定方差。要檢查這一點，請繪製殘差針對預測值，. 要了解此過程，請參閱：為什麼使用殘差與預測值構建殘差圖？.

其他假設是線性的。要檢查這些，請針對模型中的每個預測變量繪製殘差。如果您在這些圖中看到任何曲線，那就是反對線性的證據。如果您發現非線性，您可以嘗試一些轉換，或者（更現代的方法）以非線性方式在模型中包含該非線性預測器，也許使用樣條曲線（您有 6000 萬個示例，所以應該非常可行！）。

然後你需要檢查可能的交互。上述想法也可用於不在擬合模型中的變量。由於您擬合沒有交互的模型，其中包括交互變量，例如產品對於兩個變量,. 因此，針對所有這些交互變量繪製殘差。包含許多示例圖的博客文章是http://docs.statwing.com/interpreting-residual-plots-to-improve-your-regression/

R Dennis Cook & Sanford Weisberg：“回歸中的殘差和影響”，Chapman & Hall，一本書的長度。更現代的書籍長度處理方法是 Frank Harrell：“回歸建模策略”。

並且，回到標題中的問題：“基於樹的回歸能否比普通線性回歸表現更差？” 是的，當然可以。基於樹的模型具有作為回歸函數的非常複雜的階躍函數。如果數據確實來自線性模型（表現得如同模擬），那麼階躍函數可能是一個不好的近似值。而且，如另一個答案中的示例所示，基於樹的模型可能會嚴重推斷出觀察到的預測變量的範圍之外。您也可以嘗試 randomforrest ，看看它比一棵樹好多少。

引用自：https://stats.stackexchange.com/questions/286463

基於樹的回歸能否比普通線性回歸表現更差？

相關問答

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

當我們繪製數據然後在回歸模型中使用非線性變換時，我們是否在窺探數據？

Poisson Gamma Mixture = 負二項分佈？

泊松回歸合適嗎？

時刻和=X1+X2X3+X4X5X6+⋯和=X1+X2X3+X4X5X6+⋯Y=X_1 + X_2 X_3 + X_4 X_5 X_6 +cdots

為什麼即使“所有模型都錯了”，我們還要擔心過擬合？