基於樹的回歸能否比普通線性回歸表現更差?
嗨,我正在研究回歸技術。
我的數據有 15 個特徵和 6000 萬個示例(回歸任務)。
當我嘗試了許多已知的回歸技術(梯度提升樹、決策樹回歸、AdaBoostRegressor 等)時,線性回歸表現出色。
在這些算法中得分幾乎是最高的。
這可能是什麼原因?因為我的數據有很多例子,所以基於 DT 的方法可以很好地適應。
- 正則化線性回歸嶺,套索表現更差
誰能告訴我其他表現良好的回歸算法?
- 分解機和支持向量回歸是好的回歸技術嗎?
您不應該只是將數據扔給不同的算法並查看預測的質量。您需要更好地了解您的數據,而實現這一點的方法是首先可視化您的數據(邊際分佈)。即使您最終只對預測感興趣,如果您更好地理解數據,您將能夠更好地製作更好的模型。所以,首先,試著更好地理解數據(以及適合數據的簡單模型),然後你就可以更好地創建更複雜、希望更好的模型。
然後,擬合線性回歸模型,將 15 個變量作為預測因子(稍後您可以查看可能的相互作用)。然後,計算該擬合的殘差,即
如果模型是正確的,也就是說,它能夠從數據中提取信號(結構),那麼殘差應該沒有模式。Box, Hunter & Hunter:“實驗者的統計學”(你應該看看,它是有史以來最好的統計學書籍之一)將此與化學的類比進行了比較:該模型是一個“過濾器”,旨在從水(數據)。剩下的,通過過濾器的,應該是“乾淨的”,並且分析它(殘留物分析)可以表明,當它不包含雜質(結構)時。請參閱在廣義線性模型中檢查殘差的正態性 要知道要檢查什麼,您需要了解線性回歸背後的假設,請參閱線性回歸的常用假設的完整列表是什麼?
一種常見的假設是同方差性,即恆定方差。要檢查這一點,請繪製殘差針對預測值,. 要了解此過程,請參閱: 為什麼使用殘差與預測值構建殘差圖?.
其他假設是線性的。要檢查這些,請針對模型中的每個預測變量繪製殘差。如果您在這些圖中看到任何曲線,那就是反對線性的證據。如果您發現非線性,您可以嘗試一些轉換,或者(更現代的方法)以非線性方式在模型中包含該非線性預測器,也許使用樣條曲線(您有 6000 萬個示例,所以應該非常可行! )。
然後你需要檢查可能的交互。上述想法也可用於不在擬合模型中的變量。由於您擬合沒有交互的模型,其中包括交互變量,例如產品對於兩個變量,. 因此,針對所有這些交互變量繪製殘差。包含許多示例圖的博客文章是http://docs.statwing.com/interpreting-residual-plots-to-improve-your-regression/
R Dennis Cook & Sanford Weisberg:“回歸中的殘差和影響”,Chapman & Hall,一本書的長度。更現代的書籍長度處理方法是 Frank Harrell:“回歸建模策略”。
並且,回到標題中的問題:“基於樹的回歸能否比普通線性回歸表現更差?” 是的,當然可以。基於樹的模型具有作為回歸函數的非常複雜的階躍函數。如果數據確實來自線性模型(表現得如同模擬),那麼階躍函數可能是一個不好的近似值。而且,如另一個答案中的示例所示,基於樹的模型可能會嚴重推斷出觀察到的預測變量的範圍之外。您也可以嘗試 randomforrest ,看看它比一棵樹好多少。