分類 XGBoost 與邏輯回歸

February 27, 2019

我有一個二元分類問題，其中類在 25%-75% 的分佈中略有不平衡。經過一些特徵工程後，我總共有大約 35 個特徵，而我擁有的特徵大多是連續變量。我嘗試擬合 Logistic 模型、RF 模型和 XGB 模型。他們似乎都給了我同樣的表現。我的理解是，對於這類問題，XGB 模型通常比 Logistic 模型好一點。但是，在我的情況下，即使在對其進行了很多調整之後，提升模型也沒有比邏輯模型有所改進。我想知道為什麼會這樣？

我們沒有理由期望特定類型的模型在另一種模型的性能方面必須更好在每個可能的用例中。這延伸到這裡觀察到的東西；雖然確實 XGBoost 模型往往是成功的並且通常提供有競爭力的結果，但它們並不能保證在每種情況下都優於邏輯回歸模型。

梯度提昇機器（XGBoost 屬於通用方法家族）很棒，但並不完美；例如，與邏輯回歸模型相比，通常梯度提升方法的概率校準較差（有關詳細信息，請參閱 Niculescu-Mizi & Caruana (2005)**從提升中獲取校準概率）。更一般地說，某些模型本質上對數據的要求更高，因此可用的數據集可能不夠表達；范德普洛格等人。(2014)*現代建模技術需要大量數據：用於預測二分端點的模擬研究*對此進行了非常好的研究。

最後，我們應該通過使用重採樣方法（例如 100 次 5 倍交叉驗證）來嚴格評估算法的性能，以測量算法性能的可變性。也許在一個特定的保留集上，兩種算法的性能非常相似，但它們的估計值的可變性卻大不相同。這對我們將來何時部署我們的模型或使用它來得出關於未來性能的結論有嚴重的影響。

引用自：https://stats.stackexchange.com/questions/394705

分類 XGBoost 與邏輯回歸

相關問答

哪個是第一位的 - 領域專業知識或實驗方法？

為什麼指數族在統計學中如此重要？

可以使用多項式邏輯回歸學習任何數據嗎

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？

sklearn邏輯回歸收斂到一個簡單案例的意外係數

無法在模擬數據集中獲得正確的邏輯回歸係數