Boosting

為什麼不總是使用集成學習?

  • July 29, 2014

在我看來,集成學習總是會比僅使用單一學習假設提供更好的預測性能。

那麼,為什麼我們不一直使用它們呢?

我的猜測可能是因為計算限制?(即便如此,我們使用弱預測器,所以我不知道)。

一般來說,它總是表現得更好是不正確的。有幾種集成方法,每種方法都有自己的優點/缺點。使用哪一個,然後取決於手頭的問題。

例如,如果您的模型具有高方差(它們過度擬合您的數據),那麼您可能會從使用 bagging 中受益。如果您有偏差模型,最好將它們與 Boosting 結合使用。也有不同的策略來形成合奏。這個話題太廣泛了,無法在一個答案中涵蓋它。

但我的觀點是:如果你在設置中使用了錯誤的集成方法,你就不會做得更好。例如,將 Bagging 與有偏見的模型一起使用不會有幫助。

此外,如果您需要在概率環境中工作,集成方法也可能不起作用。眾所周知,Boosting(最流行的形式,如 AdaBoost)提供的概率估計很差。也就是說,如果您希望有一個模型可以讓您對數據進行推理,而不僅僅是分類,那麼使用圖形模型可能會更好。

引用自:https://stats.stackexchange.com/questions/109831

comments powered by Disqus