Boosting
為什麼不總是使用集成學習?
在我看來,集成學習總是會比僅使用單一學習假設提供更好的預測性能。
那麼,為什麼我們不一直使用它們呢?
我的猜測可能是因為計算限制?(即便如此,我們使用弱預測器,所以我不知道)。
一般來說,它總是表現得更好是不正確的。有幾種集成方法,每種方法都有自己的優點/缺點。使用哪一個,然後取決於手頭的問題。
例如,如果您的模型具有高方差(它們過度擬合您的數據),那麼您可能會從使用 bagging 中受益。如果您有偏差模型,最好將它們與 Boosting 結合使用。也有不同的策略來形成合奏。這個話題太廣泛了,無法在一個答案中涵蓋它。
但我的觀點是:如果你在設置中使用了錯誤的集成方法,你就不會做得更好。例如,將 Bagging 與有偏見的模型一起使用不會有幫助。
此外,如果您需要在概率環境中工作,集成方法也可能不起作用。眾所周知,Boosting(以最流行的形式,如 AdaBoost)提供的概率估計很差。也就是說,如果您希望有一個模型可以讓您對數據進行推理,而不僅僅是分類,那麼使用圖形模型可能會更好。