Cart
xgboost 中樹複雜度的定義
在研究 xgboost 算法時,我瀏覽了文檔。
在這種方法中,樹使用複雜度定義進行正則化
在哪裡和是參數,是終端葉子的數量和是每片葉子的得分。 我想知道:這如何定義復雜性?,終端節點的數量,對我來說似乎很自然。但是最終分數的總和是平方的?
也許是過擬合的意思。意味著非常大的分數會給人太多的信心?是否選擇獲取弱學習器?選擇複雜度函數的自然解釋是什麼?
這對我來說很有意義。
我將專注於高斯案例。這裡的每一棵樹擬合當前模型的殘差,模型更新為. 梯度增強器的想法是通過一棵一棵地添加這些樹來小心緩慢地減少模型的偏差。
在這種情況下,較大的值將對應於一個終端(葉)節點,它對先前的模型進行了非常大且重要的更新。正則化項的想法是最大限度地減少大型單樹更新的這些事件(僅在模型損失函數的減少量大到足以抵消正則化懲罰時才允許它們)。如果這樣的更新針對單個樹進行了正則化,但結果證明是合理的,那麼根據提升的理念,它將在多個模型更新中被烘焙。
這與嶺回歸非常相似。