將功能擴展到 xgboost 有什麼影響？

June 27, 2018

在研究 xgboost 算法時，我瀏覽了文檔。

聽說xgboost不太關心輸入特徵的規模

在這種方法中，樹使用複雜度定義進行正則化

在哪裡和是參數，是終端葉子的數量和是每片葉子的得分。那麼，在輸入 xgboost 之前擴展功能不是很重要嗎？成本函數正則化部分中的項直接受特徵規模的影響

XGBoost 對其特徵的單調變換不敏感，原因與決策樹和隨機森林不敏感的原因相同：模型只需要在特徵上選擇“切點”來分割節點。拆分對單調變換不敏感：在一個尺度上定義拆分在變換後的尺度上具有相應的拆分。

你的困惑源於誤解 . 在“模型複雜性”一節中，作者寫道

這裡是葉子上的分數向量…

分數衡量葉子的重量。請參閱“樹合奏”部分中的圖表；作者將葉子下方的數字標記為“分數”。

分數也在你的表達式前面的段落中更精確地定義：

我們需要定義樹的複雜度 . 為了做到這一點，讓我們首先細化樹的定義作為
這裡是葉子上的分數向量，是將每個數據點分配給相應葉的函數，並且是葉子的數量。

這個表達式的意思是是一個分割函數，和是與每個分區關聯的權重。分區可以通過坐標對齊的拆分來完成，而坐標對齊的拆分是決策樹。

的含義是它是一個選擇的“權重”，使得有新樹的集合的損失低於沒有新樹的集合的損失。這在文檔的“結構分數”部分中進行了描述。一片葉子的分數是（誰）給的

在哪裡和是損失函數的偏導數函數的總和，對樹的預測對於樣本中的葉。（詳見“附加訓練”。）

引用自：https://stats.stackexchange.com/questions/353462

將功能擴展到 xgboost 有什麼影響？

相關問答

在訓練數據中添加噪聲如何等同於正則化？

為什麼嶺回歸不是尺度不變的？

嶺回歸應該使用一種熱編碼還是虛擬變量？

證明嶺回歸是嚴格凸的

在構建 ML 模型時不檢查殘差的原因是什麼？

為什麼邏輯回歸在高維度上特別容易過擬合？