如何選擇𝛼αalpha在成本複雜性修剪中？

February 1, 2016

在接下來的講座樹方法中，他們在第 21 頁描述了一種用於成本複雜度修剪的樹算法。它說我們將成本複雜度修剪應用於大樹，以獲得最佳子樹序列，作為以下函數. 我最初的想法是我們有一套（IE. 然後我們計算每個集合的 K 折交叉驗證並選擇對應於最低的 K 折交叉驗證。

作為參考，我所指的 K 折交叉驗證在以下Cross-Validation的幻燈片 15 中進行了描述。

然而，經過一番思考和閱讀；我發現有一個定理，即通過最弱鏈接修剪經過的子樹序列將包含子樹. 在哪裡是最小化成本複雜性標準的子樹

在樹方法幻燈片中的幻燈片 19 中進行了描述。由於這個定理存在，我認為您可以推斷出每個定理的簡潔映射可能是合理的到最優子樹. 或者至少我們可以看到在一定的時間間隔內s 它將對應於特定的子樹。我在第 4 版的Elements of Statistical Learning book的第 308 頁上找到了這個定理。如果有人能闡明算法並且知道這樣的映射是否存在會有所幫助。

是的，確實存在這樣的映射，但它的用處不如預期。

總體目標是最小化成本複雜度函數

在哪裡是樹的葉子數和在這些葉子上計算的損失函數。

第一步是計算子樹序列在哪裡是僅由根節點組成的樹，並且整棵樹。

這是通過連續替換子樹來完成的有根節點帶有葉子（即折疊此子樹）。在每個步驟中，子樹被選中，它使成本複雜度函數的降低最小化，因此是樹的最薄弱環節。

如公式：最小化

這正好是 0

所以最小化意味著最小化

所以從整棵樹開始（和 ) 在每一步 s 算法

選擇最小化的節點 t

放 ,

直到樹只包含根節點。

因此，作為輸出，我們得到一系列子樹

與相應的 -價值觀

使用這些值可以定義一個映射到子樹列表。

但

成本複雜度函數和損失/誤差函數是在訓練數據上計算出來的，因此存在自我驗證和過擬合的危險。正因為如此決賽由交叉驗證確定。

計算在所有訓練數據上訓練的樹的子樹序列（在通過內部交叉驗證優化之前）至少給了我們一個可能的區間 - 可供選擇的值。

資料來源：

Alexey Grigorev解釋的成本複雜性修剪

Kiran Bangalore Ravi、Jean Serra對隨機森林進行成本複雜性修剪

弗里德曼等人的統計學習要素。人

以上所有來源均指的是*Breiman, L.、Friedman, J.、Olshen, R. 和 Stone, C. (1984)。分類和回歸樹，紐約沃茲沃思。*不幸的是，我無法得到它。

附錄

(1)為什麼這是真的？

用圖片更容易理解

讓我們看看

誤差/損失函數在輸入樹的所有葉子上計算。轉型折疊子樹成一片葉子 . 所以是

（在所有葉子上）

- （穿過“已移除”子樹的葉子 )

+ （穿過新加入的葉子子樹已折疊到）

同樣的邏輯適用於計算葉子數量的部分。

(2)如何確定通過交叉驗證？

我不確定這是否是佳能，但我會這樣做。

輸入：外圍交叉驗證提供的訓練數據

在整個訓練數據上訓練樹

計算子樹序列和 s 去測試。

應用內部交叉驗證。對於每次運行：在內部交叉驗證提供的訓練數據上訓練樹

計算子樹序列

對於每個在，保留最小化的子樹

在測試集上評估這些測試樹

選擇基於內部交叉驗證的最佳性能

在序列中查找子樹基於整個訓練數據構建

返回那個子樹

在斯坦福大學的一次講座中描述了類似的方法（從幻燈片 10 開始）。

引用自：https://stats.stackexchange.com/questions/193538

如何選擇𝛼αalpha在成本複雜性修剪中？

附錄

相關問答

在訓練數據中添加噪聲如何等同於正則化？

嶺回歸應該使用一種熱編碼還是虛擬變量？

為什麼不修剪你的神經網絡？

為什麼邏輯回歸在高維度上特別容易過擬合？

是否有一個典型的例子來說明嶺何時勝過套索？

在回歸中，為什麼不默認使用正則化？