CHAID 與 CRT（或 CART）

June 8, 2013

我正在使用SPSS對具有大約 20 個預測變量（分類很少）的數據集運行決策樹分類。CHAID（卡方自動交互檢測）和 CRT/CART（分類和回歸樹）給了我不同的樹。誰能解釋 CHAID 與 CRT 的相對優點？使用一種方法而不是另一種方法的含義是什麼？

我將列出一些屬性，然後再給你我對它的價值的評估：

CHAID 默認使用多路拆分（多路拆分意味著當前節點被拆分為兩個以上的節點）。這可能需要也可能不需要（它可以導致更好的片段或更容易解釋）。但是，它肯定會減少節點中的樣本大小，從而導致樹的深度減少。當用於分割目的時，這可能會適得其反，因為 CHAID 需要大樣本量才能正常工作。CART 默認進行二元拆分（每個節點拆分為兩個子節點）。

CHAID 旨在處理分類/離散化目標（XAID 用於回歸，但從那時起它們可能已被合併）。CART 絕對可以做回歸和分類。

CHAID 使用預剪枝思想。僅當滿足顯著性標準時才拆分節點。這與上述需要大樣本量的問題有關，因為卡方檢驗在小樣本中只有很小的功效（通過 Bonferroni 校正多次測試有效地進一步降低了功效）。另一方面，CART 會長出一棵大樹，然後將樹修剪成較小的版本。

因此 CHAID 試圖從一開始就防止過擬合（只有拆分才存在顯著關聯），而CART 可能很容易過擬合，除非樹被修剪回來。另一方面，這允許 CART 在樣本內和样本外（對於給定的調整參數組合）表現得比 CHAID 更好。

在我看來，最重要的區別是CHAID 中的分割變量和分割點選擇不像 CART 那樣強烈混淆。當樹用於預測時，這在很大程度上無關緊要，但當樹用於解釋時，這是一個重要問題：將算法的這兩個部分高度混淆的樹被稱為“變量選擇有偏差”（一個不幸的名字） . 這意味著拆分變量選擇更喜歡具有許多可能拆分的變量（例如度量預測變量）。從這個意義上說，CART 是高度“有偏見的”，而 CHAID 則沒有那麼多。

使用代理拆分 CART 知道如何處理缺失值（代理拆分意味著對於預測變量的缺失值 (NA)，該算法使用其他預測變量，這些預測變量不如主要拆分變量“好”，但模仿主要拆分產生的拆分分離器）。CHAID 沒有這樣的事情。

因此，根據您的需要，如果樣本有一定大小並且解釋方面更重要，我建議使用 CHAID。此外，如果需要多路拆分或較小的樹，則 CHAID 更好。另一方面，CART 是一個運行良好的預測機器，所以如果預測是你的目標，我會選擇 CART。

引用自：https://stats.stackexchange.com/questions/61230

comments powered by Disqus

CHAID 與 CRT（或 CART）

相關問答

OOB（Out Of Bag）錯誤應該小於隨機森林中的測試集錯誤嗎？

為什麼對決策樹進行對數轉換為正態分佈？

提升和裝袋樹（XGBoost，LightGBM）

為什麼我會得到 100% 準確率的決策樹？

決策樹的損失/成本函數是什麼？

對基尼雜質的簡單明了的解釋？