Spss
CHAID 與 CRT(或 CART)
我正在使用SPSS對具有大約 20 個預測變量(分類很少)的數據集運行決策樹分類。CHAID(卡方自動交互檢測)和 CRT/CART(分類和回歸樹)給了我不同的樹。誰能解釋 CHAID 與 CRT 的相對優點?使用一種方法而不是另一種方法的含義是什麼?
我將列出一些屬性,然後再給你我對它的價值的評估:
- CHAID 默認使用多路拆分(多路拆分意味著當前節點被拆分為兩個以上的節點)。這可能需要也可能不需要(它可以導致更好的片段或更容易解釋)。但是,它肯定會減少節點中的樣本大小,從而導致樹的深度減少。當用於分割目的時,這可能會適得其反,因為 CHAID 需要大樣本量才能正常工作。CART 默認進行二元拆分(每個節點拆分為兩個子節點)。
- CHAID 旨在處理分類/離散化目標(XAID 用於回歸,但從那時起它們可能已被合併)。CART 絕對可以做回歸和分類。
- CHAID 使用預剪枝思想。僅當滿足顯著性標準時才拆分節點。這與上述需要大樣本量的問題有關,因為卡方檢驗在小樣本中只有很小的功效(通過 Bonferroni 校正多次測試有效地進一步降低了功效)。另一方面,CART 會長出一棵大樹,然後將樹修剪成較小的版本。
- 因此 CHAID 試圖從一開始就防止過擬合(只有拆分才存在顯著關聯),而CART 可能很容易過擬合,除非樹被修剪回來。另一方面,這允許 CART 在樣本內和样本外(對於給定的調整參數組合)表現得比 CHAID 更好。
- 在我看來,最重要的區別是CHAID 中的分割變量和分割點選擇不像 CART 那樣強烈混淆。當樹用於預測時,這在很大程度上無關緊要,但當樹用於解釋時,這是一個重要問題:將算法的這兩個部分高度混淆的樹被稱為“變量選擇有偏差”(一個不幸的名字) . 這意味著拆分變量選擇更喜歡具有許多可能拆分的變量(例如度量預測變量)。從這個意義上說,CART 是高度“有偏見的”,而 CHAID 則沒有那麼多。
- 使用代理拆分 CART 知道如何處理缺失值(代理拆分意味著對於預測變量的缺失值 (NA),該算法使用其他預測變量,這些預測變量不如主要拆分變量“好”,但模仿主要拆分產生的拆分分離器)。CHAID 沒有這樣的事情。
因此,根據您的需要,如果樣本有一定大小並且解釋方面更重要,我建議使用 CHAID。此外,如果需要多路拆分或較小的樹,則 CHAID 更好。另一方面,CART 是一個運行良好的預測機器,所以如果預測是你的目標,我會選擇 CART。