Machine-Learning

為什麼對決策樹進行對數轉換為正態分佈?

  • January 2, 2019

在An Introduction to Statistical Learning with Applications in R (James et al.)第 8 章的第 304 頁上,作者說:

我們使用 Hitters 數據集根據 Years(他在大聯盟打球的年數)和 Hits(他上一年的命中數)來預測棒球運動員的薪水。我們首先刪除缺少 Salary 值的觀測值,並對 Salary 進行對數變換,使其分佈具有更多典型的鐘形。(回想一下,薪水以數千美元計算。)

沒有給出對數變換的額外動機。既然數據被輸入到決策樹算法中,為什麼強制數據服從正態分佈很重要?我認為大多數/所有決策樹算法對於規模變化都是不變的。

在這種情況下,薪水是決策樹的目標(因變量/結果),而不是特徵之一(自變量/預測變量)。您是正確的,決策樹對預測變量的規模不敏感,但是由於我懷疑有少量非常大的薪水,因此轉換薪水可能會改善預測,因為最小化平方誤差的損失函數不會受到這些強烈影響大值。

引用自:https://stats.stackexchange.com/questions/385231

comments powered by Disqus