Clustering

在聚類之前擴展數據重要嗎?

  • March 12, 2014

我找到了這個教程,它建議你應該在聚類之前對特徵運行 scale 函數(我相信它將數據轉換為 z-scores)。

我想知道這是否有必要。我問主要是因為當我不縮放數據時有一個很好的肘點,但是當它被縮放時它會消失。:)

問題是什麼代表了案例之間距離的良好度量。

如果你有兩個特點,一個是案例之間的差異很大,另一個是小,你準備好讓前者成為幾乎唯一的距離驅動因素嗎?

因此,例如,如果您將人們的體重(公斤)和身高(米)進行分組,那麼 1 公斤的差異是否與 1 米的身高差異一樣顯著?以公斤為單位的重量和以厘米為單位的高度得到不同的聚類是否重要?如果您的答案分別是“否”和“是”,那麼您可能應該進行擴展。

另一方面,如果您根據東/西距離和北/南距離對加拿大城市進行聚類,那麼儘管東/西通常會有更大的差異,但您可能很樂意使用以公里或英里為單位的未縮放距離(儘管您可能想要調整地球曲率的經度和緯度)。

引用自:https://stats.stackexchange.com/questions/89809

comments powered by Disqus