Clustering

在層次聚類中歸一化歐幾里德距離度量的原因

  • June 12, 2012

顯然,在距離度量為歐幾里得距離的層次聚類中,必須首先對數據進行歸一化或標準化,以防止具有最高方差的協變量驅動聚類。為什麼是這樣?這不是可取的嗎?

**這取決於您的數據。**實際上它與層次聚類無關,而與距離函數本身有關。

問題是當你有混合屬性時。

假設您有人員數據。重量(克)和鞋碼。鞋子尺寸差異很小,而體重(以克為單位)的差異要大得多。你可以想出幾十個例子。您只是無法比較 1 克和 1 鞋碼的差異。事實上,在這個例子中,你計算的東西的物理單位是!

通常在這些情況下,歐幾里得距離是沒有意義的。但在許多情況下,如果您對數據進行規範化,它可能仍然有效。即使它實際上沒有意義,但對於沒有“被證明正確”的距離函數的情況,例如人類尺度物理世界中的歐幾里德距離,它也是一個很好的啟發式方法。

引用自:https://stats.stackexchange.com/questions/30317

comments powered by Disqus