Clustering

維度的詛咒——餘弦相似度是否更好,如果是,為什麼?[複製]

  • April 19, 2018

在處理高維數據時,使用歐幾里得距離比較數據點幾乎沒有用——這是維度的詛咒。

但是,我讀過使用不同的距離度量,例如餘弦相似度,在高維數據中表現更好。

為什麼是這樣?有一些數學證明/直覺嗎?

我的直覺是,這是因為餘弦度量只關注數據點之間的角度,並且任何兩個數據點與原點之間的平面都是 3 維的。但是,如果兩個數據點的角度非常小,但彼此“遠離”(在絕對差異的意義上)——那麼它們如何仍然被認為是接近/相似的呢?

與各種未經證實的說法相反,餘弦不能明顯更好

很容易看出餘弦在歸一化數據上**與歐幾里得基本相同。**歸一化帶走了一個自由度。因此,1000 維空間上的餘弦與 999 維空間上的歐幾里得一樣“被詛咒”。

通常不同的是您將使用一個與另一個的數據。歐幾里得通常用於密集的連續變量。每個維度都很重要,20 維空間可能具有挑戰性。餘弦主要用於非常稀疏的離散域,例如文本。在這裡,大多數維度都是 0,根本不重要。一個 100.000 維的向量空間可能只有大約 50 個非零維來進行距離計算;其中許多將具有較低的權重(停用詞)。因此,餘弦的典型用例沒有被詛咒,即使它理論上是一個非常高維的空間。

有一個術語:內在維度與表示維度。

引用自:https://stats.stackexchange.com/questions/341535

comments powered by Disqus