餘弦相似度是否與 l2 歸一化歐幾里得距離相同？

April 13, 2015

相同的含義，它將為向量u和一組向量V之間的相似性排名產生相同的結果。

我有一個向量空間模型，它具有距離度量（歐幾里德距離，餘弦相似度）和歸一化技術（無，l1，l2）作為參數。據我了解，設置 [cosine, none] 的結果應該與 [euclidean, l2] 相同或至少非常相似，但事實並非如此。

實際上很有可能係統仍然存在錯誤——或者我對向量有什麼嚴重的錯誤？

編輯：我忘了提到向量是基於語料庫中文檔的字數。給定一個查詢文檔（我也將其轉換為字數向量），我想從我的語料庫中找到與其最相似的文檔。

僅計算它們的歐幾里德距離是一種直接的度量，但在我從事的任務中，餘弦相似度通常被用作相似度指標，因為僅長度不同的向量仍然被認為是相等的。距離/餘弦相似度最小的文檔被認為是最相似的。

為了-歸一化向量,

我們有平方歐幾里得距離與餘弦距離成正比，

也就是說，即使您對數據進行了歸一化並且您的算法對於距離的縮放不變，您仍然會因為平方而期望差異。

引用自：https://stats.stackexchange.com/questions/146221

comments powered by Disqus

相關問答

Machine-Learning

為什麼轉換器使用層範數而不是批量範數？

June 28, 2020

Machine-Learning

LSTM（長短期記憶）死了嗎？

June 18, 2020

Neural-Networks

注意力機制中的鍵、查詢和值到底是什麼？

August 13, 2019

為什麼 Kullback-Leilbler 散度比平方誤差更能衡量兩個概率分佈之間的距離？[複製]

June 1, 2019

維度的詛咒——餘弦相似度是否更好，如果是，為什麼？[複製]

April 19, 2018

如何測量詞頻數據的離散度？

January 29, 2018