Normalization
餘弦相似度是否與 l2 歸一化歐幾里得距離相同?
相同的含義,它將為向量u和一組向量V之間的相似性排名產生相同的結果。
我有一個向量空間模型,它具有距離度量(歐幾里德距離,餘弦相似度)和歸一化技術(無,l1,l2)作為參數。據我了解,設置 [cosine, none] 的結果應該與 [euclidean, l2] 相同或至少非常相似,但事實並非如此。
實際上很有可能係統仍然存在錯誤——或者我對向量有什麼嚴重的錯誤?
編輯:我忘了提到向量是基於語料庫中文檔的字數。給定一個查詢文檔(我也將其轉換為字數向量),我想從我的語料庫中找到與其最相似的文檔。
僅計算它們的歐幾里德距離是一種直接的度量,但在我從事的任務中,餘弦相似度通常被用作相似度指標,因為僅長度不同的向量仍然被認為是相等的。距離/餘弦相似度最小的文檔被認為是最相似的。
為了-歸一化向量,
我們有平方歐幾里得距離與餘弦距離成正比,
也就是說,即使您對數據進行了歸一化並且您的算法對於距離的縮放不變,您仍然會因為平方而期望差異。