Normalization

在計算餘弦距離之前是否需要特徵歸一化?

  • July 20, 2017

我有一個等長特徵向量的數據集,其中每個向量包含從音頻文件中提取的大約 20 個特徵(基頻、BPM、高低頻比等)。

我目前正在使用餘弦相似度來測量向量之間的距離,以指示聲音相似度,例如兩個文件之間。

我知道對於歐幾里得距離,在計算距離之前對數據集中的特徵進行歸一化很重要。餘弦距離也是如此嗎?

如果沒有,是否存在與單個特徵範圍無關的相似性度量?

或者……或者,是否有任何“快速而骯髒”的方法來加權不需要訪問整個數據集的特徵(結合適當的相似性度量)。

這些功能的範圍非常不同,但出於技術原因,我最好避免標準化步驟。

餘弦相似度的定義是:

它對特徵的均值*很敏感。*要查看此內容,請選擇一些,並添加一個非常大的正數到每個向量的第 th 個分量。那麼相似度就是

因此,經常使用調整後的餘弦相似度。它只是應用於均值去除特徵的餘弦相似度。

引用自:https://stats.stackexchange.com/questions/292596

comments powered by Disqus