距離度量和維度詛咒
在一些地方我讀到了一個註釋,如果你有很多參數並且您嘗試在這些向量之間找到“相似度度量”,您可能會遇到“維度詛咒”。我相信這意味著大多數相似性分數都是相等的,並且不會給你任何有用的信息。換句話說,幾乎所有夥伴向量都會有一些中等距離分數,這對於分類或聚類等沒有用處。
你知道我在哪裡可以更詳細地了解這一點嗎?
有沒有受這種影響較小的指標?
關於高維數據中距離的一些經典觀察:
- K. Beyer、J. Goldstein、R. Ramakrishnan 和 U. Shaft,ICDT 1999:“最近鄰何時有意義?”
- CC Aggarwal、A. Hinneburg 和 DA Keim,ICDT 2001:“關於高維空間中距離度量的令人驚訝的行為”
最近對此進行了一些研究,其中涉及共享最近的鄰居和中心:
- ME Houle,H.-P。Kriegel、P. Kröger、E. Schubert 和 A. Zimek,SSDBM 2010:“共享鄰居距離能否戰勝維度的詛咒?”
- T. Bernecker,ME Houle,H.-P。Kriegel、P. Kröger、M. Renz、E. Schubert 和 A. Zimek,SSTD 2011:“時間序列中的相似性排名質量”
- N. Tomašev、M. Radovanović、D. Mladenić 和 M. Ivanović。進階。KDDM 2011:“集線器在高維數據聚類中的作用”
- 別人不記得了,搜索“Hubness”,那是他們的高維觀察
這些很有趣,因為它們指出了一些關於維度詛咒的流行誤解。從本質上講,它們表明理論結果(假設數據是獨立同分佈的)對於具有多個分佈的數據通常可能並不正確。詛咒會導致數值問題,並在單個分佈中喪失辨別力,同時它可以更容易區分兩個分離良好的分佈。
其中一些應該是相當明顯的。假設您有對象每個維度中的 iid 和另一組對象每個維度的 iid。來自兩個不同集合的對象之間的差異將始終大於單個集合內的距離,並且隨著維度的增加,問題甚至會變得更容易。
我建議閱讀 Houle 等人的這篇著作,主要是因為它表明,聲稱“這些數據是高維的,並且由於維度的詛咒,它無法被分析”,你可能會讓事情變得有點太容易了。儘管如此,這仍然是一條到處都在使用的線路。“由於維度災難,我們的算法僅適用於低維數據。” “由於維度的詛咒,我們的索引最多只能用於 10 個維度。” 亞達亞達亞達。這些陳述中的許多顯然只是表明這些作者沒有理解在他們的數據和算法中高維發生了什麼(或者需要一個藉口)。Houle 等人。沒有完全解決這個難題(但是?這是最近的事),但他們至少重新考慮了許多流行的說法。
畢竟,如果高維是一個大問題,為什麼在文本挖掘中人們會愉快地使用 10000-100000 量級的維度,而在其他領域人們只放棄 10 維?!?
至於您問題的第二部分:餘弦相似性似乎受維度影響較小。除此之外,只要您想區分不同的分佈,控制數值精度並且不依賴手動選擇的閾值(因為您可能需要為它們提供大量有效數字),經典-規範應該還是可以的。
然而,餘弦也受到維度災難的影響,如下所述:
- M. Radovanović、A. Nanopoulos 和 M. Ivanović,SIGIR 2010。“關於向量空間模型中頑固結果的存在”。