Machine-Learning

生成最近鄰變得毫無意義的高維數據集

  • December 27, 2016

在論文“什麼時候’最近的鄰居’有意義? ”我們讀到,

我們表明,在某些廣泛的條件下(就數據和查詢分佈或工作量而言),隨著維度的增加,到最近鄰居的距離接近到最遠鄰居的距離。換句話說,到不同數據點的距離對比變得不存在。我們確定的發生這種情況的條件比其他工作假設的獨立同分佈 (IID) 維度假設要廣泛得多。

我的問題是,我應該如何生成產生這種效果的數據集?

我已經創建了三個點,每個點都有 1000 個維度,每個維度的隨機數範圍為 0-255,但是點創建不同的距離並且不重現上面提到的內容。似乎改變尺寸(例如 10 或 100 或 1000 尺寸)和範圍(例如 [0,1])不會改變任何東西。我仍然得到不同的距離,這對於聚類算法來說應該不是任何問題!

編輯:我嘗試了更多樣本,根據我的實驗,點之間的距離不會收斂到任何數字,相反,點之間的最大和最小距離變得更加明顯。這也與需要更多直覺以了解維度詛咒的第一篇文章中所寫的內容以及許多其他聲稱相同的地方(例如https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problems . 如果有人可以用一段代碼或真實數據集向我展示在實際場景中存在這種效果,我仍然會很感激。

閱讀一些較新的後續文章,例如:

Houle, ME, Kriegel, HP, Kröger, P., Schubert, E. 和 Zimek, A.(2010 年 6 月)。共享鄰居距離能否戰勝維度詛咒?. 在國際科學和統計數據庫管理會議上(第 482-500 頁)。施普林格柏林海德堡。

Zimek, A.、Schubert, E. 和 Kriegel, HP (2012)。**高維數值數據中無監督異常值檢測的調查。**統計分析和數據挖掘,5(5),363-387。

如果我沒記錯的話,它們顯示了理論距離集中效應的特性(已被證明)以及現實可能表現得非常不同的局限性。如果這些文章沒有幫助,請聯繫我,然後我重新檢查參考文獻(只是將我記得的內容輸入 Google Scholar,我沒有再次下載論文)。

請注意,“詛咒”並沒有說到最近和最遠鄰居的距離差接近 0;也不是距離會收斂到某個數字。而是相對於絕對值的相對差異變小了。然後隨機偏差會導致鄰居排名不正確。

在這個等式中,不要忽略分數、期望值和:

引用自:https://stats.stackexchange.com/questions/253344

comments powered by Disqus