Clustering

真實數據中真的存在“維度災難”嗎?

  • June 17, 2016

我了解什麼是“維度詛咒”,並且我已經完成了一些高維優化問題並且知道指數可能性的挑戰。

但是,我懷疑大多數現實世界的數據中是否存在“維度詛咒” (好吧,讓我們暫時將圖像或視頻放在一邊,我正在考慮諸如客戶人口統計和購買行為數據之類的數據)。

我們可以收集具有數千個特徵的數據,但這些特徵幾乎不可能完全跨越數千個維度的空間。這就是降維技術如此受歡迎的原因。

換句話說,數據很可能不包含指數級的信息,即許多特徵高度相關,許多特徵滿足80-20條規則(許多實例具有相同的值)。

在這種情況下,我認為像 KNN 這樣的方法仍然可以很好地工作。(在大多數書中,“維度的詛咒”說維度 > 10 可能會有問題。在他們的演示中,他們在所有維度上使用均勻分佈,熵非常高。我懷疑這在現實世界中是否會發生。)

我對真實數據的個人經驗是,“維度詛咒”不會過多地影響模板方法(例如 KNN),並且在大多數情況下,大約 100 的維度仍然可以工作。

這對其他人來說是真的嗎?(我在不同行業使用了 5 年的真實數據,從未觀察到書中描述的“所有距離對都有相似的值”。)

本文(1)討論了非均勻性的祝福作為對維數詛咒的對立面。主要思想是數據在特徵空間中並不是均勻分佈的,因此可以通過識別數據的組織方式來獲得牽引力。

(1) Pedro Domingos,“關於機器學習的一些有用的知識”

引用自:https://stats.stackexchange.com/questions/219373

comments powered by Disqus