Self-Study
維度詛咒:kNN分類器
我正在閱讀 Kevin Murphy 的書:機器學習-概率視角。在第一章中,作者解釋了維度的詛咒,有一部分我不明白。作為一個例子,作者說:
考慮輸入沿 D 維單位立方體均勻分佈。假設我們通過圍繞 x 增長一個超立方體來估計類標籤的密度,直到它包含所需的分數的數據點。這個立方體的預期邊長是.
這是我無法理解的最後一個公式。似乎如果你想覆蓋 10% 的點,那麼每個維度的邊長應該是 0.1?我知道我的推理是錯誤的,但我不明白為什麼。
這正是高維距離的意外行為。對於 1 維,您有區間 [0, 1]。10% 的點位於長度為 0.1 的段中。但是隨著特徵空間維數的增加會發生什麼?
該表達式告訴您,如果您想要 5 個維度的 10% 的點,則立方體的長度需要 0.63,10 個維度的 0.79 和 0.98 的 100 個維度。
如您所見,為了增加維度,您需要看得更遠才能獲得相同數量的點。更重要的是,隨著維數的增加,大多數點都在立方體的邊界上。這是出乎意料的。