維度詛咒：kNN分類器

June 28, 2015

我正在閱讀 Kevin Murphy 的書：機器學習-概率視角。在第一章中，作者解釋了維度的詛咒，有一部分我不明白。作為一個例子，作者說：

考慮輸入沿 D 維單位立方體均勻分佈。假設我們通過圍繞 x 增長一個超立方體來估計類標籤的密度，直到它包含所需的分數的數據點。這個立方體的預期邊長是.

這是我無法理解的最後一個公式。似乎如果你想覆蓋 10% 的點，那麼每個維度的邊長應該是 0.1？我知道我的推理是錯誤的，但我不明白為什麼。

這正是高維距離的意外行為。對於 1 維，您有區間 [0, 1]。10% 的點位於長度為 0.1 的段中。但是隨著特徵空間維數的增加會發生什麼？

該表達式告訴您，如果您想要 5 個維度的 10% 的點，則立方體的長度需要 0.63，10 個維度的 0.79 和 0.98 的 100 個維度。

如您所見，為了增加維度，您需要看得更遠才能獲得相同數量的點。更重要的是，隨著維數的增加，大多數點都在立方體的邊界上。這是出乎意料的。

引用自：https://stats.stackexchange.com/questions/159070

comments powered by Disqus

相關問答

Normal-Distribution

高維柯西分佈是什麼樣的？

November 27, 2021

Machine-Learning

高維距離集中的數學論證

February 23, 2020

沒有採樣的高維推理問題中的不確定性估計？

February 22, 2019

K=1 時 KNN 分類器中的訓練誤差

September 14, 2018

Machine-Learning

KNN 應該使用哪種類型的數據規範化？

August 25, 2018

為什麼我們需要擬合 k 最近鄰分類器？

June 5, 2018