單位球N個樣本離原點最近點中位數公式的解釋

January 2, 2015

在Elements of Statistical Learning中，引入了一個問題來突出 k-nn 在高維空間中的問題。有數據點均勻分佈在維單位球。

從原點到最近數據點的中位距離由以下表達式給出：

什麼時候，公式分解為球半徑的一半，我可以看到最近的點如何接近邊界，從而使 knn 背後的直覺在高維度上崩潰。但我不明白為什麼這個公式依賴於 N。有人可以澄清一下嗎？

此外，該書還通過說明：“……在訓練樣本的邊緣附近進行預測要困難得多。必須從相鄰樣本點進行推斷，而不是在它們之間進行插值”。這似乎是一個深刻的陳述，但我似乎無法理解它的含義。有人可以改寫嗎？

一個體積半徑的維超球體積與.

所以體積比距離的比例多從原點是.

所有的概率隨機選擇的點超過一個距離從原點是. 要獲得到最近隨機點的中值距離，請將此概率設置為. 所以

直觀地說，這是有一定道理的：隨機點越多，您期望離原點最近的點越接近，所以您應該期望是一個減函數. 這裡是一個減函數，所以是一個增函數，因此是一個減函數和它一樣根。

引用自：https://stats.stackexchange.com/questions/130998

comments powered by Disqus

相關問答

K=1 時 KNN 分類器中的訓練誤差

September 14, 2018

Machine-Learning

KNN 應該使用哪種類型的數據規範化？

August 25, 2018

為什麼我們需要擬合 k 最近鄰分類器？

June 5, 2018

R

具有連續和二元變量的 K 最近鄰

March 31, 2017

如何規範在線學習中的數據？

February 14, 2017

K-Nearest-Neighbour

R中傾向得分匹配後的不同結果

February 9, 2017