Self-Study

單位球N個樣本離原點最近點中位數公式的解釋

  • January 2, 2015

Elements of Statistical Learning中,引入了一個問題來突出 k-nn 在高維空間中的問題。有數據點均勻分佈在維單位球。

從原點到最近數據點的中位距離由以下表達式給出:

什麼時候,公式分解為球半徑的一半,我可以看到最近的點如何接近邊界,從而使 knn 背後的直覺在高維度上崩潰。但我不明白為什麼這個公式依賴於 N。有人可以澄清一下嗎?

此外,該書還通過說明:“……在訓練樣本的邊緣附近進行預測要困難得多。必須從相鄰樣本點進行推斷,而不是在它們之間進行插值”。這似乎是一個深刻的陳述,但我似乎無法理解它的含義。有人可以改寫嗎?

一個體積半徑的維超球體積與.

所以體積比距離的比例多從原點是.

所有的概率隨機選擇的點超過一個距離從原點是. 要獲得到最近隨機點的中值距離,請將此概率設置為. 所以

直觀地說,這是有一定道理的:隨機點越多,您期望離原點最近的點越接近,所以您應該期望是一個減函數. 這裡是一個減函數, 所以是一個增函數, 因此是一個減函數和它一樣根。

引用自:https://stats.stackexchange.com/questions/130998

comments powered by Disqus