Self-Study
單位球N個樣本離原點最近點中位數公式的解釋
在Elements of Statistical Learning中,引入了一個問題來突出 k-nn 在高維空間中的問題。有數據點均勻分佈在維單位球。
從原點到最近數據點的中位距離由以下表達式給出:
什麼時候,公式分解為球半徑的一半,我可以看到最近的點如何接近邊界,從而使 knn 背後的直覺在高維度上崩潰。但我不明白為什麼這個公式依賴於 N。有人可以澄清一下嗎?
此外,該書還通過說明:“……在訓練樣本的邊緣附近進行預測要困難得多。必須從相鄰樣本點進行推斷,而不是在它們之間進行插值”。這似乎是一個深刻的陳述,但我似乎無法理解它的含義。有人可以改寫嗎?
一個體積半徑的維超球體積與.
所以體積比距離的比例多從原點是.
所有的概率隨機選擇的點超過一個距離從原點是. 要獲得到最近隨機點的中值距離,請將此概率設置為. 所以
直觀地說,這是有一定道理的:隨機點越多,您期望離原點最近的點越接近,所以您應該期望是一個減函數. 這裡是一個減函數, 所以是一個增函數, 因此是一個減函數和它一樣根。