Machine-Learning

有人可以像我 5 歲一樣從 Hastie 的 ESL 書中解釋這個問題嗎?

  • August 31, 2016

我正在閱讀 Hastie 的 ESL 書籍,我在問題 2.3 上遇到了困難。問題如下:

在此處輸入圖像描述

我們正在考慮在原點進行最近鄰估計,從原點到最近數據點的中值距離由該方程給出。我不知道從哪裡開始嘗試得出這個。

我知道大多數數據點更接近樣本空間的邊界,而不是任何其他數據點(維度災難),但我無法將其轉化為線性代數/概率意義。

讓距原點的距離,讓是單位超球面的體積方面。然後包含在半徑超球面的體積是

如果我們讓表示包含在這個超球體中的體積分數,並定義, 然後

如果數據點在單位球內均勻分佈,那麼對於上式是累積分佈函數 (CDF). 這相當於一個均勻的概率密度在單位區間內,即. 因此,正如 Mark Stone 在評論中所暗示的那樣,我們可以減少維案例到等效的一維問題。

現在如果我們有一個點,那麼根據 CDF 的定義,我們有和. 如果是其中的最小值點,並且這些點都是獨立的,則 CDF 為

(這是單變量極值理論的標準結果)。 根據中位數的定義,我們有

我們可以重寫為

這相當於期望的結果。 編輯:嘗試“ ELI5 ”風格的答案,分三個部分。

  1. 對於具有單點的一維情況,距離均勻分佈在,所以中位數將是.
  2. 在一維空間中,最小值的分佈點是第一個案例-次冪。
  3. 在尺寸,距離不是均勻分佈的,而是是。

引用自:https://stats.stackexchange.com/questions/232686

comments powered by Disqus