Density-Function

你能用外行的術語解釋 Parzen 窗口(內核)密度估計嗎?

  • November 3, 2016

Parzen 窗口密度估計被描述為

在哪裡是向量中的元素數,是一個向量,是概率密度,是 Parzen 窗口的維度,並且是一個窗函數。

我的問題是:

  1. Parzen 窗口函數與其他密度函數(如高斯函數等)之間的基本區別是什麼?
  2. 窗口函數的作用是什麼() 求密度?
  3. 為什麼我們可以插入其他密度函數來代替窗口函數?
  4. 的作用是什麼在尋找密度?

Parzen 窗口密度估計核密度估計的另一個名稱。它是一種從數據中估計連續密度函數的非參數方法。

假設您有一些數據點 $ x_1,\dots,x_n $ 來自常見的未知的,可能是連續的,分佈 $ f $ . 您有興趣根據您的數據估計分佈。您可以做的一件事是簡單地查看經驗分佈並將其視為與真實分佈等效的樣本。但是,如果您的數據是連續的,那麼您很可能會看到每個 $ x_i $ 點在數據集中只出現一次,因此基於此,您會得出結論,您的數據來自均勻分佈,因為每個值具有相等的概率。希望您可以做得更好:您可以將數據打包在一些等間距的間隔中,併計算落入每個間隔的值。這種方法將基於估計直方圖。不幸的是,對於直方圖,您最終會得到一些 bin,而不是連續分佈,所以它只是一個粗略的近似值。

核密度估計是第三種選擇。主要思想是你近似 $ f $ 通過連續分佈的混合 $ K $ (使用你的符號 $ \phi $ ),稱為內核,以 $ x_i $ 數據點的規模(帶寬)等於 $ h $ :

$$ \hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) $$

如下圖所示,其中正態分佈用作內核 $ K $ 和不同的帶寬值 $ h $ 用於估計給定七個數據點的分佈(由圖頂部的彩色線條標記)。圖上的彩色密度是以核為中心 $ x_i $ 點。請注意 $ h $ 是一個相對參數,它的值總是根據您的數據和相同的值選擇 $ h $ 對於不同的數據集,可能不會給出相似的結果。

在相同數據上估計的四個內核密度

核心 $ K $ 可以認為是一個概率密度函數,需要積分為一。它還需要是對稱的,這樣 $ K(x) = K(-x) $ 然後,以零為中心。維基百科關於內核的文章列出了許多流行的內核,例如高斯(正態分佈)、Epanechnikov、矩形(均勻分佈)等。基本上任何滿足這些要求的分佈都可以用作內核。

顯然,最終估計將取決於您選擇的內核(但不是那麼多)和帶寬參數 $ h $ . 以下線程 如何解釋內核密度估計中的帶寬值?更詳細地描述了帶寬參數的使用。

用簡單的英語說,你在這裡假設的是觀察到的點 $ x_i $ 只是一個樣本並遵循一些分佈 $ f $ 要估計。由於分佈是連續的,我們假設在 $ x_i $ 點(鄰域由參數定義 $ h $ ) 我們使用內核 $ K $ 來解釋它。某個鄰域中的點越多,該區域周圍積累的密度就越大,因此,該區域的整體密度就越高。 $ \hat{f_h} $ . 結果函數 $ \hat{f_h} $ 現在可以評估任何點 $ x $ (不帶下標)來獲得它的密度估計,這就是我們獲得函數的方式 $ \hat{f_h}(x) $ 這是未知密度函數的近似值 $ f(x) $ .

核密度的好處在於,與直方圖不同,它們是連續函數,並且它們本身就是有效的概率密度,因為它們是有效概率密度的混合。在許多情況下,這是盡可能接近的近似值 $ f $ .

核密度與其他密度(作為正態分佈)之間的區別在於“通常”密度是數學函數,而核密度是使用您的數據估計的真實密度的近似值,因此它們不是“獨立”分佈。

我會向您推薦 Silverman(1986 年)和 Wand 和 Jones(1995 年)關於這個主題的兩本不錯的介紹性書籍。


西爾弗曼,BW (1986)。用於統計和數據分析的密度估計。CRC/查普曼和霍爾。

Wand, MP 和 Jones, MC (1995)。內核平滑。倫敦:查普曼和霍爾/CRC。

引用自:https://stats.stackexchange.com/questions/244012

comments powered by Disqus