多元模式的計算有效估計

August 3, 2012

簡短版本：估計從連續分佈中採樣的多維數據集模式的計算效率最高的方法是什麼？

長版：我有一個需要估計其模式的數據集。眾數與平均值或中位數不一致。下面顯示了一個示例，這是一個 2D 示例，但 ND 解決方案會更好：

目前，我的方法是

在等於所需模式分辨率的網格上計算核密度估計

尋找最大的計算點

顯然，這會在很多不合理的點上計算 KDE，如果有很多高維度的數據點或者我希望該模式有良好的分辨率，這尤其糟糕。

另一種方法是使用模擬退火、遺傳算法等來找到 KDE 中的全局峰值。

問題是是否有更聰明的方法來執行這個計算？

適合您想要做的事情的方法是均值偏移算法。本質上，均值偏移依賴於沿著梯度方向移動，這是用“陰影”非參數估計的， $ K' $ 給定內核的 $ K $ . 也就是說，如果密度 $ f(x) $ 估計為 $ K $ ，然後 $ \nabla f(x) $ 估計為 $ K' $ . Fukunaga 和 Hostetler (1975) 中描述了估計核密度梯度的細節，其中也恰好引入了均值偏移算法。

此博客條目中還對算法進行了非常詳細的說明。

參考：

K. Fukunaga 和 L. Hostetler，“密度函數梯度的估計，在模式識別中的應用”，IEEE Transactions on Information Theory 21(1)，1975 年 1 月。

引用自：https://stats.stackexchange.com/questions/33625

comments powered by Disqus

相關問答

Mathematical-Statistics

離散變量和連續變量。定義是什麼？

September 13, 2021

Normal-Distribution

如何確定樣本是否在多元正態分佈的標準差內

April 22, 2021

Random-Variable

為什麼兩個絕對連續的隨機變量之和不一定是絕對連續的？

January 7, 2021

Multivariate-Analysis

為什麼分量中位數在更高維度上沒有意義？

April 8, 2020

泊松二項分佈的眾數是否靠近均值？

January 15, 2020

為什麼柯西分佈如此有用？

July 6, 2019