Estimation
多元模式的計算有效估計
簡短版本:估計從連續分佈中採樣的多維數據集模式的計算效率最高的方法是什麼?
長版:我有一個需要估計其模式的數據集。眾數與平均值或中位數不一致。下面顯示了一個示例,這是一個 2D 示例,但 ND 解決方案會更好:
目前,我的方法是
- 在等於所需模式分辨率的網格上計算核密度估計
- 尋找最大的計算點
顯然,這會在很多不合理的點上計算 KDE,如果有很多高維度的數據點或者我希望該模式有良好的分辨率,這尤其糟糕。
另一種方法是使用模擬退火、遺傳算法等來找到 KDE 中的全局峰值。
問題是是否有更聰明的方法來執行這個計算?
適合您想要做的事情的方法是均值偏移算法。本質上,均值偏移依賴於沿著梯度方向移動,這是用“陰影”非參數估計的, $ K' $ 給定內核的 $ K $ . 也就是說,如果密度 $ f(x) $ 估計為 $ K $ , 然後 $ \nabla f(x) $ 估計為 $ K' $ . Fukunaga 和 Hostetler (1975) 中描述了估計核密度梯度的細節,其中也恰好引入了均值偏移算法。
此博客條目中還對算法進行了非常詳細的說明。
參考:
- K. Fukunaga 和 L. Hostetler,“密度函數梯度的估計,在模式識別中的應用”,IEEE Transactions on Information Theory 21(1),1975 年 1 月。