快速密度估計

November 19, 2014

假設您正在嘗試估計隨機變量的 pdf，其中有大量的獨立同分佈樣本（IE非常大，想想數千 - 數百萬）。

一種選擇是估計均值和方差，並假設它是高斯的。

另一方面，可以進行內核密度估計，以獲得更準確的結果（尤其是在有這麼多數據的情況下）。

問題是，我需要非常快速地評估生成的 pdf。如果我假設 pdf 是高斯的，那麼評估 pdf速度很快，但估計可能不准確。另一方面，內核密度估計會太慢而無法使用。

所以問題是：獲得比高斯更一般的pdf估計值的常用方法是什麼，但以增量方式？理想情況下，我希望有一個具有多個參數的模型（比如)，可用於權衡估計精度和評估速度。

我想到的可能方向是：

估計分佈的矩，並僅根據這些矩找到 pdf。這是時刻的數量。但是，基於模型的pdf的模型是什麼？

高斯混合混合物（這裡因為對於混合物的每個元素，我們保持均值、方差和權重，並且權重總和為 1）。這是一個好主意嗎？

歡迎任何其他想法。

謝謝！

相關問題：ML 估計；

更新/澄清：

感謝到目前為止的所有答案。

我真的需要 pdf（不是 cdf，也不是從這個分佈中採樣）。具體來說，我使用樸素貝葉斯 (NB) 分類和回歸的標量 pdf 估計：給定標籤，每個特徵都有一個 pdf，並且 NB 假設說它們是獨立的。因此，為了計算後驗（給定特徵值的標籤概率），我需要在觀察到的特徵值處評估不同的 pdf。

在單變量情況下，一個快速的近似值：您可以採用適度數量的箱（在單變量情況下，說大約一千個，儘管這取決於您的帶寬 - 您需要您的帶寬來覆蓋很多箱）和將點離散到 bin 中心；您只需按相應的 bin-count 縮放每個內核貢獻。（這種做法真的不適合高維）

另一種方法是僅在有限數量的位置評估內核，並在它們之間使用某種形式的平滑插值。

我想您可以嘗試對數樣條密度估計，但它可能不會更快。

對於多元密度估計，您可以查看快速高斯變換，例如，請參見此處。

引用自：https://stats.stackexchange.com/questions/124746

comments powered by Disqus

快速密度估計

相關問答

所有對數似然函數都可二次微分嗎？

為什麼密度函數有時用條件表示法編寫？

如果我知道我估計的密度關於 0 對稱，如何在我的核密度估計器中施加這個限制？

Wolfram Mathworld 是否會錯誤地描述具有概率密度函數的離散概率分佈？

符號：期望下面的波浪號是什麼意思？[複製]

鑑於單個樣本的概率為 0，為什麼 MLE 有意義？