Estimation
快速密度估計
假設您正在嘗試估計隨機變量的 pdf,其中有大量的獨立同分佈樣本(IE非常大,想想數千 - 數百萬)。
一種選擇是估計均值和方差,並假設它是高斯的。
另一方面,可以進行內核密度估計,以獲得更準確的結果(尤其是在有這麼多數據的情況下)。
問題是,我需要非常快速地評估生成的 pdf。如果我假設 pdf 是高斯的,那麼評估 pdf速度很快,但估計可能不准確。另一方面,內核密度估計會太慢而無法使用。
所以問題是:獲得比高斯更一般的pdf估計值的常用方法是什麼,但以增量方式?理想情況下,我希望有一個具有多個參數的模型(比如),可用於權衡估計精度和評估速度。
我想到的可能方向是:
- 估計分佈的矩,並僅根據這些矩找到 pdf。這是時刻的數量。但是,基於模型的pdf的模型是什麼?
- 高斯混合混合物(這裡因為對於混合物的每個元素,我們保持均值、方差和權重,並且權重總和為 1)。這是一個好主意嗎?
歡迎任何其他想法。
謝謝!
相關問題:ML 估計;
更新/澄清:
感謝到目前為止的所有答案。
我真的需要 pdf(不是 cdf,也不是從這個分佈中採樣)。具體來說,我使用樸素貝葉斯 (NB) 分類和回歸的標量 pdf 估計:給定標籤,每個特徵都有一個 pdf,並且 NB 假設說它們是獨立的。因此,為了計算後驗(給定特徵值的標籤概率),我需要在觀察到的特徵值處評估不同的 pdf。
在單變量情況下,一個快速的近似值:您可以採用適度數量的箱(在單變量情況下,說大約一千個,儘管這取決於您的帶寬 - 您需要您的帶寬來覆蓋很多箱)和將點離散到 bin 中心;您只需按相應的 bin-count 縮放每個內核貢獻。(這種做法真的不適合高維)
另一種方法是僅在有限數量的位置評估內核,並在它們之間使用某種形式的平滑插值。
我想您可以嘗試對數樣條密度估計,但它可能不會更快。
對於多元密度估計,您可以查看快速高斯變換,例如,請參見此處。