Distributions

如何使用/解釋經驗分佈?

  • March 20, 2011

首先我要為這個模糊的標題道歉,我現在真的無法制定一個更好的,請隨時更改,或建議我更改標題以使其更適合問題的核心.

現在關於這個問題本身,我一直在研究一個軟件,在這個軟件中我遇到了使用經驗分佈進行採樣的想法,但是現在它已經實現了,我不知道如何解釋它。請允許我描述一下我做了什麼,以及為什麼:

我對一組對象進行了一堆計算,得出了最終分數。然而,分數是非常臨時的。因此,為了從特定對象的分數中找出一些意義,我所做的是使用模擬/隨機生成的值對分數進行大量(N = 1000)計算,產生 1000 個模擬分數。然後通過這 1000 個模擬分數值來估計該特定對象的經驗“分數分佈”。

我已經使用Apache Commons Math 庫在 Java 中實現了這個(因為軟件的其餘部分也是在 Java 環境中編寫的),特別是EmpiricalDistImpl 根據該類使用的文檔:

什麼相當於具有高斯平滑的可變核方法:消化輸入文件

  1. 傳遞文件一次以計算最小值和最大值。
  2. 將 min-max 的範圍劃分為 binCount “bins”。
  3. 再次傳遞數據文件,計算每個 bin 的 bin 計數和單變量統計信息(平均值、標準偏差)
  4. 將區間 (0,1) 劃分為與 bin 相關的子區間,bin 的子區間的長度與其計數成正比。

現在我的問題是,從這個分佈中採樣以計算某種期望值是否有意義?換句話說,我能在多大程度上信任/依賴這個分佈?例如,我能否就觀察分數的重要性得出結論通過檢查分佈?

我意識到這可能是看待此類問題的一種非正統方式,但我認為更好地掌握經驗分佈的概念以及它們如何/不能用於分析會很有趣。

經驗分佈一直用於推理,因此您絕對走在正確的軌道上!經驗分佈最常見的用途之一是自舉。事實上,您甚至不必使用上面描述的任何機器。簡而言之,您以統一的方式從原始樣本中進行多次抽取(帶替換),結果可用於計算先前計算的統計量的置信區間。此外,這些樣本具有很好的理論收斂特性。在此處查看有關該主題的維基百科文章。

引用自:https://stats.stackexchange.com/questions/8528

comments powered by Disqus