Hypothesis-Testing

離散數據的擬合優度:最佳方法

  • November 29, 2014

數據: 出於本問題/交流的目的,我們可以假設數據看起來像rnbinom(1000,size=0.1,prob=0.01)R 中的數據,它從負二項分佈(size=0.1成功概率和概率prob=0.01)生成 1,000 個觀察值的隨機樣本。這是參數化,其中隨機變量表示size成功次數之前的失敗次數。尾巴很長,1000 次觀察並不是很多數據。

問題: 我得到了一些數據({1,2,….} 上的整數)[見上文](1,500 個數據點),並要求我找到任何參數的“最佳擬合”分佈和估計值。我對數據一無所知。我知道對於長尾數據來說,這不是一個非常大的樣本。更多數據是可能的。

我所做的: 我考慮過通過將兩個不同的分佈擬合到數據中來使用似然比檢驗,但我認為這並不適用(例如,我無法確定適當的臨界 p 值),除非這兩個分佈是嵌套的…

然後我考慮使用 Kolmogorov-Smirnov 檢驗(針對離散數據進行了調整),但無論如何,在 R 中,它抱怨它無法計算“有關係的數據”的 p 值。

在這種情況下,我測試/確定不同分佈的擬合的最佳方法是什麼?以下是我考慮過的其他一些事情:

  1. 要求(很多)更多數據。但這會有幫助嗎?例如,我可以使用漸近結果嗎?
  2. 考慮一些引導/重新採樣/蒙特卡洛方案?如果是這樣,是否有我可以/應該閱讀的標準參考資料來學習如何正確地做到這一點?謝謝

如果我正確理解了您的問題,您只需要將數據擬合到 distribution。在這種情況下,您可以使用 R 包中的函數之一,例如fitdistrfrom MASSpackage,它使用最大似然估計 (MLE)並支持離散分佈,包括二項式泊松

然後,作為第二步,您需要執行一項(或多項)*擬合優度 (GoF)*測試來驗證結果Kolmogorov-SmirnovAnderson-Darling和 (AFAIK) Lilliefors檢驗均不適用於離散分佈。然而,幸運的是,卡方 GoF 檢驗適用於連續分佈和離散分佈,並且在 R 中是調用stats::chisq.test()函數的問題。

或者,由於您的數據代表離散分佈,您可以使用vcd包及其函數goodfit()。此功能既可以用作標準 GoF 測試的替代品chisq.test(),也可以更好地用作完整的工作流程分佈擬合GoF 測試)。對於完整的工作流程選項,只需使用默認設置而不指定參數par(您可以指定size, if type = "nbinomial")。將使用最大似然最小卡方估計參數(您可以選擇方法)。summary()調用函數可以得到結果。

引用自:https://stats.stackexchange.com/questions/125895

comments powered by Disqus