Distributions

如何在不過度擬合數據的情況下選擇最佳擬合?使用 N 個正態函數等對雙峰分佈進行建模

  • March 22, 2015

我有一個明顯的雙峰值分佈,我試圖適應它。數據可以很好地擬合 2 個正態函數(雙峰)或 3 個正態函數。此外,用 3 擬合數據還有一個合理的物理原因。

引入的參數越多,擬合就越完美,因為有足夠的常數,可以“擬合一頭大象”。

這是分佈,適合 3 條正態(高斯)曲線的總和:

分佈與

這些是每次擬合的數據。我不確定我應該在這裡應用什麼測試來確定適合度。數據由 91 個點組成。

1 正常功能:

  • RSS: 1.06231
  • X^2:3.1674
  • F.測試:0.3092

2個正常功能:

  • RSS: 0.010939
  • X^2:0.053896
  • F.測試:0.97101

3個正常功能:

  • RSS: 0.00536
  • X^2:0.02794
  • F.測試:0.99249

可以應用什麼正確的統計檢驗來確定這 3 種擬合中的哪一種是最好的?顯然,1 正態函數擬合是不夠的。那麼如何區分2和3呢?

補充一點,我主要是用 Excel 和一點 Python 來做這個;我還不熟悉 R 或其他統計語言。

這裡有兩種方法可以解決選擇分佈的問題:

  1. 對於模型比較,使用根據參數數量對模型進行懲罰的度量。信息標準做到了這一點。使用信息準則來選擇要保留的模型,選擇具有最低信息準則的模型(例如 AIC)。比較 AIC 的差異是否顯著的經驗法則是 AIC 的差異是否大於 2(這不是正式的假設檢驗,請參閱測試兩個非嵌套模型的 AIC 差異)。

AIC =, 在哪裡是估計參數的數量和是最大似然,和是似然函數和是觀測數據的概率以分佈參數為條件. 2. 如果你想要一個正式的假設檢驗,你至少可以通過兩種方式進行。可以說更簡單的方法是使用部分樣本擬合分佈,而不是使用卡方檢驗或 Kolgomorov-Smirnov 檢驗對其餘數據進行殘差分佈是否顯著不同。這樣,您就不會像評論中提到的 AndrewM 那樣使用相同的數據來擬合和測試您的模型。

您還可以通過調整零分佈來進行似然比檢驗。Lo Y.等人描述了一個版本。(2013) “測試正常混合物中的成分數量”。Biometrika但我無權訪問該文章,因此我無法為您提供有關如何執行此操作的更多詳細信息。

無論哪種方式,如果測試不顯著,則保留參數數量較少的分佈,如果顯著,則選擇參數數量較多的分佈。

引用自:https://stats.stackexchange.com/questions/142925

comments powered by Disqus