模型複雜性的度量

September 18, 2010

我們如何比較具有相同參數數量的兩個模型的複雜性？

編輯 09/19：澄清一下，模型複雜性是衡量從有限數據中學習的難易程度。當兩個模型同樣適合現有數據時，複雜度較低的模型將對未來數據產生較低的誤差。當使用近似值時，這在技術上可能並不總是正確的，但如果它在實踐中往往是正確的，那就沒問題了。不同的近似值給出不同的複雜度度量

除了最小描述長度的各種度量（例如，歸一化最大似然、Fisher 信息近似）之外，還有兩種其他方法值得一提：

參數引導。它比要求苛刻的 MDL 措施更容易實施。Wagenmaker 及其同事撰寫了一篇不錯的論文：

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004)。使用參數引導評估模型模仿。數學心理學雜誌，48，28-50。

摘要：

我們提出了一個通用的採樣程序來量化模型模仿，定義為模型解釋競爭模型生成的數據的能力。這種抽樣過程稱為參數引導交叉擬合方法 (PBCM; cf. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23))，生成擬合優度差異的分佈預期在每個競爭模型下。在 PBCM 的數據通知版本中，生成模型具有通過擬合所考慮的實驗數據獲得的特定參數值。可以將數據通知的差異分佈與觀察到的擬合優度差異進行比較，以量化模型的充分性。在 PBCM 的數據不知情版本中，生成模型基於先驗知識具有相對廣泛的參數值範圍。通過幾個示例說明了數據知情和數據未知情 PBCM 的應用。

**更新：用簡單的英語評估模型模仿。**您採用兩個競爭模型中的一個，並為該模型隨機選擇一組參數（無論是否通知數據）。然後，您使用所選參數集從該模型生成數據。接下來，讓兩個模型擬合生成的數據，並檢查兩個候選模型中的哪一個更適合。如果兩個模型同樣靈活或複雜，則生成數據的模型應該更適合。但是，如果另一個模型更複雜，它可以提供更好的擬合，儘管數據是從另一個模型生成的。您對兩個模型重複此操作數次（即，讓兩個模型生成數據並查看兩個模型中哪一個更適合）。“過擬合”另一個模型產生的數據的模型是更複雜的模型。 2. 交叉驗證：它也很容易實現。請參閱此問題的答案。但是，請注意，它的問題在於樣本切割規則（留一法、K-折疊等）中的選擇是無原則的。

引用自：https://stats.stackexchange.com/questions/2828

comments powered by Disqus

模型複雜性的度量

相關問答