Categorical-Data

僅給定邊際計數的聯合分佈的最大似然估計量

  • November 29, 2014

讓是兩個分類變量的聯合分佈, 和. 說樣本是從這個分佈中抽取的,但我們只得到邊際計數,即:

什麼是最大似然估計, 給定? 這是已知的嗎?計算上可行嗎?除了 ML,還有其他合理的方法來解決這個問題嗎?

Dobra et al (2006)的論文“Data Augmentation in Multi-way Contingency Tables With Fixed Marginal Totals”研究了這類問題 。讓表示模型的參數,讓表示每個未觀察到的整數計數表對,並讓是邊際計數相等的整數表的集合. 然後觀察邊緣計數的概率是:

在哪裡是多項式抽樣分佈。這定義了 ML 的似然函數,但除了小問題外,直接評估是不可行的。他們推薦的方法是 MCMC,您可以在其中交替更新和通過從提案分佈中抽樣並根據 Metropolis-Hastings 接受率接受更改。這可以適應於找到一個近似最大值使用蒙特卡羅 EM。 一種不同的方法將使用變分方法來近似總和. 邊際約束可以編碼為因子圖並推斷可以使用期望傳播來執行。

要了解為什麼這個問題很困難並且不允許簡單的解決方案,請考慮案例. 服用作為行總和和作為列總和,有兩個可能的計數表:

因此似然函數是

這個問題的 MLE 是

這對應於假設左邊的表格。相比之下,假設獨立性得到的估計是

具有較小的似然值。

引用自:https://stats.stackexchange.com/questions/125908

comments powered by Disqus