Mixed-Model

PQL、REML、ML、Laplace、Gauss-Hermite 是如何相互關聯的?

  • November 18, 2019

在學習廣義線性混合模型時,我經常看到上述術語。有時在我看來,這些是估計(固定?隨機?兩者?)效果的單獨方法,但是當我閱讀文獻時,我看到這些術語混雜在一起。例如 REML 下的 PQL。有人寫道,懲罰性 Qusi 似然適用於非正態條件響應,如對數正態,但在經典二項式或泊松情況下存在偏差,因此我應該使用 REML 或 ML。在其他文章中,我可以看到 REML 或 ML 僅用於線性模型,而另一篇文章說 REML 現在也可用於 GLMM(例如 R 中的 glmmTMB)。所以我理解 PQL 是一種獨立於 REML 的方法。但後來我看到一本書,其中他們比較了各種估計方法,包括通過 REML 的 PQL。那麼,REML 是 PQL 的一個特例嗎?接著,Laplace 或 Gauss-Hermitte 在哪裡發揮作用?我完全迷路了。

讓我們使用 R 中的示例來考慮它:glmmPQL、nlme、lme4、glmmTMB。我知道,glmmPQL 使用 PQL,nlme 使用 Laplace,lme4 使用 LMER 或 ML,glmmTMB 使用 LMER 進行 GLM。我還看到了 Laplace 和 Gauss-Hermitte 正交項與除 PQL 之外的所有這些項相關。

有沒有辦法組織這些方法?

廣義線性混合模型 (GLMM) 具有以下一般表示: $$ \left{ \begin{array}{l} Y_i \mid b_i \sim \mathcal F_\psi,\\ b_i \sim \mathcal N(0, D), \end{array} \right. $$ 在哪裡 $ Y_i $ 是對 $ i $ -th 樣本單元和 $ b_i $ 是該單元的隨機效應向量。響應 $ Y_i $ 以隨機效應為條件有一個分佈 $ \mathcal F $ 由向量參數化 $ \psi $ ,並且通常假設隨機效應遵循均值為 0 和方差-協方差矩陣的多元正態分佈 $ D $ . 一些標準的 GLMM 假設分佈 $ \mathcal F_\psi $ 是二項式、泊松、負二項式、Beta 或 Gamma 分佈。

這些模型的似然函數具有以下一般形式$$ L(\theta) = \prod_{i = 1}^n \int p(y_i \mid b_i; \psi) , p(b_i; D) , db_i, $$ 其中第一項是概率質量或概率密度函數 $ \mathcal F_\psi $ ,第二項是隨機效應的多元正態分佈的概率密度函數。還, $ \theta = (\psi, \mbox{vech}(D)) $ .

問題是這個似然函數定義中的積分沒有封閉形式的解。因此,要在最大似然下估計這些模型中的參數,您需要以某種方式近似這個積分。在文獻中,已經提出了兩種主要類型的近似。

  • 被積函數的近似:這些方法需要近似這兩項的乘積 $ p(y_i \mid b_i; \psi) \times p(b_i; D) $ 通過多元正態分佈,因為對於這種分佈,我們可以求解積分。PQL 和拉普拉斯近似方法屬於這一類。
  • 積分近似:這些方法需要通過(加權)和來近似整個積分,即 $$ \int p(y_i \mid b_i; \psi) , p(b_i; D) , db_i \approx \sum_k \varpi_k , p(y_i \mid b_k; \psi) , p(b_k; D). $$ 屬於這一類的一些方法是蒙特卡洛和自適應高斯正交近似。

優點與缺點

  • 被積函數的逼近通常比積分的逼近快。但是,它們不提供對近似誤差的任何控制。出於這個原因,當這兩項的乘積可以通過多元正態分佈很好地近似時,這些方法會更好地工作。這是數據更連續的時候。也就是說,在具有大量試驗的二項式數據和具有大量預期計數的泊松數據中。
  • 積分方法的逼近速度較慢,但它們確實通過在求和中使用更多項來控制逼近誤差。也就是說,通過考慮更大的蒙特卡洛樣本或更多的正交點。因此,這些方法在期望計數較低的二進制數據或泊松數據中效果更好。
  • 順便提一下,這兩類方法之間存在一些聯繫。例如,拉普拉斯近似等效於具有一個正交點的自適應高斯正交規則。
  • 最後,REML 方法更適用於估計積分確實有閉式解的線性混合模型,但關鍵是如何估計方差分量,即 $ D $ 協方差矩陣。眾所周知,經典的最大似然程序在估計這些參數時會產生有偏差的結果,尤其是在小樣本中,因為它沒有考慮到要估計方差參數,首先需要估計均值參數這一事實。REML 方法確實解釋了這一點,並且概括了為什麼在樣本方差中我們需要除以 $ n - 1 $ 獲得總體方差的無偏估計,而不是 $ n $ ,這是最大似然估計量,其中 $ n $ 是樣本量。

編輯:PQL 與 REML 結合

PQL 方法執行的近似會產生一個新的響應向量 $ Y_i^* $ , 是原始數據的變換 $ Y_i $ 試圖使 $ Y_i^* $ 正態分佈。因此,擬合 GLMM 等效於擬合線性混合模型 $ Y_i^* $ ,並且如上所述,在線性混合模型中,您可以選擇使用最大似然 (ML) 或受限最大似然 (REML) 來估計方差分量。

引用自:https://stats.stackexchange.com/questions/436611

comments powered by Disqus