Normal-Distribution
為什麼假設隨機效應在 (G) LMM 中服從正態分佈?
簡而言之,我的問題如下:
- 為什麼假設正態分佈的隨機效應很常見(尤其是在廣義線性混合模型中)?
更長的版本:
在某些情況下,近似正態分佈的隨機效應是有意義的。例如,假設我們測量個人的體重( $ y $ ) 取決於飲食類型 ( $ x $ ) 他們在節食之前和之後每月一次。如果個人( $ \upsilon $ ) 測量兩次,然後是以下 LMM:
$$ y_{ij} = \beta_0+ \beta_1 x + \upsilon_i + \epsilon_{ij} \ \upsilon \sim \mathcal{N}(0,,\sigma_\upsilon^2), ; \epsilon \sim \mathcal{N}(0,,\sigma_\epsilon^2) $$
基本上假設個人( $ \upsilon $ ) 來自一些較大的群體,這會導致其初始權重出現隨機、正態分佈的偏移。有人可能會爭辯說,無論個體(遺傳、環境、生活方式)之間存在什麼(未知)差異,都可能像獨立隨機變量的總和一樣歸結為正態分佈。事實上,我們可以對結果變量的誤差使用幾乎相同的參數 ( $ \epsilon $ )。
但是,假設我們數鳥( $ y $ ) 在不同的地形類型 ( $ x $ ) 在不同的島嶼上 ( $ \upsilon $ ) 並使用泊松 GLMM,**如果有的話,為什麼正態性假設仍然站得住腳?**當然,兩個島之間不同的隨機變量之和會導致具有正態分佈誤差的結果出現正態分佈偏移,但是我們如何證明非正態誤差結構的合理性呢?
我知道 GLMM 對線性部分中的隨機效應進行建模,但該線性部分是否仍不假定具有正常的誤差結構?(對不起雙重否定。)
獎金問題:
- 是否有任何非正態隨機效應的簡單示例(例如泊松分佈)?
幾點:
- 為線性混合模型(即,正態分佈)結果中的隨機效應選擇正態分佈通常是為了數學上的方便。也就是說,正態分佈與隨機效應的正態分佈很好地配合, 你得到一個結果的邊際分佈那是多元正態。
- 在這方面,將混合模型視為分層貝葉斯模型會有所幫助。也就是說,在線性混合模型中,假設隨機效應的正態分佈是一個共軛先驗,它會給你一個封閉形式的後驗。因此,您可以對其他發行版執行相同的操作。如果您有二項式結果數據,則隨機效應的共軛先驗是 Beta 分佈,您將獲得 Beta-Binomial 模型。同樣,如果您有 Poisson 結果數據,則隨機效應的共軛先驗是 Gamma 分佈,您將獲得 Gamma-Poisson 模型。在此明確說明,在前面提到的示例中,隨機效應的分佈是在結果的平均值的範圍內,以隨機效應為條件,而不是在線性預測變量的範圍內(例如,在 Gamma-Poisson 示例中,
- 沒有什麼能阻止你改變分佈。例如,在線性混合模型中,您可以將學生 t 分佈用於隨機效應,或者在分類結果中使用正態分佈。但是這樣你就失去了具有封閉形式後驗的計算優勢。有大量文獻研究改變隨機效應分佈的影響。許多人為此提出了靈活的模型;例如,使用樣條或混合能夠捕獲多模態的隨機效應分佈。然而,普遍的共識是正態分佈的效果很好。也就是說,即使您模擬隨機效應的雙峰分佈或偏態分佈的數據,並且您在混合模型中假設它是正常的,結果(即,
- 因此,正態分佈的選擇占主導地位,儘管確實存在其他選擇。關於您關於選擇正態分佈是否適用於分類數據的觀點,正如 Ben 所提到的,請注意,隨機效應的分佈不是放在結果上,而是放在結果的轉換均值上。例如,對於泊松數據,您假設隨機效應的正態分佈在哪裡表示結果變量的預期計數這是觀察到的計數。