Bayesian

為什麼可以在貝葉斯多級模型中將人口統計建模為隨機效應?

  • July 15, 2020

在貝葉斯多層次模型中(比如說,人們嵌套在國會選區內),我有時會看到個人層次的人口統計變量,比如種族建模為隨機效應。因此,這是本文中的一個稍微簡化的示例: $$ Pr(y_i=1)=\text{logit}^{-1}(\gamma_0 + \alpha^{race}{r[i]} +\alpha^{gender}{g[i]}+\alpha^{edu}{e[i]}+\alpha^{district}{d[i]}…) $$ $$ \alpha^{race}{r[i]} \sim N(0,\sigma^2{race}), for~r = 1,….4 $$ $$ \alpha^{gender}{g[i]} \sim N(0,\sigma^2{gender}) $$ $$ \alpha^{edu}{e[i]} \sim N(0,\sigma^2{edu}), for ~e=1,…,5 $$ 據我了解,該模型將所有個人層面的人口統計變量視為“隨機效應”,就像地區一樣。因此,對於種族,假設數據中存在的 4 個種族類別(黑人、白人、西班牙裔、其他)實際上只是從所有可能種族的更大人口中隨機抽取的 4 個。對我來說,這似乎很奇怪和錯誤,因為我們在數據中擁有的種族類別是詳盡無遺的,似乎沒有任何理由認為種族差異會呈正態分佈。

所以我的問題是:我對這個模型的解釋是否正確,如果是,為什麼它是合理的?

我知道之前確實有人問過這個問題,但他們得到的答案是,將種族等視為隨機效應可能是不合適的。但這正是 貝葉斯多級模型的許多 論文中所做的。

我建議您查看@Paul 的這個答案,以獲取有關所謂“隨機效應”和分層模型的指導。特別是,這句話是正確的:

隨機效應是通過部分匯集來估計的,而固定效應不是。

部分池化意味著,如果您在一個組中的數據點很少,則該組的效果估計將部分基於來自其他組的更豐富的數據。這可以是通過完全匯集所有組來估計效果之間的一個很好的折衷方案,這掩蓋了組級別的變化,以及完全分別估計所有組的效果,這可能會對低樣本組產生較差的估計。

答案是一個例子,並討論了這種方法與分層貝葉斯建模的關係。

這種匯集正是你引用的論文的作者打算用他們的多層次方法做的:*

…一個多級模型將組級參數匯集到它們的平均值,當組級方差較小時池化更大,而人口較少的組則更平滑。池化程度來自數據內生…

因此,儘管經常有人認為具有少量級別(性別、種族)的類別應該被視為回歸中的固定效應,但它們需要被視為隨機效應來完成這種部分池化。


*作者為此在 R 中使用了 GLMER,所以我想這個特定的例子並不是嚴格的貝葉斯方法。

引用自:https://stats.stackexchange.com/questions/477313

comments powered by Disqus