Mixed-Model

廣義線性混合模型:模型選擇

  • October 31, 2013

這個問題/話題是在與一位同事的討論中提出的,我正在尋找一些關於此的意見:

我正在使用隨機效應邏輯回歸對一些數據進行建模,更準確地說是隨機截距邏輯回歸。對於固定效應,我有 9 個變量值得考慮並加以考慮。我想做某種模型選擇以找到重要的變量並給出“最佳”模型(僅限主效應)。

我的第一個想法是使用 AIC 來比較不同的模型,但是使用 9 個變量比較 2^9=512 個不同的模型(關鍵詞:數據挖掘)並不太令人興奮。

我與一位同事討論過這個問題,他告訴我他記得讀過關於使用 GLMM 進行逐步(或前向)模型選擇的文章。但是,不應使用 p 值(例如,基於 GLMM 的似然比檢驗),而應使用 AIC 作為進入/退出標準。

我發現這個想法很有趣,但我沒有找到任何進一步討論這個問題的參考資料,而且我的同事也不記得他在哪裡讀到的。許多書籍建議使用 AIC 來比較模型,但我沒有找到任何關於將它與逐步或前向模型選擇過程一起使用的討論。

所以我基本上有兩個問題:

  1. 在逐步模型選擇過程中使用 AIC 作為進入/退出標準有什麼問題嗎?如果是,有什麼替代方案?
  2. 您是否有一些討論上述程序的參考資料(也作為最終報告的參考資料?

最好的,

艾米利亞

多級模型中的逐步選擇是錯誤的,原因與“常規”回歸中的錯誤相同:p 值太低,標準誤差太小,參數估計值偏離 0 等等。最重要的是,它拒絕了你思考的機會。

9個靜脈注射不是很多。為什麼選擇這9個?你肯定是有原因的。

最初要做的一件事是看很多圖;哪些精確的數據在一定程度上取決於您的數據是縱向的(在這種情況下,x 軸上的時間圖通常很有用)還是集群的。但一定要看看 9 個 IV 和你的 DV 之間的關係(平行箱線圖是一種簡單的可能性)。

理想的情況是建立一些基於實質性意義的模型,並使用 AIC、BIC 或其他一些度量來比較它們。但是,如果沒有特定的模型顯然是最好的,請不要感到驚訝。你沒有說你在哪個領域工作,但在許多(大多數?)領域,性質是複雜的。幾個模型可能擬合得差不多,而不同的模型可能更適合不同的數據集(即使兩者都是來自同一群體的隨機樣本)。

至於參考 - 有很多關於非線性混合模型的好書。哪一個最適合您取決於 a)您在哪個領域 b)數據的性質是什麼 c)您使用什麼軟件。

回复您的評論

  1. 如果所有 9 個變量在科學上都很重要,我至少會考慮將它們都包括在內。如果每個人都認為很重要的變量最終產生了很小的影響,那就很有趣了。
  2. 當然,隨著時間的推移以各種方式繪製所有變量。
  3. 對於縱向多級模型的一般問題,我喜歡Hedeker 和 Gibbons;對於 SAS 中的非線性縱向模型,我喜歡Molenberghs 和 Verbeke。SAS 文檔本身(用於PROC GLIMMIX)也提供了指導。

引用自:https://stats.stackexchange.com/questions/74220

comments powered by Disqus