Mixed-Model

如何識別異常值並對 lme4 模型進行模型診斷?

  • February 15, 2016

我需要在模型中識別異常值和高槓桿點,並執行模型診斷lme4。對於異常值和高槓桿點,簡單地製作一個圖來進行視覺檢查會很好,但還不夠。我有 10,800 個數據點,需要通過一些分析或計算測試將每個點標記為異常值/高槓桿或非異常值/高槓桿。 在識別出異常值/高槓桿點後,我將通過一個單獨的過程來決定是否從數據集中排除這些點。

除了上面提到的自動識別之外,點的排除將考慮對每個觀察的原始數據源(錄音)的事先詳細分析。在這裡,我將這個過程稱為“選擇性刪除”。

我還需要了解我的異常值是否應該基於“邊際”或“條件”殘差,以及我的槓桿率是否應該基於固定或固定加隨機效應。對於“邊際”和“條件”的定義,以及槓桿的潛在定義,我正在關注線性混合模型的診斷和治療,Singer 等人,2013 年

即,使用形式的混合模型……

在哪裡是一個對稱的正定矩陣。邊際,我的意思是形式的殘差 : 通過條件,我的意思是形式的殘差:

我的問題是:

  1. 如何通過基於模型 的自動化程序識別異常值。lme4
  2. 是否應使用邊際殘差或條件殘差來識別選擇性刪除的候選者。
  3. 應該使用什麼樣的殘差來評估正態性、線性、同方差性等。
  4. 如何識別高槓桿點以進行選擇性刪除,以及是否使用來自固定效應或所有效應的槓桿(參見Singer 等人,上文)。
  5. 如何測試它分佈為,即一般多元正態?這僅僅是通過查看隨機效應的 QQ 圖來完成的嗎?如果有協方差,即非零非對角項?查看每個隨機效應的一維 QQ 圖是否仍然足以評估這種類型的正態性?還是需要某種轉換?

(這開始是一條評論,但似乎太長了。)

這個問題可能沒有得到應有的關注,因為它非常廣泛(除其他事項外,您在這裡提出了 5 個單獨的問題)。幾個答案:

  • 條件殘差和邊際殘差只是意味著不同的東西,我不確定這裡是否有“正確答案”——你只是在問不同類型的異常值/槓桿。一般來說,條件殘差(即re.form=NULL,或默認值,in lme4)似乎更有意義。
  • 請注意,您獲得的許多影響度量(例如,通過hatvalues.merMod(),見下文)將取決於隨機效應的估計方差 - 協方差矩陣;這與您是否在條件模式/BLUP 上進行調節的問題不同。如果您不想以這些估計為條件,則必須(1)假設方差-協方差參數估計的多元正態性(ugh)或(2)進行某種參數引導(double-ugh) .
  • 如果 (G) LMM 涉及反轉大型矩陣,許多標準影響測量會更加困難——這並不總是可行的。該influence.ME軟件包通過半蠻力方法完成了很多工作:

影響()函數迭代地修改混合效應模型以抵消一組數據對參數的影響,並返回返回[原文如此]這些迭代修改模型的固定參數。

還要注意有影響的觀察和有影響的群體之間的區別,其中任何一個都可能是有趣的。

  • lme4包確實通過 提供了一個帽子矩陣(或其對角線)?hatvalues.merMod,因此您可以使用它們來計算一些標準的影響度量。
  • 就 BLUP/條件模式的邊際 QQ 圖而言:如果BLUP/條件模式是多元正態分佈,那麼單變量分佈也是如此。對立成立(如果單變量分佈不好,則多元分佈不好),但不一定相反(如果單變量分佈看起來不錯,多元分佈可能仍然不好),但 IMO 你必須工作得很好很難構建這樣的例子。
  • 對隨機效應的錯誤指定有正式的測試,例如 Abad 等人。2010 年生物統計學(見下面的完整引文)。不知道它在哪裡實施。
  • 最後,您鏈接的會議論文中似乎已經討論了很多您想要的內容(參考下文)。為什麼不直接畫出他們建議的圖並選擇一個截止點(例如) 從它們中識別異常值?

Abad、Ariel Alonso、Saskia Litière 和 Geert Molenberghs。“測試廣義線性混合模型中的錯誤規範。” 生物統計學11,沒有。4(2010 年 10 月 1 日):771–86。doi:10.1093/biostatistics/kxq019。

Julio M. Singer、Juvencio S. Nobre 和 Francisco MM Rocha。“線性混合模型的診斷和治療”,5486。香港,2013 年。http: //2013.isiproceedings.org/Files/CPS203-P28-S.pdf

引用自:https://stats.stackexchange.com/questions/196724

comments powered by Disqus