Mixed-Model

與二進制數據相關的方差劃分和縱向變化

  • June 7, 2012

我正在使用邏輯線性混合效應模型(隨機截距)分析 175 所學校的 300,000 名學生的數據。每個學生只出現一次,數據跨越 6 年。

  1. 我如何以類似於 VPC/ICC 的方式劃分學校和學生級別之間的差異以獲得持續的結果?我看過這篇文章,它提出了 4 種方法,其中 A 和 B 對我來說似乎很有趣,但我想知道使用這兩種方法有什麼優點/缺點,當然還有其他方法可以做它。
  2. 如何比較每年(或任何其他時間段)的學校級殘差?到目前為止,我已經通過按年份劃分數據並針對每一年的數據運行模型來做到這一點,但我認為這是有缺陷的,因為:i)沒有明顯的理由為什麼我應該按年份劃分;ii)由於每年的固定效應估計值不同,因此逐年比較隨機效應可能沒有意義(這只是我的直覺,如果有人可以更正式地解釋這一點,如果它是正確的,那就太好了)。

注意:在與 whuber 和 Macro進行元討論後,我重新寫了這個問題

讓表示學生的響應和預測向量(分別)在學校.

(1)對於二進制數據,我認為進行類似於連續數據的方差分解的標準方法是作者在您的鏈接中稱為方法 D(我將在下面評論其他方法) - 將二進制數據設想為由線性模型控制的基礎連續變量產生,並在該潛在尺度上分解方差。原因是邏輯模型(和其他 GLM)自然地以這種方式出現——

要看到這一點,請定義 使其由線性混合模型控制:

在哪裡是回歸係數,是學校水平的隨機效應和是殘差方差項,具有標準邏輯分佈。現在讓

讓現在,只需使用我們擁有的邏輯 CDF

現在採取雙方的logit變換,你有

這正是邏輯混合效應模型。因此,邏輯模型等效於上面指定的潛變量模型。一個重要的注意事項:

  • 規模沒有被識別,因為如果你要縮小它但一個常數,它只會將上面的內容更改為

因此,係數和隨機效應將簡單地按比例放大

相應的金額。所以,被使用,這意味著.

現在,如果你使用這個模型然後數量

估計潛在潛在變量的類內相關性。另一個重要說明:

  • 如果相反,被指定為具有標準正態分佈,則您有混合效應概率模型。在這種情況下估計同一所學校的兩個隨機選擇的學生之間的*四色相關性*,皮爾森(我認為大約在 1900 年左右)表明,當潛在的連續數據呈正態分佈時,這些相關性在統計上被識別出來(這項工作實際上表明這些相關性是在二元情況之外被識別出來的對於多類別情況,這些相關性稱為多變量相關性)。出於這個原因,當主要興趣是估計二元數據的(四分)類內相關性時,使用概率模型可能更可取(並且是我的建議)。

關於您鏈接的論文中提到的其他方法:

  • (A)我從未見過線性化方法,但我能看到的一個缺點是沒有跡象表明由此引起的近似誤差。此外,如果您要對模型進行線性化(通過可能的粗略近似),為什麼不首先使用線性模型(例如選項(C),我將在一分鐘內介紹)?由於 ICC 將依賴於.
  • **(B)**模擬方法對統計學家具有直觀的吸引力,因為它可以為您提供原始數據規模上的估計方差分解,但是,根據受眾的不同,(i) 在您的“方法”中描述這一點可能會很複雜部分和(ii)可能會關閉正在尋找“更標準”的評論者
  • **(C)**假設數據是連續的可能不是一個好主意,儘管如果大多數概率不太接近 0 或 1,它的性能不會很糟糕。但是,這樣做幾乎肯定會給審閱者帶來危險所以我會遠離。

現在終於,

**(2)**如果不同年份的固定效應差異很大,那麼您認為很難比較不同年份的隨機效應方差是正確的,因為它們可能在不同的尺度上(這與不可識別性有關上面提到的縮放問題)。

如果您想隨著時間的推移保持固定效果(但是,如果您看到它們隨著時間的推移發生很大變化,您可能不想這樣做)但是查看隨機效果方差的變化,您可以使用一些隨機的來探索這種效果斜率和虛擬變量。例如,如果您想查看不同年份的 ICC 是否不同,您可以讓如果觀察是在年份進行的否則為 0,然後將您的線性預測器建模為

這將為您提供每年不同的 ICC,但具有相同的固定效果。及時使用隨機斜率可能很誘人,使您的線性預測器

但我不建議這樣做,因為這只會讓你的聯想隨著時間的推移而增加,而不是**減少

引用自:https://stats.stackexchange.com/questions/29986

comments powered by Disqus