Random-Effects-Model

我們可以在多級/分層設計中將非隨機因素建模為隨機嗎?

  • January 4, 2015

嚴格隨機變量(應該這樣建模)和非隨機變量之間的區別,有些人認為如果它是分層/多級模型,則可以將其建模為隨機變量,這對我來說是模糊的。

Bates 和Bolker 用真正隨機的情況舉例說明隨機效應,例如隨機選擇樣本中的產品質量。儘管他們的lme4工作令人難以置信,但仍不清楚隨機與非隨機之間的界限在哪裡。社會科學中的討論使這一點更加模糊。多級/分層模型和隨機效應模型在計算上是相等的lme4,那麼我們在哪裡畫線呢?

例如,我有一個數據集,對幾個人進行了重複測量(這是隨機的!),但我相信,並且結果lme4表明,很大一部分差異存在於他們的社會經濟變量中(例如生活區域、種族等)。這些變量不是隨機的,但多級模型認為這些變量可以這樣使用。其他示例來自對學生成績的研究,通常將學生嵌套在教師中,並進一步嵌套在學校中。所有這些變量都是常數。

如果在多級(分層)模型領域是合理的,我們可以將非隨機因素建模為隨機因素嗎?

我對你的問題感到困惑。我知道你說你理解固定效應和隨機效應,但也許你不像我那樣理解它們。我在這裡發布了一個印刷書籍章節的相當長的摘錄,解釋了我的觀點(相當務實,與 Andrew Gelman 的觀點相當接近)。

更直接地回答這個問題:

  • 將收入等社會經濟變量的主要影響隨機納入(IMO)沒有任何意義。 如果您對每個人的收入進行了不止一種測量,則可以將個人作為分組變量包括在內,並允許收入對響應(無論是什麼)的影響因人而異。
  • 種族似乎作為一種固定效應最有意義,並且您不太可能能夠在多個種族的影響下衡量一個人,但您可能(例如)能夠表徵效應中的隨機變化跨越不同國家的種族。您可以將其視為隨機效應(即種族之間的模型差異是從正態分佈中得出的),但這可能是不切實際的,因為您的數據集中可能沒有足夠的不同種族,而且很難我要為此提出一個很好的概念論據…
  • “居住面積”作為一個分組變量是有意義的,這肯定是一個合理的隨機效應(即截距會因居住區而異)。個人可能會嵌套在區域內,除非個人在您研究的時間範圍內在區域之間移動。
  • 您的情況似乎是個體之間存在一些隨機變化的情況,但您也有個體水平的協變量。將這些個體層面的協變量(種族、收入等)添加到模型中將解釋一些個體間的變異性(這可能是一個好主意)。

它可能會增加區分分組變量(必須是分類變量)的清晰度,分組變量代表事物變化的組,以及影響,這是某些參數/效果的差異(通常是截距,但可能是收入的影響/教育/其他)跨越一些分組變量的水平。

更新:我會冒昧地給你一些對立面

我對隨機效應的理解:從人群中隨機選擇的因素;

  • 也許,這取決於你的哲學觀。這在經典的常客範式中必需的,但我會通過詢問將這些影響視為從一些假設人群中隨機抽取是否合理來稍微放鬆一下。(這裡的經典示例是(1)詳盡抽樣(如果您對城市中的每個社區或國家/地區的每個地區/省/州都有測量結果呢?您仍然可以將它們視為來自某些超級人口的隨機抽取嗎?和(2 )按順序測量的時間段(例如,2002-2012 年)。在這兩種情況下,我會說使用隨機效應對其進行建模具有實用意義。)

因子的水平沒有什麼意義;

  • 不必要。我認為隨機效應必須是令人討厭的變量的想法在實踐中並不成立。例如,在動物育種分析中,人們可能對了解特定動物的育種價值 (BLUP) 非常感興趣。(所謂的關注程度確實對人們比較模型的方式有一些影響。)

變量是未觀察到的因素。

我不確定這個是什麼意思。你知道每個觀察來自哪個社區,對吧?那是怎麼“不被觀察”的?(如果您懷疑基於未觀察到的因素對數據進行聚類,則需要擬合離散混合模型。)如果您的意思是您不知道社區為何不同,我認為這並不重要。

所以以鄰里為例。這是我主要感興趣的變量,水平很重要。我使用混合模型並驗證其中存在大量差異。

我能想到使用鄰域作為隨機效應的唯一原因是,如果您只測量了少量(例如 <6)的鄰域。

引用自:https://stats.stackexchange.com/questions/131199

comments powered by Disqus