Hypothesis-Testing
“城市”應該是固定變量還是隨機效應變量?
我正在分析“血糖”水平(因變量)的數據,並試圖找到它與受試者“年齡”、“性別”和“體重”(自變量)的關係。我從四個“城市”的樣本中收集了數據。
我應該使用“城市”變量作為固定效應還是隨機效應?
所以哪個是正確的:
lm(bloodsugar ~ age + gender + weight + city, mydata)
或者:
lmer(bloodsugar ~ age + gender + weight + (1|city), mydata)
謝謝你的幫助。
**編輯:**針對@Dave 的評論,我想添加以下內容:目前沒有關於我的真實因變量和城市之間關係的數據。所以,關係可能存在。與城市的關係不是我的主要目標,但如果通過適當的統計方法可行的話,確定這種關係也會很好。
我建議兩者都裝。希望他們會告訴你同樣的事情。如果沒有,那將非常有趣!
從概念上講,
city
應該是隨機的。您對研究問題的每個城市的估計值並不特別感興趣,並且您的城市樣本可以被認為來自更廣泛的城市人口。這些都是將其視為隨機的充分理由。問題是你只有 4 個,所以你要求軟件估計一個只有 4 個樣本的正態分佈變量的方差,所以這可能不是很可靠。
擬合固定效應是完全有效的,這將控制每個城市內的非獨立性。在這種情況下,您將其視為混雜因素。使用隨機截距的原因是,對於許多城市,這變得不方便並且失去了統計能力。
所以只有 4 個,我會兩者都做。