我對因變量進行了對數轉換,我可以將 GLM 正態分佈與 LOG 鏈接功能一起使用嗎?
我有一個關於廣義線性模型 (GLM) 的問題。我的因變量 (DV) 是連續的且不正常。所以我對它進行了日誌轉換(仍然不正常但改進了它)。
我想將 DV 與兩個分類變量和一個連續協變量聯繫起來。為此,我想進行 GLM(我正在使用 SPSS),但我不確定如何決定要選擇的分佈和函數。
我已經進行了 Levene 的非參數檢驗,並且我有方差同質性,所以我傾向於使用正態分佈。我已經讀過,對於線性回歸,數據不需要是正常的,殘差是正常的。因此,我已經分別打印了來自每個 GLM 的線性預測變量的標準化 Pearson 殘差和預測值(GLM 正態恆等函數和正態對數函數)。我已經進行了正態性檢驗(直方圖和 Shapiro-Wilk),並分別針對預測值繪製了殘差(以檢查隨機性和方差)。恆等函數的殘差不正常,但對數函數的殘差正常。我傾向於使用對數鏈接函數選擇正態,因為 Pearson 殘差是正態分佈的。
所以我的問題是:
- 我可以在已經對數轉換的 DV 上使用具有 LOG 鏈接功能的 GLM 正態分佈嗎?
- 方差齊性檢驗是否足以證明使用正態分佈的合理性?
- 殘差檢查程序是否正確以證明選擇鏈接函數模型是正確的?
左側是 DV 分佈圖像,右側是帶有對數鏈接功能的 GLM 法線的殘差。
我可以在已經對數轉換的 DV 上使用具有 LOG 鏈接功能的 GLM 正態分佈嗎?
是的; 如果在該規模上滿足假設
方差齊性檢驗是否足以證明使用正態分佈的合理性?
為什麼方差相等意味著正態性?
殘差檢查程序是否正確以證明選擇鏈接函數模型是正確的?
您應該注意同時使用直方圖和擬合優度檢驗來檢查假設的適用性:
簡而言之,根據您選擇的 binwidth 的微小變化,甚至只是 bin 邊界的位置等簡單的事情,就有可能獲得完全不同的數據形狀印象:
這是同一數據集的兩個直方圖。使用幾種不同的 binwidth 有助於查看印像是否對此敏感。
- 當心使用擬合優度檢驗得出正態假設是合理的結論。正式的假設檢驗並不能真正回答正確的問題。
例如,請參閱第2項下的鏈接。 這裡
關於方差,在一些使用類似數據集的論文中提到“因為分佈具有均勻方差,所以使用了具有高斯分佈的 GLM”。如果這不正確,我該如何證明或決定分配?
在正常情況下,問題不是“我的錯誤(或條件分佈)是否正常?” - 他們不會,我們甚至不需要檢查。一個更相關的問題是“目前的非正態性程度對我的推論有多大影響?”
我建議使用核密度估計或正態 QQplot(殘差與正態分數圖)。如果分佈看起來相當正常,那麼您不必擔心。事實上,即使它顯然是非正態的,它仍然可能不是很重要,這取決於你想要做什麼(例如,正態預測區間實際上將依賴於正態性,但許多其他事情往往會在大樣本量下起作用)
有趣的是,在大樣本中,正態性通常變得越來越不重要(除了上面提到的 PI),但是你拒絕正態性的能力越來越強。
編輯:關於方差相等的一點是,即使在大樣本量下,它確實*會影響你的推論。*但是您可能也不應該通過假設檢驗來評估這一點。無論您假設的分佈如何,弄錯方差假設都是一個問題。
我讀到模型的比例偏差應該在 Np 左右才能很好地擬合,對嗎?
當您擬合正態模型時,它具有比例參數,在這種情況下,即使您的分佈不正常,您的比例偏差也將約為 Np。
在您看來,帶有日誌鏈接的正態分佈是一個不錯的選擇
在繼續不知道您正在測量什麼或您正在使用推理的情況下,我仍然無法判斷是否建議 GLM 的另一個分佈,也無法判斷正態性對您的推理有多重要。
但是,如果您的其他假設也是合理的(至少應該檢查線性和方差相等性並考慮潛在的依賴來源),那麼在大多數情況下,我會很樂意做一些事情,比如使用 CI 並對係數或對比進行測試- 這些殘差中只有非常輕微的偏斜印象,即使它是真正的效果,也不應該對這些推斷產生實質性影響。
簡而言之,你應該沒問題。
(雖然另一種分佈和鏈接函數在擬合方面可能做得更好,但只有在有限的情況下它們才可能更有意義。)