在 GLM 中,飽和模型的對數似然總是為零嗎?
作為廣義線性模型輸出的一部分,零偏差和殘差用於評估模型。我經常看到用飽和模型的對數似然來表示這些量的公式,例如:https : //stats.stackexchange.com/a/113022/22199,Logistic Regression:如何獲得飽和模型
據我了解,飽和模型是完全符合觀察到的響應的模型。因此,在我見過的大多數地方,飽和模型的對數似然總是為零。
然而,給出偏差公式的方式表明,有時這個量不是零。(好像它總是為零,為什麼還要包括它?)
在什麼情況下可以不為零?如果它永遠不是非零,為什麼要把它包含在偏差公式中?
如果您真的是指log-likelihood,那麼答案是:它並不總是零。
例如,考慮泊松數據:. 的對數似然是(誰)給的:
區分在關於並將其設置為(這就是我們如何獲得飽和模型的 MLE):
解決這個問題要得到, 代入回到為了給出飽和模型的對數似然為:
除非取非常特殊的值。 在該
R
功能的幫助頁面中glm
,該項目下deviance
,文檔對此問題的解釋如下:
deviance
達到一個常數,減去最大對數似然的兩倍。在合理的情況下,選擇常數以使飽和模型的偏差為零。請注意,它提到偏差,而不是飽和模型的對數似然被選擇為零。
可能,您真正想要確認的是“飽和模型的偏差始終為零”,這是正確的,因為偏差,根據定義(參見Alan的*分類數據分析(第 2 版)*第 4.5.1 節Agresti) 是指定 GLM 與飽和模型的似然比統計量。R 文檔中的
constant
上述內容實際上是飽和模型的最大化對數似然的兩倍。關於您的陳述“然而,給出偏差公式的方式表明有時這個數量不是零。”,這可能是由於濫用術語偏差。例如,在 R 中,比較兩個任意(嵌套)模型的似然比統計和也稱為偏差,更準確地稱為偏差之間的差異**和偏差,如果我們嚴格遵循 Agresti 書中給出的定義。
結論
- 飽和模型的對數似然通常不為零。
- 飽和模型的偏差(在其原始定義中)為零。
- 軟件(例如 R)的偏差輸出通常不為零,因為它實際上意味著其他東西(偏差之間的差異)。
下面是一般指數族情況的推導和另一個具體的例子。假設數據來自指數族(參見Modern Applied Statistics with S,第):
在哪裡是已知的先驗權重和是色散/尺度參數(對於二項式和泊松等許多情況,此參數是已知的,而對於正常和 Gamma 等其他情況,此參數是未知的)。那麼對數似然由下式給出:
與 Poisson 示例一樣,飽和模型的參數可以通過求解以下得分函數來估計:
將上述方程的解表示為,則飽和模型的對數似然的一般形式(將尺度參數視為常數)為:
在我之前的回答中,我錯誤地指出右側的第一項始終為零,上面的泊松數據示例證明它是錯誤的。對於更複雜的示例,請考慮 Gamma 分佈附錄中給出。
飽和 Gamma 模型的對數似然中第一項的證明非零:給定
我們必須先進行重新參數化,以便具有指數族形式. 可以驗證是否讓
然後具有代表性:
在哪裡
因此,飽和模型的 MLE 為. 因此
除非取非常特殊的值。