Regression

在 GLM 中,飽和模型的對數似然總是為零嗎?

  • December 3, 2015

作為廣義線性模型輸出的一部分,零偏差和殘差用於評估模型。我經常看到用飽和模型的對數似然來表示這些量的公式,例如:https : //stats.stackexchange.com/a/113022/22199,Logistic Regression:如何獲得飽和模型

據我了解,飽和模型是完全符合觀察到的響應的模型。因此,在我見過的大多數地方,飽和模型的對數似然總是為零。

然而,給出偏差公式的方式表明,有時這個量不是零。(好像它總是為零,為什麼還要包括它?)

在什麼情況下可以不為零?如果它永遠不是非零,為什麼要把它包含在偏差公式中?

如果您真的是指log-likelihood,那麼答案是:它並不總是零。

例如,考慮泊松數據:. 的對數似然是(誰)給的:

區分在關於並將其設置為(這就是我們如何獲得飽和模型的 MLE):

解決這個問題要得到, 代入回到為了給出飽和模型的對數似然為:

除非取非常特殊的值。 在該R功能的幫助頁面中glm,該項目下deviance,文檔對此問題的解釋如下:

deviance 達到一個常數,減去最大對數似然的兩倍。在合理的情況下,選擇常數以使飽和模型的偏差為零。

請注意,它提到偏差,而不是飽和模型的對數似然被選擇為零。

可能,您真正想要確認的是“飽和模型的偏差始終為零”,這是正確的,因為偏差,根據定義(參見Alan的*分類數據分析(第 2 版)*第 4.5.1 節Agresti) 是指定 GLM 與飽和模型的似然比統計量。R 文檔中的constant上述內容實際上是飽和模型的最大化對數似然的兩倍。

關於您的陳述“然而,給出偏差公式的方式表明有時這個數量不是零。”,這可能是由於濫用術語偏差。例如,在 R 中,比較兩個任意(嵌套)模型的似然比統計和也稱為偏差,更準確地稱為偏差之間差異**和偏差,如果我們嚴格遵循 Agresti 書中給出的定義。

結論

  1. 飽和模型的對數似然通常不為零。
  2. 飽和模型的偏差(在其原始定義中)為零。
  3. 軟件(例如 R)的偏差輸出通常不為零,因為它實際上意味著其他東西(偏差之間的差異)。

下面是一般指數族情況的推導和另一個具體的例子。假設數據來自指數族(參見Modern Applied Statistics with S,第):

在哪裡是已知的先驗權重和是色散/尺度參數(對於二項式和泊松等許多情況,此參數是已知的,而對於正常和 Gamma 等其他情況,此參數是未知的)。那麼對數似然由下式給出:

與 Poisson 示例一樣,飽和模型的參數可以通過求解以下得分函數來估計:

將上述方程的解表示為,則飽和模型的對數似然的一般形式(將尺度參數視為常數)為:

在我之前的回答中,我錯誤地指出右側的第一項始終為零,上面的泊松數據示例證明它是錯誤的。對於更複雜的示例,請考慮 Gamma 分佈附錄中給出。


飽和 Gamma 模型的對數似然中第一項的證明非零:給定

我們必須先進行重新參數化,以便具有指數​​族形式. 可以驗證是否讓

然後具有代表性:

在哪裡

因此,飽和模型的 MLE 為. 因此

除非取非常特殊的值。

引用自:https://stats.stackexchange.com/questions/184753

comments powered by Disqus