Generalized-Linear-Model

是否可以僅使用一個模型計算 -2 對數似然?

  • March 15, 2012

glmfit在 MATLAB 中使用該函數。該函數只返回偏差而不是對數似然。我知道偏差基本上是模型對數似然之間差異的兩倍,但我沒有得到的是我只glmfit用來創建一個模型,但不知何故我得到了偏差。

  • -2 對數似然的計算不需要 2 個模型嗎?
  • 當只有一個模型時,如何分析偏差?

我遇到的另一個問題是說我確實有兩個模型,並且我正在使用對數似然檢驗比較它們。原假設是第一個模型,備擇假設是第二個模型。在獲得對數似然檢驗統計數據後,我是否會根據卡方 cdf 對其進行檢查以確定 p 值?我是否正確,如果它小於 alpha 級別,我會拒絕 null,如果它更大,我將無法拒絕 null?

統計術語偏差有點過分了。大多數時候,程序會返回偏差 $$ D(y) = -2 \log{{p(y | \hat{\theta})}}, $$ 在哪裡 $ \hat{\theta} $ 是您從模型擬合中估計的參數,並且 $ y $ 是所討論的隨機量的一些潛在觀察到/可觀察到的事件。

您提到的更常見的偏差會將上述偏差視為兩個變量的函數,即數據和擬合參數:$$ D(y,\hat{\theta}) = -2\log{{p(y|\hat{\theta})}} $$ 所以如果你有一個 $ y $ 值,但有兩個相互競爭的擬合參數值, $ \hat{\theta}{1} $ 和 $ \hat{\theta}{2} $ ,那麼你會得到你提到的偏差$$ -2(\log{{p(y|\hat{\theta}{1})}} - \log{{p(y|\hat{\theta}{2})}}). $$ 您可以閱讀您提到的 Matlab 函數glmfit()鏈接在這裡此處鏈接了對偏差的更有效但更短的討論。

偏差統計隱含地假設了兩個模型:第一個是您的擬合模型,由 返回glmfit(),調用此參數向量 $ \hat{\theta}{1} $ . 第二種是“全模型”(也叫“飽和模型”),它是每個數據點都有一個自由變量的模型,稱這個參數向量 $ \hat{\theta}{s} $ . 擁有這麼多自由變量顯然是一件愚蠢的事情,但它確實可以讓你準確地適應這些數據。

因此,偏差統計量被計算為在擬合模型和飽和模型處計算的對數似然之間的差異。讓 $ Y={y_{1}, y_{2}, \cdots, y_{N}} $ 是 N 個數據點的集合。然後:

$$ DEV(\hat{\theta}{1},Y) = -2\biggl[\log{p(Y|\hat{\theta}{1})} - \log{p(Y|\hat{\theta}{s})} \biggr]. $$ 上述術語將擴展為對各個數據點的總和 $ y{i} $ 由獨立性假設。如果要使用此計算來計算模型的對數似然,則需要首先計算飽和模型的對數似然。這是一個鏈接,解釋了計算這個的一些想法……但問題是,在任何情況下,你都需要寫下一個函數來計算你的數據類型的對數似然,在這種情況下最好創建自己的函數來自己計算對數似然,而不是從偏差計算中回溯它。

有關偏差的一些很好的討論,請參見貝葉斯數據分析的第 6 章。

至於您關於似然檢驗統計的第二點,是的,聽起來您基本上知道該做的事情是正確的。但是在許多情況下,您會認為零假設是專家的東西,外部知識可以讓您提前猜測(例如某個係數等於零)。這不一定是進行模型擬合的結果。

引用自:https://stats.stackexchange.com/questions/24708

comments powered by Disqus