對 GLM 的理解
我四處搜尋,閱讀有關交叉驗證的帖子(logit 和 probit 模型之間的差異),並查看包括 Dobson 和 McCullagh 和 Nelder 在內的參考資料,例如http://www.statsci.org/glm/books.html所以我知道這個話題很受歡迎。儘管如此,我正在努力闡明和正式表達我對 GLM 的理解,雖然有幾篇文章對我有所幫助,但我意識到差距和我的理解基礎不健全的可能性。
在簡單的線性回歸中,我們有一些觀察結果配對和治療作為隨機變量的實現,, 分佈為. 辦法 () 取決於預測變量,但方差是恆定的。我們建模(或矩陣等價物)我相信這和說的一樣和. 我不確定,但我認為正確的陳述方式是. 有人可以確認嗎?
無論如何,我們可能會轉換響應以實現線性(可能會記錄日誌),在這種情況下,我們正在建模在哪裡現在假設具有對數正態分佈。
我們通過將模型分解為:
- 一個結構組件()
- 鏈接 g(.)
- 響應分佈(或隨機分量)(指數族的成員 - Guassian、bin、gamma 等)
假設觀察值來自指數族的分佈,為了簡單起見,假設它是高斯分佈。同樣,期望值是,但是從指數族形式的 b(theta) 項的一階導數(http://www.amazon.com/Generalized-Edition-Monographs-Statistics-Probability/dp/0412317605)(第 29 頁)中得出。在我們假設二項分佈的情況下,期望值在 np 處出現,但當分佈以指數族形式表示時,它仍然來自 b(theta) 項的一階導數。請注意,現階段我並不完全理解或理解均值或方差的推導,也許有人可以提供外行的解釋?
我們現在不是像簡單線性回歸那樣對均值建模,而是對均值的變換進行建模,而不是說我們說其中 g 是一些鏈接函數(可逆和可微分)。我認為這是 SLR 和 GLM 之間的關鍵區別(但仍然讓我有些困惑)。在 SLR 中,我們轉換響應() 和模型,在 GLM 中我們轉換期望值 (在高斯示例的情況下)並對其進行建模。另一種說法是,在 SLR 案例中,我們建模但在 GLM 世界中,我們正在建模.
我的問題是圍繞驗證我對 GLM 基礎本質的理解和陳述以及 GLM 與傳統線性模型之間的差異。謝謝。
你有幾個問題捆綁在一起。我的回答是片面的,側重於鏈接功能和轉換,我認為這與它們看起來的不同。
我認為重要的是保持相似但不相同的轉換和鏈接功能的想法不同。我看到的介紹性文獻在這方面做得不是特別好,可能是因為作者太聰明了,沒有意識到其他人可能會感到困惑。第一個近似值是鏈接函數與響應(結果,因變量)的轉換具有鬆散相似的作用,但除了差異之外,它們也是至關重要的。
專注於嘗試預測的常見且相對簡單的案例而不是和一些. 這里關鍵的細節是回歸在任何意義上都不知道轉換。相反,您可以決定首先進行轉換(我將其稱為“之前”步驟)。但是回歸不知道你之前做了什麼。它忘記了數據的來源,只看到了一些. 此外,關於誤差項分佈的假設仍然是誤差項是正態的。否則放入
第一個相等是您的私人知識,第二個是定義回歸模型的內容。認為關於錯誤的正常假設對應於原始尺度上的對數正態分佈也是私有的(並且此類錯誤將是乘法而不是加法)。 類似地,對於經典回歸,通常會有一個“後”步驟,例如,您可以在其中反轉轉換以獲得原始預測,甚至可能調整置信區間以糾正轉換的副作用,至少達到一個很好的近似值。但這與回歸無關。事實上,這一步不是強制性的,有時保持對數尺度並在該尺度上思考是個好主意。(實際上,使用對數的測量單位,如 pH 值或分貝是這種決定,即使這種決定被認為是科學的而不是統計的。)
將此與廣義線性模型(在此示例中,使用對數鏈接)進行對比,其中“之前”、“擬合”和“之後”階段緊密相關,就數據分析師而言確實不可分割。該鏈接使響應的轉換變得不必要,但模型擬合自動包括“之後”階段的等價物,從而產生原始規模的預測。鏈接的可逆性在這裡自然是至關重要的。
所有這些僅指響應的轉換。如果合適的話,使用廣義線性模型仍然意味著轉換預測變量。
我發現 Lane 的論文作為一個相當非正式但值得信賴的討論非常有幫助。
Lane, PW 2002。土壤科學中的廣義線性模型。歐洲土壤科學雜誌53:241-251。doi: 10.1046/j.1365-2389.2002.00440.x