Generalized-Linear-Model

具有對數轉換響應的線性模型與具有對數鏈接的廣義線性模型

  • January 16, 2013

這篇題為“在應用於醫學數據的廣義線性模型中選擇”的論文中,作者寫道:

在廣義線性模型中,均值由鏈接函數轉換,而不是轉換響應本身。這兩種轉換方法會導致完全不同的結果;例如, 對數轉換響應的均值與均值響應的對數不同。一般來說,前者不容易轉換為平均響應。因此,轉換均值通常可以更容易地解釋結果,尤其是在均值參數與測量響應保持在同一尺度上的情況下。

他們似乎建議使用對數鏈接擬合廣義線性模型 (GLM),而不是使用對數轉換響應的線性模型 (LM)。我沒有掌握這種方法的優點,這對我來說似乎很不尋常。

我的響應變量看起來是對數正態分佈的。無論採用哪種方法,我在係數及其標準誤差方面都得到了類似的結果。

我仍然想知道:如果變量具有對數正態分佈,對數轉換變量的平均值是否優於轉換變量的對數,因為平均值是正態分佈的自然總結,而對數-轉換後的變量是正態分佈的,而變量本身不是?

雖然看起來對數轉換變量的平均值更可取(因為這通常是對數正態參數化的方式),但從實際的角度來看,平均值的對數通常更有用。

當您的模型不完全正確時尤其如此,並且引用 George Box 的話:“所有模型都是錯誤的,有些是有用的”

假設某個數量是對數正態分佈的,比如血壓(我不是醫生!),我們有兩個群體,男性和女性。有人可能會假設女性的平均血壓高於男性。 這恰好對應於詢問女性的平均血壓對數是否高於男性。這與詢問女性對數血壓的平均值是否高於男性不同

不要對分佈的教科書參數化感到困惑——它沒有任何“真正的”含義。對數正態分佈由對數的平均值參數化() 因為數學方便,但同樣我們可以選擇通過其實際均值和方差對其進行參數化

顯然,這樣做會使代數變得非常複雜,但它仍然有效並且意味著同樣的事情。

查看上面的公式,我們可以看到轉換變量和轉換均值之間的重要區別。均值的對數,, 增加為增加,而對數的平均值,沒有。

這意味著平均而言,女性的血壓可能高於男性,即使對數正態分佈的平均參數 () 是一樣的,只是因為方差參數更大。使用 log(Blood Pressure) 的測試會忽略這一事實。

到目前為止,我們已經假設血壓是對數正常的。如果真實分佈不是對數正態分佈,那麼轉換數據(通常)會使事情變得比上面更糟——因為我們不太清楚我們的“均值”參數的實際含義。即我們不會知道我上面給出的這兩個均值和方差方程是正確的。使用這些來迴轉換會引入額外的錯誤。

引用自:https://stats.stackexchange.com/questions/47840

comments powered by Disqus