Logistic

幫助我了解邏輯回歸中的調整優勢比

  • January 15, 2015

我一直很難理解邏輯回歸在論文中的使用。此處可用的論文使用邏輯回歸來預測白內障手術期間並發症的概率。

令我困惑的是,該論文提出了一個模型,該模型將優勢比 1 分配給基線,如下所述:

對於所有風險指標(即表 1 中所有的調整後的 OR=1.00)的風險概況都在參考組中的患者可以被視為具有“基線風險概況”,並且邏輯回歸模型表明“基線預測概率”對於 PCR 或 VL 或兩者=0.736%。

因此,0.00736 的概率表示為優勢比 1。基於從概率到優勢比的轉換:, 這不能等於 1: .

它變得更加混亂。表示具有與基線不同的值的多個協變量的複合優勢比用於計算預測風險。

…表 1 中的複合 OR 將是 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5,從圖 1 的圖表中,我們看到這個 OR 對應於 PCR 或 VL 或兩者的預測概率約 20%

獲得本文給出的示例值的唯一方法是將基線概率乘以如下複合賠率: .

那麼這裡發生了什麼?將優勢比 1 分配給非 0.5 的基線概率的邏輯是什麼?我在上面提出的更新公式為論文中的示例提供了正確的概率,但這不是我期望的優勢比的直接乘法。之後怎麼樣了?

賠率是表達機會的一種方式。 賠率比就是:一個賠率除以另一個賠率。 這意味著優勢比是您將一個賠率乘以產生另一個賠率。讓我們看看它們在這種常見情況下是如何工作的。

在賠率和概率之間轉換

二元響應的機率 $ Y $ 是它發生的機會的比率(編碼為 $ 1 $ ), 寫 $ \Pr(Y=1) $ ,如果它沒有(編碼為 $ 0 $ ), 寫 $ \Pr(Y=0) $ :

$$ \text{Odds}(Y) = \frac{\Pr(Y=1)}{\Pr(Y=0)} = \frac{\Pr(Y=1)}{1 - \Pr(Y=1)}. $$

右邊的等價表達式表明它足以建模 $ \Pr(Y=1) $ 找到機率。相反,請注意,我們可以解決

$$ \Pr(Y=1) = \frac{\text{Odds}(Y)}{1 + \text{Odds}(Y)} = 1 - \frac{1}{1 + \text{Odds}(Y)}. $$

邏輯回歸

邏輯回歸模型的可能性的對數 $ Y $ 作為解釋變量的線性函數。最一般地,將這些變量寫為 $ x_1, \ldots, x_p $ ,並且在線性函數中包括一個可能的常數項,我們可以將係數(將從數據中估計)命名為 $ \beta_1,\ldots, \beta_p $ 和 $ \beta_0 $ . 正式地這產生了模型

$$ \log\left(\text{Odds}(Y)\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p. $$

賠率本身可以通過撤消對數來恢復:

$$ \text{Odds}(Y) = \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p). $$

使用分類變量

分類變量,例如年齡組、性別、青光眼的存在,通過“虛擬編碼”被合併。為了說明如何對變量進行編碼並不重要,我將提供一個小組的簡單示例;它對多個群體的概括應該是顯而易見的。在這項研究中,一個變量是“瞳孔大小”,分為“大”、“中”和“小”三個類別。(該研究將這些視為純粹的分類,顯然沒有註意它們的內在順序。)直觀地說,每個類別都有自己的機率,比如說 $ \alpha_L $ 對於“大”, $ \alpha_M $ 對於“中”,以及 $ \alpha_S $ 為“小”。這意味著,在所有其他條件相同的情況下,

$$ \text{Odds}(Y) = \exp(\color{Blue}{\alpha_L + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p) $$

對於“大”類別中的任何人,

$$ \text{Odds}(Y) = \exp(\color{Blue}{\alpha_M + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p) $$

對於“中等”類別中的任何人,以及

$$ \text{Odds}(Y) = \exp(\color{Blue}{\alpha_S + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p) $$

對於那些在“小”類別。

創建可識別的係數

我已經對前兩個係數進行了著色以突出顯示它們,因為我希望您注意到它們允許發生簡單的變化:我們可以選擇任何數字 $ \gamma $ 並且,通過將其添加到 $ \beta_0 $ 並從每個中減去它 $ \alpha_L $ , $ \alpha_M $ , 和 $ \alpha_S $ ,我們不會改變任何預測的賠率。 這是因為形式的明顯等價性

$$ \alpha_L + \beta_0 = (\alpha_L - \gamma) + (\gamma + \beta_0 ), $$

等等。 儘管這對模型沒有任何問題——它仍然預測完全相同的東西——它表明參數本身是不可解釋的。當我們進行這種加減法操作時,保持不變的是係數之間的*差異。傳統上,為了解決這種可識別性的缺乏,*人們(默認情況下,軟件)選擇每個變量中的一個類別作為“基礎”或“參考”,並簡單地規定其係數為零。這消除了歧義。

該論文首先列出了參考類別;在這種情況下“大”。因此, $ \alpha_L $ 從每個中減去 $ \alpha_L, \alpha_M, $ 和 $ \alpha_S $ , 並添加到 $ \beta_0 $ 補償。

因此,假設個人落入所有基本類別的對數機率等於 $ \beta_0 $ 加上一堆與所有其他“協變量”相關的術語——非分類變量:

$$ \text{Odds(Base category)} = \exp(\beta_0 + \beta_1X_1 + \cdots + \beta_p X_p). $$

此處不顯示與任何分類變量相關的術語。(此時我稍微改變了符號:beta $ \beta_i $ 現在只是協變量的係數,而完整模型包括 alpha $ \alpha_j $ 對於不同的類別。)

比較賠率

讓我們比較賠率。假設一個假設的個人是

與該患者(我們稱他為 Charlie)相關的是每個類別的估計係數: $ \alpha_\text{80-89} $ 對於他的年齡組, $ \alpha_\text{male} $ 因為是男性,等等。正如我們所見,無論他的屬性是其類別的基礎,按照慣例,係數為零。因為這是一個線性模型,所以係數相加。 因此,對於上面給出的基本對數賠率,該患者的對數賠率是通過添加

$$ \alpha_\text{80-89}+\alpha_\text{male}+\alpha_\text{no Glaucoma}+ \cdots + \alpha_\text{specialist registrar}. $$

這正是該患者的對數賠率與基數的差異量。要從對數賠率轉換,請撤消對數並記住這會將加法轉換為乘法。因此,基本賠率必須乘以

$$ \exp(\alpha_\text{80-89})\exp(\alpha_\text{male})\exp(\alpha_\text{no Glaucoma}) \cdots \exp(\alpha_\text{specialist registrar}). $$

這些是在“調整的 OR”(調整的優勢比)下的表格中給出的數字。(它被稱為“調整”,因為協變量 $ x_1, \ldots, x_p $ 被包含在模型中。正如您將看到的,它們在我們的任何計算中都不起作用。它被稱為“比率”,因為它恰好是基本賠率必須乘以產生患者預測賠率的數量:見這篇文章的第一段。)按表中的順序,它們是 $ \exp(\alpha_\text{80-89})=1.58 $ , $ \exp(\alpha_\text{male})=1.28 $ , $ \exp(\alpha_\text{no Glaucoma})=1.00 $ , 等等。根據這篇文章,他們的產品適用於 $ 34.5 $ . 所以

$$ \text{Odds(Charlie)} = 34.5\times \text{Odds(Base)}. $$

(請注意,基本類別的優勢比均為 $ 1.00=\exp(0) $ , 因為包括 $ 1 $ 在產品中保持不變。這就是您可以在表格中發現基本類別的方法。)

將結果重述為概率

最後,讓我們將此結果轉換為概率。我們被告知基線預測概率是 $ 0.736%=0.00736 $ . 因此,使用一開始得出的與賠率和概率相關的公式,我們可以計算

$$ \text{Odds(Base)} = \frac{0.00736}{1 - 0.00736} = 0.00741. $$

因此,查理的賠率是

$$ \text{Odds(Charlie)} = 34.5\times 0.00741 = 0.256. $$

最後,將其轉換回概率給出

$$ \Pr(Y(\text{Charlie})=1) = 1 - \frac{1}{1 + 0.256} = 0.204. $$

引用自:https://stats.stackexchange.com/questions/133623

comments powered by Disqus