優勢比與概率比
機率是事件的概率與其互補的比率:
$$ \text{odds}(X) = \frac{P(X)}{1-P(X)} $$
優勢比(OR) 是一組事件的優勢的比率(例如, $ A $ ) 與另一組中事件的機率(例如, $ B $ ):
$$ \text{OR}(X)_{A\text{ vs }B} = \frac{\frac{P(X|A)}{1-P(X|A)}}{\frac{P(X|B)}{1-P(X|B)}} $$
概率比1 (PR,又名流行率)是一組事件發生概率的比率( $ A $ ) 與另一組中事件的概率 ( $ B $ ):
$$ \text{PR}(X)_{A\text{ vs }B} = \frac{P(X|A)}{P(X|B)} $$
可以認為發生率與概率非常相似(儘管從技術上講是隨著時間的推移發生的概率),我們使用相對風險(又名風險比,RR)來對比發生率(和發生率密度) ,以及其他措施,如風險差異:
$$ \text{RR}_{A\text{ vs }B} = \frac{\text{incidence proportion}(X|A)}{\text{incidence proportion}(X|B)} $$
當風險對比使用相對風險而不是優勢比(使用發生率而不是概率計算)來表示時,為什麼相對概率對比經常使用相對優勢而不是概率比來表示?**
我的問題首先是關於為什麼更喜歡 OR 而不是 PR,而不是為什麼不使用發生率來計算 OR 之類的數量。**編輯:**我知道有時使用風險優勢比來對比風險。
1據我所知……我實際上並沒有在我的學科中遇到這個術語,除了很少。
我認為 OR 比 PR 更常見的原因歸結為通常轉換不同類型數量的標準方式。
當使用正常量時,如溫度、身高、體重,標准假設是它們大約是正常的。當您在這些數量之間進行對比時,最好的做法是獲取差異。同樣,如果您將回歸模型擬合到它,您就不會期望方差發生系統性變化。
當您使用“速率類似”的數量時,即它們的界限為零並且通常來自計算諸如“每天的數量”之類的東西,那麼採用原始差異是很尷尬的。由於任何樣本的方差與比率成正比,因此任何適合計數或比率數據的殘差通常不會具有恆定的方差。但是,如果我們使用均值的對數,那麼方差將是“穩定的”——即它們相加而不是相乘。因此,對於匯率,我們通常將它們作為日誌處理。然後,當您形成對比時,您將獲得對數的差異,這與比率相同。
當您處理概率之類的數量或蛋糕的分數時,您現在處於上下界限。您現在還可以任意選擇編碼為 1 和 0(或在多類模型中更多)。概率之間的差異對於從 1 到 0 的切換是不變的,但存在方差再次隨均值變化的速率問題。記錄它們不會讓您保持 1 和 0 的不變性,因此我們傾向於記錄它們(log-odds)。使用對數賠率,您現在回到了完整的實數線上,沿線的方差是相同的,並且對數賠率的差異表現得有點像正常數量。
高斯
- 方差不取決於 $ \mu $
- GLM 的規範鏈接是 $ x $
- 轉型沒有幫助
魚
- 方差與比率成正比 $ \lambda $
- GLM 的規範鏈接是 $ \ln(x) $
- 記錄應該導致恆定方差的殘差
二項式
- 方差與 $ p(1-p) $
- GLM 的規範鏈接是 logit $ \ln\left(\frac{p}{1-p}\right) $
- 取數據的 logit(log-odds)應該導致殘差恆定方差
所以我認為你看到很多 RR,但很少看到 PR 的原因是 PR 是由概率/二項式數量構成的,而 RR 是由比率類型數量構成的。特別要注意的是,如果人們每年可以多次感染這種疾病,發病率可能會超過 100%,但概率永遠不會超過 100%。
賠率是唯一的方法嗎?
不,上面的一般信息只是有用的經驗法則,這些“規範”形式在數學上只是方便——因此你最傾向於看到它。probit 函數用於概率回歸,因此原則上 probit 的差異與 OR 一樣有效。同樣,儘管盡了最大努力仔細措辭,但上面的文字仍然暗示記錄和記錄您的原始數據,然後將模型擬合到它是一個好主意——這不是一個糟糕的主意,但你有更好的東西可以做(GLM等)。