在生存分析中,我們什麼時候應該使用全參數模型而不是半參數模型?
這個問題是另一個問題的對立面在生存分析中,為什麼我們使用半參數模型(Cox 比例風險)而不是全參數模型?
事實上,它清楚地展示了 Cox 比例風險回歸相對於完全參數回歸的優勢,而無需假設生存時間的分佈。
儘管如此,還是有一些最近的 R 包(
SmoothHazard
(2017)例如,functionshr
withmethod="Weib"
)可以輕鬆擬合完全參數化模型。我碰巧有機會在一個 50k 的數據集上執行這兩項操作,結果非常相似。
完全參數化的生存模型有什麼好處?它允許進行哪些額外的分析?
當您知道風險函數的實際函數形式時,全參數生存模型比 Cox 模型更有效。統計效率就像權力。考慮它的一個好方法是您最終估計對數風險比的置信區間的寬度:緊密的 CI 是有效分析的結果(假設您有一個無偏估計量)。
指數和 Weibull 生存模型確實是“已知”危險函數(分別為常數和線性時間)的流行示例。但是你可以有任何舊的基線危險函數 $ \lambda(t) $ , 並在給定參數估計的情況下計算任何協變量組合在任何時間的預期存活率 $ \theta $ 作為:
$$ S(\theta, t) = \exp(\Lambda(t)\exp(\theta \mathbf{X})) $$
在哪裡 $ \Lambda(t) $ 是累積風險。迭代 EM 型求解器將導致最大似然估計 $ \theta $ .
一個簡潔的事實是,假設風險恆定,Cox 模型與 Weibull 模型與指數全參數生存模型的相對效率為 3:2:1。也就是說,當數據實際上是指數時,在 Cox 模型下需要 9 倍的觀察次數才能產生效果估計的置信區間, $ \theta $ 具有與指數生存模型相同的預期半寬。當你知道它時,你必須使用你所知道的,但永遠不要錯誤地假設。