事件預測的生存分析
對於我的數據集中的每條記錄,我有以下信息
在哪裡是特徵,如果目標事件發生則為 1,否則為 0,並且是發生事件的時間戳。特別是,如果沒有事件或設置跟踪結束的時間,則可能會丟失。
我想為我的數據集中的每條記錄計算一個風險指數。
我正在考慮使用使用特徵的分類模型預測類. 然而,很重要:如果事件可能很快就會發生風險應該更高。
這就是為什么生存分析應該適合這個問題。我不需要對但只是代表單個記錄風險的單個索引。
可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低,風險越高。
我的問題是:
- 生存分析是否適合我的目的?
- 如何評估模型的性能?
關於問題(2):我熱衷於使用 Harrell’s-index 例如,但我不確定使用哪個預測結果來計算它。從 Harrell 的書 Regression Modeling Strategies 第 247 頁:
這index […] 是通過獲取所有可能的受試者對來計算的,這樣一個受試者有反應而另一個沒有。該指數是此類對的比例,其中響應者的預測響應概率高於非響應者。
如果生存分析被證明是一個正確的選擇,我認為應該很容易使用一些標準方法來引入時變協變量.
生存分析是否適合我的目的?
使這似乎不太適用於生存分析的唯一原因是:
… $ TT $ 如果沒有事件或設置跟踪結束的時間,則可能會丟失。
對於大多數模型,您將需要知道觀察到此人活著的最後一個時期。否則,它應該簡單明了並且適用於使用生存分析。例如,R 中的 Cox 比例風險
survival::coxph
或具有 的參數模型survival::survreg
。可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低,風險越高。
是的,您可以對前面提到的兩個(類別)模型使用平均生存時間或僅使用線性預測器。
如何評估模型的性能?
這 $ c $ index 對我來說似乎是一個明智的選擇,因為它是 AUC 的“自然”概括。請注意,這是在 R 中實現的,例如
Hmisc::rcorr.cens
.