事件預測的生存分析

January 9, 2013

對於我的數據集中的每條記錄，我有以下信息

在哪裡是特徵，如果目標事件發生則為 1，否則為 0，並且是發生事件的時間戳。特別是，如果沒有事件或設置跟踪結束的時間，則可能會丟失。

我想為我的數據集中的每條記錄計算一個風險指數。

我正在考慮使用使用特徵的分類模型預測類. 然而，很重要：如果事件可能很快就會發生風險應該更高。

這就是為什么生存分析應該適合這個問題。我不需要對但只是代表單個記錄風險的單個索引。

可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低，風險越高。

我的問題是：

生存分析是否適合我的目的？

如何評估模型的性能？

關於問題（2）：我熱衷於使用 Harrell’s-index 例如，但我不確定使用哪個預測結果來計算它。從 Harrell 的書 Regression Modeling Strategies 第 247 頁：

這index […] 是通過獲取所有可能的受試者對來計算的，這樣一個受試者有反應而另一個沒有。該指數是此類對的比例，其中響應者的預測響應概率高於非響應者。

如果生存分析被證明是一個正確的選擇，我認為應該很容易使用一些標準方法來引入時變協變量.

生存分析是否適合我的目的？

使這似乎不太適用於生存分析的唯一原因是：

… 如果沒有事件或設置跟踪結束的時間，則可能會丟失。

對於大多數模型，您將需要知道觀察到此人活著的最後一個時期。否則，它應該簡單明了並且適用於使用生存分析。例如，R 中的 Cox 比例風險survival::coxph或具有的參數模型survival::survreg。

可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低，風險越高。

是的，您可以對前面提到的兩個（類別）模型使用平均生存時間或僅使用線性預測器。

如何評估模型的性能？

這 index 對我來說似乎是一個明智的選擇，因為它是 AUC 的“自然”概括。請注意，這是在 R 中實現的，例如Hmisc::rcorr.cens.

引用自：https://stats.stackexchange.com/questions/47293

事件預測的生存分析

相關問答

為什麼美國的死亡率與預期壽命不“匹配”

與統計學習導論類似的書籍

在生存分析中，我們什麼時候應該使用全參數模型而不是半參數模型？

在 R 中為 survfit 選擇 conf.type

為什麼危險函數不是pdf？

解釋 R coxph() cox.zph()