Classification

事件預測的生存分析

  • January 9, 2013

對於我的數據集中的每條記錄,我有以下信息

在哪裡是特徵,如果目標事件發生則為 1,否則為 0,並且是發生事件的時間戳。特別是,如果沒有事件或設置跟踪結束的時間,則可能會丟失。

我想為我的數據集中的每條記錄計算一個風險指數。

我正在考慮使用使用特徵的分類模型預測類. 然而,很重要:如果事件可能很快就會發生風險應該更高。

這就是為什么生存分析應該適合這個問題。我不需要對但只是代表單個記錄風險的單個索引。

可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低,風險越高。

我的問題是:

  1. 生存分析是否適合我的目的?
  2. 如何評估模型的性能?

關於問題(2):我熱衷於使用 Harrell’s-index 例如,但我不確定使用哪個預測結果來計算它。從 Harrell 的書 Regression Modeling Strategies 第 247 頁:

這index […] 是通過獲取所有可能的受試者對來計算的,這樣一個受試者有反應而另一個沒有。該指數是此類對的比例,其中響應者的預測響應概率高於非響應者。

如果生存分析被證明是一個正確的選擇,我認為應該很容易使用一些標準方法來引入時變協變量.

生存分析是否適合我的目的?

使這似乎不太適用於生存分析的唯一原因是:

… $ TT $ 如果沒有事件或設置跟踪結束的時間,則可能會丟失。

對於大多數模型,您將需要知道觀察到此人活著的最後一個時期。否則,它應該簡單明了並且適用於使用生存分析。例如,R 中的 Cox 比例風險survival::coxph或具有 的參數模型survival::survreg

可以為每條記錄計算的平均生存時間似乎是一個不錯的風險指數——風險越低,風險越高。

是的,您可以對前面提到的兩個(類別)模型使用平均生存時間或僅使用線性預測器。

如何評估模型的性能?

這 $ c $ index 對我來說似乎是一個明智的選擇,因為它是 AUC 的“自然”概括。請注意,這是在 R 中實現的,例如Hmisc::rcorr.cens.

引用自:https://stats.stackexchange.com/questions/47293

comments powered by Disqus