Survival
如何確定缺少數據的生存模型是否合適?
稍微簡化一下,我有大約一百萬條記錄,記錄了一個跨越大約十年的系統中人們的進入時間和離開時間。每條記錄都有進入時間,但不是每條記錄都有退出時間。系統中的平均時間約為 1 年。
缺少退出時間的原因有兩個:
- 在捕獲數據時,此人尚未離開系統。
- 沒有記錄此人的離開時間。這恰好說 50% 的記錄
感興趣的問題是:
- 人們在系統中花費的時間是否更少,時間少了多少。
- 是否記錄了更多的退出時間,以及有多少。
我們可以通過說出口被記錄的概率隨時間線性變化來建模,並且系統中的時間有一個 Weibull,其參數隨時間線性變化。然後,我們可以對各種參數進行最大似然估計,並觀察結果並認為它們是合理的。我們選擇了 Weibull 分佈,因為它似乎用於測量壽命,並且說起來很有趣,而不是比伽馬分佈更好地擬合數據。
我應該在哪裡尋找有關如何正確執行此操作的線索?我們在數學上有些精通,但在統計上卻不是非常精通。
查看您的數據是否為 Weibull 的基本方法是繪製累積風險對數與時間對數的關係,並查看直線是否適合。可以使用非參數 Nelson-Aalen 估計器找到累積風險。如果您使用協變量擬合您的數據並且隨後有一些參考資料,則 Weibull 回歸有類似的圖形診斷。
Klein & Moeschberger的文本非常好,涵蓋了很多關於參數和半參數模型的模型構建/診斷(儘管主要是後者)。如果您在 R 中工作,那麼 Theeau 的書非常好(我相信他編寫了生存包)。它涵蓋了很多 Cox PH 和相關模型,但我不記得它是否涵蓋了很多參數模型,例如您正在構建的模型。
順便說一句,這是否是一百萬個主題,每個主題都有一個進入/退出或針對一些較小人群的周期性進入/退出事件?你是否在調整你解釋審查機制的可能性?