Probability
累積風險函數的直覺(生存分析)
我試圖對精算科學中的每個主要功能(特別是 Cox 比例風險模型)有直覺。這是我到目前為止所擁有的:
- :從開始時間開始,你會死的概率分佈。
- : 只是累積分佈。當時, 百分之幾的人口將死亡?
- :. 當時, 百分之幾的人口會活著?
- : 危險函數。在給定的時間, 在還活著的人中,這可以用來估計有多少人會在下一個時間間隔內死亡,或者如果間隔->0,則“瞬時”死亡概率。
- : 累積危害。不知道。
組合危險值背後的想法是什麼,尤其是當它們是連續的時?如果我們使用一個離散示例,其中包含四個季節的死亡率,則風險函數如下:
- 從春天開始,每個人都還活著,20%的人會死去
- 現在在夏天,剩下的人中,50% 將死去
- 現在在秋天,剩下的人中,75% 將死去
- 最後一季是冬天。剩下的人,100%會死
那麼累積危害是20%、70%、145%、245%?? 這是什麼意思,為什麼有用?
像你這樣把死亡的比例結合起來不會給你帶來累積的危險。連續時間的危險率是在很短的時間間隔內將發生事件的條件概率:
累積危害是在年齡/時間上整合(瞬時)危害率。這就像總結概率,但因為非常小,這些概率也是很小的數字(例如,在 30 歲左右時死亡的危險率可能在 0.004 左右)。危險率取決於之前沒有經歷過該事件,因此對於總體而言,它的總和可能超過 1。
你可以查閱一些人類死亡率生命表,雖然這是一個離散時間公式,並嘗試積累.
如果您使用 R,這裡有一個小例子,可以根據每個 1 年年齡間隔的死亡人數來近似這些函數:
dx <- c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 11L, 6L, 3L, 2L) x <- 0:(length(dx)-1) # age vector plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", main="h(t)", log="y") plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", main="H(t)")
希望這可以幫助。