Distributions
為什麼假設生存時間呈指數分佈?
我正在從UCLA IDRE 上的這篇文章中學習生存分析,並在第 1.2.1 節被絆倒。教程說:
…如果已知生存時間呈指數分佈,那麼觀察到生存時間的概率…
為什麼假設生存時間呈指數分佈?這對我來說似乎很不自然。
為什麼不是正態分佈?假設我們正在調查某種生物在特定條件下的壽命(比如天數),它是否應該更集中在一些有一些差異的數字上(比如 100 天,差異 3 天)?
如果我們希望時間嚴格為正,為什麼不做均值較高且方差很小的正態分佈(幾乎沒有機會得到負數。)?
指數分佈通常用於模擬生存時間,因為它們是可用於表徵生存/可靠性數據的最簡單分佈。這是因為它們是無記憶的,因此風險函數是恆定的 w/r/t 時間,這使得分析非常簡單。這種假設可能是有效的,例如,對於某些類型的電子元件,如高質量集成電路。我相信您可以想到更多示例,可以安全地假設時間對危險的影響可以忽略不計。
但是,您正確地觀察到,在許多情況下,這不是一個適當的假設。在某些情況下,正態分佈可能沒問題,但顯然負生存時間是沒有意義的。因此,通常考慮對數正態分佈。其他常見的選擇包括 Weibull、最小極值、最大極值、Log-logistic 等。模型的明智選擇將由學科領域經驗和概率圖決定。當然,您也可以考慮非參數建模。
生存分析中經典參數建模的一個很好的參考是:William Q. Meeker 和 Luis A. Escobar (1998)。可靠性數據的統計方法