Survival

外行對生存分析中審查的解釋

  • February 20, 2016

我已經閱讀了審查是什麼以及在生存分析中需要如何考慮它,但我想听聽一個不那麼數學的定義和一個更直觀的定義(圖片會很棒!)。誰能向我解釋 1)審查和 2)它如何影響 Kaplan-Meier 曲線和 Cox 回歸之類的東西?

審查通常與截斷相比較來描述。Gelman 等人 (2005, p. 235) 對這兩個過程進行了很好的描述:

截斷數據與截斷數據不同,截斷點以外的觀測計數不可用。刪 失後,截斷點以外的觀察值會丟失,但會觀察到它們的數量。

對於高於某個級別(右刪失)、低於某個級別(左刪失)或兩者兼有的值,可能會發生刪失或截斷。

您可以在下面找到在點被刪失的標準正態分佈示例(中)或截斷在(對)。如果樣本被截斷,我們沒有超出截斷點的數據,截斷點上方的刪失樣本值被“四捨五入”到邊界值,因此它們在您的樣本中被過度表示。

在此處輸入圖像描述

審查的直觀示例是,您詢問受訪者的年齡,但僅將其記錄到某個值,並且所有高於該值的年齡(例如 60 歲)都記錄為“60+”。這導致獲得非審查值的精確信息,而沒有關於審查值的信息。

在互聯網上引起了極大關注的波蘭 matura考試成績中觀察到的審查並不那麼典型,現實生活中的例子。考試在高中結束時進行,學生必須通過考試才能申請高等教育。你能從下圖中猜出學生通過考試所需的最低分數是多少?毫不奇怪,如果您在審查邊界上方取適當比例的過度代表分數,則可以很容易地“填補”其他正態分佈中的“差距”。

在此處輸入圖像描述

在生存分析的情況下

當我們有一些關於個體生存時間的信息,但我們不知道確切的生存時間時,就會發生審查

(克萊因鮑姆和克萊因,2005 年,第 5 頁)。例如,你用某種藥物治療患者並觀察他們直到研究結束,但你不知道研究結束後他們會發生什麼(是否有任何復發或副作用?),你唯一知道的是他們“存活”至少直到研究結束。

您可以在下面找到使用 Kaplan-Meier 估計器建模的Weibull 分佈生成的數據示例。藍色曲線標記在整個數據集上估計的模型,在中間圖中,您可以看到刪失樣本和根據刪失數據估計的模型(紅色曲線),在右側您可以看到截斷樣本和在此類樣本上估計的模型(紅色曲線)。如您所見,缺失數據(截斷)對估計有重大影響,但使用標準生存分析模型可以輕鬆管理審查。

在此處輸入圖像描述

這並不意味著您不能分析截斷的樣本,但在這種情況下,您必須使用模型來嘗試“猜測”未知信息的缺失數據。


Kleinbaum, DG 和 Klein, M. (2005)。*生存分析:自學文本。*施普林格。

Gelman, A.、Carlin, JB、Stern, HS 和 Rubin, DB (2005)。*貝葉斯數據分析。*查普曼和霍爾/CRC。

引用自:https://stats.stackexchange.com/questions/197628

comments powered by Disqus