Multiple-Comparisons

如何比較組間的中位生存期?

  • December 22, 2010

我正在使用 Kaplan-Meier 在不同州研究一種癌症的中位生存期。各州之間存在相當大的差異。我如何比較所有州之間的中位生存期,並確定哪些與全國的平均中位生存期顯著不同?

使用 Kaplan-Meier 生存曲線要記住的一件事是,它基本上是描述性的,而不是推理性的。它只是數據的一個函數,背後有一個非常靈活的模型。這是一個優勢,因為這意味著幾乎沒有可能被打破的假設,但是一個弱點,因為它很難概括它,並且它適合“噪音”和“信號”。如果你想做出推論,那麼你基本上必須引入一些你想知道的未知事物。

現在比較中位生存時間的一種方法是做出以下假設:

  1. 我估計了中位生存時間對於每個狀態,由卡普蘭邁耶曲線給出。
  2. 我期望真正的中位生存時間,等於這個估計。
  3. 我 100% 確定真正的中位生存時間是正的。

現在使用這些假設的“最保守”的方式是最大熵原理,所以你得到:

在哪裡和選擇使得 PDF 被標準化,並且期望值為. 現在我們有:

現在我們有了 因此,每個狀態都有一組概率分佈。

這給出了一個聯合概率分佈:

現在聽起來你想檢驗這個假設, 在哪裡是平均中位生存時間。要檢驗的嚴峻替代假設是“每個州都是獨特而美麗的雪花”假設因為這是最可能的替代方案,因此代表了在轉向更簡單的假設(“極小極大”檢驗)時丟失的信息。針對更簡單假設的證據的度量由優勢比給出:

在哪裡

是調和平均數。請注意,機率總是有利於完美擬合,但如果中位生存時間相當接近,則機率不會太大。此外,這為您提供了一種直接的方式來陳述此特定假設檢驗的證據:

假設 1-3 給出的最大機率 反對所有州的相同中位生存時間

將其與決策規則、損失函數、效用函數等結合起來,說明接受更簡單的假設是多麼有利,你就得出了結論!

您可以測試的假設數量沒有限制,並給出類似的機率。只是改變指定一組不同的可能“真實值”。您可以通過選擇以下假設來進行“顯著性檢驗”:

所以這個假設是口頭上的“狀態具有不同的中位生存率,但所有其他狀態都相同”。然後重新計算我上面所做的優勢比計算。雖然你應該小心替代假設是什麼。對於以下任何一個都是“合理的”從某種意義上說,它們可能是您有興趣回答的問題(並且它們通常會有不同的答案)

  • 我的上面定義的 - 差多少與完美契合相比?
  • 我的上面定義的 - 好多少與平均合身度相比?
  • 不同的- 狀態是多少與狀態相比“更不同”?

現在這裡被忽略的一件事是州之間的相關性——這種結構假設知道一個州的中位生存率並不能告訴你另一個州的中位生存率。雖然這看起來很“糟糕”,但改進起來並不難,而且上述計算是很好的初始結果,很容易計算。

在狀態之間添加連接將改變概率模型,您將有效地看到中位生存時間的一些“池化”。將相關性納入分析的一種方法是將真實的生存時間分為兩個部分,一個“共同部分”或“趨勢”和一個“個別部分”:

然後約束單個部分使所有單位的平均值為零且方差未知在觀察數據之前,使用描述您對個體變異性的了解的先驗進行整合(如果您一無所知,則使用 jeffreys 先驗,如果 jeffreys 引起問題,則使用一半柯西)。

引用自:https://stats.stackexchange.com/questions/5690

comments powered by Disqus