R

在 R 中為 survfit 選擇 conf.type

  • August 8, 2018

我很想了解更多關於survfit在 R 中的函數中選擇置信度類型的信息。我知道選項是,conf.type=c("log","log-log","plain","none")但我不太熟悉選擇最佳選項的過程。

有人可以描述在選項之間進行選擇的基本邏輯conf.type嗎?或者給我一個有用的在線資源?雖然我願意學習他們背後的數學,但現在最重要的是決定選擇哪個選項的因素。

我已經使用每個選項運行了該函數並比較了置信區間,發現在大多數情況下,它們非常接近或相同,但我想了解更多。

謝謝!

Kaplan-Meier 生存函數的典型公式是

在哪裡是失敗的時間發生,是在時間之前處於危險中的數字和是一次失敗的次數.

重要的,.

格林伍德在 1926 年給了我們標準誤的公式通過其方差:

使用從格林伍德公式得出的標準誤差,我們可以計算出百分比的逐點置信區間作為

這就是您指定conf.type="plain".

格林伍德公式有幾個眾所周知的問題。一個令人討厭的問題是它可能會產生超出零或一範圍的限制。也就是說,您可以產生負點估計或超過 100% 的點估計。在通常的實踐中,我們只是將置信區間剪裁為零或一,然後繼續。問題仍然存在,並且出於教學目的,格林伍德公式的手工計算相對簡單,無數碩士生已經學會計算格林伍德公式的 Kaplan-Meier 曲線的置信區間。

解決這個問題的一種方法是改變生存函數的規模通過獲取它的日誌(也就是說,. 如果我們這樣做,結果是置信區間是相似的

這是您指定時得到conf.type="log"的(默認值)。然而,雖然我們可能已經解決了負值的問題,沒有任何東西可以限制置信上限超過 1。

這將我們帶到了馴服置信限度的最後嘗試。這裡,我們先取log的負數. 然後,我們記錄一下。也就是說,我們嘗試計算置信限在免費的對數刻度中:. 這就是您指定conf.type="log-log". 這個公式相當不守規矩,所以我不會在這裡複製它。

當然,您可以使用其他轉換來處理該問題,但 log 和 log-log 是最常用的。

現在,回答你的問題。您應該使用哪種置信區間類型?沒有普遍的共識。該plain設置非常簡單,該log設置產生穩定的方差,並log-log產生良好的間隔,但與其他兩個設置相比可能會有很大差異。最後,您必須知道統計數據包在計算置信限的方法的默認設置方面有所不同。R 的默認設置是 log 設置,而 Stata 和 SAS 使用免費的 log-log 方法。

我希望這會有所幫助。

引用自:https://stats.stackexchange.com/questions/361354

comments powered by Disqus