Statistical-Significance

如何為醫療觀眾總結可信的時間間隔

  • February 19, 2016

使用 Stan 和前端包rstanarm,或者brms我可以像以前使用混合模型(例如lme. 雖然我的辦公桌上有 Kruschke-Gelman-Wagenmakers 等的大部分書籍和文章,但這些並沒有告訴我如何為醫學觀眾總結結果,在貝葉斯憤怒的 Skylla 和醫學評論家的 Charybdis 之間徘徊( “我們想要意義,而不是那些分散的東西”)。

一個例子:胃頻率(1/min)分三組測量;健康對照是參考。每個參與者都有幾個測量值,所以我使用了以下混合模型lme

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

稍微編輯的結果:

Fixed effects: freq_min ~ group 
                  Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

為簡單起見,我將使用 2* 標準誤差作為 95% CI。

在常客的背景下,我將其總結為:

  • 在對照組中,估計頻率為 2.7/min(可能在此處添加 CI,但我有時會避免這樣做,因為絕對 CI 和差異 CI 會造成混淆)。
  • 在 no_symptoms 組中,頻率比對照組高 0.4/min,CI(0.11 至 0.59)/min,p = 0.006。
  • 在 with_symptoms 組中,頻率比對照組高 0.2/min,CI(-0.04 到 0.4)/min,p = 0.11。

這大約是醫學出版物可接受的最大復雜性,審稿人可能會要求我在第二種情況下添加“不顯著”。

這與stan_lmer默認先驗相同。

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


          contrast lower_CredI frequency upper_CredI
       (Intercept)     2.58322     2.714       2.846
  groupno_symptoms     0.15579     0.346       0.535
groupwith_symptoms    -0.00382     0.188       0.384

其中 CredI 是 90% 的可信區間(請參閱 rstanarm vignette 為什麼使用 90% 作為默認值。)

問題:

  • 如何將上述總結轉化為貝葉斯世界?
  • 在多大程度上需要事先討論?我很確定當我提到先驗時,這篇論文會帶著通常的“主觀假設”回來。或者至少“請不要進行技術討論”。但是所有貝葉斯權威都要求解釋僅在先驗的情況下有效。
  • 在不背叛貝葉斯概念的情況下,我如何在公式中提供一些“意義”替代?像“令人難以置信的不同”(uuuh …)或幾乎令人難以置信的不同(buoha …,聽起來像“在意義的邊緣)。

喬納·加布里和本·古德里奇 (2016)。rstanarm:通過 Stan 進行的貝葉斯應用回歸建模。R 包版本 2.9.0-3。 https://CRAN.R-project.org/package=rstanarm

斯坦開發團隊(2015 年)。Stan:用於概率和採樣的 C++ 庫,版本 2.8.0。網址http://mc-stan.org/

保羅-克里斯蒂安·布爾克納 (2016)。brms:使用 Stan 的貝葉斯回歸模型。R 包版本 0.8.0。https://CRAN.R-project.org/package=brms

Pinheiro J、Bates D、DebRoy S、Sarkar D 和 R 核心團隊(2016 年)。nlme:線性和非線性混合效應模型。R 包版本 3.1-124,http://CRAN.R-project.org/package=nlme>。

快速思考:

  1. 關鍵問題是你試圖為你的聽眾回答什麼應用問題,因為這決定了你想要從統計分析中得到什麼信息。在這種情況下,在我看來,您想要估計組之間差異的大小(或者如果這是您的聽眾更熟悉的度量,則可能是組的比率大小)。您在問題中提出的分析並未直接提供差異的大小。但是從貝葉斯分析中得到你想要的東西是直截了當的:你想要差異(或比率)的後驗分佈。然後,根據差異(或比率)的後驗分佈,您可以做出如下的直接概率陳述:

“95% 最可信的差異落在 [低 95% HDI 限制] 和 [高 95% HDI 限制]”(這裡我使用 95% 最高密度區間 [HDI] 作為可信區間,因為這些是由定義最高密度參數值,它們被稱為“最可信”)

醫學期刊的讀者會直觀而正確地理解該陳述,因為這是讀者通常認為的常客置信區間的含義(即使這不是常客置信區間的含義)。

您如何從 Stan 或 JAGS 獲得差異(或比率)?僅通過對完整的 MCMC 鏈進行後處理。在鏈中的每一步,計算相關的差異(或比率),然後檢查差異(或比率)的後驗分佈。DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/中給出了示例,MCMC 通常在圖 7.9(第 177 頁)中,JAGS 在圖 8.6(第 211 頁)中,對於 Stan 在第 16.3 節中(第. 468)等!

2)如果你被傳統強迫就是否拒絕零差做出聲明,你有兩個貝葉斯選項。

2A) 一種選擇是對接近零的區間及其與 HDI 的關係進行概率陳述。為此,您在零附近設置了一個實際等效區域 (ROPE),這只是一個適合您應用領域的決策閾值 — 差異有多大?例如,在臨床非劣效性測試中通常會設置這樣的界限。如果您在您的領域中有一個“效果大小”度量,則可能存在“小”效果大小的約定,並且 ROPE 限制可能是小效果的一半。然後你可以做出直接的概率陳述,例如:

“只有 1.2% 的差異後驗分佈實際上等於零”

“95% 最可信的差異實際上並不等於零(即 95% 的 HDI 和 ROPE 不重疊),因此我們拒絕零。” (注意後驗分佈的概率陳述與基於該陳述的後續決策之間的區別)

如果 95% 最可信的值實際上都等於零,那麼出於實際目的,您也可以接受零差值。

2B) 第二個貝葉斯選項是貝葉斯零假設檢驗。(注意上面的方法不是稱為“假設檢驗”!)貝葉斯零假設檢驗對假設差異只能為零的先驗分佈與假設差異可能是一些分散的可能性範圍的替代先驗分佈進行貝葉斯模型比較。這種模型比較的結果(通常)非常強烈地依賴於替代分佈的特定選擇,因此必須對替代先驗的選擇進行仔細的論證。最好對 null 和 Alternative 使用至少輕度知情的先驗,以便模型比較真正有意義。請注意,模型比較提供的信息與估計組間差異的信息不同,因為模型比較解決的是不同的問題。因此,即使通過模型比較,

可能有一些方法可以從 Stan/JAGS/MCMC 輸出中進行貝葉斯零假設檢驗,但在這種情況下我不知道。例如,可以嘗試對貝葉斯因子進行 Savage-Dickey 近似,但這將依賴於知道差異的先驗密度,這需要一些數學分析或先驗的一些額外的 MCMC 近似。

第 2 章討論了確定空值的兩種方法。12 的 DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/。但是我真的不希望這個討論被關於評估空值的“正確”方法的辯論所牽制。它們只是不同,它們提供不同的信息。我回复的要點是上面的第 1 點:看組間差異的後驗分佈。

引用自:https://stats.stackexchange.com/questions/197417

comments powered by Disqus