Stata

我應該在集群級別還是個人級別進行引導?

  • May 9, 2014

我有一個嵌套在醫院中的患者的生存模型,其中包括醫院的隨機效應。隨機效應是伽馬分佈的,我試圖以易於理解的規模報告該術語的“相關性”。

我找到了以下使用中值風險比(有點像中值優勢比)的參考資料,併計算了這一點。

Bengtsson T, Dribe M:歷史方法 43:15, 2010

但是,現在我希望使用 bootstrap 報告與此估計相關的不確定性。數據是生存數據,因此每個患者有多個觀察結果,每個醫院有多個患者。很明顯,我需要在重新採樣時對患者的觀察結果進行聚類。但我不知道我是否也應該對醫院進行聚類(即重新抽樣醫院,而不是病人?

我想知道答案是否取決於感興趣的參數,如果目標是與患者級別而不是醫院級別相關的東西,那麼會有所不同嗎?

我在下面列出了stata代碼以防萬一。

cap program drop est_mhr
program define est_mhr, rclass
stcox patient_var1 patient_var2 ///
   , shared(hospital) ///
   noshow
local twoinvtheta2 = 2 / (e(theta)^2)
local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75))
return scalar mhr = `mhr'
end

bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

想像一下,您進行了一項關於兒童教育成就的研究。你從某個地區隨機抽取學校樣本,每所學校的一個班級被納入研究。您進行了分析,現在想使用 bootstrap 來獲得估計的置信區間。怎麼做?

首先,請注意您的數據是分層的,它有幾個級別:學校、學校中的班級和班級中的學生。由於每所學校只有一個班級,因此您的數據中不存在第二級。我們可以假設學校內部有一些相似之處,而學校之間存在一些差異。如果學校內部存在相似之處,那麼如果您對學生進行隨機抽樣,而不考慮他們的學校成員資格,您可能會破壞數據的層次結構。

一般來說,有幾種選擇:

  1. 替換學生樣本,
  2. 對整個學校進行替換,
  3. 首先抽樣學校替換,然後抽樣學生(a)替換,或(b)不替換。

似乎第一種方法是最糟糕的。回想一下,*bootstrap抽樣應該以某種方式模仿你研究中的抽樣過程,*並且你抽樣的是學校而不是個別學生。在 (2) 和 (3) 之間進行選擇更複雜,但希望您能找到考慮到該主題的研究論文(例如 Rena 等人 2010,Field 和 Welsh,2007)。一般來說,選項 (2) 或 (3b) 更可取,因為似乎包含過多的替換抽樣水平會導致結果有偏差。您還可以在 Efron 和 Tibshirani (1994) 以及 Davison 和 Hinkley (1997) 的書中找到有關此主題的更多信息。請注意,我們在引導時間序列數據時遇到了類似的問題在這種情況下,我們還寧願對整個系列塊進行採樣(例如,如果我們假設季節性,則為整個季節)而不是單個觀察,因為否則時間結構會被破壞。在實踐中,沒有一刀切的解決方案,但對於復雜的數據結構,您應該選擇最適合您的數據和問題的引導抽樣方案,如果可能的話,使用模擬研究來比較不同的解決方案。


戴維森,AC 和欣克利,DV(1997 年)。引導方法及其應用。劍橋。

Efron, B. 和 Tibshirani, RJ (1994)。Bootstrap 簡介。CRC出版社。

Ren, S., Lai, H., Tong, W., Aminzadeh, M., Hou, X., & Lai, S. (2010)。分層數據的非參數引導。應用統計學雜誌,37(9),1487-1498。

菲爾德,加利福尼亞州和威爾士,AH(2007 年)。引導聚類數據。皇家統計學會雜誌:B 系列(統計方法),69(3),369-390。

引用自:https://stats.stackexchange.com/questions/97115

comments powered by Disqus