我應該在集群級別還是個人級別進行引導?
我有一個嵌套在醫院中的患者的生存模型,其中包括醫院的隨機效應。隨機效應是伽馬分佈的,我試圖以易於理解的規模報告該術語的“相關性”。
我找到了以下使用中值風險比(有點像中值優勢比)的參考資料,併計算了這一點。
Bengtsson T, Dribe M:歷史方法 43:15, 2010
但是,現在我希望使用 bootstrap 報告與此估計相關的不確定性。數據是生存數據,因此每個患者有多個觀察結果,每個醫院有多個患者。很明顯,我需要在重新採樣時對患者的觀察結果進行聚類。但我不知道我是否也應該對醫院進行聚類(即重新抽樣醫院,而不是病人?
我想知道答案是否取決於感興趣的參數,如果目標是與患者級別而不是醫院級別相關的東西,那麼會有所不同嗎?
我在下面列出了stata代碼以防萬一。
cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr
想像一下,您進行了一項關於兒童教育成就的研究。你從某個地區隨機抽取學校樣本,每所學校的一個班級被納入研究。您進行了分析,現在想使用 bootstrap 來獲得估計的置信區間。怎麼做?
首先,請注意您的數據是分層的,它有幾個級別:學校、學校中的班級和班級中的學生。由於每所學校只有一個班級,因此您的數據中不存在第二級。我們可以假設學校內部有一些相似之處,而學校之間存在一些差異。如果學校內部存在相似之處,那麼如果您對學生進行隨機抽樣,而不考慮他們的學校成員資格,您可能會破壞數據的層次結構。
一般來說,有幾種選擇:
- 替換學生樣本,
- 對整個學校進行替換,
- 首先抽樣學校替換,然後抽樣學生(a)替換,或(b)不替換。
似乎第一種方法是最糟糕的。回想一下,*bootstrap抽樣應該以某種方式模仿你研究中的抽樣過程,*並且你抽樣的是學校而不是個別學生。在 (2) 和 (3) 之間進行選擇更複雜,但希望您能找到考慮到該主題的研究論文(例如 Rena 等人 2010,Field 和 Welsh,2007)。一般來說,選項 (2) 或 (3b) 更可取,因為似乎包含過多的替換抽樣水平會導致結果有偏差。您還可以在 Efron 和 Tibshirani (1994) 以及 Davison 和 Hinkley (1997) 的書中找到有關此主題的更多信息。請注意,我們在引導時間序列數據時遇到了類似的問題在這種情況下,我們還寧願對整個系列塊進行採樣(例如,如果我們假設季節性,則為整個季節)而不是單個觀察,因為否則時間結構會被破壞。在實踐中,沒有一刀切的解決方案,但對於復雜的數據結構,您應該選擇最適合您的數據和問題的引導抽樣方案,如果可能的話,使用模擬研究來比較不同的解決方案。
戴維森,AC 和欣克利,DV(1997 年)。引導方法及其應用。劍橋。
Efron, B. 和 Tibshirani, RJ (1994)。Bootstrap 簡介。CRC出版社。
Ren, S., Lai, H., Tong, W., Aminzadeh, M., Hou, X., & Lai, S. (2010)。分層數據的非參數引導。應用統計學雜誌,37(9),1487-1498。
菲爾德,加利福尼亞州和威爾士,AH(2007 年)。引導聚類數據。皇家統計學會雜誌:B 系列(統計方法),69(3),369-390。