Bootstrap

適合集群數據的引導技術?

  • November 8, 2012

我有一個關於在存在強聚類的數據中使用正確的引導技術的問題。

我的任務是評估保險索賠數據上的多元混合效應預測模型,方法是根據最近的索賠數據對當前基線模型進行評分,以確定該模型預測哪些護理事件包含最高頻率的會話(上第 95 個百分位)。敏感性、特異性和陽性預測值 (PPV) 將用於評估模型的有效性。

自舉似乎是建立靈敏度、特異性和 PPV 百分比置信區間的正確方法。不幸的是,考慮到索賠數據是 1) 與護理提供者相關的,2) 分組到護理事件中,並且在護理事件的早期幾個月內更頻繁地訪問(因此存在一些自相關),因此幼稚的引導是不合適的。移動塊引導技術的變化在這裡是否合適?

或者也許一個三步引導程序會起作用:1)從數據中不同的提供者那裡替換樣本,然後 2)從選定的提供者的不同護理事件中替換樣本,然後 3)從每個不同的聲明中替換樣本選定的劇集。

非常感謝您的任何建議!

您建議的第二種方法似乎是合理的,但事實證明,在引導分層數據時,最好只在最高級別進行替換採樣,而不在其餘子級別進行替換。Ren等人(2010)的模擬顯示了這一點: http ://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) 從理論上研究了 2 級數據集的不同方法,發現在兩個級別進行替換抽樣並不是一個好主意。

http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

您提到的自相關是一個嚴重的問題。另一方面,從護理事件中選擇不替換將保留自相關結構,所以這可能不是一個大問題。

引用自:https://stats.stackexchange.com/questions/43185

comments powered by Disqus