仿真研究:如何選擇迭代次數?
我想用“模型 1”生成數據並用“模型 2”擬合它們。基本思想是研究“模型2”的魯棒性。我對 95% 置信區間的覆蓋率特別感興趣(基於正態近似)。
- 如何設置迭代運行次數?
- 大於必要的複制是否會導致虛假偏差?如果是這樣,那是怎麼回事?
根據您的後續評論,當您在真實誤差方差不恒定時假設誤差方差恆定時,您似乎正在嘗試估計置信區間的覆蓋概率。
我的想法是,對於每次運行,置信區間要么覆蓋真實值,要么不覆蓋真實值。定義一個指示變量:
那麼你感興趣的覆蓋概率是你可以通過我認為你提出的樣本比例來估計。
如何設置迭代運行次數?
我們知道伯努利試驗的方差是,並且您的模擬將生成 IID 伯努利試驗,因此基於模擬的估計的方差是, 在哪裡是模擬次數。您可以選擇盡可能地縮小這種差異。這是一個事實
因此,如果您希望方差小於某個預先指定的閾值,,那麼您可以通過選擇來確保這一點.
在更一般的設置中,如果您嘗試通過模擬研究估計量的採樣分佈的屬性(例如,它的均值和方差),那麼您可以根據您希望在類似情況下達到多少精度來選擇模擬次數時尚到這裡描述的。
另請注意,當變量的平均值(或其他時刻)是感興趣的對象時,就像這裡一樣,您可以根據使用正態逼近的模擬(即中心極限定理)為其構建置信區間,正如 MansT 的好答案中所討論的那樣。隨著樣本數量的增加,這種正態近似會更好,因此,如果您計劃通過訴諸中心極限定理來構建置信區間,您將需要大到足以應用。對於二進制情況,正如您在此處所看到的那樣,即使在和相當溫和 - 比如說,.
大於必要的複制是否會導致虛假偏差?如果是這樣,那是怎麼回事?
正如我在評論中提到的 - 這取決於你所說的虛假的意思。大量的模擬不會產生統計意義上的偏差,但它可能會揭示一個不重要的偏差,只有在大樣本量的情況下才會注意到。例如,假設錯誤指定的置信區間的真實覆蓋概率為. 那麼,這在實際意義上並不是一個真正的問題,但如果你運行了大量的模擬,你可能只會發現這種差異。