Sampling
分位數的定義
給定 N 個採樣值,“採樣值的第 p 個分位數”是什麼意思?
理論上(與 $ 0 \lt p \lt 1 $ ) 它的意思是分數 $ p $ 向上累積分佈。在實踐中,使用了各種定義,特別是在統計計算中。例如,在 R 中有九種不同的定義,前三種用於離散解釋,其餘用於各種連續插值。
這是一個示例:如果您的樣本是 $ {400, 1, 1000, 40} $ ,並且您正在尋找 $ 0.6 $ 分位數 ( $ 60 $ th centile) 那麼不同的計算方法給出
> x <- numeric() > for (t in 1:9) { x[t] <- quantile(c(400, 1, 1000, 40), probs=0.6, type = t ) } > x 60% 400 400 40 184 364 400 328 376 373
我個人的看法是正確的數字是 $ 400 $ 自從 $$ Pr(X<400) = 0.5 < 0.6 \text{ and } Pr(X>400) = 0.25 < 1-0.6. $$ 這來自將樣本視為總體,如果繪製經驗 CDF,它將是一系列步驟。對於插值存在相反的論點,因此經驗 CDF 是連續的,因為它可能是對總體更好或更有用的近似值,並且插值方法會影響結果。