Standard-Deviation

總體標準差的無偏估計:sqrt(2) 是一種更好的校正嗎?

  • April 14, 2014

偏差校正常數的背景

標準差的計算如下:

維基百科關於標準偏差的條目之後,給定樣本的總體 SD 估計的偏差取決於通過以下方式:

  • :只是樣本 sd,嚴重偏向於小於總體 sd。
  • :貝塞爾修正,偏差較小但仍然較小。
  • :“經驗法則”,無偏估計的最佳單一值。

我模擬了這個,發現是一個更好的價值, 特別是對於小樣本 (n < 10) 其中高估人口 SD。我剛剛發現了一些很棒的東西還是我在這裡錯過了一些東西?

模擬

對於每個樣本大小,我使用rnorm(n, 0, 15). 然後,對於每個樣本量,我使用上述每個常數估計總體 SD。結果如下:

仿真結果

每個圖都是不同的估計常數。標題中的“錯誤”是mean(sd.estimations - sd.real)。紅線是真正的 SD。藍線顯示估計的標準差。垂直灰線標記樣本大小的變化。點顯示單個 sd 估計。

很清楚優於. 對於大樣本量也是如此,即使從該圖中還不清楚。這是生成這些圖的 R 腳本。

更新與總結

接近解析正確的解決方案,但沒有超越它。它仍然是一種啟發式方法,可以出於懶惰或用於小樣本量的計算效率。

實際上,最接近的近似值取決於您要計算的樣本量。以下是針對不同樣本量的一些最佳值:

  • :最多偏離 0.4%。
  • :最多偏離 0.04%。
  • :最多偏離 0.0025%。

隨著樣本量的增加,常數接近“1.5 經驗法則”。因此結論是對於小樣本量來說既快又髒。對於較大的樣本,可以使用 1.5 進行合理的近似。

並且要明確一點:貝塞爾的校正仍然是在估計方差時獲得無偏的正確方法。上述觀察僅與總體標準差的估計有關。

可能是。看起來你所做的,被擊中此維基百科文章中也說明了校正因子。具體來說:您提出估算器

在哪裡是偏離均值的平方和 您提到的文章定義(雖然不是很清楚)估計器

在哪裡

計算我們發現的兩個提議的乘法因子的值

現在你要做的是首先檢查這種值的接近性是否持續很大,然後使用修正係數,並將其與您的進行比較。如果這些結果是有利的,那麼您要么 a) 找到了更好、有效和有用(計算更簡單)的“經驗法則”/替代校正因子,或 b) 您找到了更好的校正因子。如果是 b),那麼它是出版材料。

引用自:https://stats.stackexchange.com/questions/93767

comments powered by Disqus