使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？

July 23, 2020

我有一個關於誤差線的問題。我知道，用 1 個標準差 (SD) 構建的誤差線 (EB) 與用 95% 置信區間 (CI) 構建的 EB 呈現的總體情況不同。也就是說，帶有 SD 的 EB 顯示了變量實際值的散佈（或分散），而帶有 CI 的 EB 顯示了實際平均值最有可能落入的範圍。

我的數據包括一個變量，即一個人每年看醫生的次數（計數）。平均訪問次數為 3，SD 為 5，置信區間為 2.5 到 3.5。顯示基於 SD 的 EB 是否本質上是錯誤的，因為它會擴展到負值（即 3-5 = -2）？它違反任何假設嗎？

如果我繪製顯示平均值 3 和基於 1 SD 的 EB 的條形圖，則 EB 的範圍為 0 到 8，我是否仍然可以聲稱約 68% 的值落在 0 到 8 之間，或者因為它是正確偏斜的並且假定較低的 EB 基本上達到負值，這不再成立嗎？如果是這樣，我如何解釋截斷負數的 0 到 8 ？

不，在這種情況下，使用 SD 繪製誤差線是沒有意義的。

退後一步。為什麼我們用 SD 繪製誤差線？在您編寫時，它是為了顯示“大部分”數據所在的位置。如果您的數據來自正態分佈，這是有道理的：68% 的數據將位於 $ \pm 1 $ SD 來自平均值，因此顯示平均值的誤差條為 $ \pm 1 $ SD 會給你一個包含 68% 數據的區間。

然而，看醫生的次數是一個計數，所以它是離散的。而且不能是負數。因此，這不可能是正常的。對於高計數，您通常可以將計數視為正常，但對於 3 的平均值和 5 的 SD。使用基於 SD 的誤差線是回答原始問題的錯誤方法，即顯示“大部分”在哪裡數據下降。

更好：通過計算（例如）觀察值的 16% 和 84% 分位數，直接計算區間的頂端和底端。它們之間的範圍將再次包含 68% 的數據，在正常情況下，平均值周圍的區間 $ \pm 1 $ 小學。

或者，您可以擬合分佈。例如，平均值為 3 和 SD 為 5 與負二項分佈一致，平均值為 3，尺寸參數為 $ \frac{3^2}{5^2-3} $ （請參閱 R 的幫助頁面?qnbinom- negbin 有許多不同的參數化）。對於這樣的分佈，我們可以再次計算參數化的 16%/84% 分位數，結果給出了一個區間 $ [0,6] $ :
> qnbinom(pnorm(c(-1,1)),mu=3,size=3^2/(5^2-3))
[1] 0 6

引用自：https://stats.stackexchange.com/questions/478605

comments powered by Disqus

使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？

相關問答

當您擁有全部人口時，是否適合在數據上放置“誤差線”？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

估計參數函數周圍的置信區間

計算兩個獨立比例之差的標準誤

Westfall 說，“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎？

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？