使用跨越負標度的標準偏差構建誤差線,而變量本身不應該是負數,這是不是很糟糕?
我有一個關於誤差線的問題。我知道,用 1 個標準差 (SD) 構建的誤差線 (EB) 與用 95% 置信區間 (CI) 構建的 EB 呈現的總體情況不同。也就是說,帶有 SD 的 EB 顯示了變量實際值的散佈(或分散),而帶有 CI 的 EB 顯示了實際平均值最有可能落入的範圍。
我的數據包括一個變量,即一個人每年看醫生的次數(計數)。平均訪問次數為 3,SD 為 5,置信區間為 2.5 到 3.5。顯示基於 SD 的 EB 是否本質上是錯誤的,因為它會擴展到負值(即 3-5 = -2)?它違反任何假設嗎?
如果我繪製顯示平均值 3 和基於 1 SD 的 EB 的條形圖,則 EB 的範圍為 0 到 8,我是否仍然可以聲稱約 68% 的值落在 0 到 8 之間,或者因為它是正確偏斜的並且假定較低的 EB 基本上達到負值,這不再成立嗎?如果是這樣,我如何解釋截斷負數的 0 到 8 ?
不,在這種情況下,使用 SD 繪製誤差線是沒有意義的。
退後一步。為什麼我們用 SD 繪製誤差線?在您編寫時,它是為了顯示“大部分”數據所在的位置。如果您的數據來自正態分佈,這是有道理的:68% 的數據將位於 $ \pm 1 $ SD 來自平均值,因此顯示平均值的誤差條為 $ \pm 1 $ SD 會給你一個包含 68% 數據的區間。
然而,看醫生的次數是一個計數,所以它是離散的。而且不能是負數。因此,這不可能是正常的。對於高計數,您通常可以將計數視為正常,但對於 3 的平均值和 5 的 SD。使用基於 SD 的誤差線是回答原始問題的錯誤方法,即顯示“大部分”在哪裡數據下降。
更好:通過計算(例如)觀察值的 16% 和 84% 分位數,直接計算區間的頂端和底端。它們之間的範圍將再次包含 68% 的數據,在正常情況下,平均值周圍的區間 $ \pm 1 $ 小學。
或者,您可以擬合分佈。例如,平均值為 3 和 SD 為 5 與負二項分佈一致,平均值為 3,尺寸參數為 $ \frac{3^2}{5^2-3} $ (請參閱 R 的幫助頁面
?qnbinom
- negbin 有許多不同的參數化)。對於這樣的分佈,我們可以再次計算參數化的 16%/84% 分位數,結果給出了一個區間 $ [0,6] $ :> qnbinom(pnorm(c(-1,1)),mu=3,size=3^2/(5^2-3)) [1] 0 6