如果觀察結果重複,為什麼樣本的方差會發生變化?
方差被稱為傳播的量度。所以,我曾認為 的方差
3,5
等於 的方差,3,3,5,5
因為這些數字是均勻分佈的。但事實並非如此,is的方差3,5
是2
的方差。3,3,5,5``1 1/3
考慮到方差應該是傳播的衡量標準,這讓我感到困惑。
那麼,在這種情況下,傳播度量是什麼意思?
如果您將方差定義為 $ s^2_{n}= $ $ ,\text{MSE}, $ $ =\frac1n \sum_{i=1}^n (x_i-\bar{x})^2 $ – 類似於總體方差,但具有樣本均值 $ \mu $ ,那麼您的兩個樣本將具有相同的方差。
所以差異純粹是因為貝塞爾在通常的樣本方差公式中的校正( $ s^2_{n-1}=\frac{n}{n-1}\cdot \text{MSE}=\frac{n}{n-1}\cdot \frac1n \sum_{i=1}^n (x_i-\bar{x})^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 $ ,它根據樣本均值比總體均值更接近數據這一事實進行調整,以使其無偏(“平均”取正確的值)。
隨著樣本量的增加,這種影響逐漸消失,因為 $ \frac{n-1}{n} $ 去 1 作為 $ n\to\infty $ .
順便說一句,沒有特別的理由你必須使用無偏估計量來計算方差—— $ s^2_n $ 是一個完全有效的估計量,並且在某些情況下可以說比更常見的形式具有優勢(無偏並不一定那麼重要)。
方差本身並不是直接衡量價差的指標。如果我將數據集中的所有值加倍,我認為它們是“傳播”的兩倍。但是方差增加了 4 倍。因此,更常見的說法是標準差而不是方差是散佈的度量。
當然,標準差也會出現同樣的問題(通常 $ s_{n-1} $ 版本)與方差一樣-當您將點加倍時,標準偏差會發生變化,原因與方差發生的原因相同。
在小樣本中,由於這種影響(複製樣本會改變值),貝塞爾校正使標準偏差作為一種散佈的度量變得不那麼直觀。但是在復製樣本時,許多傳播度量確實保留了相同的值。我提幾個——
- $ s_n $ (當然)
- 與平均值的平均值(絕對)偏差
- 中位數(絕對)偏離中位數
- 四分位數範圍(至少對於樣本四分位數的某些定義)