為什麼不將方差定義為每個值之間的差異？

July 26, 2016

對於許多人來說，這可能是一個簡單的問題，但這裡是：

為什麼不將方差定義為每個值之間的差異，而不是與平均值的差異？

這對我來說是更合乎邏輯的選擇，我想我顯然在監督一些缺點。謝謝

編輯：

讓我盡可能清楚地重新表述。這就是我的意思：

假設您有一系列數字，按順序排列：1、2、3、4、5

計算並總結值之間的（絕對）差異（連續地，在每個後續值之間，而不是成對地）（不使用平均值）。

除以差異的數量

（跟進：如果數字是無序的，答案會有所不同）

-> 與標準方差公式相比，這種方法有什麼缺點？

最明顯的原因是值中通常沒有時間順序。因此，如果您將數據混雜在一起，則數據所傳達的信息不會有任何區別。如果我們遵循您的方法，那麼每次您將數據混雜在一起時，您都會得到不同的樣本方差。

更理論的答案是樣本方差估計隨機變量的真實方差。隨機變量的真實方差是

這裡表示期望值或“平均值”。所以方差的定義是變量與其平均值之間的平均平方距離。當您查看此定義時，這裡沒有“時間順序”，因為沒有數據。它只是隨機變量的一個屬性。

當你從這個分佈中收集 iid 數據時，你就會意識到. 估計期望的最好方法是取樣本平均值。這裡的關鍵是我們得到了 iid 數據，因此數據沒有排序。樣品與樣品相同

編輯

樣本方差衡量樣本的一種特定類型的離散度，即衡量與平均值的平均距離的離散度。還有其他類型的分散，如數據范圍和分位數間範圍。

即使您按升序對值進行排序，也不會改變樣本的特徵。您獲得的樣本（數據）是變量的實現。計算樣本方差類似於了解變量的離散程度。因此，例如，如果您對 20 個人進行抽樣，併計算他們的身高，那麼這些是隨機變量中的 20 個“實現”人的身高。現在，樣本方差應該用來衡量一般個體身高的變異性。如果您訂購數據

這不會改變樣本中的信息。

讓我們再看一個例子。假設您從以這種方式排序的隨機變量中有 100 個觀察值

然後平均後續距離為 1 個單位，因此按照您的方法，方差將為 1。解釋“方差”或“離散度”的方法是了解數據可能的值範圍。在這種情況下，您將獲得 0.99 單位的範圍，這當然不能很好地代表變化。

如果不取平均值，而是將隨後的差異相加，那麼您的方差將為 99。當然，這並不代表樣本中的可變性，因為 99 為您提供了數據的範圍，而不是可變性。

引用自：https://stats.stackexchange.com/questions/225734

comments powered by Disqus

為什麼不將方差定義為每個值之間的差異？

編輯：

相關問答