為什麼不將方差定義為每個值之間的差異?
對於許多人來說,這可能是一個簡單的問題,但這裡是:
為什麼不將方差定義為每個值之間的差異,而不是與平均值的差異?
這對我來說是更合乎邏輯的選擇,我想我顯然在監督一些缺點。謝謝
編輯:
讓我盡可能清楚地重新表述。這就是我的意思:
- 假設您有一系列數字,按順序排列:1、2、3、4、5
- 計算並總結值之間的(絕對)差異(連續地,在每個後續值之間,而不是成對地)(不使用平均值)。
- 除以差異的數量
- (跟進:如果數字是無序的,答案會有所不同)
-> 與標準方差公式相比,這種方法有什麼缺點?
最明顯的原因是值中通常沒有時間順序。因此,如果您將數據混雜在一起,則數據所傳達的信息不會有任何區別。如果我們遵循您的方法,那麼每次您將數據混雜在一起時,您都會得到不同的樣本方差。
更理論的答案是樣本方差估計隨機變量的真實方差。隨機變量的真實方差是
這裡表示期望值或“平均值”。所以方差的定義是變量與其平均值之間的平均平方距離。當您查看此定義時,這裡沒有“時間順序”,因為沒有數據。它只是隨機變量的一個屬性。
當你從這個分佈中收集 iid 數據時,你就會意識到. 估計期望的最好方法是取樣本平均值。這裡的關鍵是我們得到了 iid 數據,因此數據沒有排序。樣品與樣品相同
編輯
樣本方差衡量樣本的一種特定類型的離散度,即衡量與平均值的平均距離的離散度。還有其他類型的分散,如數據范圍和分位數間範圍。
即使您按升序對值進行排序,也不會改變樣本的特徵。您獲得的樣本(數據)是變量的實現。計算樣本方差類似於了解變量的離散程度。因此,例如,如果您對 20 個人進行抽樣,併計算他們的身高,那麼這些是隨機變量中的 20 個“實現”人的身高。現在,樣本方差應該用來衡量一般個體身高的變異性。如果您訂購數據
這不會改變樣本中的信息。
讓我們再看一個例子。假設您從以這種方式排序的隨機變量中有 100 個觀察值
然後平均後續距離為 1 個單位,因此按照您的方法,方差將為 1。 解釋“方差”或“離散度”的方法是了解數據可能的值範圍。在這種情況下,您將獲得 0.99 單位的範圍,這當然不能很好地代表變化。
如果不取平均值,而是將隨後的差異相加,那麼您的方差將為 99。當然,這並不代表樣本中的可變性,因為 99 為您提供了數據的範圍,而不是可變性。