標準差背後的直覺
我試圖更好地直觀地理解標準偏差。
據我了解,它代表了數據集中一組觀察值與該數據集平均值的差異的平均值。然而,它實際上並不等於差異的平均值,因為它賦予遠離平均值的觀察更多的權重。
假設我有以下人群 -
平均值是.
如果我根據絕對值來衡量點差,我會得到
如果我使用標準差來衡量價差,我會得到
正如預期的那樣,使用標準偏差的結果更大,因為它賦予遠離平均值的值額外的權重。
但如果我只是被告知我正在與平均為和標準差我如何推斷人口是由類似的值組成的? 好像只是圖非常武斷……我不明白你應該如何解釋它。做意味著這些值分佈非常廣泛,或者它們都緊密地聚集在平均值周圍……
當您收到一份聲明說您正在與平均為和標準差這告訴你關於人口的什麼信息?
我的直覺是標準偏差是:數據傳播的度量。
你有一個很好的觀點,它是寬還是緊取決於我們對數據分佈的基本假設。
警告:當您的數據分佈圍繞均值對稱且方差與正態分佈的方差相對接近時,散佈測量最有幫助。(這意味著它大約是正常的。)
在數據近似正態的情況下,標準差具有規範解釋:
- 區域:樣本均值 +/- 1 標準差,包含大約 68% 的數據
- 區域:樣本均值 +/- 2 標準差,包含大約 95% 的數據
- 區域:樣本均值 +/- 3 標準差,包含大約 99% 的數據
(參見Wiki中的第一張圖)
這意味著,如果我們知道總體平均值為 5,標準差為 2.83,並且我們假設分佈近似正態分佈,我會告訴你,我有理由確定,如果我們進行(大量)觀察,只有 5% 會小於 0.4 = 5 - 22.3 或大於 9.6 = 5 + 22.3。
注意標準差對我們的置信區間有什麼影響?(傳播越多,不確定性越大)
此外,在數據甚至不是近似正態但仍然對稱的一般情況下,您知道存在一些其中:
- 區域:樣本均值 +/-標準差,包含大約 95% 的數據
你可以學習來自子樣本,或假設這通常為您提供了一個很好的經驗法則,用於在您的腦海中計算未來的觀察結果,或者哪些新觀察結果可以被視為異常值。(但請記住警告!)
我不明白你應該如何解釋它。2.83 是否意味著這些值分佈非常廣泛,或者它們都緊密地聚集在平均值周圍…
我猜每一個問“寬或緊”的問題,也應該包含:“與什麼有關?”。一個建議可能是使用眾所周知的發行版作為參考。根據上下文,考慮一下可能有用:“它比正常/泊松更寬還是更緊?”。
編輯:基於評論中的有用提示,關於標準偏差作為距離度量的另一個方面。
對標準差有用性的另一種直覺是它是樣本數據之間的距離度量和它的意思:
作為比較,均方誤差 (MSE) 是統計學中最流行的誤差度量之一,定義為:
可以提出的問題為什麼上面的距離函數?為什麼是平方距離,而不是絕對距離?為什麼我們要取平方根?
具有二次距離或誤差函數的優點是我們可以區分並輕鬆最小化它們。就平方根而言,它增加了可解釋性,因為它將誤差轉換回我們觀察到的數據的規模。