如何判斷我的數據分佈是否對稱?
我知道如果中位數和平均值大致相等,那麼這意味著存在對稱分佈,但在這種特殊情況下我不確定。均值和中值非常接近(僅 0.487m/gall 差異),這將導致我說存在對稱分佈,但從箱線圖來看,它看起來略微正偏(經證實,中值更接近 Q1 而不是 Q3由值)。
(如果您對這款軟件有任何具體建議,我會使用 Minitab。)
毫無疑問,你被告知不是這樣,但意思是中位數並不意味著對稱。
有一個基於均值減去中位數(第二個 Pearson 偏度)的偏度度量,但當分佈不對稱時(如任何常見的偏度度量),它可以為 0。
同樣,均值和中位數之間的關係並不一定意味著中間鉸鏈之間的類似關係() 和中位數。他們可以建議相反的偏度,或者一個可能等於中位數,而另一個不等於。
研究對稱性的一種方法是通過*對稱圖**。
如果是從最小到最大的有序觀察(順序統計),並且是中位數,然後是對稱圖對比,對比, … 等等。
- Minitab 可以做到這些。事實上,我提出這個情節是一種可能性,因為我已經在 Minitab 中看到過它們。
這裡有四個例子:
(實際分佈是(從左到右,頂行第一)- Laplace、Gamma(shape=0.8)、beta(2,2) 和 beta(5,2)。代碼是 Ross Ihaka 的,從這裡開始)
對於重尾對稱示例,通常情況下最極端的點可能離線很遠;當您靠近圖的右上角時,您將不太注意與一兩個點的線的距離。
當然,還有其他圖(我提到對稱圖並不是出於對那個特定圖的特殊宣傳,而是因為我知道它已經在 Minitab 中實現了)。所以讓我們探索一些其他的。
這是尼克考克斯在評論中建議的相應斜線圖:
在這些圖中,上升趨勢表明右尾通常比左尾重,而下降趨勢表明左尾通常比右尾重,而相對平坦(儘管可能相當嘈雜)的圖表明對稱性。
尼克建議這個情節更好(特別是“更直接”)。我傾向於同意;因此,該圖的解釋似乎更容易一些,儘管相應圖中的信息通常非常相似(在您減去第一組中的單位斜率之後,您會得到與第二組非常相似的東西)。
[當然,這些都不能告訴我們數據的分佈實際上是對稱的;我們得到了樣本接近對稱程度的指示,因此在這個程度上我們可以判斷數據是否與從接近對稱的總體中提取的數據合理一致。]