泊松分佈數據是否有箱線圖變體?
我想知道是否有適用於泊松分佈數據(或可能其他分佈)的箱線圖變體?
對於高斯分佈,鬍鬚放置在 L = Q1 - 1.5 IQR 和 U = Q3 + 1.5 IQR,箱線圖具有以下特性:低異常值(L 以下的點)與高異常值(U 以上的點)大致相同)。
*但是,如果數據是泊松分佈的,則由於我們得到Pr(X<L) < Pr(X>U)*的正偏度,這不再成立。是否有另一種方法來放置鬍鬚,使其“適合”泊松分佈?
箱線圖並非旨在確保在所有情況下超出鬍鬚末端的可能性較低:它們旨在並且通常用作數據集主體的簡單圖形表徵。因此,即使數據具有非常偏斜的分佈,它們也很好(儘管它們可能不會像關於近似無偏斜的分佈那樣揭示那麼多的信息)。
當箱線圖偏斜時,就像泊松分佈一樣,下一步是重新表達基礎變量(使用單調遞增的變換)並重新繪製箱線圖。因為泊松分佈的方差與其均值成正比,所以使用平方根是一個很好的變換。
每個箱線圖描繪了具有給定強度的泊松分佈的 50 個 iid 繪製(從 1 到 10,每個強度進行兩次試驗)。請注意,偏度往往很低。
平方根尺度上的相同數據往往具有稍微對稱的箱線圖,並且(除了最低強度)無論強度如何,IQR 都大致相等)。
總之,不要改變箱線圖算法:而是重新表達數據。
順便說一下,計算的相關機會是:獨立正態變量的機會是多少將超過上(下)柵欄 () 估計自從同一分佈中獨立抽取? 這解釋了箱線圖中的柵欄不是根據基礎分佈計算的,而是根據數據估計的事實。在大多數情況下,機會遠大於 1%!例如,這裡(基於 10,000 次蒙特卡洛試驗)是該案例的對數(以 10 為底)機會的直方圖:
(因為正態分佈是對稱的,所以此直方圖適用於兩個圍欄。)1%/2 的對數約為 -2.3。顯然,大多數時候概率大於這個。大約有 16% 的時間超過 10%!
事實證明(我不會用細節來混淆這個回复)這些機會的分佈與正常情況相當(對於小) 即使對於強度低至 1 的泊松分佈,這是相當偏斜的。主要區別在於它通常不太可能找到低異常值,而更有可能找到高異常值。