泊松分佈數據是否有箱線圖變體？

July 15, 2011

我想知道是否有適用於泊松分佈數據（或可能其他分佈）的箱線圖變體？

對於高斯分佈，鬍鬚放置在 L = Q1 - 1.5 IQR 和 U = Q3 + 1.5 IQR，箱線圖具有以下特性：低異常值（L 以下的點）與高異常值（U 以上的點）大致相同）。

*但是，如果數據是泊松分佈的，則由於我們得到Pr(X<L) < Pr(X>U)*的正偏度，這不再成立。是否有另一種方法來放置鬍鬚，使其“適合”泊松分佈？

箱線圖並非旨在確保在所有情況下超出鬍鬚末端的可能性較低：它們旨在並且通常用作數據集主體的簡單圖形表徵。因此，即使數據具有非常偏斜的分佈，它們也很好（儘管它們可能不會像關於近似無偏斜的分佈那樣揭示那麼多的信息）。

當箱線圖偏斜時，就像泊松分佈一樣，下一步是重新表達基礎變量（使用單調遞增的變換）並重新繪製箱線圖。因為泊松分佈的方差與其均值成正比，所以使用平方根是一個很好的變換。

每個箱線圖描繪了具有給定強度的泊松分佈的 50 個 iid 繪製（從 1 到 10，每個強度進行兩次試驗）。請注意，偏度往往很低。

平方根尺度上的相同數據往往具有稍微對稱的箱線圖，並且（除了最低強度）無論強度如何，IQR 都大致相等）。

總之，不要改變箱線圖算法：而是重新表達數據。

順便說一下，計算的相關機會是：獨立正態變量的機會是多少將超過上（下）柵欄 () 估計自從同一分佈中獨立抽取？ 這解釋了箱線圖中的柵欄不是根據基礎分佈計算的，而是根據數據估計的事實。在大多數情況下，機會遠大於 1%！例如，這裡（基於 10,000 次蒙特卡洛試驗）是該案例的對數（以 10 為底）機會的直方圖：

（因為正態分佈是對稱的，所以此直方圖適用於兩個圍欄。）1%/2 的對數約為 -2.3。顯然，大多數時候概率大於這個。大約有 16% 的時間超過 10%！

事實證明（我不會用細節來混淆這個回复）這些機會的分佈與正常情況相當（對於小) 即使對於強度低至 1 的泊松分佈，這是相當偏斜的。主要區別在於它通常不太可能找到低異常值，而更有可能找到高異常值。