Outliers
對箱須圖中柵欄的位置感到困惑
在一種類型的箱須圖中,鬍鬚末端的柵欄用於指示截止值,超過該值的任何點都將被視為異常值。
我為這些截止值找到的標准定義是
對於較低的柵欄,和
對於上一個,其中和分別是第一和第三四分位數,是四分位數範圍,並且是一些常數. (的價值我最常看到的是 1.5,而 3 則遙遙無期。) 到現在為止還挺好。
問題是,根據這些定義,下柵欄和柵欄之間的距離將始終與上柵欄之間的距離相同,即. IOW,上鬍鬚的長度總是等於下鬍鬚的長度 1。
這與我在那裡看到的絕大多數 BW 圖不符。當然,對於其中一些圖,鬍鬚的末端應該代表最小值和最大值,因此上面的註釋不適用於它們。但在許多其他情況下,柵欄旨在表示將點分類為異常值的標準,並且據說是基於上面所示的公式,但由此產生的鬍鬚具有不同的長度。(例如。)
我錯過了什麼?
1 “上/下晶須的長度”當然是指晶須與盒子相交的點與晶須的“自由”端點之間的距離。
晶須僅到達小於(大於)上(下)柵欄值的最大(最小)點。例如,如果並且數據集有值 ,那麼鬍鬚只會延伸到 8,而 12 將是“異常值”。
所以,簡而言之,鬍鬚的定義,和,僅表示鬍鬚可以達到的最大程度,如果在這些值上有數據點。因此,它們不必(並且很少)長度相同。