R
R中的箱線圖:確定分位數時是否計算異常值?
我有一個一維數據集,我使用該
boxplot
函數製作箱形圖。然後我可以看到我有一些異常值。確定分位數時是否計算異常值?
只要我們清楚使用了哪種方法,是否有正確/錯誤的方法或兩種方法都正確?如果是這樣,R是如何做到的?
R - 像許多但不是所有程序一樣 - 主要使用 Tukey 關於如何繪製箱線圖的定義*。
整個原始樣本用於計算鉸鏈(繪製盒端的位置)。
鉸鏈與四分位數非常相似(您可以說它們是一種計算上四分位數和下四分位數的特殊方法,與更常見的四分位數定義略有不同——儘管樣本四分位數也有許多不同的定義;事實上,R 提供了九種不同的四分位數計算,不包括鉸鏈本身)。
上鉸鏈位於數據上半部分的中位數(如果是數據點,則上半部分包括原始樣本的中位數),下鉸鏈位於下半部分的中位數(也包括中位數)原始樣本(如果它位於數據點):
因此,例如,對於 6 個觀測值,鉸鍊是第二大和第五大觀測值(每半個 3 個點)。在 9 次觀察中,鉸鍊是第 3 和第 8 大的(每半有 5 個點,中值來自兩半)。在 11 個觀測值中,下鉸鏈位於第 3 和第 4 大觀測值的中間,而上鉸鏈位於第 8 和第 9 大觀測值的中間(每半個 6 個點)。該圖顯示了具有 13 個觀察值的案例。
請注意,四分位數 (/hinges) 對異常值的值根本不敏感,只對它們在四分位數之外的事實敏感。您可以在不更改四分位數/鉸鏈的情況下將它們全部移動到靠近盒子末端(這樣沒有異常值),或者盡可能遠離(所以它們都離得很遠),同樣不改變四分位數的值. 因此,當存在“異常值”時,真的不需要做任何事情。
- 或者更確切地說,其中之一;Tukey 給出了幾個定義,但就目前的目的而言,我們只需要擔心鉸鏈的計算是如何工作的;我說主要是因為帶有“異常值”的版本將是 Tukey 所說的示意圖,但他們不會使用兩種不同的“異常值”標記來製作。