R

理解和解釋字母值箱線圖

  • September 3, 2017

我已通讀 的 R 文檔lvplots,但它沒有提供足夠的材料來說明我將如何解釋這些圖。我只想對解釋這些圖有一個直觀的想法。我知道對於 k=2 ,表示 IQR 和中位數。

  1. 增加 k > 2 的值時會創建哪些框,框的長度代表什麼?
  2. 盒子的寬度代表什麼?

以下是 k=3 的特定示例。

在此處輸入圖像描述

關鍵術語是字母值(框)圖,關鍵參考現在是

Hofmann、Heike、Wickham、Hadley 和 Kafadar、Karen。2017. 字母值圖:大數據的箱線圖。 計算與圖形統計雜誌10.1080/10618600.2017.1305277 http://dx.doi.org/10.1080/10618600.2017.1305277

本文的早期版本可以很容易地在網上找到。

據我了解,每個框的寬度僅表示框的定義方式。最胖的框位於(近似)四分位數的字母值之間,下一個最胖的框在(近似)四分位數和任一尾部之外的(近似)八分位數之間伸展,依此類推。積極地,這只是常見箱線圖約定的擴展,每個框表示它是四分位數之間的間隔,否則寬度只是一個常規選擇。(僅偶爾會顯示指示每個值的數量的框。)

更消極一點的是,人們必須知道盒子的寬度是任意的。例如,它不是四四方方的密度圖。

但在其他方面的解釋與箱線圖類似,例如樣本的中心部分在這些範圍內;在這些範圍內的中央四分之三;等等。組或變量在分佈上是相似還是不同?

有關不同重點的字母值的調查,請參閱

Cox, NJ 2016。Speaking Stata:作為選定分位數的字母值 Stata Journal 16(4): 1058-1071。 http://www.stata-journal.com/article.html?article=st0465

我必須代表那些提倡這個情節的人擔心,天真的用戶很可能將其解釋為小提琴情節的塊狀版本,就像直方圖是離散的密度圖一樣。顯示比箱線圖更多細節的理想是令人欽佩的,這種做法通常會有所幫助,但還有很多其他方法可以做到這一點。自然地,應該始終遵循閱讀它是如何定義和構造的建議。

引用自:https://stats.stackexchange.com/questions/301159

comments powered by Disqus