Data-Visualization

什麼是“袋狀圖”或“雙變量箱線圖”?

  • October 31, 2012

找到了一篇介紹箱線圖的多維(此處為雙變量)版本的論文 - 袋圖。那個bagplot到底是什麼?我可以看到基於頂點的一系列嵌套多邊形,其中一個多邊形被聲明為 bagplot。嵌套多邊形構建的想法是什麼?哪個多邊形是bagplot(中心或保持平均點數)?bagplot 的邊緣是否具有一些有用的屬性(例如專門劃分點集)?

這是一個帶有註釋的示例:

這是The Bagplot: A Bivariate BoxplotPeter J. Rousseeuw、Ida Ruts 和 John W. Tukey 的文章,來自The American Statistician:http: //venus.unive.it/romanaz/ada2/bagplot.pdf

從那篇文章的摘要中:

“深度中位數”是最深的位置,它被一個包含 n/2 個深度最大的觀測值的“袋子”包圍。將袋子放大 3 倍會產生“柵欄”(未繪製)。袋子和柵欄之間的觀測值用淺灰色環標記,而柵欄外的觀測值則標記為異常值。bagplot 可視化數據的位置、分佈、相關性、偏度和尾部。

以下是關鍵部分的圖示:

在此處輸入圖像描述

可以在以下內容中找到其他討論:

從包的幫助文檔aplpack(針對R用戶):

bagplot 是眾所周知的箱線圖的二元概括。它是由 Rousseeuw、Ruts 和 Tukey 提出的。在雙變量情況下,箱線圖的盒子變成了一個凸包,即袋狀圖的袋子。袋子裡有 50% 的分數。圍欄將圍欄內的點與圍欄外的點分開。它是通過增加袋子來計算的。循環被定義為包含圍欄內所有點的凸多邊形。如果所有點都在一條直線上,你會得到一個經典的箱線圖。bagplot() 繪製與 Rousseeuw 等人中描述的非常相似的 bagplots。備註:二維中位數為近似值。小數據集存在已知的困難(但我認為對例如 10 點進行(圖形)總結是不明智的。)

如果人們想要繪製多個(重疊的)袋狀圖,如果這些圖是半透明的,會很方便。出於這個原因,透明標誌已添加到 bagplot 命令中。如果透明度==TRUE,則 Alpha 層設置為“99”(十六進制)。這會導致 bagplots 顯示為半透明,但僅當輸出設備是 PDF 並使用以下命令打開時:pdf(file=“filename.pdf”, version=“1.4”)。因此,默認值為透明度==FALSE。Wouter Meuleman 提出了此功能以及指定不同顏色的參數。

還有一個例子:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
       ylab="Miles Per Gallon",
       main="Bagplot Example", 
       transparency = TRUE, 
       show.whiskers = FALSE, 
       # note that data a 'fence' separates inliers from outliers, 
       # and a 'loop' indicates the points outside the bag but 
       # inside the fence. In the 'bag' are 50 percent of all 
       # points
       show.loophull = TRUE, # draw 'loop'?
       show.baghull = TRUE)  # draw 'bag'?

在此處輸入圖像描述

相關問題:

引用自:https://stats.stackexchange.com/questions/41578

comments powered by Disqus