Data-Visualization

哪個是列聯表的最佳可視化?

  • April 22, 2015

從統計的角度來看,哪個是顯示列聯表的最佳圖,該列聯表通常通過卡方檢驗進行分析?它是閃避的條形圖、堆疊條形圖、熱圖、等高線圖、抖動散點圖、多線圖還是其他?應該顯示絕對值還是百分比?

編輯:或者正如@forecaster 在評論中所建議的那樣,數字表本身就是一個簡單的圖,應該足夠了。

這裡不會有一個萬能的解決方案。如果您有一個非常簡單的表格(例如,),簡單地展示表格可能是最好的。如果你想要一個實際的數字,馬賽克圖(正如@xan 建議的那樣)可能是一個不錯的起點。還有一些類似於馬賽克圖的其他選項,包括篩子圖、關聯圖和動態壓力圖(請參閱我的問題:列聯表的篩子/馬賽克圖的替代方案);Michael Friendly 的書*Visualizing Categorical Data*將是該主題的一個很好的(基於 SAS 的)資源,而vcd 包是在 R 中實現這些想法的一個很好的資源。

然而,在我看來,由於表有更多的行和列,這些變得更難使用。一種不同類型的可視化選項是執行/繪製對應分析。對應分析類似於對列聯表的行和列運行主成分分析。然後將兩者與雙標圖一起繪製。這是一個基於 R 的示例,使用來自@xan 的答案的數據:

library(ca)
tab = as.table(rbind(c(28, 4,  0, 56),
                    c(38, 5,  9, 10),
                    c( 6, 6, 14, 13) ))
names(dimnames(tab)) = c("activity", "period")
rownames(tab)        = c("feed", "social", "travel")
colnames(tab)        = c("morning", "noon", "afternoon", "evening")
tab
# period
# activity morning noon afternoon evening
# feed 28 4 0 56
# social 38 5 9 10
# travel 6 6 14 13
plot(ca(tab))

在此處輸入圖像描述

為了解釋這個圖,相同類型的兩個點越接近,這兩個行/列配置文件越相似。並且不同類型的兩個點越接近,它們的概率質量在代表它們相交的單元格中的概率越大。

在 R 中有ca 包;這個小插圖(pdf)也可能會有所幫助。

引用自:https://stats.stackexchange.com/questions/147721

comments powered by Disqus