Data-Visualization

兩個有序變量之間的關係圖

  • April 17, 2013

什麼是合適的圖表來說明兩個序數變量之間的關係?

我能想到的幾個選項:

  1. 添加隨機抖動的散點圖以停止點相互隱藏。顯然是標準圖形 - Minitab 將此稱為“個體值圖”。在我看來,這可能會產生誤導,因為它在視覺上鼓勵了序數級別之間的一種線性插值,就好像數據來自區間尺度一樣。
  2. 散點圖經過調整,點的大小(面積)表示該級別組合的頻率,而不是為每個採樣單元繪製一個點。我在實踐中偶爾會看到這樣的情節。它們可能難以閱讀,但這些點位於規則間隔的格上,這在一定程度上克服了對抖動散點圖的批評,即它在視覺上“間隔”了數據。
  3. 特別是如果其中一個變量被視為因變量,則按自變量的水平分組的箱線圖。如果因變量的水平數不夠高,可能看起來很糟糕(非常“平坦”,缺少鬍鬚,甚至更糟糕的四分位數塌陷,這使得視覺識別中位數變得不可能),但至少引起了對中位數和四分位數的注意,它們是序數變量的相關描述性統計。
  4. 值表或帶有熱圖的單元格空白網格以指示頻率。視覺上不同但概念上類似於散點圖,點區域顯示頻率。

還有其他想法,或關於哪些情節更可取的想法?是否有任何研究領域將某些序數與序數圖視為標準?(我似乎記得頻率熱圖在基因組學中很普遍,但懷疑這更常見於標稱與標稱。)關於一個好的標準參考的建議也非常受歡迎,我猜來自 Agresti 的一些東西。

如果有人想用圖表來說明,則下面是虛假樣本數據的 R 代碼。

“運動對你來說有多重要?” 1 = 完全不重要,2 = 有點不重要,3 = 既不重要也不不重要,4 = 有點重要,5 = 非常重要。

“你多久跑一次 10 分鐘或更長時間?” 1 = 從不,2 = 每兩周少於一次,3 = 每一或兩週一次,4 = 每週 2 或 3 次,5 = 每週 4 次或更多。

如果將“經常”視為因變量而將“重要性”視為自變量是很自然的,如果圖表可以區分兩者。

importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
          rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
          rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
          rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
          rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless

我發現一個關於連續變量的相關問題很有幫助,也許是一個有用的起點:在研究兩個數值變量之間的關係時,散點圖的替代方法是什麼?

脊椎圖(馬賽克圖)適用於此處的示例數據,但如果某些類別組合很少或不存在,則可能難以閱讀或解釋。自然,低頻率由小塊表示,零表示完全沒有塊,這是合理的和預期的,但心理上的困難仍然存在。喜歡spineplots的人選擇適合他們的論文或演示文稿的示例也是很自然的,但我經常製作的示例過於凌亂而無法在公共場合使用。相反,spineplot 確實很好地利用了可用空間。

一些實現預設了交互式圖形,以便用戶可以詢問每個圖塊以了解更多信息。

另一種也可以很好地工作的替代方法是雙向條形圖(存在許多其他名稱)。

參見例如tabplothttp://www.surveydesign.com.au/tipsusergraphs.html

對於這些數據,一個可能的圖(tabplot在 Stata 中使用,但在任何體面的軟件中都應該很容易)是

在此處輸入圖像描述

這種格式意味著很容易將各個條形與行和列標識符相關聯,並且您可以使用頻率、比例或百分比進行註釋(如果您認為結果太忙,自然不要這樣做)。

一些可能性:

  1. 如果可以將一個變量對另一個變量的響應視為預測變量,那麼值得考慮像往常一樣將其繪製在垂直軸上。在這裡,我認為“重要性”是衡量一種態度,然後是它是否會影響行為(“經常”)。即使對於這些虛構的數據,因果問題也往往更加複雜,但重點仍然存在。
  2. 如果相反的效果更好,意思是更容易思考和解釋,建議#1總是被擊敗。
  3. 百分比或概率細分通常是有意義的。原始頻率圖也很有用。(當然,這個圖缺乏馬賽克圖同時顯示兩種信息的優點。)
  4. 您當然可以嘗試分組條形圖或堆疊條形圖(或 WS Cleveland 意義上的仍然相當不常見的分組點圖)的(更常見的)替代方案。在這種情況下,我認為它們效果不佳,但有時它們效果更好。
  5. 有些人可能希望對不同的響應類別進行不同的著色。我沒有反對意見,如果你願意,你不會認真對待反對意見。

混合圖形和表格的策略可能更普遍有用,或者根本不是你想要的。一個經常重複的論點是,圖形和表格的分離只是印刷術的發明及其產生的分工的副作用。這再一次是不必要的,就像手稿作者將插圖準確地放在他們喜歡的方式和位置上一樣。

引用自:https://stats.stackexchange.com/questions/56322

comments powered by Disqus