兩個有序變量之間的關係圖

April 17, 2013

什麼是合適的圖表來說明兩個序數變量之間的關係？

我能想到的幾個選項：

添加隨機抖動的散點圖以停止點相互隱藏。顯然是標準圖形 - Minitab 將此稱為“個體值圖”。在我看來，這可能會產生誤導，因為它在視覺上鼓勵了序數級別之間的一種線性插值，就好像數據來自區間尺度一樣。

散點圖經過調整，點的大小（面積）表示該級別組合的頻率，而不是為每個採樣單元繪製一個點。我在實踐中偶爾會看到這樣的情節。它們可能難以閱讀，但這些點位於規則間隔的格上，這在一定程度上克服了對抖動散點圖的批評，即它在視覺上“間隔”了數據。

特別是如果其中一個變量被視為因變量，則按自變量的水平分組的箱線圖。如果因變量的水平數不夠高，可能看起來很糟糕（非常“平坦”，缺少鬍鬚，甚至更糟糕的四分位數塌陷，這使得視覺識別中位數變得不可能），但至少引起了對中位數和四分位數的注意，它們是序數變量的相關描述性統計。

值表或帶有熱圖的單元格空白網格以指示頻率。視覺上不同但概念上類似於散點圖，點區域顯示頻率。

還有其他想法，或關於哪些情節更可取的想法？是否有任何研究領域將某些序數與序數圖視為標準？（我似乎記得頻率熱圖在基因組學中很普遍，但懷疑這更常見於標稱與標稱。）關於一個好的標準參考的建議也非常受歡迎，我猜來自 Agresti 的一些東西。

如果有人想用圖表來說明，則下面是虛假樣本數據的 R 代碼。

“運動對你來說有多重要？” 1 = 完全不重要，2 = 有點不重要，3 = 既不重要也不不重要，4 = 有點重要，5 = 非常重要。

“你多久跑一次 10 分鐘或更長時間？” 1 = 從不，2 = 每兩周少於一次，3 = 每一或兩週一次，4 = 每週 2 或 3 次，5 = 每週 4 次或更多。

如果將“經常”視為因變量而將“重要性”視為自變量是很自然的，如果圖表可以區分兩者。
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
          rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
          rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
          rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
          rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
我發現一個關於連續變量的相關問題很有幫助，也許是一個有用的起點：在研究兩個數值變量之間的關係時，散點圖的替代方法是什麼？

脊椎圖（馬賽克圖）適用於此處的示例數據，但如果某些類別組合很少或不存在，則可能難以閱讀或解釋。自然，低頻率由小塊表示，零表示完全沒有塊，這是合理的和預期的，但心理上的困難仍然存在。喜歡spineplots的人選擇適合他們的論文或演示文稿的示例也是很自然的，但我經常製作的示例過於凌亂而無法在公共場合使用。相反，spineplot 確實很好地利用了可用空間。

一些實現預設了交互式圖形，以便用戶可以詢問每個圖塊以了解更多信息。

另一種也可以很好地工作的替代方法是雙向條形圖（存在許多其他名稱）。

參見例如tabplothttp://www.surveydesign.com.au/tipsusergraphs.html

對於這些數據，一個可能的圖（tabplot在 Stata 中使用，但在任何體面的軟件中都應該很容易）是

這種格式意味著很容易將各個條形與行和列標識符相關聯，並且您可以使用頻率、比例或百分比進行註釋（如果您認為結果太忙，自然不要這樣做）。

一些可能性：

如果可以將一個變量對另一個變量的響應視為預測變量，那麼值得考慮像往常一樣將其繪製在垂直軸上。在這裡，我認為“重要性”是衡量一種態度，然後是它是否會影響行為（“經常”）。即使對於這些虛構的數據，因果問題也往往更加複雜，但重點仍然存在。

如果相反的效果更好，意思是更容易思考和解釋，建議＃1總是被擊敗。

百分比或概率細分通常是有意義的。原始頻率圖也很有用。（當然，這個圖缺乏馬賽克圖同時顯示兩種信息的優點。）

您當然可以嘗試分組條形圖或堆疊條形圖（或 WS Cleveland 意義上的仍然相當不常見的分組點圖）的（更常見的）替代方案。在這種情況下，我認為它們效果不佳，但有時它們效果更好。

有些人可能希望對不同的響應類別進行不同的著色。我沒有反對意見，如果你願意，你不會認真對待反對意見。

混合圖形和表格的策略可能更普遍有用，或者根本不是你想要的。一個經常重複的論點是，圖形和表格的分離只是印刷術的發明及其產生的分工的副作用。這再一次是不必要的，就像手稿作者將插圖準確地放在他們喜歡的方式和位置上一樣。

引用自：https://stats.stackexchange.com/questions/56322

comments powered by Disqus

兩個有序變量之間的關係圖

相關問答

年齡部分作為連續變量，部分作為分類變量

為什麼樂透中球上的數字是分類名義而不是分類序數？

具有高基數的分類變量的編碼

從連續數據到分類數據總是錯誤的嗎？

如何針對連續變量繪製二進制（存在/不存在 - 1/0）數據[重複]

如何使用 Python 統計證明列是否具有分類數據