Data-Visualization

如何針對連續變量繪製二進制(存在/不存在 - 1/0)數據[重複]

  • June 17, 2018

我正在嘗試根據各種環境變量繪製樣本物種的存在/不存在(1/0)。

我在 y 軸上放置了存在/不存在,在 x 軸上放置了環境變量(在本例中為氣壓),但是結果圖看起來很糟糕。

存在 (1) 和不存在 (0) 與大氣壓力的散點圖

有一個更好的方法嗎?我想根據環境變量的頻率繪製存在/不存在,這可能嗎?

如果我正確理解了這個問題 - 您可能想要使用“條件密度圖”。

這樣的圖提供了分類變量如何在不同級別的連續數值變量中變化的平滑概覽。

例子

對於一個真實世界的例子,這裡是鳶尾花數據集中3 個不同物種的萼片寬度分佈:

cdplot(Species ~ Sepal.Width, data=iris)

在此處輸入圖像描述

解釋

這些圖表示連續變量的各個級別內每個類別的平滑比例。為了解釋它們,您應該查看 x 軸並查看每個類別的不同比例(由不同的顏色表示)如何隨著數值變量的不同值而變化。

例如上圖:很容易看出,當萼片寬度達到 3.5 或以上時,您最有可能處理的是 setosa 類型的花。在萼片寬度 2.0 時,雜色占主導地位。在 3.0 時,大約有 20% 的 setosa、35% 的 versicolor 和 45% 的 virginica(根據右側 y 軸上的刻度用肉眼判斷。)

有關此類圖的解釋的另一個討論,請考慮閱讀此問題中的答案:條件密度圖的解釋

你的情況

當然,在您的情況下,您將在 y 軸上有 2 個類別。所以最終的圖片看起來更接近這個例子:

set.seed(14)

presence <- factor(rbinom(20, 1, 0.5))
presence
[1] 0 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 1 1 1
Levels: 0 1

pressure <- runif(20, 1000, 1035)
pressure
[1] 1012.282 1014.687 1021.619 1024.159 1026.247 1021.663 1013.469 
    1018.317 1024.054 1002.747 1028.396 1004.806 1033.906 1022.898 
    1033.127 1004.378 1019.386 1016.432 1030.160 1021.567

cdplot(presence ~ pressure)

在此處輸入圖像描述

解釋保持不變,除了您將處理二進制分類變量。在這種特殊情況下,該圖表明存在(1,淺灰色區域)隨著壓力值(x 軸)的增加而增加。

引用自:https://stats.stackexchange.com/questions/351781

comments powered by Disqus