Data-Visualization
您如何將二元結果與連續預測變量可視化?
我有一些需要可視化的數據,但不確定如何最好地做到這一點。我有一些基礎物品具有各自的頻率和結果 . 現在我需要繪製我的方法“找到”(即 1-結果)低頻項的效果。我最初只有一個 x 軸的頻率和 0-1 的 y 軸和點圖,但它看起來很糟糕(特別是在比較來自兩種方法的數據時)。也就是每一項is 有一個結果 (0/1) 並按其頻率排序。
這是一個帶有單個方法結果的示例:
我的下一個想法是將數據劃分為區間併計算區間上的局部靈敏度,但這個想法的問題是頻率分佈不一定是均勻的。那麼我應該如何最好地選擇間隔?
有誰知道一種更好/更有用的方法來可視化這些數據來描繪尋找稀有(即非常低頻率)項目的有效性?
編輯:更具體地說,我展示了某種方法重建特定人群生物序列的能力。為了使用模擬數據進行驗證,我需要展示重構變體的能力,而不管其豐度(頻率)如何。所以在這種情況下,我正在可視化丟失和找到的項目,按它們的頻率排序。該圖將不包括不在.
我過去所做的基本上是您在添加loess時所做的。根據點的密度,我會使用半透明點 (alpha),如下所示,和/或管道符號 ("|") 以盡量減少重疊。
library(ggplot2) # plotting package for R N=100 data=data.frame(Q=seq(N), Freq=runif(N,0,1), Success=sample(seq(0,1), size=N, replace=TRUE)) ggplot(data, aes(x=Freq, y=Success))+geom_point(size=2, alpha=0.4)+ stat_smooth(method="loess", colour="blue", size=1.5)+ xlab("Frequency")+ ylab("Probability of Detection")+ theme_bw()
(我不認為這裡的誤差條應該在邊緣變寬,但是我知道沒有一種簡單的方法可以使用 ggplot 的內部 stat_smooth 函數來做到這一點。如果你在 R 中將此方法用於實數,我們可以做到通過在繪圖前估計黃土及其誤差條。)
(編輯: Andy W. 對如果數據密度有用就嘗試垂直抖動的評論以及來自 Mimshot 關於適當置信區間的評論。)