Data-Visualization

您如何將二元結果與連續預測變量可視化?

  • December 8, 2012

我有一些需要可視化的數據,但不確定如何最好地做到這一點。我有一些基礎物品具有各自的頻率和結果 . 現在我需要繪製我的方法“找到”(即 1-結果)低頻項的效果。我最初只有一個 x 軸的頻率和 0-1 的 y 軸和點圖,但它看起來很糟糕(特別是在比較來自兩種方法的數據時)。也就是每一項is 有一個結果 (0/1) 並按其頻率排序。

這是一個帶有單個方法結果的示例:

在此處輸入圖像描述

我的下一個想法是將數據劃分為區間併計算區間上的局部靈敏度,但這個想法的問題是頻率分佈不一定是均勻的。那麼我應該如何最好地選擇間隔?

有誰知道一種更好/更有用的方法來可視化這些數據來描繪尋找稀有(即非常低頻率)項目的有效性?

編輯:更具體地說,我展示了某種方法重建特定人群生物序列的能力。為了使用模擬數據進行驗證,我需要展示重構變體的能力,而不管其豐度(頻率)如何。所以在這種情況下,我正在可視化丟失和找到的項目,按它們的頻率排序。該圖將不包括不在.

我過去所做的基本上是您在添加loess時所做的。根據點的密度,我會使用半透明點 (alpha),如下所示,和/或管道符號 ("|") 以盡量減少重疊。

library(ggplot2) # plotting package for R

N=100
data=data.frame(Q=seq(N), Freq=runif(N,0,1), Success=sample(seq(0,1), 
size=N, replace=TRUE))

ggplot(data, aes(x=Freq, y=Success))+geom_point(size=2, alpha=0.4)+
 stat_smooth(method="loess", colour="blue", size=1.5)+
 xlab("Frequency")+
 ylab("Probability of Detection")+
 theme_bw()

在此處輸入圖像描述

(我不認為這裡的誤差條應該在邊緣變寬,但是我知道沒有一種簡單的方法可以使用 ggplot 的內部 stat_smooth 函數來做到這一點。如果你在 R 中將此方法用於實數,我們可以做到通過在繪圖前估計黃土及其誤差條。)

編輯: Andy W. 對如果數據密度有用就嘗試垂直抖動的評論以及來自 Mimshot 關於適當置信區間的評論。)

引用自:https://stats.stackexchange.com/questions/45444

comments powered by Disqus

相關問答