Generalized-Linear-Model

以圖形方式表示大量配對數據點的好方法是什麼?

  • July 22, 2015

在我的領域中,繪製成對數據的常用方法是一系列細斜線段,將其與兩組的中位數和 CI 重疊:

在此處輸入圖像描述

然而,隨著數據點的數量變得非常大(在我的情況下,我有大約 10000 對),這種圖變得更難閱讀:

在此處輸入圖像描述

降低 alpha 會有所幫助,但仍然不是很好。在尋找解決方案時,我遇到了這篇論文,並決定嘗試實現“平行線圖”。同樣,它適用於少量數據點:

在此處輸入圖像描述

但是當這種情節看起來不錯時,就更難了非常大:

在此處輸入圖像描述

我想我可以分別顯示兩組的分佈,例如使用箱線圖或小提琴,並在頂部繪製一條帶有誤差線的線,顯示兩個中位數/CI,但我真的不喜歡這個想法,因為它不會傳達數據的配對性質。

我也不太熱衷於 2D 散點圖的想法:我更喜歡更緊湊的表示形式,理想情況下,兩組的值沿同一軸繪製。為了完整起見,以下是二維散點圖的數據:

在此處輸入圖像描述

有誰知道用非常大的樣本量表示配對數據的更好方法?你能把我鏈接到一些例子嗎?

編輯

抱歉,我在解釋我在尋找什麼方面顯然做得不夠好。是的,2D 散點圖確實有效,並且有很多方法可以改進它以更好地傳達點的密度 - 我可以根據核密度估計對點進行顏色編碼,我可以製作 2D 直方圖,我可以在點等上面繪製輪廓,等等……

但是,我認為這對於我試圖傳達的信息來說太過分了。我並不真正關心顯示點本身的 2D 密度——我需要做的就是以盡可能簡單和清晰的方式表明“條”的值通常大於“點”的值,並且不會丟失數據的基本配對性質。理想情況下,我想沿著相同的而不是正交的軸繪製兩組的配對值,因為這樣可以更容易地在視覺上比較它們。

也許沒有比散點圖更好的選擇,但我想知道是否有任何可能的替代方案。

鑑於我對您的目標的理解,我只需計算成對差異(bars - dots),然後在直方圖或核密度估計圖中繪製這些差異。您還可以添加 (1) 對應於零差異 (2) 任何百分位數選擇的垂直線的任意組合。

這將突出顯示數據的哪些部分bars超過dots,以及通常觀察到的差異是什麼。

(我假設您對在同一圖中顯示 和 的實際原始值不感興趣。barsdots

人們還可以繪製置信區間或後置可信區間,以表明這些差異是否顯著。(H/T @MrMeritology!)

引用自:https://stats.stackexchange.com/questions/162720

comments powered by Disqus