Data-Visualization

如何消除彩色散點圖的 z 順序偏差?

  • June 16, 2011

我目前正在為我的項目開發繪圖引擎。該引擎對於各種輸入應該是穩健的。為了分析數據,我正在使用python/matplotlib繪製一系列圖表。其中包括:

散點圖

我認為這張圖不好,因為首先繪製的數據(高壓,紅色)的 z 順序(即它們被透支)比低壓的藍色子彈要低。因此在查看圖表時會引入偏差。其根本原因是數據是鍾形的

首先,你同意還是不同意?我可以保持原樣,因為它只是數據的眾多視圖之一。它仍然可能有用。

但是,如果有辦法通過某種技巧使這個圖表變得更好,我會更開心。我已經玩過點大小、透明度/alphaedgecolor。這只會讓情況變得更糟。消除散點圖中 z 順序偏差的一個好方法是將數據分箱並相應地對其進行顏色編碼(例如hexbin)。但由於我使用顏色作為壓力信息,我認為不可能有類似的東西。

另一個想法是隨機化 z 順序,但我不確定如何做到這一點以及結果是否會更好。

任何其他改進意見表示讚賞。

首先,我同意。

我懷疑您可以創建不同類型的圖表;您沒有使用大量當前顯示的二維,因為所有內容都圍繞 x=y 線聚集。嘗試沿 x 軸繪製壓力,沿 y 軸繪製比率。如果這太混亂,請嘗試承受壓力差。你也可以使用一些效果大小的度量,比如 Cohen 的 d,但是觀眾必須知道那是什麼。您可能會想出比我建議的更好的方法,但我的建議可能會幫助您考慮其他方法。正如您將在下面閱讀的那樣,我的方法可能會誤導觀眾,因為它會使壓力看起來像一個自變量。

從這張圖表中知道你在講述什麼樣的故事會有所幫助。我的解釋是比率是自變量,壓力是因變量。我在上面建議的更改使壓力看起來是獨立的,而比率是相關的。(這可能不是問題。)

但這裡有一個使用您當前圖表的想法。

  • 在python中隨機排序列表
  • 看起來壓力可能有點集中。我不確定這是否是你所說的鐘形。但如果它們是集群的,您可以嘗試為少數集群中的每一個分配不同的點類型
  • 對於每個軸,繪製該變量的直方圖,其中壓力顏色堆疊在一起。即使您不更改主要的三變量圖,這些修改後的二變量直方圖也有助於指出顯示中的偏差。

引用自:https://stats.stackexchange.com/questions/11984

comments powered by Disqus