Data-Visualization

如何最好地可視化三組之間許多比例的差異?

  • March 13, 2014

我試圖直觀地比較三種不同的新聞出版物如何涵蓋不同的主題(通過 LDA 主題模型確定)。我有兩種相關的方法可以做到這一點,但是從同事那裡收到了很多反饋,認為這不是很直觀。我希望有人有更好的想法來可視化這一點。

在第一張圖中,我顯示了每個出版物中每個主題的比例,如下所示:

所有主題和出版物的比例

對於我與之交談過的幾乎每個人來說,這都非常簡單直觀。但是,很難看出出版物之間的差異。哪份報紙報導的話題更多?

為此,我繪製了主題比例最高的出版物和第二高的出版物之間的差異,由最高的出版物著色。像這樣:

第一和第二高主題之間的差異

因此,例如,足球的巨大標準實際上是 al-Ahram English 和 Daily News Egypt 之間的距離(在足球報導中排名第二),它被塗成紅色,因為 Al-Ahram 排名第一。同樣,試驗是綠色的,因為埃及獨立的比例最高,條形大小是埃及獨立和每日新聞埃及之間的距離(再次 #2)。

我必須在兩段中解釋所有內容的事實是一個非常確定的跡象,表明該圖表未通過自給自足測試。僅通過觀察很難判斷到底發生了什麼。

關於如何以更直觀的方式在視覺上突出顯示每個主題的主要出版物的任何一般性建議?

**編輯:要使用的數據:**這是dputR 的輸出,以及CSV 文件

**編輯2:**這是一個初步的點圖版本,點的直徑與語料庫中主題的比例成正比(主題最初是如何排序的)。雖然我仍然需要稍微調整一下,但感覺比我以前做的更直觀。感謝大家!

點圖

感謝您提供可訪問的數據以及有趣的數據集和圖形挑戰。

我的主要建議是(克利夫蘭)點圖。

在此處輸入圖像描述

我想強調的最重要的細節:

  1. 這裡的疊加允許並簡化了比較。
  2. 顯示中的主題順序顯得非常隨意。如果沒有自然順序(例如時間、空間、有序變量),我總是會對其中一個變量進行排序以提供一個框架。使用哪個可能取決於一個研究人員的決定是否特別有趣或重要。另一種可能性是對論文之間的差異進行某種程度的排序,以便接受相似報導的主題在一端,而那些接受不同報導的主題在另一端。
  3. 開放標記或點符號允許比封閉或實心標記或符號更好地解決重疊或同一性問題,在最壞的情況下,它們會相互遮擋或遮擋。(在這裡可能會很好用的替代方法是用於三份報紙的 A、D 和 I 等字母。)

顯然,我的設計還有很大的改進空間。例如,字體是否太大和/或太重?另一方面,標題必須易於閱讀,否則圖表將失敗。

一些更小、更挑剔的點:

一個。圖表上的紅色和綠色是要避免的顏色組合。當使用不同的標記時,顏色選擇就不那麼重要了。

灣。圖表上的水平刻度會分散注意力。相比之下,我的網格線是需要的,但我嘗試通過使用細而輕的線條使它們不引人注目。

C。您的圖表顯示百分比,總數約為 20 $ \times $ 0.1% 或 2%,所以 98% 的論文是別的東西?我直接在提供的 .csv 中使用了比例。

克利夫蘭點狀圖主要歸功於

克利夫蘭,WS 1984。數據表示的圖形方法:全刻度斷點、點圖和多基記錄。美國統計學家38:270-80。

克利夫蘭,WS 1985。圖形數據的元素。 加利福尼亞州蒙特雷:沃茲沃思。

克利夫蘭,WS 1994。圖形數據的元素。 新澤西州薩米特:霍巴特出版社。

一個前身(在統計學上因完全不同的工作而聞名!!!)是

Pearson, ES 1956。統計幾何的某些方面:在理解數理統計的理論和應用中使用視覺表示。皇家統計學會雜誌A 119:125-146。

相同主要思想的另一個較早的用法是

Snedecor, GW 1937。 應用於農業和生物學實驗的統計方法。 愛荷華州艾姆斯:大學出版社。請參見圖 2.1、2.3(第 24、39 頁)。

在 1956 年之前的每個後續版本中。請注意,標題和出版商在版本之間會間歇性地變化。

對於那些感興趣的人,該圖是在閱讀帶有代碼的 .csv 後在 Stata 中準備的

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

引用自:https://stats.stackexchange.com/questions/89941

comments powered by Disqus