如何確定圖形的 y 軸是否應從零開始?
“用數據撒謊”的一種常見方法是使用 y 軸刻度,使變化看起來比實際更重要。
當我查看科學出版物或學生的實驗室報告時,我經常對這種“數據可視化罪”感到沮喪(我相信作者無意中犯了這個罪,但仍然會導致誤導性的陳述。)
然而,“總是從零開始 y 軸”並不是一個硬性規定。例如,Edward Tufte指出,在時間序列中,基線不一定為零:
通常,在時間序列中,使用顯示數據而不是零點的基線。如果在繪製數據時合理地出現零點,那很好。但是不要以隱藏數據線本身正在發生的事情為代價,花費大量空的垂直空間試圖達到零點。(《如何用統計說謊》這本書在這一點上是錯誤的。)
例如,在時間序列中沒有零點的地方,看看任何主要的科學研究出版物。科學家們想展示他們的數據,而不是零。
將數據上下文化的衝動是一種很好的衝動,但上下文並不是來自垂直空間下降到零,這個數字甚至不會出現在很多數據集中。相反,為了上下文,水平顯示更多數據!
我想指出我審查的論文中的誤導性陳述,但我不想成為一個零 y 軸純粹主義者。
是否有任何指南說明何時將 y 軸從零開始,以及何時不必要和/或不合適?(特別是在學術工作的背景下。)
- 不要以任何無助於理解的方式使用圖表中的空間。需要空間來顯示數據!
- 使用您的科學(工程、醫學、社會、商業……)判斷以及您的統計判斷。(如果您不是客戶或客戶,請與該領域的人交談以了解什麼是有趣或重要的,最好是那些委託分析的人。)
- 顯示零如果與零的比較是問題的核心,或者甚至有一些興趣,那麼軸。
這是三個簡單的規則。(不排除他們之間有時會出現一些緊張關係。)
這是一個簡單的例子,但所有三點都出現了:您以攝氏度、華氏度甚至開爾文為單位測量患者的體溫:任您選擇。在什麼意義上堅持顯示零溫度是有幫助的,甚至是合乎邏輯的?重要的,甚至是醫學或生理上至關重要的信息,否則將被掩蓋。
這是一個演示文稿中的真實故事。一位研究人員正在展示印度各個州和聯邦領土的性別比例數據。該圖形是一個條形圖,所有條形都從零開始。儘管存在一些相當大的差異,但所有條形都接近相同的長度。這是正確的,但有趣的故事是,儘管有相似之處,但區域是不同的,而不是儘管有差異,但它們是相似的。我建議男性和女性之間的平等(1 或 100 女性/100 男性)是一個更自然的參考水平。(我也願意使用一些總體水平,例如全國平均水平,作為參考。)甚至一些聽過這個小故事的統計人員有時也會回答:“不,條形圖應始終從零開始。” 在這種情況下,對我來說,這並不比無關緊要的教條更好。
提到條形圖表明使用的圖表類型也很重要。假設體溫為軸範圍從 35 到 40為方便起見,選擇 C 以包含所有數據,因此軸從 35“開始”。顯然,所有從 35 開始的條形圖將是數據的不良編碼。但這裡的問題是圖形元素選擇不當,而不是軸範圍選擇不當。
一種常見的繪圖,尤其是在某些生物和醫學科學中,通過從零開始的粗條顯示平均值或其他摘要,並通過細條顯示基於標準誤差或標準差的間隔,以指示不確定性。那些不贊成的人所稱的這種引爆器或炸藥情節可能很受歡迎,部分原因是應該始終顯示零的格言。最終效果是強調與通常缺乏興趣或效用的零的比較。
有些人會想顯示零,但還要添加一個刻度中斷以顯示刻度被中斷。時尚變了,科技變了。幾十年前,當研究人員繪製自己的圖表或將任務委託給技術人員時,要求手工完成會更容易。現在圖形程序通常不支持比例中斷,我認為這是沒有損失的。即使他們這樣做了,這也是一個繁瑣的添加,可能會浪費圖形區域的一小部分。
請注意,沒有人堅持相同的規則軸。為什麼不?如果您顯示上個世紀左右的氣候或經濟波動,那麼告訴您規模應該從 BC/CE 邊界或任何其他起點開始是很奇怪的。
除了上面提到的三個之外,自然還有一個適用的第零個規則。
- 無論你做什麼,都要非常清楚。一致且信息豐富地標記您的軸。然後相信細心的讀者會看到你做了什麼。
因此,在這一點上,我非常同意 Edward Tufte,但我不同意 Darrell Huff。
編輯 2016 年 5 月 9 日:
與其嘗試在所有圖表中始終包含 0 基線,不如使用邏輯且有意義的基線
Cairo, A. 2016。 真實的藝術:用於交流的數據、圖表和地圖。 加利福尼亞州舊金山:新車手,第 136 頁。