Data-Visualization
對離散數據使用線圖是錯誤的嗎?
我經常看到將離散數據集繪製為線圖,但在我看來,這條線在測量間隔之間的某個點處推斷出一個值,這對於離散數據集毫無意義。因此,使用離散數據的線圖是錯誤的嗎?
例如,採用兩個時間序列數據集,一個是連續的(我的體重,每天早上測量),一個是離散的(我每天吃的甜甜圈數量)。第一個數據集是線圖是有道理的,因為可以合理地推斷我在任何給定下午的體重都將與我前後早晨的體重相關。但是,如果將甜甜圈的數量表示為折線圖,則點之間的線無法從該線推斷出任何含義。
編輯
這是另一個示例:自成立以來的聯邦每小時最低工資圖,位於http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html
除非我弄錯了,否則最低工資的變化是離散的,因此不可能查找一些任意選擇的時間並使用連接點的線在該點確定最低工資。
事實證明,連接線圖非常有用,無法僅限於單一解釋。幾個突出的用途:
- 插值。您提到的情況是兩個變量都是連續的,並且沿線的每個插值點都是有意義的解釋。
- 變化率。即使中間值沒有意義,每條線段的斜率也能很好地表示變化率。請注意,對於這種解釋,X 和 Y 值必須適當間隔,而您引用的工資圖中並非如此。
- 配置文件比較。在比較小的倍數或重疊測量時,線條甚至對於分類因素也很有用。在這種情況下,線條用於連接響應組以進行有限的模式識別。以下是peltiertech.com的示例,其中 Y(而不是 X)軸上的因子用於標籤可讀性: