縮放不同數量級的數據以進行繪圖
查看以下數據集:
Date Visits Carts carts Orders Created converted Created 2011-11-11 12277 161 9 36 2011-11-12 11871 93 5 19 2011-11-13 13072 107 8 8 2011-11-14 13594 112 4 34 2011-11-15 12741 129 8 43 2011-11-16 15491 261 16 57 2011-11-17 13418 186 17 42
我被要求在圖表上繪製這個,使用日期有 X 軸和 Y 軸上的其餘數據。問題是數據的規模有很大的不同。如果訪問量為數千,創建的訂單數為低十,則數據在圖表上的繪製效果不佳。
我想知道統計學家在這種情況下會做什麼,我可以將訪問次數除以 1000,然後放入描述(訪問次數(K)),但隨後我開始遇到與 Carts Created 相同的問題,因為它們是在數百和其他一切都在低位。
在這種情況下做了什麼樣的事情?
在開始時將折線圖繪製為一系列小倍數並不是不合理的,Y 軸具有不同的比例,但 X 軸(日期)對齊。
我認為這是一個好的開始,因為它允許人們檢查原始數據,並允許比較不同折線圖之間的趨勢。IMO 您應該首先查看原始數據,然後在檢查原始數據後考慮轉換或標準化圖表以進行比較的方法。
正如 King 已經提到的,您的變量似乎具有基於名稱和數字的自然排序,並且假設它是適當的,我根據每個狀態的轉換百分比創建了三個新變量。新變量是;
% Carts Created = Carts_Created/Visits % Orders Created = Orders_Created/Carts_Created % Carts Converted = Carts_Converted/Orders_Created
製作百分比是使系列更接近共同比例的一種方法,但即使將所有線放在一個圖表上(如下所示)仍然難以有效地可視化系列。創建的訂單和轉換的購物車系列的水平和變化使其他系列相形見絀。您看不到在這種規模上創建的購物車系列有任何變化(我懷疑這是您最感興趣的那個)。
因此,IMO 再次檢查這一點的更好方法是使用不同的尺度。下面是使用不同比例的百分比圖表。
有了這些圖形,在我看來,系列之間沒有任何真正有意義的相關性,但每個系列中確實有很多有趣的變化(尤其是轉換的比例)。怎麼了
2011-11-13
?您創建的訂單比例要低得多,但創建的每個訂單都是轉換後的購物車。您是否有任何其他干預措施可以解釋站點訪問或創建的購物車的比例或百分比趨勢?這只是探索性數據分析,要採取更多步驟,我需要更深入地了解數據(但我希望這是一個好的開始)。您可以以其他方式對折線圖進行規範化,以便能夠以可比較的比例繪製它們,但這是一項艱鉅的任務,我認為可以根據給定數據的信息有效地選擇任意比例而不是選擇一些默認規範化方案。同時查看多個折線圖的另一個有趣的應用是水平圖,但這更適用於一次查看許多不同的折線圖。