Data-Visualization

縮放不同數量級的數據以進行繪圖

  • December 6, 2011

查看以下數據集:

Date        Visits   Carts      carts       Orders
                     Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

我被要求在圖表上繪製這個,使用日期有 X 軸和 Y 軸上的其餘數據。問題是數據的規模有很大的不同。如果訪問量為數千,創建的訂單數為低十,則數據在圖表上的繪製效果不佳。

我想知道統計學家在這種情況下會做什麼,我可以將訪問次數除以 1000,然後放入描述(訪問次數(K)),但隨後我開始遇到與 Carts Created 相同的問題,因為它們是在數百和其他一切都在低位。

在這種情況下做了什麼樣的事情?

在開始時將折線圖繪製為一系列小倍數並不是不合理的,Y 軸具有不同的比例,但 X 軸(日期)對齊。 在此處輸入圖像描述

我認為這是一個好的開始,因為它允許人們檢查原始數據,並允許比較不同折線圖之間的趨勢。IMO 您應該首先查看原始數據,然後在檢查原始數據後考慮轉換或標準化圖表以進行比較的方法。

正如 King 已經提到的,您的變量似乎具有基於名稱和數字的自然排序,並且假設它是適當的,我根據每個狀態的轉換百分比創建了三個新變量。新變量是;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

製作百分比是使系列更接近共同比例的一種方法,但即使將所有線放在一個圖表上(如下所示)仍然難以有效地可視化系列。創建的訂單和轉換的購物車系列的水平和變化使其他系列相形見絀。您看不到在這種規模上創建的購物車系列有任何變化(我懷疑這是您最感興趣的那個)。 在此處輸入圖像描述

因此,IMO 再次檢查這一點的更好方法是使用不同的尺度。下面是使用不同比例的百分比圖表。

在此處輸入圖像描述

有了這些圖形,在我看來,系列之間沒有任何真正有意義的相關性,但每個系列中確實有很多有趣的變化(尤其是轉換的比例)。怎麼了2011-11-13?您創建的訂單比例要低得多,但創建的每個訂單都是轉換後的購物車。您是否有任何其他干預措施可以解釋站點訪問或創建的購物車的比例或百分比趨勢?

這只是探索性數據分析,要採取更多步驟,我需要更深入地了解數據(但我希望這是一個好的開始)。您可以以其他方式對折線圖進行規範化,以便能夠以可比較的比例繪製它們,但這是一項艱鉅的任務,我認為可以根據給定數據的信息有效地選擇任意比例而不是選擇一些默認規範化方案。同時查看多個折線圖的另一個有趣的應用是水平圖,但這更適用於一次查看許多不同的折線圖。

引用自:https://stats.stackexchange.com/questions/19426

comments powered by Disqus

相關問答