Data-Visualization

快速瀏覽數據集

  • January 27, 2012

請原諒我的無知,但是…

我不斷發現自己處於一種情況,我面臨著一堆我設法找到的新數據。這些數據通常看起來像這樣:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

通常乍一看,我真的無法判斷這裡是否有任何趨勢。各列之間的相關性可能不是很顯著,但如果我不必為列/類別的每個可能組合手動創建圖,我會很高興。

是否有一個工具可以接受數據表以及哪些列應該被視為數字、日期和類別的信息,然後繼續繪製:

  • 每兩個數值列之間的相關性
  • 每兩個數字列之間的相關性,每個類別都有單獨的趨勢線
  • 每個數字列作為時間序列,
  • 每個數字列作為時間序列,按類別分隔,
  • 等等。

最後,這會產生大量的圖,其中大部分只會顯示噪聲。理想情況下,該工具可以通過相關性對圖進行評分,並最終顯示從得分最高的圖開始的幻燈片。乍一看,這將是一個非常不完美但很有用的數據集。

所以?是否有每個人都使用的工具,我只是不知道,或者這是我們需要製作的東西?

@Ondrej 和 @Michelle 在這裡提供了一些很好的信息。我想知道我是否可以通過解決其他地方未提及的一些問題來做出貢獻。我不會因為無法從表格形式的數據中收集到太多信息而自責,表格通常不是呈現信息的好方法(參見Gelman et al., Turning Tables into Graphs)。另一方面,要求一個能夠自動生成所有正確圖表以幫助您探索新數據集的工具幾乎就像要求一個能夠為您思考的工具一樣。(不要採取錯誤的方式,我知道您的問題清楚地表明您不會走那麼遠;我的意思是永遠不會有這樣的工具。)可以找到與此相關的很好的討論在這裡

說了這麼多,我想談談您可能想用來探索數據的繪圖類型。問題中列出的圖將是一個好的開始,但我們也許可以對其進行一些優化。首先,製作關聯變量對的“大量圖”可能並不理想。散點圖僅顯示兩個變量之間的邊際關係。重要的關係通常可以隱藏在多個變量的某種組合中。所以加強這種方法的第一種方法是製作散點圖矩陣同時顯示所有成對散點圖。散點圖矩陣可以通過多種方式增強:例如,它們可以與每個變量分佈的單變量核密度圖相結合,可以使用不同的標記/顏色來繪製不同的組,並且可以通過疊加黃土擬合來評估可能的非線性關係。R 中的 car 包中的scatterplot.matrix函數可以很好地完成所有這些事情(可以在上面鏈接的頁面中間看到一個示例)。

然而,雖然散點圖矩陣是一個好的開始,但它們仍然只顯示邊緣投影。有幾種方法可以嘗試超越這一點。一種是使用 R 中的rgl包探索 3 維圖。另一種方法是使用條件圖;coplots可以同時幫助處理 3 或 4 個變量之間的關係。一種特別有用的方法是交互地使用散點圖矩陣(儘管這將需要更多的努力來學習),例如通過“刷”。刷亮允許您突出顯示矩陣的一幀中的一個或多個點,這些點將同時在所有其他幀中突出顯示。通過移動畫筆,您可以看到所有變量如何一起變化。更新:我忘記提及的另一種可能性是使用平行坐標圖。這在不使您的響應變量不同方面有一個缺點,但可能很有用,例如,在檢查 X 變量之間的相互關係時。

我還想讚揚您檢查按收集日期排序的數據。儘管數據總是隨著時間的推移而收集,但人們並不總是這樣做。繪製折線圖很好,但我建議您使用自相關圖和偏自相關圖對其進行補充。在 R 中,這些函數分別是acfpacf

我認識到,從為您提供一個可以自動為您繪製所有圖的工具的意義上,所有這些並不能完全回答您的問題,但一個含義是,您實際上不必製作您擔心的那麼多圖,例如,散點圖矩陣只是一行代碼。此外,在 R 中,應該可以為自己編寫一個函數/一些可重用的代碼,這些代碼將部分自動化其中的一些(例如,我可以想像一個函數,它接收一個變量列表和一個日期排序,對它們進行排序, 為每個帶有線、acf 和 pacf 圖的新窗口彈出一個新窗口)。

引用自:https://stats.stackexchange.com/questions/21809

comments powered by Disqus