交互式數據可視化何時有用?
在準備即將發表的演講時,我最近開始深入研究用於交互式數據可視化的兩個主要(免費)工具:GGobi和mondrian - 兩者都提供了廣泛的功能(即使它們有點錯誤)。
我想請你幫忙(對我自己和我未來的觀眾)什麼時候使用交互式情節有幫助?數據探索(為我們自己)和數據展示(為“客戶”)?
在向客戶解釋數據時,我可以看到動畫的價值:
- 使用“識別/鏈接/刷”來查看圖表中的哪個數據點是什麼。
- 呈現數據的敏感性分析(例如:“如果我們刪除這一點,這就是我們將得到的)
- 顯示數據中不同組的影響(例如:“讓我們看看男性的圖表,現在看看女性的圖表”)
- 顯示時間的影響(或年齡,或一般來說,為演示提供另一個維度)
因為當我們自己探索數據時,我可以看到在我們正在處理的數據集中探索異常值時識別/鏈接/刷的價值。
但是除了這兩個示例之外,我不確定這些技術提供了哪些其他實際用途。尤其是對於我們自己的數據探索!
可以說,交互部分有利於探索(例如)數據中不同組/集群的不同行為。但是當(在實踐中)我接近這種情況時,我傾向於做的是運行相關的統計程序(和事後測試)——我發現重要的事情然後我會用顏色清楚地將數據劃分為相關群體。據我所見,這是一種比“探索”數據更安全的方法(這很容易導致數據疏浚(如果校正所需的多重比較的範圍甚至不清楚)。
我很樂意閱讀您對此事的經驗/想法。
(這個問題可以是一個維基——雖然它不是主觀的,一個深思熟慮的答案會很高興贏得我的“答案”標記:))
除了將定量或定性數據與空間模式聯繫起來(如@whuber 所示)外,我還想提一下使用 EDA 進行縱向和高維數據分析,以及刷塗和各種將圖連接在一起。
兩者都在Dianne Cook 和 Deborah F. Swayne(Springer User!,2007 年)所著的用 R 和 GGobi 進行數據分析的交互式和動態圖形的優秀書籍中進行了討論,您肯定知道。作者在第 1 章中對 EDA 進行了很好的討論,證明 EDA 有必要“將意想不到的事情強加給我們”,引用 John Tukey (p. 13):交互式和動態顯示的使用既不是數據窺探,也不是初步數據檢查(例如,數據的純圖形摘要),但它僅被視為可能先於或補充純基於假設的統計建模的數據的交互式調查。
借助DescribeDisplay或ggplot2軟件包,使用 GGobi 及其 R 接口 ( rggobi ) 還解決瞭如何為中間報告或最終出版物生成靜態圖形的問題,即使使用Projection Pursuit (pp. 26-34) 。
在同一行中,Michael Friendly長期以來一直主張在分類數據分析中使用數據可視化,這在 vcd 包中得到了很大的體現,而且在最近的vcdExtra包中(包括動態即通過rgl包),其中作為vcd和gnm包之間的粘合劑,用於擴展對數線性模型。他最近在第6 屆 CARME會議上對這項工作進行了很好的總結,在 R 中使用 vcd、gnm 和 vcdExtra 包可視化分類數據的進展。
因此,EDA 也可以被認為是在純粹的統計建模方法之前或與之並行提供數據的視覺解釋(從某種意義上說,它可能解釋觀察到的數據中的意外模式)。也就是說,EDA 不僅為研究手頭數據的內部結構提供了有用的方法,而且還可能有助於改進和/或總結應用於數據的統計模型。例如,本質上是雙標圖允許做的事情。雖然它們本身不是多維分析技術*,但它們是可視化多維分析結果的工具(通過給出近似值)*考慮所有個體或所有變量或兩者時的關係)。因子得分可用於後續建模,以代替原始度量,以降低維度或提供中間級別的表示。
邊注
冒著過時的風險,我仍然不時使用
xlispstat
(Luke Tierney )。它具有簡單而有效的交互式顯示功能,目前在基本 R 圖形中不可用。我不知道 Clojure+Incanter (+Processing) 中的類似功能。