Data-Visualization

可視化是轉換數據的充分理由嗎?

  • January 11, 2011

問題

我想繪製由 30 個參數中的每一個參數解釋的方差,例如作為一個條形圖,每個參數都有一個不同的條形圖,以及 y 軸上的方差:

替代文字

但是,方差強烈偏向小值,包括 0,如下面的直方圖所示:

替代文字

如果我將它們轉換為,將更容易看到小值之間的差異(下面的直方圖和條形圖):

替代文字替代文字

問題

在對數尺度上繪圖很常見,但正在繪圖同樣合理?

這被一些人(例如,John Tukey)稱為“開始對數”。(例如,Google john tukey “started log”。)

使用起來完全沒問題。事實上,您可能期望必須使用非零起始值來解釋因變量的捨入。例如,將因變量四捨五入到最接近的整數有效地從其真實方差中減去 1/12,這表明合理的起始值應至少為 1/12。(這個值對這些數據沒有壞處。使用高於 1 的其他值並沒有真正改變圖片;它只是幾乎均勻地提高了右下圖中的所有值。)

使用對數(或起始對數)來評估方差有更深層次的原因:例如,方差圖相對於對數尺度上的估計值的斜率估計了用於穩定方差的 Box-Cox 參數。經常觀察到某些相關變量的這種冪律方差擬合。(這是一種經驗陳述,而不是理論陳述。)

如果您的目的是呈現差異,請謹慎操作。許多觀眾(除了科學觀眾)無法理解對數,更不用說初學者了。使用 1 的起始值至少具有比其他起始值更易於解釋和解釋的優點。需要考慮的是繪製它們的根,當然也就是標準差。它看起來像這樣:

替代文字

無論如何,如果您的目的是探索數據、從中學習、擬合模型或評估模型,那麼不要讓任何事情妨礙您找到數據的合理圖形表示和數據派生值比如這些變數。

引用自:https://stats.stackexchange.com/questions/6150

comments powered by Disqus