使用 QQ 圖而不是直方圖的好處
在此評論中,尼克考克斯寫道:
分類是一種古老的方法。雖然直方圖很有用,但現代統計軟件使將分佈擬合到原始數據變得容易且明智。Binning 只是丟棄了對於確定哪些分佈是合理的至關重要的細節。
該評論的上下文建議使用 QQ 圖作為評估擬合的替代方法。該聲明聽起來很合理,但**我想知道支持該聲明的可靠參考。**除了簡單的“嗯,這聽起來很明顯”之外,是否有一些論文對這一事實進行了更徹底的調查?對結果或類似的任何實際系統比較?
我還想看看 QQ 圖相對於直方圖的這種優勢可以延伸到多大程度,適用於模型擬合以外的應用程序。關於這個問題的答案同意“QQ 圖 […] 只是告訴你“有問題”。與空模型相比,我正在考慮將它們用作識別觀察數據結構的工具,並想知道是否存在任何既定程序來使用 QQ 圖(或其基礎數據)不僅檢測而且描述非隨機觀測數據中的結構。因此,包含該方向的參考文獻將特別有用。
這裡的規範論文是:
- Wilk、MB 和 R. Gnanadesikan。1968. 數據分析的概率繪圖方法。生物計量學55:1-17
它仍然回報仔細和反复閱讀。一個清晰的處理有許多很好的例子:
- 克利夫蘭,WS 1993。*可視化數據。*新澤西州薩米特:霍巴特出版社。
更值得一提的是:
- 克利夫蘭,WS 1994。*圖形數據的元素。*新澤西州薩米特:霍巴特出版社。
包含對這種方法的合理曝光的其他文本包括:
- 戴維森,AC 2003。*統計模型。*劍橋:劍橋大學出版社。
- Rice, JA 2007。*數理統計和數據分析。*加利福尼亞州貝爾蒙特:達克斯伯里。
除此之外,我不知道您所要求的任何事情。一旦你看到了分位數 - 分位數圖的要點,詳細顯示直方圖是二流的替代方案似乎既不有趣也不有用,就像在桶裡打魚一樣。
但我會這樣總結:
- 分箱抑制了細節,而細節往往很重要。這不僅適用於尾部發生的事情,也適用於中間發生的事情。例如,粒度或多模態可能與偏度或尾部權重一樣重要。
- 分箱需要關於分箱來源和分箱寬度的決策,這會極大地影響直方圖的外觀,因此很難看出什麼是真實的,什麼是選擇的副作用。如果您的軟件為您做出這些決定,那麼問題仍然存在。(例如,通常設計默認的 bin 選擇,以便您不使用“too many bins”,即出於稍微平滑的動機。)
- 比較兩個直方圖的圖形和心理問題比判斷一組點是否適合一條直線更棘手。
[2017 年 9 月 27 日添加] 4. 在考慮一個或多個轉換比例時,分位數圖可以很容易地變化。這裡的變換是指非線性變換,而不是例如按最大值縮放或按(值)標準化 $ - $ 平均值)/標準差。如果分位數只是順序統計,那麼您需要做的就是應用轉換,例如最大值的對數與對數的最大值相同,等等。(通常,往復會顛倒順序。)即使您繪製基於兩個順序統計的選定分位數,通常它們只是在兩個原始數據值之間進行插值,並且插值的影響通常很小。相比之下,對數或其他轉換比例的直方圖需要對 bin 原點和寬度做出新的決定,這並不是特別困難,但可能會很尷尬。密度估計也可以說是總結分佈的一種方式。自然,您應用的任何轉換都必須對數據有意義,因此對數只能有效地應用於正變量。