二維直方圖的最佳 bin 寬度
在 1D 直方圖中選擇最佳 bin 寬度有很多規則(參見示例)
我正在尋找一個規則,將最佳等箱寬度的選擇應用於二維直方圖。
有這樣的規定嗎?也許一維直方圖的著名規則之一可以很容易地適應,如果是這樣,你能否提供一些關於如何做到這一點的最小細節?
我的建議通常是,在可能的情況下進行平滑比一維更重要,即進行核密度估計(或其他類似方法,如對數樣條估計),這往往比使用更有效直方圖。正如 whuber 指出的那樣,很可能會被直方圖的外觀所迷惑,尤其是在很少的 bin 和小到中等的樣本大小的情況下。
例如,如果您要優化均方積分平方誤差 (MISE),則有適用於更高維度的規則(箱的數量取決於觀察的數量、方差、維度和“形狀”),對於核密度估計和直方圖。
[事實上,一個問題的許多問題也是另一個問題,因此這篇維基百科文章中的一些信息將是相關的。]
這種對形狀的依賴似乎意味著要進行最佳選擇,您已經需要知道您正在繪製什麼。但是,如果您準備做出一些合理的假設,您可以使用這些假設(例如,有些人可能會說“近似高斯”),或者,您可以使用某種形式的“插件”估計器功能性的。
魔杖, 1997 涵蓋一維情況。如果您能夠獲得那篇文章,請盡可能多地查看與更高維度的情況相關的內容(就所做的分析而言)。(如果您無法訪問該期刊,它以工作文件形式存在於互聯網上。)
更高維度的分析稍微複雜一些(與從一維到 r 維度進行核密度估計的方式幾乎相同),但是維度中有一個項是 n 的冪。
Scott 的 Sec 3.4 Eqn 3.61 (p83),1992給出漸近最優的 binwidth:
在哪裡 是一個粗糙度術語(不是唯一可能的),我相信是的導數相對於該任期在.
因此,對於 2D 來說,建議 binwidths 縮小為.
在獨立正態變量的情況下,近似規則是, 在哪裡是維度的 binwidth, 這表示漸近最優值,並且是維度的總體標準差.
對於具有相關性的雙變量正態, binwidth 為
當分佈偏斜、重尾或多峰分佈時,通常會產生更小的 binwidth;因此,正常結果通常最多是 bindwith 的上限。
當然,您完全有可能對均方積分平方誤差不感興趣,而是對其他一些標準感興趣。
[1]:Wand,MP (1997),
“基於數據的直方圖箱寬度選擇”,
美國統計學家 51 , 59-64
[2]:Scott, DW (1992),
多元密度估計:理論、實踐和可視化,
John Wiley & Sons, Inc.,美國新澤西州霍博肯。