二維直方圖的最佳 bin 寬度

September 5, 2014

在 1D 直方圖中選擇最佳 bin 寬度有很多規則（參見示例）

我正在尋找一個規則，將最佳等箱寬度的選擇應用於二維直方圖。

有這樣的規定嗎？也許一維直方圖的著名規則之一可以很容易地適應，如果是這樣，你能否提供一些關於如何做到這一點的最小細節？

我的建議通常是，在可能的情況下進行平滑比一維更重要，即進行核密度估計（或其他類似方法，如對數樣條估計），這往往比使用更有效直方圖。正如 whuber 指出的那樣，很可能會被直方圖的外觀所迷惑，尤其是在很少的 bin 和小到中等的樣本大小的情況下。

例如，如果您要優化均方積分平方誤差 (MISE)，則有適用於更高維度的規則（箱的數量取決於觀察的數量、方差、維度和“形狀”），對於核密度估計和直方圖。

[事實上，一個問題的許多問題也是另一個問題，因此這篇維基百科文章中的一些信息將是相關的。]

這種對形狀的依賴似乎意味著要進行最佳選擇，您已經需要知道您正在繪製什麼。但是，如果您準備做出一些合理的假設，您可以使用這些假設（例如，有些人可能會說“近似高斯”），或者，您可以使用某種形式的“插件”估計器功能性的。

魔杖, 1997 涵蓋一維情況。如果您能夠獲得那篇文章，請盡可能多地查看與更高維度的情況相關的內容（就所做的分析而言）。（如果您無法訪問該期刊，它以工作文件形式存在於互聯網上。）

更高維度的分析稍微複雜一些（與從一維到 r 維度進行核密度估計的方式幾乎相同），但是維度中有一個項是 n 的冪。

Scott 的 Sec 3.4 Eqn 3.61 (p83)，1992給出漸近最優的 binwidth：

在哪裡是一個粗糙度術語（不是唯一可能的），我相信是的導數相對於該任期在.

因此，對於 2D 來說，建議 binwidths 縮小為.

在獨立正態變量的情況下，近似規則是，在哪裡是維度的 binwidth，這表示漸近最優值，並且是維度的總體標準差.

對於具有相關性的雙變量正態, binwidth 為

當分佈偏斜、重尾或多峰分佈時，通常會產生更小的 binwidth；因此，正常結果通常最多是 bindwith 的上限。

當然，您完全有可能對均方積分平方誤差不感興趣，而是對其他一些標準感興趣。

[1]：Wand，MP (1997)，

“基於數據的直方圖箱寬度選擇”，

美國統計學家 51 , 59-64

[2]：Scott, DW (1992)，

多元密度估計：理論、實踐和可視化，

John Wiley & Sons, Inc.，美國新澤西州霍博肯。

引用自：https://stats.stackexchange.com/questions/114490

comments powered by Disqus

二維直方圖的最佳 bin 寬度

相關問答

逆變換方法，理論圖與樣本不匹配

為什麼 1 個中位數低於另一個中位數這一事實並不意味著第 1 組中的大多數人小於第 2 組中的大多數人？

箱線圖提供了哪些直方圖沒有的信息？

使用卡方距離比較兩個直方圖

我的分佈是正常的；Kolmogorov-Smirnov 檢驗不一致

使用 QQ 圖而不是直方圖的好處