Nonparametric

具有均勻與非均勻 Bins 的直方圖

  • April 10, 2013

這個問題描述了均勻直方圖和非均勻直方圖之間的基本區別。這個問題討論了選擇統一直方圖的箱數的經驗法則,該直方圖優化了(在某種意義上)直方圖表示從中提取數據樣本的分佈的程度。

我似乎找不到關於均勻直方圖與非均勻直方圖的相同類型的“最優性”討論。我有一個聚集的非參數分佈,離群值很遠,所以不均勻的直方圖直觀地更有意義。但我希望看到對以下兩個問題的更精確分析:

  1. 什麼時候統一箱直方圖比非統一箱直方圖更好?
  2. 對於非均勻直方圖,多少箱是合適的?

對於非均勻直方圖,我被認為是我們採取的最簡單的情況來自未知分佈的樣本,對結果進行排序值,並將它們分成垃圾箱,使得每個垃圾箱都有這些樣本(假設對於一些大整數)。範圍是通過取兩者之間的中點形成的bin 中的值和bin 中的值. 這里這裡是描述這些類型的非均勻直方圖的鏈接。

什麼時候統一箱直方圖比非統一箱直方圖更好?

這需要對我們要優化的內容進行某種識別;許多人試圖優化平均積分均方誤差,但在很多情況下,我認為這有點忽略了做直方圖的意義;它經常(在我看來)“過度平滑”;對於像直方圖這樣的探索性工具,我可以容忍更多的粗糙度,因為粗糙度本身讓我感覺到我應該用肉眼“平滑”到什麼程度;我傾向於將此類規則中的垃圾箱數量至少增加一倍,有時甚至更多。我傾向於同意Andrew Gelman的觀點;事實上,如果我的興趣真的是獲得一個好的 AIMSE,我可能無論如何都不應該考慮直方圖。

所以我們需要一個標準。

讓我首先討論非等面積直方圖的一些選項:

有一些方法可以在密度較低的區域進行更多的平滑處理(更少、更寬的 bin),並在密度較高的區域使用更窄的 bin - 例如“等面積”或“等計數”直方圖。您編輯的問題似乎考慮了相等計數的可能性。

histogramR包中的函數lattice可以產生近似等面積的條:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

等寬等面積比較

如果您採用第四根,則最左側垃圾箱右側的下降會更加清晰。使用等寬的垃圾箱,除非您使用 15 到 20 倍的垃圾箱,否則您看不到它,然後右尾看起來很糟糕。

這裡有一個相等計數的直方圖,帶有 R 代碼,它使用樣本分位數來查找中斷。

例如,在與上述相同的數據上,這裡有 6 個箱,每個箱(希望)有 8 個觀察值:

等數直方圖

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")


這個 CV 問題指向Denby 和 Mallows的一篇論文,其版本可從此處下載,該版本描述了等寬 bin 和等面積 bin 之間的折衷方案。

它也在一定程度上解決了你的問題。

您也許可以將此問題視為識別分段常數泊松過程中的中斷之一。這將導致這樣的工作。還有一種相關的可能性是在(比如)泊松計數上查看聚類/分類類型算法,其中一些算法會產生許多箱。聚類已用於二維直方圖(實際上是圖像)來識別相對同質的區域。

如果我們有一個相等計數的直方圖和一些優化標準,那麼我們可以嘗試每個 bin 的一系列計數並以某種方式評估標準。此處提到的 Wand 論文[論文工作論文 pdf ] 及其一些參考文獻(例如 Sheather 等人的論文)概述了基於內核平滑思想的“插入式”bin 寬度估計,以優化 AIMSE;從廣義上講,這種方法應該適用於這種情況,儘管我不記得看到它完成了。

引用自:https://stats.stackexchange.com/questions/55777

comments powered by Disqus