Distributions

直方圖中的區間數是否有上限?

  • November 10, 2012

我已經閱讀了幾篇文章和書籍摘錄,這些文章和摘錄解釋瞭如何為數據集的直方圖選擇大量的間隔(箱),但我想知道是否存在基於點數的硬性最大間隔數數據集或其他一些標準。

**背景:**我問的原因是我正在嘗試根據研究論文中的程序編寫軟件。該過程的一個步驟是從數據集中創建多個直方圖,然後根據特徵函數(由論文作者定義)選擇最佳分辨率。我的問題是作者沒有提到要測試的間隔數的上限。(我有數百個要分析的數據集,每個數據集都可以有不同的“最佳”箱數。此外,選擇最佳箱數很重要,因此手動查看結果並選擇好的一個不會工作。)

將最大間隔數簡單地設置為數據集中的點數是一個很好的指導方針,還是有一些其他通常用於統計的標準?

確實沒有任何硬性上限,但另一方面,在大多數情況下,一旦你在自己的 bin 中獲得了所有獨特的觀察結果,更精細的 bin 只會更精確地確定它們的位置,而不會傳達更多信息。例如比較這些:

具有 30 個 bin 的直方圖

具有 100 個 bin 的直方圖

除非在某些非常特殊的情況下,第二個情節可能沒有實際好處,而第一個情節則沒有那麼多。如果您的數據是連續的,那麼這可能超出了有用的 bin 數量。

所以在大多數情況下,這似乎至少是一個實際的上限——每個獨特的觀察都在自己的 bin 中。

(如果每個獨特觀察箱數多於一個箱,您可能應該做一個地毯圖或抖動的條形圖來獲取此類信息) - 就像在這些直方圖的邊緣所做的那樣:

帶抖動的直方圖地毯圖

帶條形圖的直方圖

(這些直方圖取自這個答案,接近尾聲)

引用自:https://stats.stackexchange.com/questions/43283

comments powered by Disqus