內核帶寬:Scott 與 Silverman 的規則
誰能用簡單的英語解釋斯科特和西爾弗曼的帶寬選擇經驗法則之間的區別是什麼?具體來說,什麼時候比另一個更好?它與基礎分佈有關嗎?樣品數量?
PS 我指的是 SciPy 中的代碼。
代碼中的註釋似乎最終以基本相同的方式定義了兩者(除了常數的相對較小的差異)。
兩者都是形式 $ cAn^{-1/5} $ ,兩者看起來都一樣 $ A $ (規模估計),和 $ c $ 非常接近 1(接近於估計最佳帶寬的典型不確定性)。
[通常似乎與斯科特有關的 binwdith 估計來自他 1979 年的論文 [1]( $ 3.49 s n^{-1/3} $ ) - 例如參見維基百科- 向下滾動一點 - 或 R 的
nclass.scott
。]代碼中所謂的“斯科特估計”中的 1.059 位於 Silverman 的(之前的)書中(請參閱您鏈接中 Silverman 參考資料的 p45 - Scott 對它的推導在他們所指的書的 p130-131 上)。它來自正常理論估計。
最佳帶寬(在積分均方誤差項中)是積分平方二階導數的函數,並且 $ 1.059\sigma $ 來自正常的計算,但在許多情況下,這比其他分佈的最佳值要寬得多。
這 $ A $ 項是一個估計 $ \sigma $ (一種穩健的估計,如果存在異常值/偏斜/重尾,可以減少它太大的趨勢)。參見 p47 上的 eq 3.30,在 p46-7 上證明是合理的。
出於與我之前建議的類似原因,Silverman 繼續建議減少 1.059(事實上,他實際上始終使用 1.06,而不是 1.059——就像 Scott 在他的書中所做的那樣)。他選擇了一個降低的值,該值在正常情況下在 IMSE 上的效率損失不超過 10%,這就是 0.9 的來源。
因此,這兩個 binwidth 都是基於正常情況下的 IMSE 最佳 binwidth,一個處於最佳狀態,另一個(大約小 15%,以達到正常情況下最優效率的 90% 以內)。[我將它們都稱為“銀人”估計。我不知道他們為什麼將 1.059 命名為 Scott。]
在我看來,兩者都太大了。我不使用直方圖來獲得密度的 IMSE 最優估計。如果那(獲得 IMSE 意義上的最佳密度估計)是我想要做的,我不想為此目的使用直方圖。
直方圖應該在噪聲較大的一側出錯(讓眼睛進行必要的平滑處理)。我幾乎總是將這些規則給出的默認垃圾箱數量加倍(或更多)。所以我不會使用 1.06 或 0.9,我傾向於使用 0.5 左右的值,在非常大的樣本量下可能會更少。
它們之間幾乎沒有可供選擇的地方,因為它們都提供了太少的 bin 來查找數據中發生的情況(至少在小樣本量下,請參見此處。
[1]:Scott, DW (1979),“關於最優和基於數據的直方圖”,Biometrika,66,605-610。