Python

檢索包含所有值的指定部分的最小寬度

  • November 18, 2013

我想找到最小大小的滑動窗口的最小/最大邊界,其中包含數組或數字集合中元素總數的一定比例。

示例:取整數以便於解釋,假設我們要查找的元素在此數組中的比例為 50%:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

神秘函數將返回類似 (2, 4) 的內容,這意味著最小值為 2,最大值為 4(假設它包含在內,並註意這些是值,而不是索引)。這個小窗口包含 16 個值中的 8 個,它只有 2 個單位寬,是包含一半值的最窄的窗口。

注意:四分位數是 [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10] 所以它們不是我的正在尋找。

我可以對其進行編碼…可能需要一些時間才能使它變好。希望有人以前遇到過它。它有名字嗎?有沒有人知道的現有方法?

我對 Python 實現很感興趣。

更新:

感謝 Glen_b 給出了“short-half”和“shortest interval”的名稱,我能夠想出這個: 查找概率密度區間

頭條新聞:

更慢一點,並沒有試圖公正對待 Sawitzki 的工作:

樣本的訂單統計的值定義為

讓. 然後是rank中最短的一半數據排名被確定為最小化超過. 這個區間我們稱之為最短一半的長度。

該縮寫由 JW Tukey 命名,並在 Andrews、Bickel、Hampel、Huber、Rogers 和 Tukey (1972, p.26) 對位置估計量的普林斯頓魯棒性研究中引入,作為. 它因其不尋常的漸近性質而引起了人們的注意(pp.50-52):關於這些,另見 Shorack 和 Wellner(1986,pp.767-771)以及 Kim 和 Pollard(1990)的後期記述。否則它很快就消失了大約十年。順便說一句,Hampel (1997) 表明,普林斯頓大學關於不對稱情況的研究的結果,但當時還沒有得到充分的分析,比當時的認識更清楚地說明了這個短片。

當 Rousseeuw (1984) 在 Hampel (1975) 的建議的基礎上指出,最短一半的中點是位置的最小二乘 (LMS) 估計量. 參見 Rousseeuw (1984) 和 Rousseeuw 和 Leroy (1987) 了解 LMS 和相關思想在回歸和其他問題中的應用。請注意,這個 LMS 中點在最近的一些文獻中也被稱為shorth(例如,David 和 Nagaraja 2003,p.223;Maronna,Martin 和 Yohai 2006,p.48)。此外,正如 Grübel (1988) 的標題所示,最短的一半本身有時也稱為 shorth。

最短一半的長度是衡量規模或散佈的有力指標:參見 Rousseeuw 和 Leroy (1988)、Grübel (1988)、Rousseeuw 和 Croux (1993) 以及 Martin 和 Zamar (1993) 以獲得進一步的分析和討論。

平均值為 0 且標準差為 1 的高斯(正態)中最短一半的長度為 1.349 到 3 dp 因此,要從觀察到的長度估計標準差,請除以該高斯長度。

從實際數據分析師以及數學或理論統計學家的角度來看,一些粗略的評論遵循了最短一半想法的優點和缺點。無論是什麼項目,將簡短結果與標準匯總測量(包括其他方法,特別是幾何和諧波方法)進行比較並將結果與分佈圖相關聯總是明智的。此外,如果您對雙峰或多峰的存在或程度感興趣,最好直接查看密度函數的適當平滑估計。

  • 簡單性 最短一半的概念很簡單,很容易向不認為自己是統計專家的學生和研究人員解釋。它直接導致相當直觀的兩種位置度量和一種傳播。它也相對適合使用原始工具(鉛筆和紙、計算器、電子表格)進行手動計算。
  • 連接 最短一半的長度、四分位間距和中位數與中位數的絕對偏差 (MAD)(或就此而言可能的誤差)之間的異同是立竿見影的。因此,最短一半的想法與許多數據分析師應該已經熟悉的其他統計想法相關聯。
  • 圖形解釋 最短的一半可以很容易地與分佈的標準顯示相關聯,例如累積分佈和分位數圖、直方圖和莖葉圖。
  • 模式 通過對數據最密集的位置進行平均,shorth 和 LMS 中點為位置摘要引入了模式風格。當應用於近似對稱的分佈時,shorth 將接近均值和中值,但比均值更能抵抗任一尾部的異常值,並且對於形狀接近高斯(正態)的分佈比中值更有效。當應用於單峰和不對稱分佈時,shorth 和 LMS 通常會比均值或中值更接近眾數。請注意,將眾數估計為包含固定數量觀測值的最短間隔的中點的想法至少可以追溯到 Dalenius (1965)。另請參閱 Robertson 和 Cryer (1974)、Bickel (2002) 以及 Bickel 和 Frühwirth (2006) 關於該模式的其他估計量。Bickel 和 Frühwirth 的半樣本模式估計器作為最短一半的遞歸選擇特別有趣。Stata 用戶可以通過以下方式下載 Stata 實現ssc inst hsmode.
  • 異常值識別 抗性標準化(例如(值 - 短)/長度)可能有助於識別異常值。有關相關想法的討論,請參閱 Carey 等人。(1997)並包括參考資料。
  • 推廣到最短分數 這個想法可以推廣到除二分之一以外的比例。

同時,請注意

  • 不適用於所有分佈 當應用於近似 J 形的分佈時,shorth 將接近數據下半部分的平均值,LMS 中點將更高。當應用於近似 U 形的分佈時,shorth 和 LMS 中點將位於分佈恰好具有較高平均密度的一半之內。這兩種行為似乎都不是特別有趣或有用,但同樣很少需要對 J 形或 U 形分佈進行類似單一模式的總結;對於 J 形狀,模式是或應該是最小值,對於 U 形狀,雙峰性使單模式的想法沒有意義,如果不是無效的話。
  • 關係 最短的一半可能不是唯一定義的。即使使用測量數據,報告值的四捨五入也可能經常導致平局。文獻中很少討論如何處理兩個或更多最短的一半。請注意,捆綁的一半可能重疊或不相交。不同的實現可能會以稍微不同的方式解決這個問題。
  • 窗口長度的基本原理 為什麼取一半的意思似乎也沒有討論。顯然我們需要一個規則來產生奇數和偶數的窗口長度; 規則最好是簡單的;並且在選擇這種規則時通常會有一些輕微的隨意性。同樣重要的是,任何規則對於小:即使不是故意為非常小的樣本量調用程序,所使用的程序也應該對所有可能的大小都有意義。請注意,使用此規則,給定簡稱只是單個樣本值,並給出簡稱是兩個樣本值的平均值。關於此規則的進一步細節是,它總是定義微弱多數,從而強制執行有關數據的民主決策。但是,似乎沒有充分的理由不使用作為一個更簡單的規則,除了短片上的所有作者似乎都遵循了 .
  • 與加權數據一起使用 最短一半的識別似乎只會相當混亂地擴展到觀察與不等權重相關聯的情況。
  • 大多數值相同時的長度 當 樣本中至少一半的值等於某個常數時,最短一半的長度為 0。因此,例如,如果大多數值為 0,而有些值更大,則最短的一半的長度為half 作為衡量規模或傳播的指標並不是特別有用。

安德魯斯、DF、PJ Bickel、FR Hampel、PJ Huber、WH Rogers 和 JW Tukey。1972. 位置的可靠估計:調查和進展。 新澤西州普林斯頓:普林斯頓大學出版社。

Bickel, DR 2002。連續數據的模式和偏度的穩健估計器。計算統計與數據分析39:153-163。

Bickel,DR 和 R. Frühwirth。2006. 關於模式的快速、穩健的估計器:與其他估計器的應用比較。 計算統計與數據分析50:3500-3530。

Carey、VJ、EE Walters、CG Wager 和 BA Rosner。1997. 抗性和基於測試的異常值拒絕:對高斯一樣本和二樣本推斷的影響。 技術計量學 39:320-330

Christmann, A.、U. Gather 和 G. Scholz。1994. 最短一半長度的一些性質。 統計 Neerlandica 48:209-213。

Dalenius, T. 1965。模式 - 一個被忽略的統計參數。 期刊,皇家統計學會 A 128:110-117。

Grübel, R. 1988。短片的長度。 統計年鑑16:619-628。

Hampel, FR 1975。超越位置參數:穩健的概念和方法。 公報,國際統計研究所46:375-382。

Hampel, FR 1997。關於“普林斯頓穩健年”的一些附加說明。在 Brilinger, DR, LT Fernholz 和 S. Morgenthaler (eds)數據分析實踐:紀念 John W. Tukey 的論文。 新澤西州普林斯頓:普林斯頓大學出版社,133-153。

Kim,J. 和 D. Pollard。1990.立方根漸近。 統計年鑑18:191-219。

Maronna、RA、RD Martin 和 VJ Yohai。2006. *穩健統計:理論與方法。*奇切斯特:約翰威利。

Martin, RD 和 RH Zamar。1993. 規模的偏差穩健估計。 統計年鑑21:991-1017。

Robertson, T. 和 JD Cryer。1974. 估計模式的迭代過程。 雜誌,美國統計協會69:1012-1016。

Rousseeuw, PJ 1984。平方回歸的最小中值。 雜誌,美國統計協會79:871-880。

Rousseeuw、PJ 和 C. Croux。1993. 中值絕對偏差的替代方案。 雜誌,美國統計協會88:1273-1283。

Rousseeuw,PJ 和 AM Leroy。1987. 穩健回歸和異常值檢測。 紐約:約翰威利。

Rousseeuw,PJ 和 AM Leroy。1988. 基於最短一半的穩健尺度估計器。統計 Neerlandica 42:103-116。

Shorack,GR 和 JA Wellner。1986. 應用於統計的經驗過程。 紐約:約翰威利。

引用自:https://stats.stackexchange.com/questions/76848

comments powered by Disqus