Variance

有界數據集的變異係數最大值

  • November 19, 2011

最近關於標準偏差是否可以超過平均值的問題的討論中,有一個問題被簡短地提出,但從未完全回答。所以我在這裡問。

考慮一組非負數 在哪裡為了. 不需要是不同的,也就是說,該集合可以是一個多重集合。集合的均值和方差定義為

標準差是. 請注意,這組數字不是來自總體的樣本,我們不是在估計總體均值或總體方差。那麼問題是:

最大值是多少,變異係數,在所有的選擇是在區間?

我能找到的最大值是 這是什麼時候實現的的有價值和剩餘的(異常值) 有價值, 給

但這並不取決於根本,我想知道是否更大的值,可能取決於兩者和, 可以實現。 有任何想法嗎?我相信這個問題之前已經在統計文獻中進行過研究,因此如果不是實際結果,我們將不勝感激。

幾何提供了洞察力,而經典的不等式則可以輕鬆獲得嚴謹性。

幾何解

我們知道,根據最小二乘幾何,是數據向量的正交投影到由常向量生成的線性子空間上然後與之間的(歐幾里得)距離成正比和 非負約束是線性的,距離是一個凸函數,因此距離的極值必須在由約束確定的錐體邊緣處獲得。這個圓錐是它的邊緣是坐標軸,因此它立即遵循除一個之外的所有在最大距離處必須為零。對於這樣一組數據,直接(簡單)的計算表明

利用經典不等式的解決方案

與其任何單調變換同時優化。鑑於此,讓我們最大化

(公式為可能看起來很神秘,直到你意識到它只是記錄了代數操作所採取的步驟把它變成一個簡單的形式,也就是左邊。)

一個簡單的方法從Holder 不等式開始,

(這在這個簡單的上下文中不需要特殊的證明:只需替換每個術語的一個因素由最大分量: 顯然平方和不會減少。分解常用術語產生不等式的右手邊。)

因為不是全部(那會離開undefined),除以它們和的平方是有效的,並給出等價的不等式

因為分母不能小於分子(分子本身只是分母中的一項),所以右手邊由值支配,只有當除了一個平等的. 何處

替代方法

因為是非負的,不能求和, 價值確定概率分佈在. 寫作對於總和, 我們認

沒有概率可以超過的公理事實意味著這個期望不能超過, 但很容易讓它等於通過設置除一個之外的所有等於因此正是其中之一是非零的。計算變異係數,如上面幾何解的最後一行。

引用自:https://stats.stackexchange.com/questions/18621

comments powered by Disqus